AWS Trainium2とは？（エーダブリューエストレイニウムツー）わかりやすく解説

Q: AWS Trainium2とは？

2024年AWS公開のCustom AI Training Accelerator第2世代。1.3PFLOPS BF16+96GB HBM3+UltraServer 64chip+Trn2 EC2 Instance+EFA v3+Neuron SDK 2.20を搭載。

概要

AWS Trainium2は2024年12月のre:Invent 2024でAWSが発表したAmazon自社設計のAI学習向けカスタムアクセラレータ第2世代。前世代Trainium(2020年12月)から4倍の演算性能と3倍のメモリ容量を実現し、大規模言語モデル(LLM)の学習・ファインチューニングに最適化された設計。Anthropic Claude 3.5 Sonnet・Claude 3.7 Sonnet等の大規模モデル学習で実際に採用され、Project Rainierとして40万個のTrainium2チップを使った専用クラスターをAnthropic向けに構築中。NVIDIA H100/H200の代替としてコスト効率30-40%改善を謳い、AI学習基盤の選択肢を多様化する象徴的な存在となった。

主な特徴・仕組み

Annapurna Labs設計: AWS子会社Annapurna Labs(2015年買収)が設計、TSMC N5プロセスで製造
演算性能: 1.3 PFLOPS BF16(BFloat16)、650 TFLOPS FP32、Trainium比4倍向上
HBM3メモリ: 96GB HBM3、メモリ帯域幅2.9 TB/s、Trainium比3倍容量
NeuronLink: 専用インターコネクト、640 GB/sチップ間帯域、UltraServer内Hot Path形成
Trn2.48xlarge Instance: 16x Trainium2搭載EC2インスタンス、20.8PFLOPS BF16、$21.50/hr
Trn2 UltraServer: 64x Trainium2(4 servers)を高速接続、83PFLOPS BF16、$172/hr
EFA v3 Networking: Elastic Fabric Adapter v3、3.2 Tbps Inter-instance帯域、SRD2プロトコル
Neuron SDK 2.20: PyTorch/TensorFlow/JAX対応、TorchTitan統合、Hugging Face transformers動作
省電力設計: 1チップ約350W、H100(700W)比で半分、データセンター熱密度に有利
Project Rainier: 40万Trainium2チップで構成される世界最大級AI cluster、Anthropic Claude次世代モデル学習用
Trainium3予告: 2025年末提供予定、TSMC N3、Trainium2比2倍性能・40%省電力

スペック比較表

項目	Trainium2	Trainium (前世代)	NVIDIA H100 SXM	Google TPU v5p

メニュー

AWS Trainium2（エーダブリューエストレイニウムツー）

メニュー

AWS Trainium2（エーダブリューエストレイニウムツー）

概要

主な特徴・仕組み

スペック比較表

この用語に関連するコンテンツ

具体例・対応製品

自作PCでの選び方・注意点

関連用語との違い

よくある質問（FAQ）

まとめ

関連用語