2472件の用語
コードと数学推論を統合したLLM。19.2Bトークンの数学+コードデータセット(MathCode-Pile)で学習し、PythonコードをChain-of-Thought推論ツールとして活用して競技数学・STEM問題を解く。
上海AI研究院が開発したProcess Reward Modelの自動アノテーション手法。人手ラベルなしにモンテカルロ木探索(MCTS)でステップ単位の正誤確率を推定し、大規模PRMデータセットを低コストで構築する。
GoogleがCC-100から構築した419言語対応の大規模多言語Webコーパス。低リソース言語を含む高品質なデータセットで、多言語LLM・翻訳モデルの事前学習基盤として広く活用される。
2024年Monica (China)発表Manus・Industry-leading autonomous task agent + Industry-leading Claude+browser+code multi-agent + Industry-leading China agent flagship + Industry-leading Manus AI viral 2025年3月。
2024年Alibaba MarcoPolo team発表Marco-o1・Industry-leading open o1-like reasoning + Industry-leading MCTS Monte Carlo Tree Search + Industry-leading Qwen2-7B-based + Industry-leading Alibaba MarcoPolo open reasoning challenger。
2024年MultiOn公開MultiOn API。Pro 業界Pro Mainstream Web Agent SaaS API先駆 + Pro 米国SF MultiOn + Pro 2022-MultiOn設立Div Garg Stanford大博士 + Pro Web Browse Multi-step Agent + Pro Retriever Architecture + Pro Agent Q推論 + Pro $0.01/step + 累計2022-2026年4年Heritage継承代表機。
2024年成熟Multi-Query Attention・Industry-leading single KV head shared across queries + Industry-leading 10x+ KV cache reduction + Industry-leading inference speedup + Industry-leading Noam Shazeer Google MQA fast inference attention 2024。
全QueryヘッドがKey/Valueヘッドを1つ共有するアテンション機構。KVキャッシュを最小化することで推論速度を大幅に向上させるが、モデル品質はMHAより若干低下する傾向がある。
AI推論用Multi-GPU Rig。RTX 5090×2 (NVLink廃止後 PCIe Gen5 x16/x16)・RTX 4090×4 PCIe Gen4・MI300X×2 (Infinity Fabric Link)・Threadripper PRO 7995WX 7 PCIe Slot・WS Server MB ASUS WRX90E SAGE/Pro WS WRX80E・Open Rig Mining Frame流用・Bifurcation x4x4x4x4・Riser PCIe Gen4 16x→4x・1500W+ PSU 2台 redundant・¥1M-¥3M、2026年家庭72B Q4推論可能。
LLMの事前学習時に1つの位置から複数の将来トークンを同時に予測するよう訓練することで、モデルの表現力を向上させると同時に、推論時に2〜4倍の高速化を実現する学習・推論統合型の並列デコーディング手法。
LLMの訓練時に次の1トークンではなく複数トークンを同時予測する目標関数。Meta FAIRが2024年提案。DeepSeek-V3やLlama 4が採用し、投機的デコーディングによる推論高速化を可能にする。
Self-Attentionを複数の独立したヘッド(サブ空間)で並列実行し、それぞれ異なる観点から文脈を捉えた後に結合する機構。単一ヘッドでは捉えきれない多様な関係性(構文的・意味的・位置的)を同時に学習できる。
2024年5月DeepSeek発表Multi-Head Latent Attention MLA・Industry-leading low-rank KV joint compression + Industry-leading 93.3% KV cache reduction + Industry-leading DeepSeek-V2 + V3 signature attention + Industry-leading DeepSeek MLA innovative attention 2024。
DeepSeekが開発したKVキャッシュ圧縮技術。低ランク潜在ベクトルにKV情報を圧縮し、MHAと比較してKVキャッシュを93%以上削減する。
DeepSeek-V2が提案したKVキャッシュ圧縮型アテンション機構。Key/Valueをlow-rank潜在ベクトルへ圧縮してKVキャッシュサイズを大幅削減し、MHAと同等の表現力を維持しながら推論メモリコストを87%以上削減する手法。
Multimodal LLM (Vision+Audio)。OpenAI GPT-4o (Omni・Vision+Audio Native)・GPT-4o mini・Anthropic Claude 4 Vision (Sonnet/Opus)・Google Gemini 2.5 Pro Vision (Audio Native)・Gemini 2.5 Flash・Llama 4 Maverick (Multimodal)・Pixtral 124B Mistral・Qwen2-VL 72B/Qwen3-VL・Molmo 72B Allen AI・MiniCPM-V 2.6・InternVL 3・¥0 OSS-API・OCR/Chart理解、2026年Voice 2way+リアルタイムVideo対応標準。
Multimodal Realtime API。OpenAI Realtime API (gpt-4o-realtime・WebSocket・voice2voice)・Advanced Voice Mode ChatGPT (Free→Pro・iOS+Android+Web)・Google Gemini 2.5 Live API・Project Astra (Realtime Multimodal Camera+Voice)・Anthropic Claude Voice予告・Hume EVI 2 (Empathic Voice)・Cartesia Sonic 90ms Latency・Sesame CSM-1B・ElevenLabs Conversational AI 2.0・Sindre Sorhus Apple Intelligence Beta・¥¥¥¥¥-¥¥¥¥¥¥¥/M tokens、2026年Voice Realtime主流化。
2023 年に発表された状態空間モデル(SSM)ベースの LLM アーキテクチャ。Transformer の二次計算量(O(n²))問題を線形計算量(O(n))で解決し、長いコンテキストでの高速推論と低メモリ使用を実現する。
2024年成熟Mamba・Industry-leading selective state space model + Industry-leading linear-time scaling + Industry-leading O(n) vs Transformer O(n²) + Industry-leading CMU+Princeton Mamba state space architecture 2024。
Structured State Space Models(構造化状態空間モデル)に基づくシーケンスモデリングアーキテクチャ。Mamba-2では入力依存の選択メカニズムにより、Transformerと同等の品質をO(n)の線形計算量で達成する。