2472件の用語
RLHFの強化学習フェーズを不要にした人間フィードバックによるLLMアライメント手法。好ましい/好ましくない応答ペアのデータセットから直接ポリシーモデルを最適化する。2023年にStanford/UCバークレーが提案。
Rafailov ら Stanford 2023年 LLM alignment 手法。RLHF の reward model + PPO 強化学習を排し選好データから直接 policy 最適化
概要
Googleが開発したAI(TensorFlow等)の学習・推論に特化したASIC。行列演算を高速化する専用回路を持ち、大規模言語モデルのトレーニングにおいて極めて高い電力効率とスループแกรมを実現する。
Google TPU Cluster。TPU v5e (256 chip Pod)・TPU v5p (8960 chip Pod・95.7 TB HBM)・TPU v6e Trillium (Single Pod 256・4.7x v5e perf)・TPU v7 Ironwood (2025-Q4予告 4614 TFLOPS BF16)・Multi-Slice (Multi-Pod学習)・JAX Native・TF/PyTorch対応・ICI Inter-Chip Interconnect・OCS Optical Circuit Switch・¥¥¥¥¥/hour Cloud TPU、2026年Ironwood Gemini次世代訓練。
GoogleのT5(Text-to-Text Transfer Transformer)で採用された相対位置エンコーディング手法。位置差をバケット(bucket)に量子化し、学習可能なバイアステーブルを参照して注意スコアに加算することで相対位置情報を表現する。
Apache Software Foundation が管理する深層学習コンパイラスタック。モデルの計算グラフを入力として受け取り、CPU・GPU・NPU・FPGA 等の多様なハードウェア向けに自動最適化されたコードを生成する。AutoTVM と Meta Schedule による自動チューニングが特徴。
2023年Apache TVM project + OctoML共同発表TVM Unity・Industry-leading Apache TVM multi-target AI compiler + Industry-leading Relax IR Industry-emerging unified IR paradigm + Industry-leading TVM Unity multi-target compilation Industry-leading evolution・Industry-leading Apache TVM 2017年UW Tianqi Chen Pioneer + Industry-leading multi-target CPU/GPU/NPU/Edge AI compiler Industry-leading position。
2017年8月28日DeepL公開Translator。Pro 業界Pro Mainstream Neural Machine Translation Top + Pro Linguee辞書基盤 + Pro Jaroslaw Kutylowski Pro CEO主導 + Pro 32+言語対応 + Pro $50M Series B + Pro $2B+ Valuation Pro Famous + 2024-Pro DeepL Voice + 2025-Pro DeepL Write Pro公開 + 累計2009-2025年16年Heritage。
2024年Deepgram公開Nova-3 ASR。Pro 業界Pro Mainstream商用Streaming ASR最高速度 + Pro 米国San Francisco Deepgram + Pro 2012-Deepgram設立 + Pro 36+言語対応 + Pro <300ms Latency + Pro $0.0043/min + Pro Multilingual Code-Switching + 累計2012-2026年14年Heritage継承代表機。
DeepSeek OSS LLM(中国High-Flyer Quant・2024-2025)。DeepSeek V3(671B MoE・37B active・2024年12月・API $0.14/1M)・DeepSeek R1(Reasoning・o1競合・2025年1月・MIT License)・DeepSeek R1 Distill(Llama/Qwen base 7B-70B蒸留)・FP8 Training・Mixture-of-Experts 256 expert・推論$2.19/M token(Cache hit$0.14)・Ollama: deepseek-r1:32b-q4 for local・OpenAI o1並benchmark + OSS重要性・2026年 Enterprise OSS採用加速、GPU需要押し下げ論。
DeepSeek発中国LLMシリーズ。DeepSeek V3/V3.1(671B MoE・37B active)・R1(推論特化・OpenAI o1対抗)・R1 Distill(1.5/7/14/32/70B)・V3-0324・Coder V2/V3・Prover・VL2・Janus Pro・Math・DeepSeek V4(2026年Q2予定)、FP8 training・Multi-head Latent Attention(MLA)独自、2026年OSS MoE定番。
DeepSeekが2025年5月28日にリリースした推論モデルの大幅アップデート版。671B MoEアーキテクチャを維持しながらAIME 2025で72.6%・LiveCodeBench v5で57.4%と前世代比で大幅向上。MIT Licenseで完全オープンソース公開。
DeepSeekが独自開発したMixture-of-Expertsのエキスパート割り当て機構。細粒度エキスパート分割・共有エキスパート・補助損失フリーバランシングを組み合わせ、DeepSeek-V2/V3の高い性能と推論効率を支える中核技術。従来MoEに比べ負荷不均衡問題を解消しながら専門化を促進する。
DeepSeek AIが2024年5月に発表した形式定理証明(Formal Theorem Proving)特化LLM。Lean 4形式言語でMathLibベースの数学定理を機械検証可能な形で証明し、miniF2F-testで64.2%・ProofNet-testで25.3%を達成。V1.5では88.9%まで向上。
DeepSeekが2024年6月に公開したMoEアーキテクチャ採用のコード生成特化LLM。総パラメータ236B(アクティブ21B)で336の対応プログラミング言語を持ち、128Kトークンのコンテキストウィンドウを備える。
DeepSeek 2025年1月発表 OSS reasoning モデル。OpenAI o1 同等性能・MIT ライセンス・$2.19/1M・AIME 79.8%
2024年11月DeepSeek発表R1 Lite Preview・Industry-leading reasoning preview + Industry-leading 91.6 MATH benchmark + Industry-leading 52.5 AIME + Industry-leading DeepSeek R1 Lite Preview reasoning LLM preview 2024。
DeepSeek が 2025 年 1 月に公開した推論特化型オープンソース LLM。DeepSeek V3 をベースに強化学習で Chain of Thought 能力を獲得し、o1 に匹敵する数学・コーディング性能を実現。
中国のDeepSeekが2025年1月に公開したオープンソース推論モデル。強化学習(GRPO)で推論能力を獲得し、OpenAI o1と同等の性能をMITライセンスで提供。