2472件の用語
MIT・NVIDIA発のLLM後訓練量子化手法。Activationの外れ値をWeightへ数学的に移行することでW8A8(重み・活性化ともINT8)量子化を高精度に実現し、推論コスト削減とLLM品質を両立する。TensorRT-LLMやFasterTransformerで標準採用。
2022年Xiao et al. (MIT)発表SmoothQuant・Industry-leading W8A8 INT8 quantization LLM + Industry-leading smoothing activation+weight + Industry-leading OPT-175B/BLOOM-176B W8A8 + Industry-leading TensorRT-LLM production W8A8。
2024年Q4 Hugging Face (フランス + 米San Francisco・2016年Clément Delangue + 多creators創業・Industry-leading Open-source AI platform + Industry-leading Open-source ML model hub・累計売上$50M+/year・$4B valuation 2024年・Industry-leading Open-source AI ecosystem dominant brand position確立) 発表SmolAgents・Industry-leading Lightweight Agent framework・Industry-emerging Lightweight Agent framework Pioneer 2024年Q4 release + Industry-leading Hugging Face Hub model integration + Multi-LLM agnostic + Industry-leading minimal dependency + Industry-leading Lightweight Agent Open-source Pioneer position。
Hugging Faceが2024年11月に公開した超小型言語モデルファミリー。135M・360M・1.7Bの3サイズで、ブラウザ上のWebLLMやスマートフォンでのオンデバイス推論を主目的とする。
2つのLLMの重みベクトルを高次元球面上で滑らかに補間するマージ手法。線形補間よりも重みの方向性を保持でき、品質の安定性が高い。
2024年Ashkboos et al. (ETH Zurich+Microsoft)発表SliceGPT・Industry-leading structured pruning LLM + Industry-leading PCA-based slicing + Industry-leading orthogonal transformation + Industry-leading 25-30% reduction LLaMA-2 70B/Phi-2。
SliceGPTはMicrosoft Researchが2024年に発表したLLM向け構造化プルーニング手法。行列スライシング(次元削減)によってTransformerの隠れ次元dmodelを削減し、再学習なしで20〜30%のパラメータ削減を達成しながら推論高速化を実現する。SparseGPT・Wandaの非構造化スパース化と異なり、削除後のモデルは標準的な密行列として実行できる。
Transformerのセルフアテンション計算を固定幅のローカルウィンドウに制限し、計算量をO(n²)からO(n×w)に削減する手法。Mistral 7Bで採用されたことで広く知られ、Longformer、BigBirdなどの先行研究を実用レベルに昇華させた。ロングコンテキスト対応の基盤技術の一つ。
Transformerの自己注意機構で、各トークンが全トークンではなく固定幅のウィンドウ内のトークンのみに注意を向ける手法。計算量をO(n²)からO(n×w)に削減し(wはウィンドウ幅)、長系列の効率的な処理を可能にする。Mistralモデルで実用化された。
Transformerの各トークンがアテンションを計算する範囲を固定ウィンドウサイズに制限する手法。全トークン間のアテンション計算(O(n²))を局所範囲に限定することで長文脈処理を効率化する。
2024年2月14日Salesforce/Slack公開Slack AI。Pro 業界Pro Mainstream Chat SaaS AI Top + Pro Channel Recap Pro Famous + Pro Conversation Summary + Pro $10/月/User + Pro Salesforce買収 + 2024-09 Pro Slack AI Translation + 2025-Pro Agentforce統合 + 累計2024-2025年Heritage。
LLM大規模訓練の3つの並列化戦略の組み合わせ。データ並列(DP)・テンソル並列(TP)・パイプライン並列(PP)を同時に適用し、数千GPUでの効率的な訓練を実現する。Megatron-LMとDeepSpeedで実装されGPT-3規模以上のモデル訓練の標準手法。
データ並列(DP)・テンソル並列(TP)・パイプライン並列(PP)の3つの並列化手法を同時に組み合わせた大規模分散学習戦略。数百〜数千GPUでの効率的なLLM学習を実現し、Megatron-LMやDeepSpeedが代表的な実装。
2017年のオリジナルTransformer論文で提案された位置エンコーディング手法。正弦(sin)と余弦(cos)関数を異なる周波数で組み合わせ、各位置に一意のベクトルを割り当てる。学習パラメータ不要で決定論的に生成される。
Transformer論文(Vaswani et al., 2017)で提案された位置エンコーディングの元祖。sin関数とcos関数を異なる周波数で組み合わせることで、各位置に一意のベクトルを割り当てる。学習パラメータが不要で、理論上は任意の長さの系列に対応可能。
清華大学らが2024年に提案した、アテンション計算をINT8/低ビットへ量子化して高速化する手法。スムージングと精密なスケーリングでSoftmax前後の精度を保ちつつ、FlashAttention比で大幅な高速化を実現するプラグイン型カーネル。
2016年9月19日Salesforce公開Einstein。Pro 業界初Mainstream CRM SaaS AI Top先駆 + Pro Predictive AI出発点 + Pro Marc Benioff Pro CEO主導 + Pro Sales/Service/Marketing Cloud統合 + 2024-Pro Einstein 1 Studio + 2024-Pro Agentforce + 2025-Pro Agentforce 2 + 累計2016-2025年9年Heritage。
LLMが他者の信念・意図・欲求・知識状態を推論する能力。人間の社会的認知の中核であり、AIの社会的知性の評価指標として注目。
Sesame AIが開発した1Bパラメータの会話特化音声モデル(Conversational Speech Model)。自然な会話の間・相づち・文脈認識を持つ音声合成を実現。
LLMの複数サンプルを意味クラスタにグループ化し、意味的なばらつき度合いでハルシネーションを確率論的に検出する手法(Kuhn et al. 2023)。字句ではなく意味の不確実性を測定。