2472件の用語
Googleが開発したオープンソースの言語非依存トークナイザーライブラリ。事前のトークン化(空白分割等)を必要とせず、生のテキストから直接サブワードモデルを学習できる。BPEとUnigramの両アルゴリズムをサポートし、LLaMA・T5・Mistralなど多数のLLMで採用。
SentencePieceとは、Googleが開発した言語非依存のテキストトークナイザライブラリである。事前のスペース分割(前処理)を必要とせず、生テキストから直接サブワード分割を学習・実行する。BPEとUnigramの両方のアルゴリズムをサポートし、Llama、Gemma、T5など多数のLLMで採用されている。
SentencePieceはGoogleが開発したオープンソースのトークン化ライブラリで、言語に依存しない事前処理不要のサブワード分割を実現し、LLaMA 2やGemma、T5等の多言語LLMで広く採用されている。
Googleが開発したオープンソースのサブワードトークナイザー。事前の単語分割を必要とせず、生のテキストから直接トークナイゼーションモデルを学習できる言語非依存のツール。
Googleが開発したオープンソースのサブワードトークナイザーライブラリで、言語非依存の前処理不要なテキスト分割を実現し、LLaMA・T5・ALBERT等の主要LLMで広く採用されている。
2018年Kudo + Google発表SentencePiece paper・Industry-leading Language-agnostic subword tokenizer + Industry-leading Llama + Mistral全系列 SentencePiece-based + Industry-leading 6年heritage multilingual Industry-standard。
2024年成熟SentencePiece・Industry-leading unsupervised text tokenizer + Industry-leading Unigram + BPE + word + char + Industry-leading T5 + LLaMA base + Industry-leading Google SentencePiece Apache 2.0 unsupervised text tokenizer 2024。
SentencePieceにおける語彙(ボキャブラリー)の構造・管理・最適化手法の総称で、語彙サイズの選定・特殊トークン設計・多言語バランス調整・語彙の分析と評価を包括的に扱う。
SentencePieceライブラリに実装されたByte Pair Encodingアルゴリズムで、空白を「▁」記号として扱う前処理不要の設計により、LLaMA・Mistral・CodeLlama等のデコーダー系LLMで標準的に使用されている。
SentencePieceに実装されたUnigramサブワード分割アルゴリズムで、確率的言語モデルに基づくトップダウン方式の語彙最適化により、BPEより高い圧縮率と柔軟なトークン化を実現する。
Googleが開発した言語非依存のサブワードトークナイザーライブラリ。BPEとUnigram Language Modelの両アルゴリズムを実装し、事前の単語分割(スペース依存)なしに生テキストから直接トークン化できる。T5・Gemma・LLaMA/Mistral等で採用。
SentencePieceの語彙学習エンジンで、BPEまたはUnigramアルゴリズムを使用して生テキストコーパスからカスタムトークナイザーモデルを構築する。語彙サイズ・文字カバレッジ・正規化ルール等の詳細なパラメータ制御が可能。
Attentionスコア計算時にトークン間の相対距離に応じた学習可能なバイアス値を加算する手法。T5やDeBERTaで採用され、絶対位置エンコーディングよりも優れた汎化性能を示す。相対位置エンコーディングの代表的な実装方式の一つ。
LLMの社会的常識推論能力を評価するベンチマーク群。Social IQa・NormBankなどが代表。日常的な社会的状況での適切な行動・感情・意図を問う。
欧米法律文書に特化した70億パラメータのLLM。Mistral-7Bをベースに法律コーパスで継続事前学習し、法律QA・文書生成で高精度を実現する。
GoogleがAI技術を活用して提供する学習サポートアプリで、スマートフォンカメラで問題を撮影するだけで解法・解説・関連リソースを即時提示する。
LLMの社会的インテリジェンスを評価するためのシミュレーション環境。CMUが開発し、社会的シナリオでのLLM行動を多次元評価する。
2023年Stanford発表Sophia paper・Industry-leading Second-order Clipped Stochastic Optimization paradigm + Industry-leading Hessian-based second-order + Industry-leading GPT-2 reproduction 2× faster + Industry-emerging Stanford Pioneer。
Stanford 大学が 2023 年に提案した二次最適化アルゴリズム。Second-order Clipped Stochastic Optimization の略称で、Hessian(ヘッセ行列)の対角近似を用いてパラメータごとの曲率情報を効率的に活用する。AdamW と同等の最終性能に約半分のステップ数で到達できるとされ、LLM 訓練の計算コスト削減が期待されている。
2023年にHongkang LiらがPrincetonで提案したLLM向け二次オプティマイザー。Hessian対角の近似推定を用いて適応学習率を計算し、AdamWより2倍高いサンプル効率を実証した最適化アルゴリズム。