2472件の用語
BAAI(北京智源人工知能研究院)が開発した多言語・多粒度・多機能の埋め込みモデル。Dense・Sparse・ColBERT の3種類のベクトルを同時生成し、100言語以上に対応する2024年公開のオープンソース Embedding モデル。
2024年1月BAAI公開BGE-M3。Pro 業界Pro Mainstream Multi-Functionality Embedding先駆 + Pro Beijing Academy of AI主導 + Pro Multilinguality + Multi-Functionality + Multi-Granularity Pro Famous(M3命名由来) + Pro 100+言語対応 + Pro 568M Parameters + Pro MIT License + 累計2023-2025年2年Heritage。
BGE-M3(BAAI General Embedding M3)とは、北京智源人工智能研究院(BAAI)が開発した多機能・多言語・多粒度(Multi-Functionality, Multi-Linguality, Multi-Granularity)の埋め込みモデルである。Dense・Sparse・ColBERTの3つの検索手法を単一モデルで統合し、100以上の言語に対応する。
BAAI(北京人工知能研究院)が開発した多言語・多機能・多粒度テキスト埋め込みモデル。密ベクトル・疎ベクトル・ColBERTを一括サポートする。
BAAI(北京人工知能研究院)が開発したオープンソース多機能埋め込みモデル。Dense・Sparse・ColBERT(Multi-Vector)の3種類の検索を1モデルで提供。
2024年1月BAAI発表BGE-M3・Industry-leading multi-functionality dense+sparse+multi-vector + Industry-leading 100+ languages multilingual + Industry-leading 8192 max tokens + Industry-leading BAAI BGE-M3 MIT open-source multi-functionality embedding 2024。
2023年BAAI (Beijing Academy of AI)発表BGE Large・Industry-leading open-source embedding LLM + Industry-leading 1024-dim BERT-large + Industry-leading MTEB benchmark top + Industry-leading Chinese+English bilingual embedding。
2024年BAAI公開BGE Reranker v2-m3。Pro 業界Pro Mainstream Open Source Reranker Top + Pro Beijing Academy of AI主導 + Pro 100+言語対応 + Pro Multi-Granularity + Pro 568M Parameters + Pro MIT License + Pro Hugging Face MTEB Top + 累計2023-2025年Heritage継承代表機。
Tsinghua 大学が提案した Prefix Tuning の改良版。各 Transformer 層の入力に学習可能な連続トークンを挿入し、分類タスクでもフルファインチューニングに匹敵する性能を実現。特に中規模モデル(330M〜10B)での性能改善が顕著。
全 Transformer 層のプレフィックスに学習可能なソフトプロンプトトークンを挿入する PEFT 手法。入力層のみに付与する初代 P-Tuning を全層に拡張した。
LLMが自身の回答に「これは正しいか?」と自己評価させることで不確実性を推定する手法。Kadavath et al.(2022)が提案し、P(IK)とも呼ばれる。
2016年Sennrich + Edinburgh発表BPE for NMT paper・Industry-leading Byte Pair Encoding LLM tokenizer Pioneer + Industry-leading GPT全系列 BPE-based + Industry-leading 8年heritage Industry-standard tokenizer。
2024年成熟BPE・Industry-leading iterative merge frequent pairs + Industry-leading subword tokenization standard + Industry-leading GPT + Llama base + Industry-leading Sennrich+Haddow+Birch BPE subword tokenization algorithm 2024。
Byte Pair Encoding(BPE)は、テキスト圧縮アルゴリズムを応用したサブワード分割手法で、コーパス中の最頻出バイグラムを反復的にマージして語彙を構築する。GPT-4o・Llama 3・Mistralなど2026年の主要LLMで最も広く採用されているトークナイザーアルゴリズムである。
テキストをサブワード単位に分割するトークナイゼーションアルゴリズム。最も頻出する隣接文字ペアを繰り返しマージして語彙を構築する。GPT系・LLaMA系など主要LLMの大半が採用する業界標準手法で、未知語への対応力とコンパクトな語彙サイズを両立する。
Byte Pair Encodingに基づくサブワード分割アルゴリズム。頻出する文字ペアを繰り返しマージして語彙を構築し、未知語への対応力と語彙効率を両立するLLMの基盤技術。
Byte Pair Encoding(BPE)に基づくサブワード分割アルゴリズム。テキストを統計的に最適なサブワード単位に分割し、LLMが処理可能なトークン列に変換する。GPT系のtiktoken、LLaMA系のSentencePieceが代表的な実装である。
Byte Pair Encoding(BPE)に基づくサブワード分割アルゴリズム。テキストを文字単位から出発し、出現頻度の高い隣接ペアを繰り返しマージして語彙を構築する。GPT系列・LLaMA・Mistralなど主要LLMの標準トークナイザー方式。
Byte Pair Encoding・サブワード分割。tiktoken(OpenAI・cl100k_base/o200k_base)・SentencePiece(Google・Llama/Mistral)・Qwen3 tokenizer(151k vocab)・HuggingFace Tokenizers(Rust)・GPT-5 tokenizer推定300k+、byte-level BPE 代表実装、2026年多言語ト化効率+3-5x改善。
LLM学習で最も広く使われるサブワードトークン化アルゴリズム。頻出するバイト/文字ペアを繰り返し結合してボキャブラリーを構築する。GPT-2/3/4・Llama・Mistralなど主要LLMで採用され、未知語を複数サブワードに分割する柔軟性が特徴。