1978件の用語
UC Berkeleyが開発したFunction Calling特化LLMベンチマーク。2,000件超のテストケースで構造化出力・ツール呼び出し精度を多軸評価する。
LLMが外部関数・ツールを正確に呼び出す能力を評価するベンチマーク。バークレー大学が2024年公開、2,000問・7カテゴリで関数引数の正確性・JSON出力精度を測定。
Google Brain開発の16bit浮動小数点(Brain Float)。FP32と同じ指数8bitでレンジ広く、AI学習で安定。NVIDIA H100/B200・TPU v5p・AMD MI300・RDNA 4で標準サポート。
BAAI(北京人工知能研究院)が開発した多言語・多機能・多粒度テキスト埋め込みモデル。密ベクトル・疎ベクトル・ColBERTを一括サポートする。
BAAI(北京人工知能研究院)が開発したオープンソース多機能埋め込みモデル。Dense・Sparse・ColBERT(Multi-Vector)の3種類の検索を1モデルで提供。
Beijing Academy of AI(BAAI)が開発した多機能・多言語・多粒度テキスト埋め込みモデル。Dense/Sparse/ColBERT式の3つの検索方式を1モデルで統合し、8192トークンまでの長文に対応する。
2024年1月BAAI公開BGE-M3。Pro 業界Pro Mainstream Multi-Functionality Embedding先駆 + Pro Beijing Academy of AI主導 + Pro Multilinguality + Multi-Functionality + Multi-Granularity Pro Famous(M3命名由来) + Pro 100+言語対応 + Pro 568M Parameters + Pro MIT License + 累計2023-2025年2年Heritage。
2024年1月BAAI発表BGE-M3・Industry-leading multi-functionality dense+sparse+multi-vector + Industry-leading 100+ languages multilingual + Industry-leading 8192 max tokens + Industry-leading BAAI BGE-M3 MIT open-source multi-functionality embedding 2024。
2023年BAAI (Beijing Academy of AI)発表BGE Large・Industry-leading open-source embedding LLM + Industry-leading 1024-dim BERT-large + Industry-leading MTEB benchmark top + Industry-leading Chinese+English bilingual embedding。
2024年BAAI公開BGE Reranker v2-m3。Pro 業界Pro Mainstream Open Source Reranker Top + Pro Beijing Academy of AI主導 + Pro 100+言語対応 + Pro Multi-Granularity + Pro 568M Parameters + Pro MIT License + Pro Hugging Face MTEB Top + 累計2023-2025年Heritage継承代表機。
PostgreSQL用オープンソースベクトル拡張。既存のPostgreSQLデータベースに高次元ベクトルの格納・類似検索機能を追加する。SQLとのJOINが可能でシンプルな構成を保てる。
PostgreSQL Vector Extension。pgvector 0.8(2024年11月・HNSW Index・IVFFlat)・vector(1536) データ型・cosine_distance/l2_distance/inner_product・pgvectorscale(Timescale・Higher accuracy HNSW)・Supabase Vector・Neon pgvector統合・AWS RDS pgvector・Drizzle ORM support・1536 embedding dim(OpenAI ada-002)・768 Sentence-T5・3072 text-embedding-3-large・2026年Postgres単独でRAG実装増加。
全 Transformer 層のプレフィックスに学習可能なソフトプロンプトトークンを挿入する PEFT 手法。入力層のみに付与する初代 P-Tuning を全層に拡張した。
LLMが自身の回答に「これは正しいか?」と自己評価させることで不確実性を推定する手法。Kadavath et al.(2022)が提案し、P(IK)とも呼ばれる。
2016年Sennrich + Edinburgh発表BPE for NMT paper・Industry-leading Byte Pair Encoding LLM tokenizer Pioneer + Industry-leading GPT全系列 BPE-based + Industry-leading 8年heritage Industry-standard tokenizer。
2024年成熟BPE・Industry-leading iterative merge frequent pairs + Industry-leading subword tokenization standard + Industry-leading GPT + Llama base + Industry-leading Sennrich+Haddow+Birch BPE subword tokenization algorithm 2024。
Byte Pair Encoding・サブワード分割。tiktoken(OpenAI・cl100k_base/o200k_base)・SentencePiece(Google・Llama/Mistral)・Qwen3 tokenizer(151k vocab)・HuggingFace Tokenizers(Rust)・GPT-5 tokenizer推定300k+、byte-level BPE 代表実装、2026年多言語ト化効率+3-5x改善。
LLM学習で最も広く使われるサブワードトークン化アルゴリズム。頻出するバイト/文字ペアを繰り返し結合してボキャブラリーを構築する。GPT-2/3/4・Llama・Mistralなど主要LLMで採用され、未知語を複数サブワードに分割する柔軟性が特徴。
Pika Labs (Stanford 卒業生 2023年起業) 動画生成 AI。Pika 1.5 (2024/10)・Image-to-Video + Text-to-Video・$10-$70/月・Sora の競合・YouTube ショート向け。
2024年12月19日Pika Labs公開Pika 2.0。Pro Pika系譜後継 + Pro 2024年最後Pro Famous Text-to-Video AI公開 + Pro Pikaffects Pro Famous(物体変形特殊効果) + Pro Scene Ingredients(複数Image合成) + Pro 6秒動画 + Pro 1080p + Pro Subscription $10/月 + 累計Heritage。