1978件の用語
米 OpenAI 2024年5月発表の主流マルチモーダル LLM。テキスト + 画像 + 音声 + 動画統合 + 主流業界主流・$5/1M input + $15/1M output・「マルチモーダル LLM 業界主流」.
OpenAIが2024年5月に発表したネイティブマルチモーダルモデル。テキスト・画像・音声・動画をエンドツーエンドで統合処理し、従来のGPT-4 Turbo+Vision比で2倍高速・50%低コストを実現する。
OpenAI 2024年5月発表ネイティブ マルチモーダル LLM。テキスト+画像+音声統合・$5/1M入力 $15/1M出力・GPT-4 Turbo 後継
2024年Q2 OpenAI (米San Francisco・2015年Sam Altman + Elon Musk + 多creators共同創業・Industry-leading AI lab dominant brand) 発表GPT-4o Vision・GPT-4o Omni model native multimodal capability・Text + Vision + Audio integrated single model + Industry-leading multimodal flagship + Image understanding + OCR + Visual reasoning + Chart analysis + Document analysis + 多 Industry-leading multimodal use cases・OpenAI API access + ChatGPT consumer access + Industry-leading multimodal LLM dominant brand。
2023年OpenAI発表GPT-4V (GPT-4 with Vision)・Industry-leading OpenAI proprietary VLM + Industry-leading GPT-4 + vision capability + Industry-leading first major commercial VLM + Industry-leading widespread enterprise adoption。
GPT-1 は2018年6月OpenAI Alec Radford・Karthik Narasimhan・Tim Salimans・Ilya Sutskever が論文「Improving Language Understanding by Generative Pre-Training」で発表した初の大規模言語モデル (LLM) でTransformer Decoder のみ・1.17億 パラメータ・BookCorpus データセット (7,000冊書籍) ・教師なし事前学習+教師ありファインチューニング採用しGPT シリーズの起点となった現代LLM 革命の出発点。
2019年Google Research発表C4・Industry-leading T5 Foundational 750GB Cleaned Common Crawl Dataset・Industry-leading Common Crawl C4 foundational paradigm + Industry-leading T5 + multilingual mC4 + Industry-leading LLM training foundational dataset Industry-standard 2019-2024年。
MetaAIが2023年に発表した音声・テキスト統合多言語翻訳モデル。100言語の音声認識・翻訳・音声合成を単一モデルでこなすSpeech-to-Speech翻訳システム。
2023年Meta AI発表SeamlessM4T・Industry-leading multimodal speech-text translation + Industry-leading 100+ languages speech+text + Industry-leading single model speech+text + Industry-leading Meta AI multimodal flagship。
2023年Meta AI公開SeamlessM4T v2 Multimodal Translation。Pro 業界Pro Mainstream Multilingual Speech-to-Speech翻訳 + Pro 米国Menlo Park Meta AI + Pro 100+言語対応 + Pro 2.3B Parameters + Pro Speech-to-Text/Speech-to-Speech/Text-to-Speech統合 + Pro オープンソースCC BY-NC 4.0 + 累計2017-2026年9年Heritage継承代表機。
NVIDIA が 2024 年公開した CUDA Deep Neural Network Library 9.x。Hopper / Blackwell 向け Flash Attention / Transformer Engine v3 対応、PyTorch / TensorFlow 経由で大規模 AI 学習 / 推論で必須の NVIDIA GPU 向けライブラリ。
Yan ら 2024年 RAG 改良手法。検索結果の正確性を評価→不正確時は Web 検索フォールバック・知識精緻化
2023年Xia et al. (Princeton)発表ShearedLLaMA・Industry-leading structured pruning LLM + Industry-leading targeted structured pruning + Industry-leading continued pretraining + Industry-leading LLaMA-2 7B→2.7B/1.3B structured pruning。
ChatGPTの会話をhuman/gptロールで記録するJSON形式で、多ターン対話のファインチューニングデータ標準として広く採用される。
英語のMMLUを日本語に翻訳した多分野知識評価ベンチマーク。数学・法律・医学・科学など57分野の選択問題で日本語LLMの知識幅と推論力を測定する。
日本語の自然言語理解能力を多角的に評価するベンチマーク群。機械読解・自然言語推論・テキスト分類など6タスクで構成され、日本語LLMの標準評価指標として広く使用される。
LLMに対してJSONフォーマットのレスポンスのみを生成させる制約機能。OpenAI APIのresponse_format={"type":"json_object"}が代表例。
LLMのFunction CallingやTool Useで使用するツール仕様記述形式。JSON Schema標準に基づき、関数名・説明・引数の型・必須フィールドを定義し、モデルが正確な呼び出し引数を生成できるようにする。
JSON Schemaに準拠したJSONのみを生成するようLLMを制限するPythonライブラリ。構造部分(括弧・キー・コロン等)をハードコードし、LLMに値だけを生成させることで確実なJSON出力を実現。
LLMに有効なJSON形式のみで出力させる動作モード。構造化データ抽出・API連携でパース失敗を防ぐ目的で使われる。