1978件の用語
UC Berkeley等が開発したVicunaモデルが採用する会話テンプレート。`USER:`/`ASSISTANT:`のラベルで発話を区切り、長めのシステムプロンプトとともにSFT(Supervised Fine-Tuning)に用いられた形式。
2024年9月Mistral AI発表Pixtral・Industry-leading 12B European VLM + Industry-leading 128K context + Industry-leading variable image size native + Industry-leading Mistral AI Pixtral Apache 2.0 European 12B VLM 2024。
2024年Q3 Mistral AI (仏Paris・2023年Arthur Mensch + Timothée Lacroix + Guillaume Lample (元Meta AI) 共同創業・累計funding $640M+/Series B + $6B valuation・欧州AI startup leader + Open weights LLM specialty brand) 発表Pixtral 12B・Industry-leading Open-source multimodal LLM・Mistral first multimodal Open weights model + Apache 2.0 license + 12B parameters + Vision encoder integrated + Industry-leading Open multimodal LLM Pioneer + Industry-leading Cost-effective multimodal LLM + 欧州AI Industry-leading Open weights multimodal brand。
Mistral AIが2024年9月にリリースしたビジョン言語モデル。12Bパラメータのテキスト+画像入力対応で、可変解像度画像処理とMistral Nemoエンコーダーを組み合わせた初のマルチモーダルモデル。
2024年Meng et al. + BJTU (Beijing Jiaotong University)発表PiSSA paper・Industry-leading Principal Singular values + Vectors Adaptation paradigm + Industry-leading SVD-based PEFT + Industry-emerging PiSSA BJTU Pioneer。
Vision Transformerは、人工知能・機械学習分野における重要な概念・技術です。
HumanEvalを超える実践的なコード生成評価ベンチマーク。139のPythonライブラリを活用した1,140問で構成され、関数呼び出し・API活用・複合タスクの能力を評価する。
2024 年に発表された LLM コード生成能力評価ベンチマーク。HumanEval の 164 問に対し 1,140 問と約 7 倍の問題数を持ち、実際のライブラリ(NumPy/Pandas/scikit-learn 等)を使ったより現実的なプログラミングタスクで LLM の真の実力を測定する。
Googleが2020年に提案した長文処理向けスパースアテンション機構。ランダムアテンション・局所ウィンドウアテンション・グローバルアテンションの3要素を組み合わせ、理論的にはO(n)計算量で完全なトランスフォーマーの表現力を保持することを証明した手法。
Google主導で作成された204タスク・超大規模LLM評価ベンチマーク。論理推論・言語・数学・常識など多様な能力を包括的に測定する。
Hugging Face採用のオンザフライ量子化ライブラリ。NF4/INT8でモデルを実行時に量子化し、QLoRAによる省メモリなファインチューニングを可能にする。学習・推論双方で使える定番の量子化基盤。
2024年成熟BitsAndBytes・Industry-leading 8-bit LLM.int8 mixed precision + Industry-leading outlier-aware quantization + Industry-leading PyTorch native + Industry-leading Tim Dettmers BitsAndBytes mixed-precision quantization 2024。
2022年Tim Dettmers公開BitsAndBytes(bnb)量子化ライブラリ。Pro 業界Pro Mainstream On-the-fly LLM量子化+QLoRA基盤先駆 + Pro 米国UW Tim Dettmers + Pro 2022-08 LLM.int8()/2023-05 NF4 + Pro 8bit/4bit NF4/FP4 + Pro huggingface transformers/PEFT統合 + 累計2022-2026年4年Heritage継承代表機。
Microsoftが提案した1bit級LLMアーキテクチャ。重みを{-1,0,+1}の三値(1.58bit)で表現するBitNet b1.58が代表で、行列乗算を加減算に置換し大幅な省メモリ・省電力を狙う次世代量子化。
MicrosoftがArXivで2023年10月発表した1-bit Large Language Model。モデルの重みをすべて{-1, 0, +1}の3値(実質1.58bit)に限定し、行列乗算を加算のみで実行可能にする革新的な量子化訓練アーキテクチャ。
Microsoftが2024年に発表した1.58ビット量子化LLMアーキテクチャ。全重みを{-1, 0, +1}の3値で表現し、FP16比でVRAM 1/16・推論コスト大幅削減を実現する。
Microsoft 2024年 1.58-bit 量子化 LLM 学習手法。{-1, 0, +1} 三値重みで FP16 比 16倍メモリ削減・推論コスト 70% 減
Shanghai AI Labが2023-2024年に発表した会話型動画理解モデル。MVBenchベンチマークを提唱し、高品質なInstructデータと時空間モデリングで動画Q&A精度を向上させた。
画像と動画を統合的に理解できるマルチモーダルLLM。視覚トークンを言語空間に整列させることで、単一モデルで画像・動画双方の質問応答を実現する。
AlibabaグループのDamo Academyが開発したLLaMA3ベースの動画理解LLM。長時間動画・OCR・音声を含む総合的なマルチモーダル理解を実現。SigLIP視覚エンコーダを採用。