1978件の用語
端末/近端でのローカルAI実行。ONNX Runtime 1.20・TensorRT-LLM・Core ML 4・WebGPU・Apple Foundation Models on-device(18.2+)・Qualcomm AI Engine・MediaTek NeuroPilot・NPU TOPS比較・Phi-4 mini/Gemma 3/Qwen3 1.7B Edge LLMが2026年代表、プライバシー+低遅延用途。
クラウド経由せず端末側でAI推論を行うデバイス。Copilot+ PC・NVIDIA Jetson Orin・Raspberry Pi 5+AI Kitなどが2025-2026年の主流で、NPU搭載Snapdragon X Eliteも該当。
2024年Cornell University + Cohere共同発表AnyTokenizer paper・Industry-emerging Tokenizer-Agnostic Inference paradigm + Industry-leading cross-tokenizer adaptation + Industry-emerging tokenizer-agnostic inference Industry-emerging paradigm Pioneer + Industry-leading Cornell + Cohere academic + Industrial integrated foundation。
DeepSeekが2025年に提案した、訓練段階から組み込む(ネイティブ)疎なアテンション機構。圧縮・選択・スライディングの3経路を動的に統合し、長文脈を高速化しつつ精度を保つハードウェア整合型の設計。
QLoRA論文(2023)で提案された情報理論的に最適な4bit量子化データタイプ。LLMの重みが正規分布に従うことに着目し、正規分布に特化したノンリニア量子化グリッドを使用することでFP4より精度が高い。BitsAndBytesライブラリでbnb_4bit_quant_type="nf4"として実装されている。
LLMの訓練データとベンチマークテストセット間でN-gram(連続N単語)が一致する割合を測定し、データ汚染を定量検出する統計的手法。8-gramオーバーラップ率10%超が汚染の目安とされる。
コントラスティブ学習のアプローチをLLM整合に適用した手法。好ましい応答と好ましくない応答の対比学習をノイズコントラスト推定の枠組みで定式化し、参照モデルなし・安定した選好整合を実現する。
2023年Reddit r/LocalLLaMA community + bloc97発表NTK-Aware RoPE Scaling paper・Industry-leading Neural Tangent Kernel theory-based RoPE scaling paradigm + Industry-emerging RoPE extension paradigm Pioneer + Industry-leading context length extension + Industry-leading community-driven open-source paradigm。
Neural Processing Unitの略称。AI・機械学習の推論処理に特化した専用プロセッサで、従来のCPU・GPUよりも高効率でニューラルネットワーク計算を実行する
AI推論に特化した専用アクセラレータ。行列演算(MAC)を低消費電力かつ高効率で実行する設計を持ち、CPUやGPUと並ぶ第3のプロセッサとして、ローカルLLMの動作やCopilot+ PCの要件を満たす鍵となる技術。
AI・機械学習タスクに特化したプロセッサ。ニューラルネットワークの推論処理を低消費電力で高速に実行する専用チップ。
Microsoftが定義する「Copilot+ PC」の必須要件。AI処理を担うNPUにおいて、毎秒40兆回の演算(40 TOPS/INT8)以上の性能を持つことが求められるハードウェア基準。
AI PC 専用演算ユニット。AMD XDNA 2(Strix Halo・Ryzen AI 9 HX 370・50 TOPS)・XDNA 1(Phoenix/Hawk Point・16 TOPS)・Intel AI Boost(Lunar Lake・Core Ultra 258V・48 TOPS)・Meteor Lake NPU 3(11 TOPS)・Panther Lake NPU 4(52+ TOPS)・Qualcomm Hexagon NPU(Snapdragon X Elite・45 TOPS)・Apple Neural Engine(M4 Max 38 TOPS)・ONNX Runtime + DirectML対応、2026年Copilot+ PC 40+ TOPS必須。
Neural Processing Unit の演算性能指標で、INT8 演算を 1 秒間に何兆回実行できるかを表す単位。Copilot+ PC は 40TOPS 以上、2025年主流 NPU は 40-50TOPS 水準。
NPU 2.0は、AI分野における最新技術の一つです。2025年に登場した技術革新により、従来の技術と比較して大幅な性能向上を実現しています。
100兆回/秒の演算性能を持つ次世代AI処理ユニット
Npu Processorは、最新のCPU/GPU技術における重要な要素です。
2024年9月NVIDIA Research発表のNV-Embed v2・MTEB (Massive Text Embedding Benchmark・Hugging Face Leaderboard) 1位獲得のSOTA Embedding Model。Mistral 7B base + LoRA fine-tuning + Two-stage Instruction Tuning + Synthetic Data Augmentation・MTEB score 72.31 (2024年9月時点最高) ・Apache 2.0 License・Hugging Face公開 + NVIDIA NIM (NVIDIA Inference Microservice) でManaged API・Llama 4 7B / Cohere Embed v3 / Voyage 3-large 等の競合に対する2024年Q3-Q4 Embedding Model SOTA。
NVIDIAが発表した、Hopper世代の後継となる次世代GPUアーキテクチャ。膨大なトランジスタ数とFP4演算への対応により、超大規模言語モデル(LLM)の学習・推論を劇的に加速させるAIデータセンターの基幹技術。
NVIDIA 2024年9月発表 OSS マルチモーダル LLM。72B・MIT ライセンス・OCR Bench 853・TensorRT-LLM 最適化