513件の用語
AI音声合成TTS最新。ElevenLabs Turbo v2.5 (商用No.1)・Multilingual v2・F5-TTS (FOSS)・CosyVoice 2 (Alibaba)・MeloTTS・OpenAI TTS-1 HD・Voicebox/AudioGen Meta・Bark (Suno AI)・XTTS v2・StyleTTS 2・Coqui TTS・Style-BertVITS2・GPT-SoVITS V3・StableTTS、2026年Zero-Shot Cloning秒単位品質達成。
AI音声処理。NVIDIA Broadcast 2.x (Studio Voice/Echo Removal/Noise Removal/Eye Contact/Background Replace)・RTX Voice (旧版)・Krisp 4.x (¥¥1k/月)・Discord Krisp内蔵 (Free)・Adobe Podcast Enhance Speech (Free)・LALAL.AI (Stem Separation)・Suno Bark・OpenAI TTS-1 HD・iZotope RX 11 Voice De-noise・¥0-¥¥3k/月・XSplit VCam・OBS Plugin、2026年AI Voice Workflow一般化。
Microsoft社AIアシスタント。Copilot for Microsoft 365(Word/Excel/PowerPoint/Teams・$30/user/month)・Copilot Chat(GPT-4.5/o3-mini駆動)・Copilot+ PC(Snapdragon X Elite・Copilot キー搭載)・GitHub Copilot(VS Code/JetBrains)・Copilot Studio(ノーコード)が2026年ラインナップ。
Machine Learning Opsは、人工知能・機械学習分野における重要な概念・技術です。
複数のAIエージェントが協調動作するシステム。LangGraph・CrewAI・AutoGen・Claude Sub Agentが代表実装で、プランナー/実行/レビュアー分担でエージェントワークフロー自動化を実現。
AI推論用Multi-GPU Rig。RTX 5090×2 (NVLink廃止後 PCIe Gen5 x16/x16)・RTX 4090×4 PCIe Gen4・MI300X×2 (Infinity Fabric Link)・Threadripper PRO 7995WX 7 PCIe Slot・WS Server MB ASUS WRX90E SAGE/Pro WS WRX80E・Open Rig Mining Frame流用・Bifurcation x4x4x4x4・Riser PCIe Gen4 16x→4x・1500W+ PSU 2台 redundant・¥1M-¥3M、2026年家庭72B Q4推論可能。
Multimodal LLM (Vision+Audio)。OpenAI GPT-4o (Omni・Vision+Audio Native)・GPT-4o mini・Anthropic Claude 4 Vision (Sonnet/Opus)・Google Gemini 2.5 Pro Vision (Audio Native)・Gemini 2.5 Flash・Llama 4 Maverick (Multimodal)・Pixtral 124B Mistral・Qwen2-VL 72B/Qwen3-VL・Molmo 72B Allen AI・MiniCPM-V 2.6・InternVL 3・¥0 OSS-API・OCR/Chart理解、2026年Voice 2way+リアルタイムVideo対応標準。
画像/動画/音声対応LLM。GPT-5 Omni(image/audio/video native)・Claude Opus 4.7 Vision(image+PDF)・Gemini 2.5 Pro(2M token・video/audio)・Llama 4 Vision・Qwen 2.5-VL-72B・Pixtral 12B(Mistral)・DeepSeek V3 Vision・InternVL 3.0 78B・NVLM-D-72B(NVIDIA)対応、2026年OCR/表抽出/動画要約+Computer Use基盤。
画像+音声+動画+テキスト統合LLM。GPT-5 Vision/Voice・Claude Opus 4 Vision/Computer Use・Gemini 2.5 Pro(1M+・Video)・Grok 3 Multimodal・Qwen 2.5-VL-72B・Llama 4 Maverick multimodal・Pixtral Large(Mistral)・InternVL 2.5が2026年代表、CLIP/SigLIP vision encoder+LLM接続、OCR+画像理解+動画理解。
マルチモーダルLLM(Multimodal Large Language Model)は、テキストだけでなく、画像、音声、動画など複数の種類のデータを理解し、処理できる大規模言語モデルです。2024年以降、GPT-4V、Claude 3、Gemini Proなどの登場により、実用段階に入っています。
Multimodal Realtime API。OpenAI Realtime API (gpt-4o-realtime・WebSocket・voice2voice)・Advanced Voice Mode ChatGPT (Free→Pro・iOS+Android+Web)・Google Gemini 2.5 Live API・Project Astra (Realtime Multimodal Camera+Voice)・Anthropic Claude Voice予告・Hume EVI 2 (Empathic Voice)・Cartesia Sonic 90ms Latency・Sesame CSM-1B・ElevenLabs Conversational AI 2.0・Sindre Sorhus Apple Intelligence Beta・¥¥¥¥¥-¥¥¥¥¥¥¥/M tokens、2026年Voice Realtime主流化。
テキスト+音声+画像+動画を同時に処理する LLM。GPT-4o Voice/Gemini Live/Claude 4.7 Realtime が代表、2026年は 100ms以下遅延で対話標準化。
疎活性化Transformer。DeepSeek V3(671B total・37B active)・DeepSeek R1(同)・Llama 4 Scout(109B total・17B active)・Llama 4 Maverick(400B total・17B active)・Mistral 8x22B・Mixtral 8x7B・Qwen3-235B-A22B・Snowflake Arctic(480B・17B active)・GPT-4(1.8T・推定 MoE)・Gating Router・Top-K選択・Load Balance Loss対応、2026年大規模LLM主流アーキテクチャ。
ニューラルネットワークで、複数の専門家(Expert)サブネットワークから入力に応じて一部のみを選択・活性化するアーキテクチャ。巨大モデルを効率的に学習・推論するための主要技術。
MoE Mixture of Experts Model Architecture。Sparse MoE (Active Parameter < Total)・DeepSeek V3 671B Total/37B Active・DeepSeek R1 671B/37B Active・Llama 4 Maverick 400B/17B Active・Llama 4 Scout 109B/17B Active・Mixtral 8x7B/8x22B Mistral・Qwen2.5-MoE-A14B・GShard・Switch Transformer・Top-K Routing・Auxiliary Loss・Expert Parallelism・¥0 OSS、2026年MoE Architecture主流化。
Mistral AI モデル(France・OSS+commercial)。Mistral Large 2(123B・$2/$6 per Mtok・La Plateforme)・Mistral Small 3(24B・$0.20/$0.60・2025年1月)・Pixtral Large 124B(2024年11月・Vision Multimodal)・Pixtral 12B(small VLM)・Codestral 25.01(22B・Code・FIM)・Codestral Mamba(7B・Mamba arch)・Mistral Nemo 12B(Nvidia共同・128K context)・Ministral 3B/8B(Edge)・Mathstral 7B・Le Chat(Free・Web/Mobile)・Apache 2.0 OSS multi-model・Hugging Face download・2026年 EU AI Act準拠・Sovereign AI需要拡大。
Mixed Precision型。FP32 Single (Default)・TF32 (Ampere・10-bit Mantissa)・FP16 Half (5-bit Exp)・BF16 Brain Float (8-bit Exp・Trainingデファクト)・FP8 E4M3/E5M2 (Hopper/Blackwell Native)・FP6 (Blackwell)・FP4 E2M1 (Blackwell・MXFP4)・MX Microscaling Format (OCP・MXFP4/MXFP6/MXFP8/MXINT8)・NF4 NormalFloat 4 (QLoRA・bitsandbytes)・INT8/INT4 Quantization・¥0 知識、2026年FP4 Native Inference主流。
画像生成AIサービス。Midjourney v7(2025年・Unified style)・v8(2026年Q2予想)・Basic $10/月(200 GPU分)・Standard $30・Pro $60・Mega $120・Web版・Describe・Remix・Zoom Out・Personalize参照・Patchwork map・Moodboardsが2026年機能、Discord→Web移行完了。
3D仮想空間プラットフォーム。Apple Vision Pro(M2+R1・4K Micro-OLED×2)・Meta Quest 3S・Google Android XR・Pico 4 Ultra・Roblox・Fortnite・VRChat・Clusterが代表で、生成AI統合で2026年本格化。
Anthropic策定AIエージェント-ツール接続規格(MCP・2024年11月)。JSON-RPC 2.0 over stdio/HTTP/SSE・Resources/Tools/Promptsの3抽象・Server/Client/Host構造、Claude Desktop・VS Code Cursor・Windsurf・Cline・Amp・Zed Agent・Warp 2が2026年MCP対応、OpenAI Connectors・Gemini Extensionsも共通採用。