Speech-to-Text(STT)モデル/API。OpenAI Whisper(OSS・2022年9月・multilingual 99 lang・Large-v3 Turbo 2024年)・Whisper API $0.006/min・faster-whisper(CTranslate2・4x高速)・whisper.cpp(CPU・llama.cpp author)・Deepgram Nova-2(real-time・$0.0043/min)・Google Cloud Speech-to-Text・Azure Speech・AssemblyAI Universal-2・Groq Whisper($0.02/h・高速)・ElevenLabs Voice・MacWhisper Mac app・2026年 会議議事録/YouTube字幕自動生成定着。
Whisper/Deepgram 音声認識は、音声を文字に変換するための代表的なSTT(Speech‑to‑Text)ソリューションである。OpenAI の Whisper は 2022 年にオープンソース化され、99 言語をサポートし、2024 年に Turbo 版(Large‑v3 Turbo)が登場した。Whisper API は 0.006 USD/分の料金で利用可能で、faster‑whisper(CTranslate2 ベース)により CPU だけで 4 倍速化、whisper.cpp(llama.cpp 作者)が CPU で動作。Deepgram の Nova‑2 はリアルタイムで 0.0043 USD/分、Google Cloud Speech‑to‑Text、Azure Speech、AssemblyAI Universal‑2 などと並ぶ。2025 年には Whisper API が 10 万語/秒のリアルタイム性能を実現し、2026 年には会議議事録や YouTube 字幕自動生成が業界標準となる見込みである。
| 製品 | 料金 | サポート言語 | 遅延 | 推奨ハードウェア | 備考 |
|---|---|---|---|---|---|
| Whisper API | 0.006 USD/分 | 99 | 200 ms | CPU 8C | 2024 Turbo 版 |
| Deepgram Nova‑2 | 0.0043 USD/分 | 99 | 50 ms | GPU RTX 4090 | リアルタイム |
| Groq Whisper | 0.02 USD/h | 99 | 1 ms | Groq TPU | 低消費電力 |
| faster‑whisper | 0 USD/分 | 99 | 80 ms | CPU 16C | 4x高速化 |
| whisper.cpp | 0 USD/分 | 99 | 30 s/分 | CPU 8C | オフライン |
Q1. Whisper API の料金はどのように計算されますか?
A1. Whisper API は音声データの再生時間に対して 0.006 USD/分で課金される。例えば 30 分の音声をアップロードすると 0.18 USD が請求される。
Q2. Deepgram Nova‑2 を自作PCに組み込む場合、どのハードウェアが最適ですか?
A2. Nova‑2 は NVIDIA RTX 4090 で 1 kHz の音声を 50 ms で認識できる。RTX 5090 なら 10 ms 以内に処理可能。CPU は Ryzen 9 9950X3D 以上を推奨。
Q3. Whisper.cpp はオフラインで動作できますか?
A3. はい。whisper.cpp は完全にローカルで実行でき、API キー不要。CPU 8 コアで 30 秒/分の音声を処理できる。
Whisper/Deepgram 音声認識は、オープンソースとクラウドベースの両方で高精度・低コストを実現する代表的な STT ソリューションである。2025 年にはリアルタイム遅延が 50 ms 以下、2026 年には会議議事録や YouTube 字幕自動生成が業界標準となる見込み。自作PCを構築する際は、Ryzen 9 9950X3D、RTX 5090、DDR5‑6000 32 GB、650 W PSU などを揃え、whisper.cpp でオフライン処理を併用することで、最小限のコストで最大のパフォーマンスを引き出せる。