Whisper/Deepgram 音声認識とは？（ウィスパー）わかりやすく解説

Q: Whisper/Deepgram 音声認識とは？

Speech-to-Text(STT)モデル/API。OpenAI Whisper(OSS・2022年9月・multilingual 99 lang・Large-v3 Turbo 2024年)・Whisper API $0.006/min・faster-whisper(CTranslate2・4x高速)・whisper.cpp(CPU・llama.cpp author)・Deepgram Nova-2(real-time・$0.0043/min)・Google Cloud Speech-to-Text・Azure Speech・AssemblyAI Universal-2・Groq Whisper($0.02/h・高速)・ElevenLabs Voice・MacWhisper Mac app・2026年 会議議事録/YouTube字幕自動生成定着。

主な特徴・仕組み

多言語対応：99 言語を網羅し、英語・中国語・日本語・スペイン語などを高精度で認識。

料金体系：Whisper API 0.006 USD／分、Deepgram Nova‑2 0.0043 USD／分、Groq Whisper 0.02 USD／h。

高速化技術：faster‑whisper は CTranslate2 を利用し、CPU で 4 倍速。whisper.cpp は llama.cpp ベースで 8 CPU コアで 30 秒／分の処理が可能。

GPU 利用：Groq Whisper は専用 TPU で 1 ms／音声フレームを実現。RTX 5090 で 1 kHz 以上の音声を 10 ms 以内に文字化。

リアルタイム性能：Deepgram Nova‑2 は 50 ms の遅延でストリーミング認識。

統合性：MacWhisper Mac アプリは 2024 年版で 99 言語をサポート、Windows 版は 2025 年にリリース予定。

ハードウェア要件：Ryzen 9 9950X3D（16 コア 3.5 GHz）＋DDR5‑6000 32 GB、NVIDIA RTX 5090 24 GB GDDR7、650 W PSU で 10 kHz のマルチチャンネルを同時認識可能。

セキュリティ：データはオンプレミスで処理可能、Deepgram は ISO 27001 認証取得済み。

価格対性能比：Groq Whisper は 0.02 USD／h で、RTX 4090 で 0.15 USD／h の消費電力を下回る。

開発者向け API：REST＋WebSocket、Python SDK で 5 ms 以内に文字列を取得。

2026 年の展望：Whisper API が 10 % の精度向上と 30 % コスト削減を達成し、業務自動化の標準ツールに。

スペック比較表

製品	料金	サポート言語	遅延	推奨ハードウェア	備考
Whisper API	0.006 USD/分	99	200 ms	CPU 8C	2024 Turbo 版
Deepgram Nova‑2	0.0043 USD/分	99	50 ms	GPU RTX 4090	リアルタイム
Groq Whisper	0.02 USD/h	99	1 ms	Groq TPU	低消費電力
faster‑whisper	0 USD/分	99	80 ms	CPU 16C	4x高速化
whisper.cpp	0 USD/分	99	30 s/分	CPU 8C	オフライン

具体例・対応製品

MacWhisper Mac アプリ – 2024 年版で 99 言語をサポート、10 kHz までの音声を 5 ms 以内に文字化。

Deepgram Nova‑2 – 2025 年初にリリース、1 kHz の音声を 50 ms で認識。

Groq Whisper – 2025 年末に Groq の TPU を採用し、RTX 4090 と比べ 50 % コスト削減。

Whisper API – 2024 年に Turbo 版を導入、24 GB GDDR7 の RTX 5090 で 1 kHz のマルチチャンネルを 10 ms 以内に文字化。

faster‑whisper – 2025 年に CTranslate2 を改良、CPU 8C で 1 kHz の音声を 80 ms で処理。

自作PCでの選び方・注意点

CPU：Ryzen 9 9950X3D 16 コア 3.5 GHz 以上。

GPU：RTX 5090 24 GB GDDR7 が 1 kHz 以上の音声を 10 ms 以内に文字化。

メモリ：DDR5‑6000 32 GB 以上。

ストレージ：NVMe 2TB SSD、書き込み速度 5 GB/s 以上。

電源：650 W 80+ Platinum。

冷却：液体冷却 200 W 以上。

OS：Windows 11 Pro 22H2、Ubuntu 24.04 LTS での動作確認。

API キー管理：環境変数で保管、キー漏洩防止。

データ暗号化：オンプレミスで処理可能な whisper.cpp を併用。

バージョン管理：whisper.cpp は 2026 年版で 10 % 精度向上。

テスト環境：録音サンプル 10 kHz で 5 分間テスト。

関連用語との違い

Google Cloud Speech‑to‑Text：クラウドベースで 100 USD/分以上。Whisper はオープンソースで 0 USD/分。

Azure Speech：リアルタイム遅延 100 ms。Deepgram Nova‑2 は 50 ms。

AssemblyAI Universal‑2：1 USD/分。Whisper API は 0.006 USD/分。

ElevenLabs Voice：音声合成。Whisper は音声認識。

Groq Whisper：専用 TPU を利用し、RTX 4090 で 0.15 USD/分を 0.02 USD/h に削減。

よくある質問(FAQ)

Q1. Whisper API の料金はどのように計算されますか？
A1. Whisper API は音声データの再生時間に対して 0.006 USD/分で課金される。例えば 30 分の音声をアップロードすると 0.18 USD が請求される。

Q2. Deepgram Nova‑2 を自作PCに組み込む場合、どのハードウェアが最適ですか？
A2. Nova‑2 は NVIDIA RTX 4090 で 1 kHz の音声を 50 ms で認識できる。RTX 5090 なら 10 ms 以内に処理可能。CPU は Ryzen 9 9950X3D 以上を推奨。

Q3. Whisper.cpp はオフラインで動作できますか？
A3. はい。whisper.cpp は完全にローカルで実行でき、API キー不要。CPU 8 コアで 30 秒／分の音声を処理できる。

まとめ

Whisper/Deepgram 音声認識は、オープンソースとクラウドベースの両方で高精度・低コストを実現する代表的な STT ソリューションである。2025 年にはリアルタイム遅延が 50 ms 以下、2026 年には会議議事録や YouTube 字幕自動生成が業界標準となる見込み。自作PCを構築する際は、Ryzen 9 9950X3D、RTX 5090、DDR5‑6000 32 GB、650 W PSU などを揃え、whisper.cpp でオフライン処理を併用することで、最小限のコストで最大のパフォーマンスを引き出せる。

メニュー