OpenAI が 2024 年 12 月に発表した推論特化型 LLM。o1 の後継として、数学・科学・コーディング分野で人間の専門家レベルの推論能力を実現した次世代モデル。
o3 は、OpenAI が 2024 年 12 月に発表した推論特化型の大規模言語モデルです。o1 の後継として、テスト時のより長い思考(Test-time Compute Scaling)を活用し、数学、科学、プログラミングなどの分野で人間の専門家レベルの推論能力を実現しました。Chain of Thought(CoT)を内部で自動生成し、複雑な問題を段階的に解決します。
| ベンチマーク | o3 | o3-mini | o1 | |------------|-----|---------|-----| | ARC-AGI | 87.5% | N/A | 25.0% | | GPQA Diamond | 87.7% | 77.3% | 78.0% | | MATH AIME 2024 | 96.7% | 87.3% | 83.3% | | SWE-Bench Verified | 71.7% | 49.3% | 48.9% | | Codeforces | 2727 | 2130 | 1891 | | FrontierMath | 25.2% | N/A | 2.0% |
ARC-AGI は「汎用人工知能」の評価基準として知られるタスクで、人間の平均スコア(85%)を o3 が上回ったことは大きな注目を集めました。
| 項目 | o1 | o3 | |------|-----|-----| | リリース | 2024/9 | 2024/12 | | ARC-AGI | 25.0% | 87.5% | | 推論能力 | 高 | 圧倒的 | | Tool Use | 限定的 | 完全対応 | | 価格 | 高 | 同等 |
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="o3",
messages=[{
"role": "user",
"content": "Prove that there are infinitely many primes of the form 4n+3."
}],
reasoning_effort="high"
)
print(response.choices[0].message.content)
response = client.chat.completions.create(
model="o3",
messages=[{
"role": "user",
"content": "Design a distributed rate limiter for 1M QPS with 99.99% accuracy."
}]
)
2025 年の GPT-5 リリースで、o シリーズと GPT シリーズは統合されました。GPT-5 は内部で推論モードと通常モードを切り替え、ユーザーはモデル選択を意識する必要がなくなりました。