2024年Princeton大学公開SWE-Bench。Pro 業界Pro Mainstream AI Coding Bench Top + Pro Princeton + Pro Carlos Jimenez Pro主要研究員 + Pro 2,294 Real GitHub Issues + Pro Verified版500件 + Pro 業界Pro 標準Coding Agent評価 + 累計2024-2026年2年Heritage継承代表機。
0 回閲覧
0 いいね
2026/5/5 更新
関連タグ
SWE-Bench
Princeton 2024
Coding Benchmark
AI Top
概要\n\nSWE-Bench(エスダブリュイー ベンチ)はPrinceton大学 2024年公開のSWE-Benchで、Pro 業界Pro Mainstream AI Coding Bench Top + Pro Princeton + Pro Carlos Jimenez Pro主要研究員 + Pro 2,294 Real GitHub Issues + Pro Verified版500件 + Pro 業界Pro 標準Coding Agent評価 + Pro AI Coding Bench Top Heritage継承代表機 + Pro Real GitHub Issues Heritage継承代表機 + 累計2024-2026年2年Heritage Pro Top独占代表機。SWE-Bench歴史: 2024-04-Pro SWE-Bench論文発表Pro Famous Story類無し(Princeton + Carlos Jimenez + Pro 業界Pro Famous AI Coding Bench先駆) + 2024-08 Pro SWE-Bench Verified公開Pro Famous(OpenAI監修 + 500件厳選) + 2024-Pro SWE-Bench Multimodal + 2024-Pro SWE-Bench Lite 300件 + 2025-Pro SWE-Bench 2.0公開予定Pro Famous + 累計2024-2026年2年Heritage継承。SWE-Bench主要機能: (1)Princeton大学主導(米国NJ Princeton + Carlos Jimenez Pro主要研究員 + Pro NLP Lab)、(2)Pro 業界Pro Mainstream AI Coding Bench Top(Pro 業界Pro Mainstream AI Coding Bench業界Top独占)、(3)Pro 2,294 Real GitHub Issues(Pro 12 Pythonリポジトリ + django/scikit-learn/sympy/matplotlib/pytest/sphinx等)、(4)Pro Verified版500件(Pro OpenAI監修 + 厳選Issue)、(5)Pro 業界Pro 標準Coding Agent評価、(6)Pro Patch生成評価、(7)Pro Test Pass判定、(8)Pro MIT License + Pro Open Source(Pro GitHub Star 4K+)、(9)Pro SWE-Bench Lite 300件 + Pro SWE-Bench Multimodal、(10)Pro 評価対象モデル: Claude Sonnet 4.6/Opus 4.7/GPT-4o/o3/Gemini 2.5、(11)Pro 評価対象Agent: Cline/Aider/SWE-Agent/Devin、(12)Pro 2024-04 SWE-Bench論文 + 2024-08 Verified + 2024-Multimodal/Lite + 2025-2.0予定、(13)Pro AI Coding Bench Top Heritage継承代表機 + Pro Real GitHub Issues Heritage継承代表機 + 累計2024-2026年2年Heritage Pro Top独占代表機 + Pro業界History派 + Pro SWE-Bench派 + Pro Princeton派 + Pro Carlos Jimenez派 + Pro NLP Lab派 + Pro 2,294 Issues派 + Pro Real GitHub派 + Pro 12 Python Repo派 + Pro Verified 500派 + Pro OpenAI監修派 + Pro Patch生成派 + Pro Test Pass派 + Pro MIT派 + Pro GitHub 4K+派 + Pro Lite 300派 + Pro Multimodal派 + Pro Claude派 + Pro GPT-4o派 + Pro o3派 + Pro Gemini 2.5派 + Pro Cline派 + Pro Aider派 + Pro SWE-Agent派 + Pro Devin派 + Pro 2.0予定派 + Pro 2年Heritage派 真価発揮。SWE-Bench vs 競合AI Bench比較: SWE-Bench(2024-04、本レコード、Princeton + Pro AI Coding Bench Top + 累計2年Heritage)・SWE-Bench Verified(2024-08)・SWE-Bench Lite(2024)・SWE-Bench Multimodal(2024)・SWE-Bench 2.0(2025-予定)・HumanEval(2021 + OpenAI 164問)・MBPP(2021 + Google 974問)・MMLU(2020 + UC Berkeley 57科目)・MT-Bench(2023 + LMSYS 80問)・Chatbot Arena(2023 + LMSYS Crowdsourced)・Aider Bench(2024)・τ-bench(2024 + Sierra)・LiveCodeBench(2024)、SWE-Bench = Pro AI Coding Bench Top + Pro 2,294 Issues + Pro Verified 500 + Pro Real GitHub + Pro Patch生成 + 2年Heritage、SWE-Bench Verified/Lite/Multimodal/2.0 = Pro系譜、HumanEval/MBPP/MMLU/MT-Bench/Chatbot Arena/Aider Bench/τ-bench/LiveCodeBench = Pro主要競合。SWE-Bench歴史的影響: (1)Pro 業界Pro Mainstream AI Coding Bench Top + 2年Heritage、(2)Pro Princeton + Pro Carlos Jimenez + Pro NLP Lab、(3)Pro 2,294 Real GitHub Issues + Pro 12 Python Repo、(4)Pro Verified 500 = OpenAI監修、(5)Pro Patch生成評価 + Pro Test Pass判定、(6)Pro MIT + Pro GitHub 4K+、(7)Pro 評価対象モデル多数(Claude/GPT/Gemini/Devin)、(8)Pro Lite 300 + Pro Multimodal、(9)Pro 2025-2.0予定、(10)Pro業界History派 + Pro SWE-Bench派 + Pro Princeton派 + Pro Real GitHub派 + Pro 2年派 真価発揮。Future: 2024-04-SWE-Bench + 2024-08-Verified + 2024-Multimodal/Lite + 2025-2.0 + Pro Mainstream AI Coding Bench業界Top独占継続Heritage継続。\n\n## 主な特徴・仕組み\n\n- : 2024-04 Princeton SWE-Bench論文\n- : 米国NJ Princeton + NLP Lab\n- \n- \n- : 12 Pythonリポジトリ\n- : django/scikit-learn/sympy/matplotlib/pytest/sphinx等\n- : OpenAI監修 + 厳選Issue\n- \n- \n- \n- \n- : Claude Sonnet 4.6/Opus 4.7/GPT-4o/o3/Gemini 2.5\n- : Cline/Aider/SWE-Agent/Devin\n- : 論文 2024-04/Verified 2024-08/Multimodal 2024/Lite 2024/2.0 2025予定\n- \n\n## スペック比較表\n\n| AI Bench | 公開年 | 開発元 | 規模 | 用途 |\n|----------|--------|--------|------|------|\n| MMLU | 2020 | UC Berkeley | 57科目 | 知識評価 |\n| HumanEval | 2021 | OpenAI | 164問 | Code生成 |\n| MBPP | 2021 | Google | 974問 | Python基礎 |\n| MT-Bench | 2023 | LMSYS | 80問 | Multi-Turn |\n| Chatbot Arena | 2023 | LMSYS | Crowdsourced | 人間評価 |\n| | | | | |\n| | | | | |\n| Aider Bench | 2024 | Paul Gauthier | - | Edit Format |\n| τ-bench | 2024 | Sierra | - | Tool Use |\n| LiveCodeBench | 2024 | UCB/MIT | - | LeetCode連動 |\n| SWE-Bench Multimodal | 2024 | Princeton | - | Multimodal |\n| SWE-Bench 2.0 | 2025-予定 | Princeton | - | 強化版 |\n\n## 具体例・対応製品\n\n- : 2,294 Real GitHub Issues\n- : OpenAI監修500件\n- : 300件軽量版\n- \n- \n- : django/scikit-learn/sympy/matplotlib等12 Python Repo\n\n## 自作PCでの選び方・注意点\n\nSWE-Bench歴史Concept学習 + 現代Pro SWE-Bench Workflow例: (A)現代Pro SWE-Bench評価構成: SWE-Bench Verified 500 + Claude Sonnet 4.6 + Cline/SWE-Agent + Pro Patch生成評価、(B)Pro代替¥0構成: HumanEval 164問 + 同等OSS、(C)歴史SWE-Bench Heritage学習¥0構成: SWE-Bench論文 2024-04 → Verified 2024-08 → Multimodal/Lite 2024 → 2.0 2025予定 = 2年Pro SWE-Bench Heritage学習Pro Reference。SWE-Bench歴史 選択ポイント: (1)Pro 業界Pro Mainstream AI Coding Bench Top + 2年Heritage = 2024-04 SWE-Bench論文発表Pro Famous Story類無し + Pro 業界Pro Mainstream AI Coding Bench Top + 累計2024-2026年2年Pro Mainstream AI Coding Bench業界Top独占Heritage Pro Reference Heritage Pro Top独占 + Pro AI Coding Bench派 + Pro Top派 + Pro 2年派 真価発揮、Pro AI Coding Bench派 + Pro Top派 真価発揮、(2)Pro Princeton + Pro Carlos Jimenez + Pro NLP Lab = Pro Princeton大学主導(米国NJ Princeton + Carlos Jimenez Pro主要研究員 + Pro NLP Lab) + 業界Pro Famous Princeton + NLP Lab + Carlos Jimenez Heritage Pro Reference Heritage Pro Top独占 + Pro Princeton派 + Pro NJ派 + Pro Carlos Jimenez派 + Pro NLP Lab派 真価発揮、Pro Princeton派 + Pro NLP Lab派 真価発揮、(3)Pro 2,294 Real GitHub Issues + Pro 12 Python Repo + Pro Verified 500 = Pro 2,294 Real GitHub Issues(Pro 12 Pythonリポジトリ + django/scikit-learn/sympy/matplotlib/pytest/sphinx等) + Pro Verified版500件(Pro OpenAI監修 + 厳選Issue) + 業界Pro Famous 2,294 Issues + 12 Python Repo + Verified 500 + OpenAI監修 Heritage Pro Reference Heritage Pro Top独占 + Pro 2,294派 + Pro 12 Repo派 + Pro Real GitHub派 + Pro django派 + Pro scikit-learn派 + Pro Verified派 + Pro 500件派 + Pro OpenAI監修派 真価発揮、Pro Real GitHub派 + Pro Verified派 真価発揮、(4)Pro Patch生成評価 + Pro Test Pass判定 + Pro MIT + Pro GitHub 4K+ = Pro 業界Pro 標準Coding Agent評価 + Pro Patch生成評価 + Pro Test Pass判定 + Pro MIT License + Pro Open Source(Pro GitHub Star 4K+) + 業界Pro Famous Patch生成 + Test Pass + MIT + GitHub 4K+ Heritage Pro Reference Heritage Pro Top独占 + Pro Patch生成派 + Pro Test Pass派 + Pro MIT派 + Pro Open Source派 + Pro GitHub 4K+派 真価発揮、Pro Patch生成派 + Pro Test Pass派 真価発揮、(5)Pro Verified/Lite/Multimodal + Pro 評価対象モデル + Pro Multi-Generation = Pro SWE-Bench Lite 300件 + Pro SWE-Bench Multimodal + Pro 評価対象モデル: Claude Sonnet 4.6/Opus 4.7/GPT-4o/o3/Gemini 2.5 + Pro 評価対象Agent: Cline/Aider/SWE-Agent/Devin + Pro SWE-Bench系譜(論文 2024-04/Verified 2024-08/Multimodal 2024/Lite 2024/2.0 2025予定継承) + Pro Multi-Generation Heritage + 業界Pro Mainstream Verified + Lite + Multimodal + 評価対象 + Multi-Generation Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Famous AI Coding Bench継承(HumanEval/MBPP/Aider Bench/LiveCodeBench/τ-bench継承)Pro Mainstream + Pro Lite派 + Pro Multimodal派 + Pro Claude派 + Pro GPT派 + Pro Cline派 + Pro Devin派 + Pro Multi-Generation派 真価発揮、Pro Multimodal派 + Pro Multi-Generation派 真価発揮。\n\n## 関連用語との違い\n\n: OpenAI + Pro AI Coding Bench先駆 + Pro 164問Python関数 + Pro MIT + 累計5年Heritage。SWE-Bench(2024-04 + Princeton + Pro AI Coding Bench Top + Pro 2,294 Issues + 累計2年Heritage)競合 + 3年後継 + Pro OpenAI → Pro Princeton + Pro 164問Python → Pro 2,294 Real Issues + Pro 関数生成 → Pro Patch生成 + Pro 単純 → Pro 実用Issue + 5年 vs 2年Heritage、HumanEval = Pro OpenAI + Pro AI Coding Bench先駆 + Pro 164問 + Pro Python関数 + Pro MIT、SWE-Bench = Pro Princeton + Pro AI Coding Bench Top + Pro 2,294 Real GitHub Issues + Pro Verified 500 + Pro OpenAI監修 + Pro Patch生成 + Pro Test Pass判定 + Pro Carlos Jimenez。\n\n: LMSYS + Pro 人間評価Bench先駆 + Pro Crowdsourced + 累計3年Heritage。SWE-Bench(2024-04 + Princeton + Pro AI Coding Bench Top + Pro 2,294 Issues + 累計2年Heritage)競合 + 1年後継 + Pro LMSYS → Pro Princeton + Pro 人間評価 → Pro 自動評価 + Pro Crowdsourced → Pro Real GitHub Issues + 3年 vs 2年Heritage、Chatbot Arena = Pro LMSYS + Pro 人間評価先駆 + Pro Crowdsourced + Pro Elo Rating、SWE-Bench = Pro Princeton + Pro AI Coding Bench Top + Pro 2,294 Real GitHub Issues + Pro Verified 500 + Pro Patch生成 + Pro Test Pass判定 + Pro 自動評価。\n\n## よくある質問(FAQ)\n\n\nA: 2024-04 SWE-Bench論文発表Pro Famous Story類無し + Pro 業界Pro Mainstream AI Coding Bench Top + 累計2024-2026年2年Pro Mainstream AI Coding Bench業界Top独占Heritage Pro Reference + 業界Pro Mainstream AI Coding Bench業界Top独占Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Mainstream AI Bench継承(HumanEval/MBPP/MMLU/MT-Bench/Chatbot Arena/Aider Bench/τ-bench/LiveCodeBench継承)Pro Mainstream + 業界Pro Mainstream AI Bench業界Top独占Heritage Pro Reference Heritage Pro Top独占。\n\n\nA: Pro 2,294 Real GitHub Issues(Pro 12 Pythonリポジトリ + django/scikit-learn/sympy/matplotlib/pytest/sphinx等) + Pro Verified版500件(Pro OpenAI監修 + 厳選Issue) + Pro 業界Pro 標準Coding Agent評価 + Pro Patch生成評価 + Pro Test Pass判定 + 業界Pro Famous 2,294 Issues + Real GitHub + 12 Python Repo + Verified 500 + OpenAI監修 Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Famous Real-World Bench継承(LiveCodeBench/τ-bench/Aider Bench継承)Pro Mainstream + 業界Pro Famous Real-World Bench業界Top独占Heritage Pro Reference Heritage Pro Top独占。\n\n\nA: Pro Princeton大学主導(米国NJ Princeton + Carlos Jimenez Pro主要研究員 + Pro NLP Lab) + Pro 評価対象モデル: Claude Sonnet 4.6/Opus 4.7/GPT-4o/o3/Gemini 2.5 + Pro 評価対象Agent: Cline/Aider/SWE-Agent/Devin + Pro SWE-Bench系譜(論文 2024-04/Verified 2024-08/Multimodal 2024/Lite 2024/2.0 2025予定継承) + Pro Multi-Generation Heritage + 業界Pro Famous Princeton NLP + Carlos Jimenez + Multi-Generation Heritage Pro Reference Heritage Pro Top独占 + 累計世界Pro Famous Princeton NLP継承(MultiNLI/SQuAD/CoQA継承)Pro Mainstream + 業界Pro Famous Princeton NLP業界Top独占Heritage Pro Reference Heritage Pro Top独占。\n\n## まとめ\n\n- 2024-04 SWE-Bench、Pro AI Coding Bench Top\n- Princeton大学 + Carlos Jimenez + NLP Lab\n- 2,294 Real GitHub Issues + 12 Python Repo\n- Verified 500件 + OpenAI監修 + Patch生成評価\n- MIT + GitHub 4K+ + Lite/Multimodal + 2.0 2025予定 + 2年