Needle-in-a-Haystack テストとは？（ニードルインアヘイスタックテスト）わかりやすく解説

Haystack準備: Paul Grahamのエッセイなどの長文テキストを用意
Needle挿入: 「The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day.」のような文を特定の位置に挿入
質問: 「What is the best thing to do in San Francisco?」と質問
2軸パラメータ変化: コンテキスト長（1K〜200K）×挿入位置（先頭0%〜末尾100%）を格子状に変化
ヒートマップ生成: 各条件での正答率を色分けして可視化

LLMのロングコンテキスト性能を評価するベンチマーク手法。大量のテキスト（haystack）の特定位置に短い情報（needle）を挿入し、モデルがその情報を正確に検索・回答できるかを測定する。コンテキスト長と挿入位置の2軸でヒートマップを生成し、モデルの検索精度を可視化する。

Needle-in-a-Haystack テストとは？（ニードルインアヘイスタックテスト）意味・特徴をわかりやすく解説 | 自作.com | PC自作用語集 - 自作.com

主要モデルのNIAH性能

モデル	コンテキスト長	全域正答率	弱点	テスト年
Claude 3.5 Sonnet	200K	99%+	ほぼなし	2024
Gemini 1.5 Pro	1M+	99%+	極端な長さ(>500K)で若干低下	2024
GPT-4 Turbo	128K	95〜98%	中間部(30〜70%)で精度低下	2024
Llama 3.1 70B	128K	96〜99%	100K超の末尾付近で若干低下	2024
Mistral Large 2