多くのステップにわたって一貫した計画を必要とするタスクを、結果とその過程の両方で評価します。
実際の制約下での推論の測定
計画立案、事実に対する謙虚さ、ツールの信頼性、協調的な問題解決のための新しい評価手法。
標準的なベンチマークは流暢さを評価します。私たちは中身を採点し、その同じ数値がリリースの可否を決めます。
標準的なベンチマークは流暢さを評価する。私たちは中身を評価する。
評価は ReasonLoom にとって研究であり、最終段階のチェックではありません。私たちは評価対象のシステムと並行して評価を構築するため、論文に載るのと同じ数値がリリースの可否も判断します。基準は「この結果に本番環境で賭けられるか」であり、「モデルが実験室で良いスコアを出したか」ではありません。
- 静的なプロンプト集
- 最終段階のチェック
- 流暢さを評価する
- シングルシードの数値が大々的に掲げられる
- 答えだけでなく、トレースで採点する
- 論文だけでなく、リリースの可否を決める
- 現実の制約下での推論を評価する
- マルチシード既定 · シングルシードは暫定として明示
私たちが公開する四つの軸
各軸は、その採点コードとプロンプトとともに公開されます。基準は再現性であり、見出しを飾るスコアではありません。
証拠が乏しいときにモデルがどれだけ判断を保留するか、そしてどれだけ作話するかを測ります。
ツールが正しく使われているか、また役に立たない場合にそれらの使用を拒否することも含めて評価します。
同じタスクの中で、モデルが自らの誤りからどれだけうまく回復するかを測ります。
数値はエラーバーとともに公開されます。
シングルシードの数値はリリースの可否を決めません。それらは暫定として、n=1 と明記され付録に掲載されます。
何を外に出し、何を内に留めるか。
方法論、採点コード、プロンプト、モデルカードは公開されます。評価そのものが差別化要因となる社内のスイートは非公開のままです。
実行方法
タスクは結果と推論の過程の両方で評価されます。素の正確さに加えて、事実に対する謙虚さ、ツールの信頼性、誤りからの回復力を採点します。複数シードでの実行を既定とし、単一シードの数値は暫定的なものとして明示します。
公開する内容
方法論、採点コード、プロンプト、そして詳細なモデルカードです。目標は、どのチームでも結果を再現し、それに異議を唱え、自分たちの領域へと拡張できるようにすることです。