評価 · マルチシード既定 · トレース採点

実際の制約下での推論の測定

計画立案、事実に対する謙虚さ、ツールの信頼性、協調的な問題解決のための新しい評価手法。

標準的なベンチマークは流暢さを評価します。私たちは中身を採点し、その同じ数値がリリースの可否を決めます。

V1 計画立案 V2 謙虚さ V3 ツール V4 回復
評価が仕事の一部である理由

標準的なベンチマークは流暢さを評価する。私たちは中身を評価する。

評価は ReasonLoom にとって研究であり、最終段階のチェックではありません。私たちは評価対象のシステムと並行して評価を構築するため、論文に載るのと同じ数値がリリースの可否も判断します。基準は「この結果に本番環境で賭けられるか」であり、「モデルが実験室で良いスコアを出したか」ではありません。

標準ベンチマーク
  • 静的なプロンプト集
  • 最終段階のチェック
  • 流暢さを評価する
  • シングルシードの数値が大々的に掲げられる
研究としての評価
  • 答えだけでなく、トレースで採点する
  • 論文だけでなく、リリースの可否を決める
  • 現実の制約下での推論を評価する
  • マルチシード既定 · シングルシードは暫定として明示
私たちが測定するもの

私たちが公開する四つの軸

各軸は、その採点コードとプロンプトとともに公開されます。基準は再現性であり、見出しを飾るスコアではありません。

V1 長期的な計画立案

多くのステップにわたって一貫した計画を必要とするタスクを、結果とその過程の両方で評価します。

評価する点
多くのステップにわたって持ちこたえる計画
減点する点
一貫して見えるが三歩目で崩れる計画
V2 事実に対する謙虚さ

証拠が乏しいときにモデルがどれだけ判断を保留するか、そしてどれだけ作話するかを測ります。

評価する点
証拠が乏しいときに判断を保留すること
減点する点
自信を持って作話すること
V3 ツールの信頼性

ツールが正しく使われているか、また役に立たない場合にそれらの使用を拒否することも含めて評価します。

評価する点
正しく使われた、あるいは正しく使われなかったツール
減点する点
そこにあったという理由で呼び出されたツール
V4 回復力

同じタスクの中で、モデルが自らの誤りからどれだけうまく回復するかを測ります。

評価する点
同じタスクの中で自らの誤りを修正すること
減点する点
一歩戻れば済んだのに最初からやり直すこと
マルチシードの誠実さ

数値はエラーバーとともに公開されます。

シングルシードの数値はリリースの可否を決めません。それらは暫定として、n=1 と明記され付録に掲載されます。

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release
V2 humility (correct defer) 0.84 ±0.03 n=5 gates release
V3 tool-use accuracy 0.81 ±0.05 n=5 gates release
V4 recovery within task 0.74 ±0.07 n=5 gates release
single-seed reasoning trace 0.72 n=1 preliminary
公開する範囲

何を外に出し、何を内に留めるか。

方法論、採点コード、プロンプト、モデルカードは公開されます。評価そのものが差別化要因となる社内のスイートは非公開のままです。

01 methodology public paper + repo
02 scoring code public apache 2.0
03 prompts public in evaluation suite
04 model cards public with limits + risks
05 private suites internal where the eval itself is differentiating
01

実行方法

タスクは結果と推論の過程の両方で評価されます。素の正確さに加えて、事実に対する謙虚さ、ツールの信頼性、誤りからの回復力を採点します。複数シードでの実行を既定とし、単一シードの数値は暫定的なものとして明示します。

02

公開する内容

方法論、採点コード、プロンプト、そして詳細なモデルカードです。目標は、どのチームでも結果を再現し、それに異議を唱え、自分たちの領域へと拡張できるようにすることです。

中身を採点し、リリースの可否を決める評価。