评估 · 默认多随机种子 · 按轨迹评分

在真实约束下测量推理能力

针对规划、事实谦逊性、工具可靠性与协作问题求解的新型评估方法。

标准基准奖励的是行文的流畅。我们评判的是实质,而同一组数字也把关着版本发布。

V1 规划 V2 谦逊 V3 工具 V4 复原
为何评估是工作的一部分

标准基准奖励行文流畅。我们评判实质。

在 ReasonLoom,评估即研究,而非最后阶段的检查。我们让评估与其评判的系统并肩构建,因此论文中出现的同一组数字也把关着版本发布。门槛是「我是否敢在生产环境押注于这个结果」,而非「模型在实验室里是否拿了高分」。

标准基准
  • 静态提示集
  • 最后阶段检查
  • 奖励行文流畅
  • 以单随机种子的数字打头条
把评估当作研究
  • 按执行轨迹评分,而非只看答案
  • 把关版本发布,而非只写进论文
  • 奖励在真实约束下的推理
  • 默认多随机种子 · 单随机种子标注为初步
我们测量什么

我们公开的四条轴

每条轴都连同其评分代码与提示一并公开。门槛是可复现性,而非头条分数。

V1 长程规划

需要跨越多步保持连贯规划的任务,依据结果与执行轨迹评分。

奖励
能跨越多步而存续的规划
惩罚
看似连贯却在第三步崩解的规划
V2 事实谦逊性

证据薄弱时模型搁置判断的频率,对比其凭空编造的频率。

奖励
证据薄弱时选择搁置判断
惩罚
信心十足地凭空编造
V3 工具可靠性

工具是否被正确使用,包括在工具无济于事时拒绝使用。

奖励
正确使用工具,或正确地不使用工具
惩罚
只因工具就在那里便去调用
V4 复原力

模型在同一任务内从自身错误中复原的程度。

奖励
在同一任务内修正自己的错误
惩罚
本可退一步即可解决,却从头重来
多随机种子的诚实

数字连同其误差棒一并发布。

单随机种子的数字不把关版本发布。它们以初步结果的形式出现在附录中,标注为 n=1。

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release
V2 humility (correct defer) 0.84 ±0.03 n=5 gates release
V3 tool-use accuracy 0.81 ±0.05 n=5 gates release
V4 recovery within task 0.74 ±0.07 n=5 gates release
single-seed reasoning trace 0.72 n=1 preliminary
公开范围

哪些对外公开,哪些留在内部。

方法论、评分代码、提示与模型卡均为公开。那些评估本身即是差异化优势的内部套件保持私有。

01 methodology public paper + repo
02 scoring code public apache 2.0
03 prompts public in evaluation suite
04 model cards public with limits + risks
05 private suites internal where the eval itself is differentiating
01

我们如何运行

任务依据结果与推理轨迹评分。我们在原始准确率之外,还对事实谦逊性、工具可靠性以及从错误中复原的能力进行评分。多随机种子运行是默认设定;单随机种子的数字会被标注为初步。

02

我们公开什么

方法论、评分代码、提示与详尽的模型卡。目标是让任何团队都能复现该结果、对其提出质疑,并将其扩展到自己的领域。

评判实质并把关版本发布的评估。