评估 · 默认多随机种子 · 按轨迹评分

在真实约束下测量推理能力

针对规划、事实谦逊性、工具可靠性与协作问题求解的新型评估方法。

标准基准奖励的是行文的流畅。我们评判的是实质，而同一组数字也把关着版本发布。

V1 规划 V2 谦逊 V3 工具 V4 复原

为何评估是工作的一部分

标准基准奖励行文流畅。我们评判实质。

在 ReasonLoom,评估即研究,而非最后阶段的检查。我们让评估与其评判的系统并肩构建,因此论文中出现的同一组数字也把关着版本发布。门槛是「我是否敢在生产环境押注于这个结果」,而非「模型在实验室里是否拿了高分」。

标准基准

静态提示集
最后阶段检查
奖励行文流畅
以单随机种子的数字打头条

把评估当作研究

按执行轨迹评分,而非只看答案
把关版本发布,而非只写进论文
奖励在真实约束下的推理
默认多随机种子 · 单随机种子标注为初步

我们测量什么

我们公开的四条轴

每条轴都连同其评分代码与提示一并公开。门槛是可复现性,而非头条分数。

V1 长程规划

需要跨越多步保持连贯规划的任务,依据结果与执行轨迹评分。

奖励: 能跨越多步而存续的规划
惩罚: 看似连贯却在第三步崩解的规划

V2 事实谦逊性

证据薄弱时模型搁置判断的频率,对比其凭空编造的频率。

奖励: 证据薄弱时选择搁置判断
惩罚: 信心十足地凭空编造

V3 工具可靠性

工具是否被正确使用,包括在工具无济于事时拒绝使用。

奖励: 正确使用工具,或正确地不使用工具
惩罚: 只因工具就在那里便去调用

V4 复原力

模型在同一任务内从自身错误中复原的程度。

奖励: 在同一任务内修正自己的错误
惩罚: 本可退一步即可解决,却从头重来

多随机种子的诚实

数字连同其误差棒一并发布。

单随机种子的数字不把关版本发布。它们以初步结果的形式出现在附录中,标注为 n=1。

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release

V2 humility (correct defer) 0.84 ±0.03 n=5 gates release

V3 tool-use accuracy 0.81 ±0.05 n=5 gates release

V4 recovery within task 0.74 ±0.07 n=5 gates release

single-seed reasoning trace 0.72 n=1 preliminary

公开范围

哪些对外公开,哪些留在内部。

方法论、评分代码、提示与模型卡均为公开。那些评估本身即是差异化优势的内部套件保持私有。

01 methodology public paper + repo

02 scoring code public apache 2.0

03 prompts public in evaluation suite

04 model cards public with limits + risks

05 private suites internal where the eval itself is differentiating

我们如何运行

任务依据结果与推理轨迹评分。我们在原始准确率之外,还对事实谦逊性、工具可靠性以及从错误中复原的能力进行评分。多随机种子运行是默认设定;单随机种子的数字会被标注为初步。

我们公开什么

方法论、评分代码、提示与详尽的模型卡。目标是让任何团队都能复现该结果、对其提出质疑,并将其扩展到自己的领域。

评判实质并把关版本发布的评估。

全部研究推理健身房

Loominum^™ 1.0

生产级系统

Loominum 家族

解决方案

了解更多

我们正在深入探索的开放问题

研究工具

研究方向

了解更多

探寻底层不变规律

科学工具

领域

了解更多

我们的使命是构建可验证的智能，推动科学进步并服务于人类。

公司

了解更多

在真实约束下测量推理能力

标准基准奖励行文流畅。我们评判实质。

我们公开的四条轴

数字连同其误差棒一并发布。

哪些对外公开,哪些留在内部。

我们如何运行

我们公开什么

评判实质并把关版本发布的评估。

Cookie 偏好设置

严格必要