V1 长程规划
需要跨越多步保持连贯规划的任务,依据结果与执行轨迹评分。
针对规划、事实谦逊性、工具可靠性与协作问题求解的新型评估方法。
标准基准奖励的是行文的流畅。我们评判的是实质,而同一组数字也把关着版本发布。
在 ReasonLoom,评估即研究,而非最后阶段的检查。我们让评估与其评判的系统并肩构建,因此论文中出现的同一组数字也把关着版本发布。门槛是「我是否敢在生产环境押注于这个结果」,而非「模型在实验室里是否拿了高分」。
每条轴都连同其评分代码与提示一并公开。门槛是可复现性,而非头条分数。
需要跨越多步保持连贯规划的任务,依据结果与执行轨迹评分。
证据薄弱时模型搁置判断的频率,对比其凭空编造的频率。
工具是否被正确使用,包括在工具无济于事时拒绝使用。
模型在同一任务内从自身错误中复原的程度。
单随机种子的数字不把关版本发布。它们以初步结果的形式出现在附录中,标注为 n=1。
方法论、评分代码、提示与模型卡均为公开。那些评估本身即是差异化优势的内部套件保持私有。
任务依据结果与推理轨迹评分。我们在原始准确率之外,还对事实谦逊性、工具可靠性以及从错误中复原的能力进行评分。多随机种子运行是默认设定;单随机种子的数字会被标注为初步。
方法论、评分代码、提示与详尽的模型卡。目标是让任何团队都能复现该结果、对其提出质疑,并将其扩展到自己的领域。