+0.65 ± 0.02
终生留存优势
巩固式训练对比失忆对照组,多种子。
Atelier 是什么
Atelier 建立在这样一个信念之上:训练基底的正确方式,正如养育一个孩子的方式——通过感知、产出、被纠正、绑定与巩固,全程遵循双时间尺度的调度。它是那位指挥者,将基底、结构化记忆、微调框架与认知健身房接入同一套课程——也是我们用以衡量这套课程究竟产出了接地的行为、还是一张查表的那一层。
指挥者将基底、结构化记忆、微调框架与认知健身房接入同一条培育循环——而验证器居于其中,确保进展永不被伪造。
训练循环
恒定不变的是这些步骤,真正变化的是学生被培育其中的世界。
证据从一个或多个模态输入——包括一条实时资源通道。
学生在接地的产出目标下行动,没有任何捷径可走。
一个带类型的蕴含验证器核查产出,绝不伪造奖励。
成功的结果以角色互换与多跳回忆的方式绑定进结构化记忆。
一步双时间尺度的 CLS 将绑定折叠进终生身份。
里程碑
三条培育路径在隔离条件下对比。传统接地训练有效;蒸馏捷径退化为查表;发育式循环则干净地将世界接地。
一个带类型的蕴含验证器,不做任何回退掩盖。蕴含变为 NaN 时,奖励也随之变为 NaN。实时 arXiv 通道为可选启用且受鉴权管控。
巩固式训练保留了此前的所有世界。失忆对照组则灾难性遗忘。这一差距在不同随机种子间始终成立。
一批六项改进随多种子误差棒一同收尾。槽位分解的关系绑定干净胜出。架构先验的主张被诚实地证伪。
实测(多种子,n=5)
+0.65 ± 0.02
终生留存优势
巩固式训练对比失忆对照组,多种子。
1.90 ± 0.14 ×
CLS 样本效率
双时间尺度 CLS 调度对比单时间尺度基线。
+0.36
槽位分解对比字节级绑定
留出的关系检索,角色互换留作留出测试。
决定性正面对决
在算力匹配条件下的三条培育路径。蒸馏捷径在查表任务上看似诱人,却在接地产出上荡然无存。
注:在接地产出上,C−B 的优势在不同种子间为 +0.79 ± 0.18。C>A 并不干净(±0.24)。稳健的胜势来自培育方法,而非架构。
我们证伪了什么
因为验证器从不伪造信号,Atelier 也是我们发表那些行不通之处的地方。
「后Transformer架构本身就能胜出」——在同样的公平对决条件下被证伪。一个外部的原版 Transformer 在算力匹配下于命名任务上达到 1.00。稳健的价值存在于目标与槽位分解的绑定之中,而非架构之中。
Imprevisto 恢复在多种子评估下从浪漫的 +0.25 缩水至 +0.13 ± 0.09。我们发表那个更小的数字。
蒸馏捷径路径在早期训练中看似诱人,却在留出评估下坍缩为一张查表。作为范式层面的警示报告。
「我们培育认知,我们不塑形认知。」
课程在哪里运行
RL-X1 正是在 Atelier 内部培育而成的。正是这条循环,将基底加结构化记忆变成一个可用的模型——而非一份微调脚本。
查看 RL-X1 →CLS 式的双时间尺度调度是持续学习系列的基础。终生留存是实测得来的,而非想当然假设的。
查看 RL-C1 →已有两项范式级的证伪通过了检验。验证器正是发表门槛得以保持高位的原因。
查看评测 →获取渠道