认知 · 积极研究中

一位培育认知的训练器, 而非塑形认知的训练器。

面向认知底层的发育式训练器——以接地为本,而非死记硬背。

「como mi madre」——先接地,后泛化。

Atelier 是什么

一套课程,而非一次微调。

Atelier 建立在这样一个信念之上:训练基底的正确方式,正如养育一个孩子的方式——通过感知、产出、被纠正、绑定与巩固,全程遵循双时间尺度的调度。它是那位指挥者,将基底、结构化记忆、微调框架与认知健身房接入同一套课程——也是我们用以衡量这套课程究竟产出了接地的行为、还是一张查表的那一层。

指挥者将基底、结构化记忆、微调框架与认知健身房接入同一条培育循环——而验证器居于其中,确保进展永不被伪造。

训练循环

每个回合,五个步骤。

恒定不变的是这些步骤,真正变化的是学生被培育其中的世界。

  1. AM1

    感知

    证据从一个或多个模态输入——包括一条实时资源通道。

  2. AM2

    产出

    学生在接地的产出目标下行动,没有任何捷径可走。

  3. AM3

    纠正

    一个带类型的蕴含验证器核查产出,绝不伪造奖励。

  4. AM4

    绑定

    成功的结果以角色互换与多跳回忆的方式绑定进结构化记忆。

  5. AM5

    巩固

    一步双时间尺度的 CLS 将绑定折叠进终生身份。

里程碑

我们已测得的结果。

  1. 第 1 阶段

    决定性的正面对决落地

    三条培育路径在隔离条件下对比。传统接地训练有效;蒸馏捷径退化为查表;发育式循环则干净地将世界接地。

    grounded 1.00shortcut 0.00lookup 1.00
  2. 第 2 阶段

    诚实的验证器建成

    一个带类型的蕴含验证器,不做任何回退掩盖。蕴含变为 NaN 时,奖励也随之变为 NaN。实时 arXiv 通道为可选启用且受鉴权管控。

    no faked NLINaN propagationauth-gated
  3. 第 4 阶段

    终生身份得到实测

    巩固式训练保留了此前的所有世界。失忆对照组则灾难性遗忘。这一差距在不同随机种子间始终成立。

    forgetting +0.00retention 1.00amnesiac forget +1.00
  4. 今天

    多种子,十二项改进落地

    一批六项改进随多种子误差棒一同收尾。槽位分解的关系绑定干净胜出。架构先验的主张被诚实地证伪。

    n=5slot vs byte +0.36arch-priors falsified

实测(多种子,n=5)

接地,而非死记。

+0.65 ± 0.02

终生留存优势

巩固式训练对比失忆对照组,多种子。

1.90 ± 0.14 ×

CLS 样本效率

双时间尺度 CLS 调度对比单时间尺度基线。

+0.36

槽位分解对比字节级绑定

留出的关系检索,角色互换留作留出测试。

决定性正面对决

一张图看懂 B-坍缩。

在算力匹配条件下的三条培育路径。蒸馏捷径在查表任务上看似诱人,却在接地产出上荡然无存。

A — 传统接地

标准 LM,接地目标

1.00

B — 蒸馏捷径(接地)

在留出产出上坍缩

0.00

B — 同一模型在查表上

捷径退化成了一张表

1.00 (lookup)

C — 发育式循环

Atelier,双时间尺度 CLS

1.00 (loss ≈ 0)

注:在接地产出上,C−B 的优势在不同种子间为 +0.79 ± 0.18。C>A 并不干净(±0.24)。稳健的胜势来自培育方法,而非架构。

我们证伪了什么

我们照样发表的负面结果。

因为验证器从不伪造信号,Atelier 也是我们发表那些行不通之处的地方。

「我们培育认知,我们不塑形认知。」
Atelier 设计笔记

课程在哪里运行

Atelier 的用途。

模型

训练旗舰系列

RL-X1 正是在 Atelier 内部培育而成的。正是这条循环,将基底加结构化记忆变成一个可用的模型——而非一份微调脚本。

查看 RL-X1 →
持续学习

不会遗忘的学习者

CLS 式的双时间尺度调度是持续学习系列的基础。终生留存是实测得来的,而非想当然假设的。

查看 RL-C1 →
研究

一个诚实发表负面结果的平台

已有两项范式级的证伪通过了检验。验证器正是发表门槛得以保持高位的原因。

查看评测 →

获取渠道

研究

所有技术 →