模型 · 第一代

一款旗舰模型,
底层基底,一体而生。

基于 ReasonLoom 底层架构训练的旗舰后Transformer模型。

模型编号
RL-X1.G1.2026
基底
Stamen 运行时 · Heddle 记忆
训练方式
Atelier 发育式训练循环 · 类型化验证器全程在环
上下文上限
不设上限

类别

旗舰跨领域模型 · 第一代

基底

Stamen + Heddle

训练方式

Atelier 发育式训练循环

最适用于

无上下文限制的长视野推理

RL-X1 是什么

底层基底之上的模型

RL-X1 是我们旗舰跨领域系列的第一代。它不依赖上下文窗口,而是通过 Heddle 完成读取、绑定与组合,在 Stamen 上运行,并由 Atelier 培育。其结果是,长视野任务上的推理质量来源于架构本身,而非提示词工程。

结构性转变

为何差异并非「更大的窗口」

Conventional models scale by extending an attention buffer. RL-X1 does not have one to extend. The work that the window used to do is done by the substrate instead.

传统方式

Token 窗口

  • × Memory ceiling = buffer length.
  • × Recall is a scan of attention.
  • × Composition re-derived per turn.
  • × Provenance lives in prose.

RL-X1

结构化基底

  • + No buffer to overflow.
  • + Recall is a substrate primitive.
  • + Composition is bind/walk, not re-read.
  • + Provenance is structural.

与Transformer相比的变化

三项结构性差异

RL-X1 的价值在于它不是什么——不是更大的注意力模型,不是 token 输入输出模型,也不是单次解码器。

X1

无上下文窗口上限

记忆存储于结构化绑定中,而非解码器需要滚动的缓冲区。长视野任务不再是 token 预算问题。

X2

组合是原生操作

基于类比、反事实与多跳推理链的推理,使用同一套绑定/召回接口。模型无需在每轮对话中从语言重新推导结构。

X3

由训练接地

模型由 Atelier 培育,类型化验证器全程在环。它所知晓的,均可据以辩护;它不知晓的,会主动延迟作答。

当前位置

内部评测结果

Numbers are internal — the suites and conditions are documented in the evaluation programme. The pattern, not any single value, is what we report.

任务类型 RL-X1 传统基线 Δ
长视野多跳推理 P@5 1.00 P@5 ~0.62 +0.38
跨文档绑定 0.94 0.71 +0.23
组合类比 0.88 0.56 +0.32
未知时主动延迟 0.96 0.41 +0.55
上下文窗口溢出 0 频繁 n/a

P@5 1.00

端到端技术栈多跳检索精度

通过模型与记忆桥接的端到端检索。

+0.65

与遗忘型对照相比的终身留存优势

继承自 Atelier 发育式训练循环。

0

上下文窗口失效模式

不存在可溢出的上下文窗口。

推理追踪

多跳问题的处理过程

A question that would force a conventional model to scroll its window becomes a sequence of substrate operations.

rl-x1 · trace · multi-hop
  1. 01 READ perceive(corpus)

    输入以结构化证据形式落地——而非进入 token 缓冲区。

  2. 02 BIND bind(claim_a, source_a)

    论断与其来源绑定。溯源是结构性的,而非事后附加。

  3. 03 BIND bind(claim_b, source_b)

    第二条证据完成绑定。无需从文本重新推导。

  4. 04 WALK walk(claim_a → claim_b)

    多跳推理是基底的原生操作。解码器无需滚动上下文。

  5. 05 COMP compose(answer | evidence)

    答案由绑定证据组合而成。所有断言均可据以辩护。

  6. 06 EMIT emit(answer, audit_trail)

    输出随附审计追踪。通过 Mnemo,可直接用于企业场景。

X 系列路线图

RL-X1 在代际路线图中的位置

G1

RL-X1

已发布

旗舰跨领域模型 · 无上下文限制的长视野推理。

G2

RL-X2

已规划

原生多模态基底。感知与绑定共享同一底层。

G3

RL-X3

研究中

自修正式记忆召回。模型在类型化验证下自主编辑记忆。

RL-X1 的应用场景

跨领域推理

推理

长视野分析

跨越数百条输入、需要结构化召回的任务。模型不被要求将其压入窗口。

研究

规模化科学文献阅读

RL-X1 读取文献集合,绑定论断,并在其间组合推理。工作成果是结构化的,而非叙事性的。

企业

具备记忆感知的决策支持

通过 Mnemo 使用时,RL-X1 在多租户记忆上进行推理,并随附审计追踪。