模型 · 研究预览

多数模型只能选定一种架构。
而它能沿着架构连续移动。

单一架构,连续轴调节——从完美记忆到精准注意力,按输入自适应。

1

连续轴

2

融合坐标

0.000

端点一致性

类别

统一双轴模型 · 第一代

架构

可学习的坐标,而非固定设计

包含

Marrow 与 Loom 作为精确端点

由……培育

Atelier 发育式训练循环

Loominum 1 是什么

架构是模型可移动的坐标

Loominum 基于一个核心理念:架构的选择不应在训练前一次性确定并冻结。其核心读出机制拥有单一的衰减坐标。在一端,它精确还原为快速权重召回规则——Marrow,完美记忆;随着坐标增大,它演变为耗散型连续时间场——Loom,倾向于近期信号,令陈旧信息自然消退。第二个坐标控制注意力的锐利程度,从柔和均值到单点精准选取。模型跨越整个参数空间,其优势在于能够落在任务所需的恰当位置,而非事先猜测。

量化结果

数字,而非形容词

基于具身、跨随机种子取平均且可复现。这条轴是被证明的,而非仅凭断言。

0 → 94%

开放词汇命名准确率,从零起步

基于每个概念约300个接地样例。全新未训练模型得分为0%——因此这是真正的学习,而非记忆背诵。

+0.044

双轴融合相较单轴最优方案的提升

融合头达到0.94,相较最强单坐标的0.90,跨五个随机种子均有提升。

精确吻合

端点与已知架构精确匹配

在极端值处,该轴线将快速权重与池化规则精确还原至数值误差为零(奇偶性0.000e+00)。

工作原理

三项结构性设计

Loominum 既不是更大的Transformer,也不是外挂路由器。多态性内嵌于方程本身。

C1

单一轴线,多种架构

场读出机制拥有单一衰减坐标。一端精确还原快速权重召回规则;另一端为连续时间耗散场。同一方程,坐标移动——而非两个模型拼接在一起。

C2

双坐标融合

第二个坐标控制注意力的锐利程度,从柔和均值到近似argmax的精准选取。两路读出融合为一个头——一路提供稳定性,另一路提供选择性——两者合力优于任意单路。

C3

培育,而非仅仅训练

Atelier 在接地的训练片段中培育 Loominum。模型从每个概念数百个样例中学会命名世界,且所学知识在清空快速记忆后依然留存——这是巩固的知识,而非查找表。

拿证据,不靠形容词

我们何以能面不改色地说出这一切

连续轴是一个易于宣称、却难以支撑的论断。以下便是它背后的支撑。

P1 0.000e+00

端点精确无误

把坐标滑到一端,模型逐比特复现快权重召回规则;滑到另一端,它便成为耗散式连续时间场。两端与已知设计吻合至数值零——不是近似,而是精确。

P2 5 / 5 个种子

融合胜过任一单独坐标

两个坐标融合为单一头——一个带来稳定,另一个带来选择。在我们运行的每个种子上,融合模型都超越最强的单一坐标,而不仅是均值占优。

P3 经重置仍存

学得,而非查表

清空模型的快速记忆后,它仍能命名在该设置下从未见过的、带噪声的留出实例。它所学已巩固为持久结构——查找表做不到这一点。

P4 具身

养成,而非蒸馏

Atelier 以具身片段养育 Loominum——每个概念仅用少量示例,辅以类睡眠巩固——而非复制更大模型的文本。它的知识是自己挣得的。

Loominum 的适用场景

一个模型,替代一整排模型

研究

架构之间的调节旋钮

无需在训练前锁定一种设计,而是沿轴线移动并测量任务真正适合落在哪里。架构由此成为可调参数,而非需要猜测的预设。

研究

按输入自适应

Loominum 能从信号的形状推断自身的召回坐标——根据输入需要倾向于记忆或近期性——几乎捕获手动设定坐标所能带来的全部收益。

边缘计算

与芯片系列共享引擎

基于与 RL-L1 和 Obsidian 芯片相同的耗散场构建,使模型与基底收敛于同一套物理原理,而非两套独立体系。