模型 · 研究预览

时间是输入,
而非假设。

面向不规则信号的连续时间模型——体积小、速度快、时间感知强。

0.875

PhysioNet AUC

≈5×

更小

8.2×

更快的核心

类别

连续时间模型 · 第一代

读取

不规则、带时间戳的信号

最适用于

临床、传感器、流式处理与边缘计算

阶段

研究预览 · 门控验证完成

RL-L1 是什么

将时间作为一等输入的模型

大多数序列模型假定每个时间步对应一个固定时刻。而现实世界的信号——生命体征、传感器读数、市场事件、遥测数据——并不按时钟到达。RL-L1 是一个连续时间模型:时序信息是输入的组成部分,而非事后附加,因此模型能够正确处理不规则间隔、缺失样本与实时流。其实现方式是我们自研的——本页所展示的是模型行为与实测数据。

为何与众不同

三项结构性选择

RL-L1 既不是 Transformer,也不是点 ODE 网络。它做出三个深思熟虑的设计决策,在真实不规则数据上取得了显著成效。

L1

时间内嵌于数学

模型在连续时间中演化,因此两次观测之间的间隔会改变计算过程。屏蔽时序信息后精度骤降——这证明时序信号在发挥实质作用。

L2

小而稳定

紧凑且行为良好的状态空间在极小的参数量下取得了优异成绩,动态特性有界且可预测。内部实现是我们自研的;稳定性是实测的。

L3

为边缘计算而生

专为在真实硬件上快速、轻量地运行而设计,并与我们的耗散芯片系列协同设计,使模型与基底收敛于同一套物理原理。

实测为证,而非断言

完整数据,包括我们的劣势所在

RL-L1 wins on irregular, small-to-medium-scale signals and on the edge. It does not win at frontier scale or at language — the table says so on purpose.

基准测试 RL-L1 基线 备注
PhysioNet 2012 院内死亡率 0.875 AUC 0.874 (GRU-D) 18 个随机种子集成 · 置信区间 [0.868, 0.883]
时序联想召回 0.004 MSE 0.68 MSE 对比点 ODE;时间盲化后为 9.61
Mackey-Glass(≤50k 参数) 0.052 MSE 0.094 MSE 小模型规模下优于基线 1.2–1.8 倍
Mackey-Glass(≥214k 参数) 0.087 MSE 0.046 MSE 大规模下 Transformer 胜出
边缘端占用(int8) 24 KB · 0.40 ms 65 KB · 0.44 ms 速度更快,体积缩小 2.7 倍
PhysioNet 2012 · set-a → held-out set-b · leakage-safe · multi-seed

优势所在

  • 不规则与流式时间序列——时序信息承载关键信号。
  • 能耗与内存受限的边缘端推理。
  • 无需完整重训练的在线自适应。

劣势所在

  • 前沿规模的语言建模——Transformer 胜出,我们如实声明。
  • 效率优势逐渐消退的大参数规模场景。

实测数据

更小,且具备时间感知能力

0.875

PhysioNet 2012 上的 AUC 值

基于不规则 ICU 生命体征的院内死亡率预测——18 个随机种子集成,95% 置信区间 [0.868, 0.883]。

≈ 5×

相较基线的参数量减少倍数

以基线 Transformer 参数量的一小部分达到相当的临床预测性能。

8.2×

运行时核心加速比

并行场求值相较参考循环(0.23 ms 对比 1.90 ms),数值结果完全一致。

进展状态

经门控验证的参考实现

  1. 门控

    十项可证伪门控全部通过

    连续时间优势、稳定性、绑定能力、终身留存与基底协同设计,每项均设有通过/失败测试。测试均已通过——在模型应当失败之处,也如实记录失败。

  2. 临床

    在真实 ICU 数据上完成验证

    基于 PhysioNet 2012 院内死亡率数据集进行基准测试——采用真实不规则生命体征数据,并严格划分无泄露的训练/测试集。

  3. 当前

    研究预览阶段

    参考实现已在 Apple Silicon 上完成生产级测试。我们正向选定的研究合作伙伴开放接入。

RL-L1 的适用场景

为带时钟的信号而生

临床

不规则生命体征监测

ICU 数据流、可穿戴设备与临床时间序列——样本稀疏、间隔不均,时序信息本身即是信号。

边缘计算

端侧部署与流式处理

极小的存储占用与快速推理使 RL-L1 适合无法承载大型模型的传感器与嵌入式系统。

研究

诚实的连续时间评估基准

为研究连续时间模型在哪些场景真正优于 Transformer——以及在哪些场景不优于——提供参考基准。

“在时序至关重要的场景,它胜出。在时序无关紧要的场景,我们如实声明。”

— RL-L1 设计说明