+0.65 ± 0.02
生涯にわたる保持の優位
固定を行う実行 対 健忘性のコントロール、マルチシード。
Atelier とは
Atelier は、基板を正しくトレーニングする方法は、子どもを育てる方法と同じだという確信の上に築かれています。すなわち、知覚し、産出し、修正され、バインドし、固定する — すべてを二つの時間スケールを持つスケジュールの上で行うのです。それは、基板、構造化されたメモリ、ファインチューニングのフレームワーク、そして認知ジムを、一つのカリキュラムへと結びつけるコンダクターであり、そのカリキュラムがルックアップテーブルではなく実際に根拠に基づいた振る舞いを生み出しているかどうかを測定するレイヤーです。
コンダクターは、基板、構造化されたメモリ、ファインチューニングのフレームワーク、そして認知ジムを、一つの育成ループへと結びつけます。そしてベリファイアが中央に座ることで、進歩が偽られることは決してありません。
ループ
不変なのはステップです。変わるのは、生徒が育てられる世界です。
一つ以上のモダリティから証拠が入ってきます — ライブのリソースチャネルも含めて。
生徒は、根拠に基づいた産出の目的のもとで行動します。近道はありません。
型付きの含意ベリファイアが産出をチェックします。偽の報酬はありません。
成功は、ロールスワップとマルチホップ・リコールを備えた構造化されたメモリへとバインドされます。
二つの時間スケールを持つ CLS ステップが、そのバインディングを生涯にわたるアイデンティティへと織り込みます。
マイルストーン
三つの育成経路を分離して比較しました。従来の根拠に基づいたトレーニングは機能し、蒸留による近道はルックアップへと崩壊し、発達ループは世界をきれいに根づかせます。
フォールバックによるマスキングを行わない、型付きの含意ベリファイア。含意が NaN になれば、報酬も NaN になります。ライブの arXiv 経路はオプトインかつ認証ゲート付きです。
固定を行う実行は、それ以前のすべての世界を保持します。健忘性のコントロールは破滅的に忘却します。その差はシードをまたいで保たれます。
六つの改善のバッチを、マルチシードのエラーバーとともにまとめ上げました。スロット因子分解による関係バインディングがきれいに勝ち、アーキテクチャ的事前分布の主張は誠実に反証されました。
測定値(マルチシード、n=5)
+0.65 ± 0.02
生涯にわたる保持の優位
固定を行う実行 対 健忘性のコントロール、マルチシード。
1.90 ± 0.14 ×
CLS のサンプル効率
二つの時間スケールを持つ CLS スケジュール 対 単一時間スケールのベースライン。
+0.36
スロット因子分解 対 バイトレベルのバインディング
ホールドアウトの関係リトリーバル、ロールスワップはホールドアウト。
決定的な直接対決
計算量をそろえた三つの育成経路。蒸留による近道は、ルックアップのタスクでは魅力的に見えますが、根拠に基づいた産出では消え去ります。
注: 根拠に基づいた産出での C−B の優位 = シードをまたいで +0.79 ± 0.18。C>A はきれいではありません(±0.24)。頑健な勝利はアーキテクチャではなく、育成手法によるものです。
私たちが反証したもの
ベリファイアは決して信号を偽らないからこそ、Atelier は何が機能しないかを公開する場所でもあります。
“ポスト・トランスフォーマーのアーキテクチャだけで勝てる” — 同じフェアな戦いの条件のもとで反証されました。外部のバニラな Transformer は、計算量をそろえた条件下でネーミングにおいて 1.00 に達しました。頑健な価値は、アーキテクチャではなく、目的とスロット因子分解によるバインディングの中にあります。
想定外(imprevisto)からの回復は、ロマンチックな +0.25 から、マルチシード評価のもとで +0.13 ± 0.09 へと縮みました。私たちは、より小さな数値を公開します。
蒸留による近道の経路は、初期の実行では魅力的に見えますが、ホールドアウト評価のもとではルックアップテーブルへと崩壊します。パラダイムレベルの警告として報告します。
“私たちは認知を育てる。それを当てはめるのではない。”
カリキュラムが走る場所
RL-X1 は Atelier の中で育てられます。基板と構造化されたメモリを、使えるモデルへと変えるのは — ファインチューニングのスクリプトではなく — このループです。
RL-X1 を見る →CLS スタイルの二つの時間スケールを持つスケジュールは、継続学習ラインの基盤です。生涯にわたる保持は、仮定ではなく測定されます。
RL-C1 を見る →すでに二つのパラダイム級の反証が通過しています。公開の基準を高く保ち続けられる理由は、ベリファイアにあります。
評価を見る →利用可能な経路