認知 · 研究中

認知を育てるトレーナーであって、 それを当てはめるものではない。

認知基板のための発達トレーナーです。暗記ではなく、グラウンディングを重視します。

“como mi madre” — まず根を張り、次に一般化する。

Atelier とは

ファインチューニングではなく、カリキュラム。

Atelier は、基板を正しくトレーニングする方法は、子どもを育てる方法と同じだという確信の上に築かれています。すなわち、知覚し、産出し、修正され、バインドし、固定する — すべてを二つの時間スケールを持つスケジュールの上で行うのです。それは、基板、構造化されたメモリ、ファインチューニングのフレームワーク、そして認知ジムを、一つのカリキュラムへと結びつけるコンダクターであり、そのカリキュラムがルックアップテーブルではなく実際に根拠に基づいた振る舞いを生み出しているかどうかを測定するレイヤーです。

コンダクターは、基板、構造化されたメモリ、ファインチューニングのフレームワーク、そして認知ジムを、一つの育成ループへと結びつけます。そしてベリファイアが中央に座ることで、進歩が偽られることは決してありません。

ループ

あらゆるエピソードで、五つのステップ。

不変なのはステップです。変わるのは、生徒が育てられる世界です。

  1. AM1

    知覚する

    一つ以上のモダリティから証拠が入ってきます — ライブのリソースチャネルも含めて。

  2. AM2

    産出する

    生徒は、根拠に基づいた産出の目的のもとで行動します。近道はありません。

  3. AM3

    修正する

    型付きの含意ベリファイアが産出をチェックします。偽の報酬はありません。

  4. AM4

    バインドする

    成功は、ロールスワップとマルチホップ・リコールを備えた構造化されたメモリへとバインドされます。

  5. AM5

    固定する

    二つの時間スケールを持つ CLS ステップが、そのバインディングを生涯にわたるアイデンティティへと織り込みます。

マイルストーン

私たちが測定してきたもの。

  1. Phase 1

    決定的な直接対決に決着

    三つの育成経路を分離して比較しました。従来の根拠に基づいたトレーニングは機能し、蒸留による近道はルックアップへと崩壊し、発達ループは世界をきれいに根づかせます。

    grounded 1.00shortcut 0.00lookup 1.00
  2. Phase 2

    誠実なベリファイアを構築

    フォールバックによるマスキングを行わない、型付きの含意ベリファイア。含意が NaN になれば、報酬も NaN になります。ライブの arXiv 経路はオプトインかつ認証ゲート付きです。

    no faked NLINaN propagationauth-gated
  3. Phase 4

    生涯にわたるアイデンティティを測定

    固定を行う実行は、それ以前のすべての世界を保持します。健忘性のコントロールは破滅的に忘却します。その差はシードをまたいで保たれます。

    forgetting +0.00retention 1.00amnesiac forget +1.00
  4. 今日

    マルチシード、十二の改善に決着

    六つの改善のバッチを、マルチシードのエラーバーとともにまとめ上げました。スロット因子分解による関係バインディングがきれいに勝ち、アーキテクチャ的事前分布の主張は誠実に反証されました。

    n=5slot vs byte +0.36arch-priors falsified

測定値(マルチシード、n=5)

暗記ではなく、根拠に基づく。

+0.65 ± 0.02

生涯にわたる保持の優位

固定を行う実行 対 健忘性のコントロール、マルチシード。

1.90 ± 0.14 ×

CLS のサンプル効率

二つの時間スケールを持つ CLS スケジュール 対 単一時間スケールのベースライン。

+0.36

スロット因子分解 対 バイトレベルのバインディング

ホールドアウトの関係リトリーバル、ロールスワップはホールドアウト。

決定的な直接対決

B の崩壊を、一枚のチャートで。

計算量をそろえた三つの育成経路。蒸留による近道は、ルックアップのタスクでは魅力的に見えますが、根拠に基づいた産出では消え去ります。

A — 従来の根拠に基づく

標準的な LM、根拠に基づく目的

1.00

B — 蒸留による近道(根拠に基づく)

ホールドアウトの産出で崩壊する

0.00

B — 同じモデルをルックアップで

近道はテーブルになる

1.00 (lookup)

C — 発達ループ

Atelier、二つの時間スケールを持つ CLS

1.00 (loss ≈ 0)

注: 根拠に基づいた産出での C−B の優位 = シードをまたいで +0.79 ± 0.18。C>A はきれいではありません(±0.24)。頑健な勝利はアーキテクチャではなく、育成手法によるものです。

私たちが反証したもの

それでも公開するネガティブな結果。

ベリファイアは決して信号を偽らないからこそ、Atelier は何が機能しないかを公開する場所でもあります。

“私たちは認知を育てる。それを当てはめるのではない。”
Atelier デザインノート

カリキュラムが走る場所

Atelier は何のためにあるか。

モデル

フラッグシップ・ラインのトレーニング

RL-X1 は Atelier の中で育てられます。基板と構造化されたメモリを、使えるモデルへと変えるのは — ファインチューニングのスクリプトではなく — このループです。

RL-X1 を見る →
継続学習

忘れない学習者

CLS スタイルの二つの時間スケールを持つスケジュールは、継続学習ラインの基盤です。生涯にわたる保持は、仮定ではなく測定されます。

RL-C1 を見る →
リサーチ

誠実なネガティブのためのプラットフォーム

すでに二つのパラダイム級の反証が通過しています。公開の基準を高く保ち続けられる理由は、ベリファイアにあります。

評価を見る →

利用可能な経路

リサーチ

全テクノロジー →