Cognitif · Recherche active

Un entraîneur qui élève la cognition, et non un qui l’ajuste.

Un entraîneur développemental pour les substrats cognitifs — ancrage dans le réel, non mémorisation.

“como mi madre” — d’abord l’ancrage, ensuite la généralisation.

Ce qu’est Atelier

Un curriculum, pas un fine-tune.

Atelier repose sur la conviction que la bonne manière d’entraîner un substrat est celle dont on élève un enfant : en percevant, en produisant, en étant corrigé, en liant et en consolidant, le tout selon un calendrier à deux échelles de temps. C’est le chef d’orchestre qui relie le substrat, la mémoire structurée, le cadre de fine-tuning et le gymnase cognitif en un seul curriculum — et la couche où nous mesurons si ce curriculum produit réellement un comportement ancré plutôt qu’une table de correspondance.

Le chef d’orchestre relie le substrat, la mémoire structurée, le cadre de fine-tuning et le gymnase cognitif en une seule boucle d’élevage — et le vérificateur se tient au milieu pour que les progrès ne soient jamais simulés.

La boucle

Cinq étapes, à chaque épisode.

Les constantes, ce sont les étapes. Ce qui change, c’est le monde dans lequel l’élève est élevé.

  1. AM1

    Percevoir

    Les preuves arrivent depuis une ou plusieurs modalités — y compris un canal de ressources en direct.

  2. AM2

    Produire

    L’élève agit sous un objectif de production ancré. Aucun raccourci.

  3. AM3

    Corriger

    Un vérificateur d’implication typé contrôle la production. Aucune récompense simulée.

  4. AM4

    Lier

    Les succès se lient à la mémoire structurée avec permutation de rôles et rappel multi-sauts.

  5. AM5

    Consolider

    Une étape CLS à deux échelles de temps intègre la liaison dans une identité durable.

Jalons

Ce que nous avons mesuré.

  1. Phase 1

    Confrontation décisive établie

    Trois voies d’élevage comparées isolément. L’entraînement ancré classique fonctionne ; un raccourci par distillation s’effondre en simple table de correspondance ; la boucle développementale ancre le monde proprement.

    grounded 1.00shortcut 0.00lookup 1.00
  2. Phase 2

    Vérificateur honnête construit

    Un vérificateur d’implication typé sans masquage de repli. La récompense devient NaN quand l’implication devient NaN. Voie arXiv en direct en option et protégée par authentification.

    no faked NLINaN propagationauth-gated
  3. Phase 4

    Identité durable mesurée

    Les exécutions consolidantes conservent tous les mondes antérieurs. Les contrôles amnésiques oublient de façon catastrophique. L’écart se maintient à travers les graines.

    forgetting +0.00retention 1.00amnesiac forget +1.00
  4. Aujourd’hui

    Multi-graines, douze améliorations établies

    Un lot de six améliorations clôturé avec des barres d’erreur multi-graines. La liaison relationnelle factorisée par slots l’emporte nettement. La revendication des a priori architecturaux honnêtement falsifiée.

    n=5slot vs byte +0.36arch-priors falsified

Mesuré (multi-graines, n=5)

Ancré, non mémorisé.

+0.65 ± 0.02

Avantage de rétention durable

Exécutions consolidantes vs contrôles amnésiques, multi-graines.

1.90 ± 0.14 ×

Efficacité d’échantillonnage CLS

Calendrier CLS à deux échelles de temps vs référence à une seule échelle de temps.

+0.36

Liaison factorisée par slots vs au niveau octet

Récupération relationnelle held-out, permutation de rôles held-out.

Confrontation décisive

L’effondrement de B, en un seul graphique.

Trois voies d’élevage à calcul apparié. Le raccourci par distillation paraît séduisant sur les tâches de correspondance et disparaît sur la production ancrée.

A — Ancrage classique

LM standard, objectif ancré

1.00

B — Raccourci par distillation (ancré)

S’effondre sur la production held-out

0.00

B — Même modèle sur la correspondance

Le raccourci devient une table

1.00 (lookup)

C — Boucle développementale

Atelier, CLS à deux échelles de temps

1.00 (loss ≈ 0)

Note : l’avantage C−B sur la production ancrée = +0.79 ± 0.18 à travers les graines. C>A n’est pas net (±0.24). Le gain robuste vient de la méthode d’élevage, non de l’architecture.

Ce que nous avons falsifié

Des résultats négatifs que nous publions quand même.

Parce que le vérificateur ne simule jamais un signal, Atelier est aussi l’endroit où nous publions ce qui ne fonctionne pas.

“Nous élevons la cognition. Nous ne l’ajustons pas.”
Note de conception Atelier

Où s’exécute le curriculum

À quoi sert Atelier.

Modèles

Entraîner les lignes phares

RL-X1 est élevé au sein d’Atelier. La boucle est ce qui transforme le substrat plus la mémoire structurée en un modèle utilisable — pas un script de fine-tune.

Voir RL-X1 →
Continu

Des apprenants qui n’oublient pas

Le calendrier à deux échelles de temps de type CLS est la base de la ligne continue. La rétention durable est mesurée, non présumée.

Voir RL-C1 →
Recherche

Une plateforme pour des négatifs honnêtes

Deux falsifications de taille paradigmatique sont déjà passées. Le vérificateur est la raison pour laquelle le niveau d’exigence de publication reste élevé.

Voir les évaluations →

Disponible via

Recherche

Toutes les technologies →