+0.65 ± 0.02
Avantage de rétention durable
Exécutions consolidantes vs contrôles amnésiques, multi-graines.
Une architecture sur un axe continu, élevée sur la stack.
Découvrir LoominumEntreprise
Recherche
Science
À propos
Cognitif · Recherche active
Un entraîneur développemental pour les substrats cognitifs — ancrage dans le réel, non mémorisation.
“como mi madre” — d’abord l’ancrage, ensuite la généralisation.
Ce qu’est Atelier
Atelier repose sur la conviction que la bonne manière d’entraîner un substrat est celle dont on élève un enfant : en percevant, en produisant, en étant corrigé, en liant et en consolidant, le tout selon un calendrier à deux échelles de temps. C’est le chef d’orchestre qui relie le substrat, la mémoire structurée, le cadre de fine-tuning et le gymnase cognitif en un seul curriculum — et la couche où nous mesurons si ce curriculum produit réellement un comportement ancré plutôt qu’une table de correspondance.
Le chef d’orchestre relie le substrat, la mémoire structurée, le cadre de fine-tuning et le gymnase cognitif en une seule boucle d’élevage — et le vérificateur se tient au milieu pour que les progrès ne soient jamais simulés.
La boucle
Les constantes, ce sont les étapes. Ce qui change, c’est le monde dans lequel l’élève est élevé.
Les preuves arrivent depuis une ou plusieurs modalités — y compris un canal de ressources en direct.
L’élève agit sous un objectif de production ancré. Aucun raccourci.
Un vérificateur d’implication typé contrôle la production. Aucune récompense simulée.
Les succès se lient à la mémoire structurée avec permutation de rôles et rappel multi-sauts.
Une étape CLS à deux échelles de temps intègre la liaison dans une identité durable.
Jalons
Trois voies d’élevage comparées isolément. L’entraînement ancré classique fonctionne ; un raccourci par distillation s’effondre en simple table de correspondance ; la boucle développementale ancre le monde proprement.
Un vérificateur d’implication typé sans masquage de repli. La récompense devient NaN quand l’implication devient NaN. Voie arXiv en direct en option et protégée par authentification.
Les exécutions consolidantes conservent tous les mondes antérieurs. Les contrôles amnésiques oublient de façon catastrophique. L’écart se maintient à travers les graines.
Un lot de six améliorations clôturé avec des barres d’erreur multi-graines. La liaison relationnelle factorisée par slots l’emporte nettement. La revendication des a priori architecturaux honnêtement falsifiée.
Mesuré (multi-graines, n=5)
+0.65 ± 0.02
Avantage de rétention durable
Exécutions consolidantes vs contrôles amnésiques, multi-graines.
1.90 ± 0.14 ×
Efficacité d’échantillonnage CLS
Calendrier CLS à deux échelles de temps vs référence à une seule échelle de temps.
+0.36
Liaison factorisée par slots vs au niveau octet
Récupération relationnelle held-out, permutation de rôles held-out.
Confrontation décisive
Trois voies d’élevage à calcul apparié. Le raccourci par distillation paraît séduisant sur les tâches de correspondance et disparaît sur la production ancrée.
Note : l’avantage C−B sur la production ancrée = +0.79 ± 0.18 à travers les graines. C>A n’est pas net (±0.24). Le gain robuste vient de la méthode d’élevage, non de l’architecture.
Ce que nous avons falsifié
Parce que le vérificateur ne simule jamais un signal, Atelier est aussi l’endroit où nous publions ce qui ne fonctionne pas.
“L’architecture post-transformer l’emporte par elle-même” — falsifié dans les mêmes conditions de combat équitable. Un Transformer classique externe a atteint 1.00 sur le nommage à calcul apparié. La valeur robuste réside dans l’objectif et dans la liaison factorisée par slots, non dans l’architecture.
La récupération sur imprévu a fondu d’un romantique +0.25 à +0.13 ± 0.09 sous évaluation multi-graines. Nous publions le plus petit chiffre.
Les voies de raccourci par distillation paraissent séduisantes lors des premières exécutions et s’effondrent en table de correspondance sous évaluation held-out. Rapporté comme un avertissement de niveau paradigmatique.
“Nous élevons la cognition. Nous ne l’ajustons pas.”
Où s’exécute le curriculum
RL-X1 est élevé au sein d’Atelier. La boucle est ce qui transforme le substrat plus la mémoire structurée en un modèle utilisable — pas un script de fine-tune.
Voir RL-X1 →Le calendrier à deux échelles de temps de type CLS est la base de la ligne continue. La rétention durable est mesurée, non présumée.
Voir RL-C1 →Deux falsifications de taille paradigmatique sont déjà passées. Le vérificateur est la raison pour laquelle le niveau d’exigence de publication reste élevé.
Voir les évaluations →Disponible via