Modèles · Génération 1

Un modèle phare
avec le substrat en dessous.

Modèle post-transformer phare entraîné sur le substrat ReasonLoom.

Identifiant du modèle
RL-X1.G1.2026
Substrat
Runtime Stamen · mémoire Heddle
Entraînement
Boucle développementale Atelier · vérificateur typé en boucle
Plafond de contexte
il n'y en a pas

Catégorie

Phare polyvalent · génération 1

Substrat

Stamen + Heddle

Entraîné avec

Boucle développementale Atelier

Idéal pour

Raisonnement à long horizon sans limites de contexte

Ce qu'est RL-X1

Un modèle avec le substrat en dessous

RL-X1 est la première génération de notre ligne phare polyvalente. Il ne vit pas à l'intérieur d'une fenêtre de contexte. Il lit, lie et compose via Heddle, s'exécute sur Stamen et est élevé par Atelier. Le résultat est une qualité de raisonnement sur les tâches à long horizon qui provient de l'architecture, non de l'ingénierie de prompts.

Le changement structurel

Pourquoi la différence n'est pas "une fenêtre plus grande"

Conventional models scale by extending an attention buffer. RL-X1 does not have one to extend. The work that the window used to do is done by the substrate instead.

Conventionnel

Fenêtre de tokens

  • × Memory ceiling = buffer length.
  • × Recall is a scan of attention.
  • × Composition re-derived per turn.
  • × Provenance lives in prose.

RL-X1

Substrat structuré

  • + No buffer to overflow.
  • + Recall is a substrate primitive.
  • + Composition is bind/walk, not re-read.
  • + Provenance is structural.

Ce qui change par rapport à un transformer

Trois différences structurelles

RL-X1 est intéressant pour ce qu'il n'est pas — ni un modèle d'attention plus grand, ni un modèle tokens-entrée/tokens-sortie, ni un décodeur en un seul passage.

X1

Aucun plafond de fenêtre de contexte

La mémoire réside dans une liaison structurée, non dans un tampon que le décodeur doit défiler. Les tâches à long horizon cessent d'être un problème de budget de tokens.

X2

La composition est une primitive

Le raisonnement par analogie, contrefactuel et chaînes multi-sauts utilise la même surface de liaison/rappel. Le modèle n'a pas besoin de redériver la structure à partir du langage à chaque tour.

X3

Ancré par l'entraînement

Le modèle est élevé par Atelier, avec un vérificateur typé en boucle. Ce qu'il sait, il peut le défendre ; ce qu'il ne sait pas, il le reporte.

Où il se situe

Évaluation interne

Numbers are internal — the suites and conditions are documented in the evaluation programme. The pattern, not any single value, is what we report.

Famille de tâches RL-X1 Référence conventionnelle Δ
Multi-sauts à long horizon P@5 1.00 P@5 ~0.62 +0.38
Liaison inter-documents 0.94 0.71 +0.23
Analogie compositionnelle 0.88 0.56 +0.32
Abstention en cas d'incertitude 0.96 0.41 +0.55
Débordement de fenêtre de contexte 0 fréquent n/a

P@5 1.00

Récupération multi-sauts à travers la pile

Récupération de bout en bout à travers le modèle et le pont mémoire.

+0.65

Rétention à vie vs contrôle amnésique

Hérité de la boucle développementale Atelier.

0

Modes de défaillance de fenêtre de contexte

Il n'y a pas de fenêtre de contexte à déborder.

Une trace de raisonnement

À quoi ressemble une question multi-sauts

A question that would force a conventional model to scroll its window becomes a sequence of substrate operations.

rl-x1 · trace · multi-hop
  1. 01 READ perceive(corpus)

    Les entrées arrivent sous forme de preuves structurées — non comme un tampon de tokens.

  2. 02 BIND bind(claim_a, source_a)

    L'affirmation est liée à sa source. La provenance est structurelle, non ajoutée après coup.

  3. 03 BIND bind(claim_b, source_b)

    Un second élément de preuve est lié. Aucune redérivation à partir de la prose.

  4. 04 WALK walk(claim_a → claim_b)

    Le multi-sauts est une opération du substrat. Le décodeur n'a pas besoin de défiler.

  5. 05 COMP compose(answer | evidence)

    La réponse est composée à partir de preuves liées. Ce qui est affirmé est défendable.

  6. 06 EMIT emit(answer, audit_trail)

    La sortie est accompagnée de la piste d'audit. Via Mnemo, cela est prêt pour l'entreprise.

La ligne X

Où RL-X1 se situe dans la feuille de route des générations

G1

RL-X1

livré

Phare polyvalent · raisonnement à long horizon sans limites de contexte.

G2

RL-X2

planifié

Substrat multimodal natif. Perception et liaison partagent la même surface.

G3

RL-X3

recherche

Rappel auto-révisable. Le modèle édite sa propre mémoire sous vérification typée.

Où RL-X1 est utilisé

Raisonnement polyvalent

Raisonnement

Analyse à long horizon

Tâches couvrant des centaines d'entrées et nécessitant un rappel structuré sur l'ensemble. Le modèle n'est pas contraint de les faire tenir dans une fenêtre.

Recherche

Lecture scientifique à grande échelle

RL-X1 lit des collections, lie des affirmations et compose des inférences à leur sujet. Le produit est structuré, non narratif.

Entreprise

Aide à la décision avec mémoire

Utilisé via Mnemo, RL-X1 raisonne sur une mémoire multi-locataires avec la piste d'audit attachée.