Évaluations · multi-graines par défaut · noté sur la trace

Mesurer le raisonnement sous contraintes réelles

Nouvelles évaluations pour la planification, l'humilité factuelle, la fiabilité des outils et la résolution collaborative de problèmes.

Les benchmarks standards récompensent l’aisance. Nous évaluons le fond, et ces mêmes chiffres conditionnent les mises en production.

V1 planification V2 humilité V3 outils V4 récupération
Pourquoi les évaluations font partie du travail

Les benchmarks standards récompensent l’aisance. Nous évaluons le fond.

L’évaluation est une recherche à part entière chez ReasonLoom, non un contrôle de dernière étape. Nous construisons les évaluations en même temps que les systèmes qu’elles notent, de sorte que les mêmes chiffres qui figurent dans un article conditionnent aussi les mises en production. Le critère est « parierais-je sur ce résultat en production », et non « le modèle a-t-il bien performé en laboratoire ».

benchmark standard
  • jeu de prompts statique
  • contrôle de dernière étape
  • récompense l’aisance
  • chiffres à graine unique mis en avant
les évaluations comme recherche
  • noté sur la trace, pas seulement sur la réponse
  • conditionne les mises en production, pas seulement les articles
  • récompense le raisonnement sous contraintes réelles
  • multi-graines par défaut · graine unique signalée comme préliminaire
Ce que nous mesurons

Quatre axes sur lesquels nous publions

Chaque axe est publié avec son code de notation et ses prompts. Le critère est la reproductibilité, non les scores affichés.

V1 Planification à long horizon

Des tâches qui exigent des plans cohérents sur de nombreuses étapes, notées sur le résultat et sur la trace.

récompense
les plans qui tiennent sur de nombreuses étapes
pénalise
les plans qui paraissent cohérents mais s’effondrent à la troisième étape
V2 Humilité factuelle

À quelle fréquence le modèle s’abstient lorsque les preuves sont minces, par rapport à la fréquence à laquelle il affabule.

récompense
s’abstenir lorsque les preuves sont minces
pénalise
affabuler avec assurance
V3 Fiabilité des outils

Si les outils sont utilisés correctement, y compris le refus de les utiliser lorsqu’ils ne seraient pas utiles.

récompense
les outils utilisés correctement, ou correctement non utilisés
pénalise
les outils invoqués parce qu’ils étaient là
V4 Récupération

Dans quelle mesure un modèle se remet de ses propres erreurs au sein de la même tâche.

récompense
corriger sa propre erreur au sein de la même tâche
pénalise
repartir de zéro alors qu’un retour en arrière aurait suffi
Honnêteté multi-graines

Les chiffres sont livrés avec leurs barres d’erreur.

Les chiffres à graine unique ne conditionnent pas les mises en production. Ils figurent en annexe comme préliminaires, étiquetés n=1.

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release
V2 humility (correct defer) 0.84 ±0.03 n=5 gates release
V3 tool-use accuracy 0.81 ±0.05 n=5 gates release
V4 recovery within task 0.74 ±0.07 n=5 gates release
single-seed reasoning trace 0.72 n=1 preliminary
Surface de publication

Ce qui sort, et ce qui reste à l’intérieur.

La méthodologie, le code de notation, les prompts et les fiches de modèle sont publics. Les suites internes où l’évaluation elle-même constitue le facteur différenciant restent privées.

01 methodology public paper + repo
02 scoring code public apache 2.0
03 prompts public in evaluation suite
04 model cards public with limits + risks
05 private suites internal where the eval itself is differentiating
01

Comment nous les exécutons

Les tâches sont notées sur le résultat et sur la trace de raisonnement. Nous évaluons l’humilité factuelle, la fiabilité des outils et la récupération après erreur en parallèle de l’exactitude brute. Les exécutions multi-graines sont la norme ; les chiffres à graine unique sont signalés comme préliminaires.

02

Ce que nous publions

La méthodologie, le code de notation, les prompts et des fiches de modèle détaillées. L’objectif est que n’importe quelle équipe puisse reproduire le résultat, le contester et l’étendre à son propre domaine.

Des évaluations qui notent le fond et conditionnent les mises en production.