Des tâches qui exigent des plans cohérents sur de nombreuses étapes, notées sur le résultat et sur la trace.
Mesurer le raisonnement sous contraintes réelles
Nouvelles évaluations pour la planification, l'humilité factuelle, la fiabilité des outils et la résolution collaborative de problèmes.
Les benchmarks standards récompensent l’aisance. Nous évaluons le fond, et ces mêmes chiffres conditionnent les mises en production.
Les benchmarks standards récompensent l’aisance. Nous évaluons le fond.
L’évaluation est une recherche à part entière chez ReasonLoom, non un contrôle de dernière étape. Nous construisons les évaluations en même temps que les systèmes qu’elles notent, de sorte que les mêmes chiffres qui figurent dans un article conditionnent aussi les mises en production. Le critère est « parierais-je sur ce résultat en production », et non « le modèle a-t-il bien performé en laboratoire ».
- jeu de prompts statique
- contrôle de dernière étape
- récompense l’aisance
- chiffres à graine unique mis en avant
- noté sur la trace, pas seulement sur la réponse
- conditionne les mises en production, pas seulement les articles
- récompense le raisonnement sous contraintes réelles
- multi-graines par défaut · graine unique signalée comme préliminaire
Quatre axes sur lesquels nous publions
Chaque axe est publié avec son code de notation et ses prompts. Le critère est la reproductibilité, non les scores affichés.
À quelle fréquence le modèle s’abstient lorsque les preuves sont minces, par rapport à la fréquence à laquelle il affabule.
Si les outils sont utilisés correctement, y compris le refus de les utiliser lorsqu’ils ne seraient pas utiles.
Dans quelle mesure un modèle se remet de ses propres erreurs au sein de la même tâche.
Les chiffres sont livrés avec leurs barres d’erreur.
Les chiffres à graine unique ne conditionnent pas les mises en production. Ils figurent en annexe comme préliminaires, étiquetés n=1.
Ce qui sort, et ce qui reste à l’intérieur.
La méthodologie, le code de notation, les prompts et les fiches de modèle sont publics. Les suites internes où l’évaluation elle-même constitue le facteur différenciant restent privées.
Comment nous les exécutons
Les tâches sont notées sur le résultat et sur la trace de raisonnement. Nous évaluons l’humilité factuelle, la fiabilité des outils et la récupération après erreur en parallèle de l’exactitude brute. Les exécutions multi-graines sont la norme ; les chiffres à graine unique sont signalés comme préliminaires.
Ce que nous publions
La méthodologie, le code de notation, les prompts et des fiches de modèle détaillées. L’objectif est que n’importe quelle équipe puisse reproduire le résultat, le contester et l’étendre à son propre domaine.