Évaluations · multi-graines par défaut · noté sur la trace

Mesurer le raisonnement sous contraintes réelles

Nouvelles évaluations pour la planification, l'humilité factuelle, la fiabilité des outils et la résolution collaborative de problèmes.

Les benchmarks standards récompensent l’aisance. Nous évaluons le fond, et ces mêmes chiffres conditionnent les mises en production.

V1 planification V2 humilité V3 outils V4 récupération

Pourquoi les évaluations font partie du travail

Les benchmarks standards récompensent l’aisance. Nous évaluons le fond.

L’évaluation est une recherche à part entière chez ReasonLoom, non un contrôle de dernière étape. Nous construisons les évaluations en même temps que les systèmes qu’elles notent, de sorte que les mêmes chiffres qui figurent dans un article conditionnent aussi les mises en production. Le critère est « parierais-je sur ce résultat en production », et non « le modèle a-t-il bien performé en laboratoire ».

benchmark standard

jeu de prompts statique
contrôle de dernière étape
récompense l’aisance
chiffres à graine unique mis en avant

les évaluations comme recherche

noté sur la trace, pas seulement sur la réponse
conditionne les mises en production, pas seulement les articles
récompense le raisonnement sous contraintes réelles
multi-graines par défaut · graine unique signalée comme préliminaire

Ce que nous mesurons

Quatre axes sur lesquels nous publions

Chaque axe est publié avec son code de notation et ses prompts. Le critère est la reproductibilité, non les scores affichés.

V1 Planification à long horizon

Des tâches qui exigent des plans cohérents sur de nombreuses étapes, notées sur le résultat et sur la trace.

récompense: les plans qui tiennent sur de nombreuses étapes
pénalise: les plans qui paraissent cohérents mais s’effondrent à la troisième étape

V2 Humilité factuelle

À quelle fréquence le modèle s’abstient lorsque les preuves sont minces, par rapport à la fréquence à laquelle il affabule.

récompense: s’abstenir lorsque les preuves sont minces
pénalise: affabuler avec assurance

V3 Fiabilité des outils

Si les outils sont utilisés correctement, y compris le refus de les utiliser lorsqu’ils ne seraient pas utiles.

récompense: les outils utilisés correctement, ou correctement non utilisés
pénalise: les outils invoqués parce qu’ils étaient là

V4 Récupération

Dans quelle mesure un modèle se remet de ses propres erreurs au sein de la même tâche.

récompense: corriger sa propre erreur au sein de la même tâche
pénalise: repartir de zéro alors qu’un retour en arrière aurait suffi

Honnêteté multi-graines

Les chiffres sont livrés avec leurs barres d’erreur.

Les chiffres à graine unique ne conditionnent pas les mises en production. Ils figurent en annexe comme préliminaires, étiquetés n=1.

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release

V2 humility (correct defer) 0.84 ±0.03 n=5 gates release

V3 tool-use accuracy 0.81 ±0.05 n=5 gates release

V4 recovery within task 0.74 ±0.07 n=5 gates release

single-seed reasoning trace 0.72 n=1 preliminary

Surface de publication

Ce qui sort, et ce qui reste à l’intérieur.

La méthodologie, le code de notation, les prompts et les fiches de modèle sont publics. Les suites internes où l’évaluation elle-même constitue le facteur différenciant restent privées.

01 methodology public paper + repo

02 scoring code public apache 2.0

03 prompts public in evaluation suite

04 model cards public with limits + risks

05 private suites internal where the eval itself is differentiating

Comment nous les exécutons

Les tâches sont notées sur le résultat et sur la trace de raisonnement. Nous évaluons l’humilité factuelle, la fiabilité des outils et la récupération après erreur en parallèle de l’exactitude brute. Les exécutions multi-graines sont la norme ; les chiffres à graine unique sont signalés comme préliminaires.

Ce que nous publions

La méthodologie, le code de notation, les prompts et des fiches de modèle détaillées. L’objectif est que n’importe quelle équipe puisse reproduire le résultat, le contester et l’étendre à son propre domaine.

Des évaluations qui notent le fond et conditionnent les mises en production.

Toute la recherche Le gymnase du raisonnement

Loominum^™ 1.0

Des systèmes de qualité production

La famille Loominum

Solutions

En savoir plus

Les questions ouvertes que nous explorons

Outils de recherche

Domaines d'investigation

En savoir plus

Trouver les invariants sous-jacents

Outils scientifiques

Domaines

En savoir plus

Notre mission est de bâtir une intelligence vérifiable qui fait progresser la science et sert l'humanité.

L'entreprise

En savoir plus

Mesurer le raisonnement sous contraintes réelles

Les benchmarks standards récompensent l’aisance. Nous évaluons le fond.

Quatre axes sur lesquels nous publions

Les chiffres sont livrés avec leurs barres d’erreur.

Ce qui sort, et ce qui reste à l’intérieur.

Comment nous les exécutons

Ce que nous publions

Des évaluations qui notent le fond et conditionnent les mises en production.

Préférences relatives aux cookies

Strictement nécessaires