Evaluaciones · multi-semilla por defecto · evaluado sobre la traza

Medir el razonamiento bajo restricciones reales

Nuevas evaluaciones para planificación, humildad factual, fiabilidad de herramientas y resolución colaborativa de problemas.

Los benchmarks estándar premian la fluidez. Nosotros calificamos la sustancia, y esas mismas cifras condicionan los lanzamientos.

V1 planificación V2 humildad V3 herramienta V4 recuperación
Por qué las evaluaciones forman parte del trabajo

Los benchmarks estándar premian la fluidez. Nosotros calificamos la sustancia.

La evaluación es investigación en ReasonLoom, no una comprobación de etapa final. Construimos las evaluaciones junto a los sistemas que califican, de modo que las mismas cifras que aparecen en un artículo también condicionan las publicaciones. El listón es «apostaría por este resultado en producción», no «obtuvo el modelo una buena puntuación en el laboratorio».

benchmark estándar
  • conjunto estático de prompts
  • comprobación de etapa final
  • premia la fluidez
  • cifras de una sola semilla en titulares
evaluaciones como investigación
  • calificadas sobre la traza, no solo la respuesta
  • condicionan lanzamientos, no solo papers
  • premian el razonamiento bajo restricciones reales
  • multi-semilla por defecto · una sola semilla marcada como preliminar
Qué medimos

Cuatro ejes sobre los que publicamos

Cada eje se publica con su código de calificación y sus prompts. El listón es la reproducibilidad, no las cifras de titular.

V1 Planificación de horizonte largo

Tareas que requieren planes coherentes a lo largo de muchos pasos, calificadas según el resultado y según la traza.

premia
planes que sobreviven a lo largo de muchos pasos
penaliza
planes que parecen coherentes pero se desmoronan al tercer paso
V2 Humildad factual

Con qué frecuencia el modelo se abstiene cuando la evidencia es escasa, frente a con qué frecuencia confabula.

premia
abstenerse cuando la evidencia es escasa
penaliza
confabular con seguridad
V3 Fiabilidad de las herramientas

Si las herramientas se usan correctamente, incluyendo la negativa a usarlas cuando no ayudarían.

premia
herramientas usadas correctamente, o correctamente no usadas
penaliza
herramientas invocadas porque estaban ahí
V4 Recuperación

Con qué eficacia un modelo se recupera de sus propios errores dentro de la misma tarea.

premia
corregir su propio error dentro de la misma tarea
penaliza
empezar de cero cuando un paso atrás habría bastado
Honestidad multi-semilla

Las cifras se publican con sus barras de error.

Las cifras de una sola semilla no condicionan los lanzamientos. Aparecen en el apéndice como preliminares, etiquetadas como n=1.

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release
V2 humility (correct defer) 0.84 ±0.03 n=5 gates release
V3 tool-use accuracy 0.81 ±0.05 n=5 gates release
V4 recovery within task 0.74 ±0.07 n=5 gates release
single-seed reasoning trace 0.72 n=1 preliminary
Superficie de publicación

Lo que sale y lo que se queda dentro.

La metodología, el código de calificación, los prompts y las fichas de modelo son públicos. Las suites internas donde la propia evaluación es el diferencial permanecen privadas.

01 methodology public paper + repo
02 scoring code public apache 2.0
03 prompts public in evaluation suite
04 model cards public with limits + risks
05 private suites internal where the eval itself is differentiating
01

Cómo lo ejecutamos

Las tareas se califican según el resultado y según la traza de razonamiento. Puntuamos la humildad factual, la fiabilidad de las herramientas y la recuperación de errores junto a la precisión bruta. Las ejecuciones multi-semilla son lo predeterminado; las cifras de una sola semilla se marcan como preliminares.

02

Qué publicamos

Metodología, código de puntuación, prompts y tarjetas de modelo detalladas. El objetivo es que cualquier equipo pueda reproducir el resultado, cuestionarlo y extenderlo a su propio dominio.

Evaluaciones que califican la sustancia y condicionan los lanzamientos.