Tareas que requieren planes coherentes a lo largo de muchos pasos, calificadas según el resultado y según la traza.
Medir el razonamiento bajo restricciones reales
Nuevas evaluaciones para planificación, humildad factual, fiabilidad de herramientas y resolución colaborativa de problemas.
Los benchmarks estándar premian la fluidez. Nosotros calificamos la sustancia, y esas mismas cifras condicionan los lanzamientos.
Los benchmarks estándar premian la fluidez. Nosotros calificamos la sustancia.
La evaluación es investigación en ReasonLoom, no una comprobación de etapa final. Construimos las evaluaciones junto a los sistemas que califican, de modo que las mismas cifras que aparecen en un artículo también condicionan las publicaciones. El listón es «apostaría por este resultado en producción», no «obtuvo el modelo una buena puntuación en el laboratorio».
- conjunto estático de prompts
- comprobación de etapa final
- premia la fluidez
- cifras de una sola semilla en titulares
- calificadas sobre la traza, no solo la respuesta
- condicionan lanzamientos, no solo papers
- premian el razonamiento bajo restricciones reales
- multi-semilla por defecto · una sola semilla marcada como preliminar
Cuatro ejes sobre los que publicamos
Cada eje se publica con su código de calificación y sus prompts. El listón es la reproducibilidad, no las cifras de titular.
Con qué frecuencia el modelo se abstiene cuando la evidencia es escasa, frente a con qué frecuencia confabula.
Si las herramientas se usan correctamente, incluyendo la negativa a usarlas cuando no ayudarían.
Con qué eficacia un modelo se recupera de sus propios errores dentro de la misma tarea.
Las cifras se publican con sus barras de error.
Las cifras de una sola semilla no condicionan los lanzamientos. Aparecen en el apéndice como preliminares, etiquetadas como n=1.
Lo que sale y lo que se queda dentro.
La metodología, el código de calificación, los prompts y las fichas de modelo son públicos. Las suites internas donde la propia evaluación es el diferencial permanecen privadas.
Cómo lo ejecutamos
Las tareas se califican según el resultado y según la traza de razonamiento. Puntuamos la humildad factual, la fiabilidad de las herramientas y la recuperación de errores junto a la precisión bruta. Las ejecuciones multi-semilla son lo predeterminado; las cifras de una sola semilla se marcan como preliminares.
Qué publicamos
Metodología, código de puntuación, prompts y tarjetas de modelo detalladas. El objetivo es que cualquier equipo pueda reproducir el resultado, cuestionarlo y extenderlo a su propio dominio.