Evaluaciones · multi-semilla por defecto · evaluado sobre la traza

Medir el razonamiento bajo restricciones reales

Nuevas evaluaciones para planificación, humildad factual, fiabilidad de herramientas y resolución colaborativa de problemas.

Los benchmarks estándar premian la fluidez. Nosotros calificamos la sustancia, y esas mismas cifras condicionan los lanzamientos.

V1 planificación V2 humildad V3 herramienta V4 recuperación

Por qué las evaluaciones forman parte del trabajo

Los benchmarks estándar premian la fluidez. Nosotros calificamos la sustancia.

La evaluación es investigación en ReasonLoom, no una comprobación de etapa final. Construimos las evaluaciones junto a los sistemas que califican, de modo que las mismas cifras que aparecen en un artículo también condicionan las publicaciones. El listón es «apostaría por este resultado en producción», no «obtuvo el modelo una buena puntuación en el laboratorio».

benchmark estándar

conjunto estático de prompts
comprobación de etapa final
premia la fluidez
cifras de una sola semilla en titulares

evaluaciones como investigación

calificadas sobre la traza, no solo la respuesta
condicionan lanzamientos, no solo papers
premian el razonamiento bajo restricciones reales
multi-semilla por defecto · una sola semilla marcada como preliminar

Qué medimos

Cuatro ejes sobre los que publicamos

Cada eje se publica con su código de calificación y sus prompts. El listón es la reproducibilidad, no las cifras de titular.

V1 Planificación de horizonte largo

Tareas que requieren planes coherentes a lo largo de muchos pasos, calificadas según el resultado y según la traza.

premia: planes que sobreviven a lo largo de muchos pasos
penaliza: planes que parecen coherentes pero se desmoronan al tercer paso

V2 Humildad factual

Con qué frecuencia el modelo se abstiene cuando la evidencia es escasa, frente a con qué frecuencia confabula.

premia: abstenerse cuando la evidencia es escasa
penaliza: confabular con seguridad

V3 Fiabilidad de las herramientas

Si las herramientas se usan correctamente, incluyendo la negativa a usarlas cuando no ayudarían.

premia: herramientas usadas correctamente, o correctamente no usadas
penaliza: herramientas invocadas porque estaban ahí

V4 Recuperación

Con qué eficacia un modelo se recupera de sus propios errores dentro de la misma tarea.

premia: corregir su propio error dentro de la misma tarea
penaliza: empezar de cero cuando un paso atrás habría bastado

Honestidad multi-semilla

Las cifras se publican con sus barras de error.

Las cifras de una sola semilla no condicionan los lanzamientos. Aparecen en el apéndice como preliminares, etiquetadas como n=1.

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release

V2 humility (correct defer) 0.84 ±0.03 n=5 gates release

V3 tool-use accuracy 0.81 ±0.05 n=5 gates release

V4 recovery within task 0.74 ±0.07 n=5 gates release

single-seed reasoning trace 0.72 n=1 preliminary

Superficie de publicación

Lo que sale y lo que se queda dentro.

La metodología, el código de calificación, los prompts y las fichas de modelo son públicos. Las suites internas donde la propia evaluación es el diferencial permanecen privadas.

01 methodology public paper + repo

02 scoring code public apache 2.0

03 prompts public in evaluation suite

04 model cards public with limits + risks

05 private suites internal where the eval itself is differentiating

Cómo lo ejecutamos

Las tareas se califican según el resultado y según la traza de razonamiento. Puntuamos la humildad factual, la fiabilidad de las herramientas y la recuperación de errores junto a la precisión bruta. Las ejecuciones multi-semilla son lo predeterminado; las cifras de una sola semilla se marcan como preliminares.

Qué publicamos

Metodología, código de puntuación, prompts y tarjetas de modelo detalladas. El objetivo es que cualquier equipo pueda reproducir el resultado, cuestionarlo y extenderlo a su propio dominio.

Evaluaciones que califican la sustancia y condicionan los lanzamientos.

Toda la investigación El gimnasio del razonamiento

Loominum^™ 1.0

Sistemas de grado producción

La familia Loominum

Soluciones

Más información

Preguntas abiertas que estamos explorando

Herramientas de investigación

Áreas de investigación

Más información

Encontrando los invariantes subyacentes

Herramientas científicas

Disciplinas

Más información

Nuestra misión es construir inteligencia verificable que haga avanzar la ciencia y sirva a la humanidad.

Empresa

Más información

Medir el razonamiento bajo restricciones reales

Los benchmarks estándar premian la fluidez. Nosotros calificamos la sustancia.

Cuatro ejes sobre los que publicamos

Las cifras se publican con sus barras de error.

Lo que sale y lo que se queda dentro.

Cómo lo ejecutamos

Qué publicamos

Evaluaciones que califican la sustancia y condicionan los lanzamientos.

Preferencias de cookies

Estrictamente necesarias