Valutazioni · multi-seed di default · valutato sulla traccia

Misurare il ragionamento in condizioni reali

Nuove valutazioni per la pianificazione, l'umilta fattuale, l'affidabilita degli strumenti e la risoluzione collaborativa dei problemi.

I benchmark standard premiano la fluidità. Noi valutiamo la sostanza, e gli stessi numeri regolano i rilasci.

V1 pianificazione V2 umiltà V3 strumenti V4 recupero
Perché le valutazioni fanno parte del lavoro

I benchmark standard premiano la fluidità. Noi valutiamo la sostanza.

La valutazione è ricerca in ReasonLoom, non una verifica dell'ultimo stadio. Costruiamo le valutazioni insieme ai sistemi che valutano, così gli stessi numeri che compaiono in un paper regolano anche i rilasci. Il criterio è «scommetterei su questo risultato in produzione», non «il modello ha ottenuto un buon punteggio in laboratorio».

benchmark standard
  • set di prompt statico
  • verifica dell'ultimo stadio
  • premia la fluidità
  • numeri single-seed messi in primo piano
valutazioni come ricerca
  • valutate sulla traccia, non solo sulla risposta
  • regolano i rilasci, non solo i paper
  • premiano il ragionamento sotto vincoli reali
  • multi-seed di default · single-seed segnalato come preliminare
Cosa misuriamo

Quattro assi su cui pubblichiamo

Ogni asse è pubblicato con il suo codice di valutazione e i suoi prompt. Il criterio è la riproducibilità, non i punteggi da titolo.

V1 Pianificazione a lungo orizzonte

Compiti che richiedono piani coerenti lungo molti passi, valutati sull'esito e sulla traccia.

premia
piani che reggono lungo molti passi
penalizza
piani che sembrano coerenti ma crollano al terzo passo
V2 Umiltà fattuale

Quanto spesso il modello rinvia quando le prove sono scarse, rispetto a quanto spesso confabula.

premia
il rinviare quando le prove sono scarse
penalizza
il confabulare con sicurezza
V3 Affidabilità degli strumenti

Se gli strumenti vengono usati correttamente, incluso il rifiuto di usarli quando non sarebbero d'aiuto.

premia
strumenti usati correttamente, o correttamente non usati
penalizza
strumenti invocati perché erano lì
V4 Recupero

Quanto bene un modello recupera dai propri errori all'interno dello stesso compito.

premia
correggere il proprio errore all'interno dello stesso compito
penalizza
ripartire da zero quando un passo indietro sarebbe bastato
Onestà multi-seed

I numeri vengono pubblicati con le loro barre di errore.

I numeri single-seed non regolano i rilasci. Compaiono in appendice come preliminari, etichettati n=1.

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release
V2 humility (correct defer) 0.84 ±0.03 n=5 gates release
V3 tool-use accuracy 0.81 ±0.05 n=5 gates release
V4 recovery within task 0.74 ±0.07 n=5 gates release
single-seed reasoning trace 0.72 n=1 preliminary
Superficie di pubblicazione

Cosa esce, e cosa resta dentro.

Metodologia, codice di valutazione, prompt e model card sono pubblici. Le suite interne in cui la valutazione stessa è l'elemento differenziante restano private.

01 methodology public paper + repo
02 scoring code public apache 2.0
03 prompts public in evaluation suite
04 model cards public with limits + risks
05 private suites internal where the eval itself is differentiating
01

Come la eseguiamo

I compiti sono valutati sull'esito e sulla traccia di ragionamento. Misuriamo l'umiltà fattuale, l'affidabilità degli strumenti e il recupero dagli errori insieme all'accuratezza grezza. Le esecuzioni multi-seed sono il default; i numeri single-seed sono segnalati come preliminari.

02

Cosa pubblichiamo

Metodologia, codice di valutazione, prompt e model card dettagliate. L'obiettivo è che qualsiasi team possa riprodurre il risultato, contestarlo ed estenderlo al proprio dominio.

Valutazioni che misurano la sostanza e regolano i rilasci.