Compiti che richiedono piani coerenti lungo molti passi, valutati sull'esito e sulla traccia.
Misurare il ragionamento in condizioni reali
Nuove valutazioni per la pianificazione, l'umilta fattuale, l'affidabilita degli strumenti e la risoluzione collaborativa dei problemi.
I benchmark standard premiano la fluidità. Noi valutiamo la sostanza, e gli stessi numeri regolano i rilasci.
I benchmark standard premiano la fluidità. Noi valutiamo la sostanza.
La valutazione è ricerca in ReasonLoom, non una verifica dell'ultimo stadio. Costruiamo le valutazioni insieme ai sistemi che valutano, così gli stessi numeri che compaiono in un paper regolano anche i rilasci. Il criterio è «scommetterei su questo risultato in produzione», non «il modello ha ottenuto un buon punteggio in laboratorio».
- set di prompt statico
- verifica dell'ultimo stadio
- premia la fluidità
- numeri single-seed messi in primo piano
- valutate sulla traccia, non solo sulla risposta
- regolano i rilasci, non solo i paper
- premiano il ragionamento sotto vincoli reali
- multi-seed di default · single-seed segnalato come preliminare
Quattro assi su cui pubblichiamo
Ogni asse è pubblicato con il suo codice di valutazione e i suoi prompt. Il criterio è la riproducibilità, non i punteggi da titolo.
Quanto spesso il modello rinvia quando le prove sono scarse, rispetto a quanto spesso confabula.
Se gli strumenti vengono usati correttamente, incluso il rifiuto di usarli quando non sarebbero d'aiuto.
Quanto bene un modello recupera dai propri errori all'interno dello stesso compito.
I numeri vengono pubblicati con le loro barre di errore.
I numeri single-seed non regolano i rilasci. Compaiono in appendice come preliminari, etichettati n=1.
Cosa esce, e cosa resta dentro.
Metodologia, codice di valutazione, prompt e model card sono pubblici. Le suite interne in cui la valutazione stessa è l'elemento differenziante restano private.
Come la eseguiamo
I compiti sono valutati sull'esito e sulla traccia di ragionamento. Misuriamo l'umiltà fattuale, l'affidabilità degli strumenti e il recupero dagli errori insieme all'accuratezza grezza. Le esecuzioni multi-seed sono il default; i numeri single-seed sono segnalati come preliminari.
Cosa pubblichiamo
Metodologia, codice di valutazione, prompt e model card dettagliate. L'obiettivo è che qualsiasi team possa riprodurre il risultato, contestarlo ed estenderlo al proprio dominio.