Valutazioni · multi-seed di default · valutato sulla traccia

Misurare il ragionamento in condizioni reali

Nuove valutazioni per la pianificazione, l'umilta fattuale, l'affidabilita degli strumenti e la risoluzione collaborativa dei problemi.

I benchmark standard premiano la fluidità. Noi valutiamo la sostanza, e gli stessi numeri regolano i rilasci.

V1 pianificazione V2 umiltà V3 strumenti V4 recupero

Perché le valutazioni fanno parte del lavoro

I benchmark standard premiano la fluidità. Noi valutiamo la sostanza.

La valutazione è ricerca in ReasonLoom, non una verifica dell'ultimo stadio. Costruiamo le valutazioni insieme ai sistemi che valutano, così gli stessi numeri che compaiono in un paper regolano anche i rilasci. Il criterio è «scommetterei su questo risultato in produzione», non «il modello ha ottenuto un buon punteggio in laboratorio».

benchmark standard

set di prompt statico
verifica dell'ultimo stadio
premia la fluidità
numeri single-seed messi in primo piano

valutazioni come ricerca

valutate sulla traccia, non solo sulla risposta
regolano i rilasci, non solo i paper
premiano il ragionamento sotto vincoli reali
multi-seed di default · single-seed segnalato come preliminare

Cosa misuriamo

Quattro assi su cui pubblichiamo

Ogni asse è pubblicato con il suo codice di valutazione e i suoi prompt. Il criterio è la riproducibilità, non i punteggi da titolo.

V1 Pianificazione a lungo orizzonte

Compiti che richiedono piani coerenti lungo molti passi, valutati sull'esito e sulla traccia.

premia: piani che reggono lungo molti passi
penalizza: piani che sembrano coerenti ma crollano al terzo passo

V2 Umiltà fattuale

Quanto spesso il modello rinvia quando le prove sono scarse, rispetto a quanto spesso confabula.

premia: il rinviare quando le prove sono scarse
penalizza: il confabulare con sicurezza

V3 Affidabilità degli strumenti

Se gli strumenti vengono usati correttamente, incluso il rifiuto di usarli quando non sarebbero d'aiuto.

premia: strumenti usati correttamente, o correttamente non usati
penalizza: strumenti invocati perché erano lì

V4 Recupero

Quanto bene un modello recupera dai propri errori all'interno dello stesso compito.

premia: correggere il proprio errore all'interno dello stesso compito
penalizza: ripartire da zero quando un passo indietro sarebbe bastato

Onestà multi-seed

I numeri vengono pubblicati con le loro barre di errore.

I numeri single-seed non regolano i rilasci. Compaiono in appendice come preliminari, etichettati n=1.

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release

V2 humility (correct defer) 0.84 ±0.03 n=5 gates release

V3 tool-use accuracy 0.81 ±0.05 n=5 gates release

V4 recovery within task 0.74 ±0.07 n=5 gates release

single-seed reasoning trace 0.72 n=1 preliminary

Superficie di pubblicazione

Cosa esce, e cosa resta dentro.

Metodologia, codice di valutazione, prompt e model card sono pubblici. Le suite interne in cui la valutazione stessa è l'elemento differenziante restano private.

01 methodology public paper + repo

02 scoring code public apache 2.0

03 prompts public in evaluation suite

04 model cards public with limits + risks

05 private suites internal where the eval itself is differentiating

Come la eseguiamo

I compiti sono valutati sull'esito e sulla traccia di ragionamento. Misuriamo l'umiltà fattuale, l'affidabilità degli strumenti e il recupero dagli errori insieme all'accuratezza grezza. Le esecuzioni multi-seed sono il default; i numeri single-seed sono segnalati come preliminari.

Cosa pubblichiamo

Metodologia, codice di valutazione, prompt e model card dettagliate. L'obiettivo è che qualsiasi team possa riprodurre il risultato, contestarlo ed estenderlo al proprio dominio.

Valutazioni che misurano la sostanza e regolano i rilasci.

Tutta la ricerca La palestra del ragionamento

Loominum^™ 1.0

Sistemi di livello produzione

La famiglia Loominum

Soluzioni

Scopri di più

Domande aperte su cui stiamo lavorando

Strumenti di ricerca

Aree di indagine

Scopri di più

Trovare gli invarianti sottostanti

Strumenti scientifici

Discipline

Scopri di più

La nostra missione è costruire un'intelligenza verificabile che faccia progredire la scienza e sia al servizio dell'umanità.

Azienda

Scopri di più

Misurare il ragionamento in condizioni reali

I benchmark standard premiano la fluidità. Noi valutiamo la sostanza.

Quattro assi su cui pubblichiamo

I numeri vengono pubblicati con le loro barre di errore.

Cosa esce, e cosa resta dentro.

Come la eseguiamo

Cosa pubblichiamo

Valutazioni che misurano la sostanza e regolano i rilasci.

Preferenze sui cookie

Strettamente necessari