Strumenti di ricerca · round dal vivo · 4 teste

Palestra

Una palestra di dibattito e impegno in cui umani e modelli si allenano al ragionamento sotto valutazione in tempo reale.

Una palestra di dibattito e impegno dove umani e modelli allenano il ragionamento sotto valutazione in tempo reale, non su un benchmark statico.

formato dibattito · drill · voce · socratico

valutatori coach · critico · impegno · socratico

loop vocale whisper large-v3 → kokoro v1

round · #2046 live

participant A claim

participant B probe

P1 Coach

P2 Critic

P3 Effort RM

P4 Socratic

01 A Opening claim: X causes Y under conditions C. 0.72

02 B Counter: prior P shows Y occurs without X. 0.81

03 A Refines: only under C₁ does the causal link hold. 0.78

04 B Probes the weakest claim: define C₁ operationally. 0.65

Cos'è Palestra

Una palestra, non un benchmark

Palestra è la palestra cognitiva che usiamo per studiare la collaborazione uomo-IA. Esegue round strutturati — dibattiti, drill, esercizi vocali — con valutatori multi-testa per coaching, critica, impegno e stimolo socratico. È dove misuriamo la qualità del ragionamento in condizioni dal vivo, non su un benchmark statico.

benchmark

set di prompt statico
voto a colpo singolo
premia la scioltezza
nessuna replica ammessa

palestra

avversari dal vivo
valutata lungo l'intera traccia
premia il ragionamento che sopravvive a uno scambio reale
l'affondo deve colpire l'affermazione portante

Come funziona

Quattro teste di valutazione, una palestra

Quattro teste, valutate in modo indipendente. Il punteggio del round è la traccia, non un singolo numero.

P1 Coach

Valuta le mosse in base a quanto fanno avanzare il ragionamento del partecipante, non a quanto suonano intelligenti.

premia: le mosse che fanno avanzare il ragionamento
penalizza: le mosse che suonano intelligenti ma non portano da nessuna parte

P2 Critico

Ruolo avversariale che sonda l'affermazione più debole di ogni round.

premia: la pressione sull'affermazione più debole
penalizza: la pressione generica che manca l'affermazione portante

P3 Modello di ricompensa dell'impegno

Separa l'impegno dal risultato, così la qualità del ragionamento viene valutata anche quando la risposta è fortunata o sfortunata per caso.

premia: la qualità del ragionamento a prescindere dalla fortuna
penalizza: il pensiero orientato solo al risultato — scorciatoie fortunate

P4 Socratico

Pone la domanda successiva invece di dare la risposta successiva. Utile quando la palestra serve ad addestrare, non a valutare.

premia: porre la domanda successiva invece di rispondere
penalizza: chiudere il round prematuramente

Anatomia di un round

Sei mosse, quattro teste, una traccia.

Le colonne del punteggio sono per testa e per mossa. La traccia è ciò che il partecipante porta a casa.

# chi mossa P1 P2 P3 P4

01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66 –

02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?

03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74 –

04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71 –

05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82 –

06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?

Voce nel loop

Un round con cui puoi parlare.

Audio in ingresso, audio in uscita, end-to-end. La pipeline di valutazione non si rompe quando cambia il mezzo.

mic

16 kHz capture

+0 ms

whisper L3

faster-whisper large-v3

+120 ms

evaluator

4-head scoring

+280 ms

response

reasoning trace

+720 ms

kokoro v1

speech synthesis

+920 ms

andata e ritorno verificati · STT e TTS girano senza rompere la pipeline a 4 teste

Modalità della palestra

Quattro formati, stessa pipeline.

Dibattito

round 2 vs 2

teste P1·P2·P3

argomentazione strutturata sotto valutazione in tempo reale

Drill

round 1 vs RM

teste P1·P3

ripetizioni brevi su una singola mossa

Voce

round dal vivo

teste P1·P2·P3·P4

audio in ingresso / audio in uscita end-to-end

Socratico

round addestramento

teste P4

pone la domanda successiva, non dà mai la risposta

Voce nel loop

Palestra ha una modalità vocale collegata a un percorso verificato di speech-to-text e text-to-speech, così gli esercizi di dibattito dal vivo girano end-to-end senza rompere la pipeline di valutazione.

Perché conta

I benchmark statici premiano la scioltezza. La palestra premia il ragionamento che sopravvive a uno scambio reale. La usiamo per studiare come team di umani e modelli collaborano davvero, con le teste di valutazione visibili a entrambe le parti.

Una palestra per un ragionamento che sopravvive a uno scambio reale.

Tutta la ricerca Approccio agli eval

Loominum^™ 1.0

Sistemi di livello produzione

La famiglia Loominum

Soluzioni

Scopri di più

Domande aperte su cui stiamo lavorando

Strumenti di ricerca

Aree di indagine

Scopri di più

Trovare gli invarianti sottostanti

Strumenti scientifici

Discipline

Scopri di più

La nostra missione è costruire un'intelligenza verificabile che faccia progredire la scienza e sia al servizio dell'umanità.

Azienda

Scopri di più

Palestra

Una palestra, non un benchmark

Quattro teste di valutazione, una palestra

Sei mosse, quattro teste, una traccia.

Un round con cui puoi parlare.

Quattro formati, stessa pipeline.

Voce nel loop

Perché conta

Una palestra per un ragionamento che sopravvive a uno scambio reale.

Preferenze sui cookie

Strettamente necessari