Strumenti di ricerca · round dal vivo · 4 teste

Palestra

Una palestra di dibattito e impegno in cui umani e modelli si allenano al ragionamento sotto valutazione in tempo reale.

Una palestra di dibattito e impegno dove umani e modelli allenano il ragionamento sotto valutazione in tempo reale, non su un benchmark statico.

formato dibattito · drill · voce · socratico
valutatori coach · critico · impegno · socratico
loop vocale whisper large-v3 → kokoro v1
Cos'è Palestra

Una palestra, non un benchmark

Palestra è la palestra cognitiva che usiamo per studiare la collaborazione uomo-IA. Esegue round strutturati — dibattiti, drill, esercizi vocali — con valutatori multi-testa per coaching, critica, impegno e stimolo socratico. È dove misuriamo la qualità del ragionamento in condizioni dal vivo, non su un benchmark statico.

benchmark
  • set di prompt statico
  • voto a colpo singolo
  • premia la scioltezza
  • nessuna replica ammessa
palestra
  • avversari dal vivo
  • valutata lungo l'intera traccia
  • premia il ragionamento che sopravvive a uno scambio reale
  • l'affondo deve colpire l'affermazione portante
Come funziona

Quattro teste di valutazione, una palestra

Quattro teste, valutate in modo indipendente. Il punteggio del round è la traccia, non un singolo numero.

P1 Coach

Valuta le mosse in base a quanto fanno avanzare il ragionamento del partecipante, non a quanto suonano intelligenti.

premia
le mosse che fanno avanzare il ragionamento
penalizza
le mosse che suonano intelligenti ma non portano da nessuna parte
P2 Critico

Ruolo avversariale che sonda l'affermazione più debole di ogni round.

premia
la pressione sull'affermazione più debole
penalizza
la pressione generica che manca l'affermazione portante
P3 Modello di ricompensa dell'impegno

Separa l'impegno dal risultato, così la qualità del ragionamento viene valutata anche quando la risposta è fortunata o sfortunata per caso.

premia
la qualità del ragionamento a prescindere dalla fortuna
penalizza
il pensiero orientato solo al risultato — scorciatoie fortunate
P4 Socratico

Pone la domanda successiva invece di dare la risposta successiva. Utile quando la palestra serve ad addestrare, non a valutare.

premia
porre la domanda successiva invece di rispondere
penalizza
chiudere il round prematuramente
Anatomia di un round

Sei mosse, quattro teste, una traccia.

Le colonne del punteggio sono per testa e per mossa. La traccia è ciò che il partecipante porta a casa.

# chi mossa P1 P2 P3 P4
01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66
02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?
03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74
04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71
05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82
06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?
Voce nel loop

Un round con cui puoi parlare.

Audio in ingresso, audio in uscita, end-to-end. La pipeline di valutazione non si rompe quando cambia il mezzo.

01
mic
16 kHz capture
+0 ms
02
whisper L3
faster-whisper large-v3
+120 ms
03
evaluator
4-head scoring
+280 ms
04
response
reasoning trace
+720 ms
05
kokoro v1
speech synthesis
+920 ms
andata e ritorno verificati · STT e TTS girano senza rompere la pipeline a 4 teste
Modalità della palestra

Quattro formati, stessa pipeline.

Dibattito
round 2 vs 2
teste P1·P2·P3

argomentazione strutturata sotto valutazione in tempo reale

Drill
round 1 vs RM
teste P1·P3

ripetizioni brevi su una singola mossa

Voce
round dal vivo
teste P1·P2·P3·P4

audio in ingresso / audio in uscita end-to-end

Socratico
round addestramento
teste P4

pone la domanda successiva, non dà mai la risposta

01

Voce nel loop

Palestra ha una modalità vocale collegata a un percorso verificato di speech-to-text e text-to-speech, così gli esercizi di dibattito dal vivo girano end-to-end senza rompere la pipeline di valutazione.

02

Perché conta

I benchmark statici premiano la scioltezza. La palestra premia il ragionamento che sopravvive a uno scambio reale. La usiamo per studiare come team di umani e modelli collaborano davvero, con le teste di valutazione visibili a entrambe le parti.

Una palestra per un ragionamento che sopravvive a uno scambio reale.