Valuta le mosse in base a quanto fanno avanzare il ragionamento del partecipante, non a quanto suonano intelligenti.
Palestra
Una palestra di dibattito e impegno in cui umani e modelli si allenano al ragionamento sotto valutazione in tempo reale.
Una palestra di dibattito e impegno dove umani e modelli allenano il ragionamento sotto valutazione in tempo reale, non su un benchmark statico.
Una palestra, non un benchmark
Palestra è la palestra cognitiva che usiamo per studiare la collaborazione uomo-IA. Esegue round strutturati — dibattiti, drill, esercizi vocali — con valutatori multi-testa per coaching, critica, impegno e stimolo socratico. È dove misuriamo la qualità del ragionamento in condizioni dal vivo, non su un benchmark statico.
- set di prompt statico
- voto a colpo singolo
- premia la scioltezza
- nessuna replica ammessa
- avversari dal vivo
- valutata lungo l'intera traccia
- premia il ragionamento che sopravvive a uno scambio reale
- l'affondo deve colpire l'affermazione portante
Quattro teste di valutazione, una palestra
Quattro teste, valutate in modo indipendente. Il punteggio del round è la traccia, non un singolo numero.
Ruolo avversariale che sonda l'affermazione più debole di ogni round.
Separa l'impegno dal risultato, così la qualità del ragionamento viene valutata anche quando la risposta è fortunata o sfortunata per caso.
Pone la domanda successiva invece di dare la risposta successiva. Utile quando la palestra serve ad addestrare, non a valutare.
Sei mosse, quattro teste, una traccia.
Le colonne del punteggio sono per testa e per mossa. La traccia è ciò che il partecipante porta a casa.
Un round con cui puoi parlare.
Audio in ingresso, audio in uscita, end-to-end. La pipeline di valutazione non si rompe quando cambia il mezzo.
Quattro formati, stessa pipeline.
argomentazione strutturata sotto valutazione in tempo reale
ripetizioni brevi su una singola mossa
audio in ingresso / audio in uscita end-to-end
pone la domanda successiva, non dà mai la risposta
Voce nel loop
Palestra ha una modalità vocale collegata a un percorso verificato di speech-to-text e text-to-speech, così gli esercizi di dibattito dal vivo girano end-to-end senza rompere la pipeline di valutazione.
Perché conta
I benchmark statici premiano la scioltezza. La palestra premia il ragionamento che sopravvive a uno scambio reale. La usiamo per studiare come team di umani e modelli collaborano davvero, con le teste di valutazione visibili a entrambe le parti.