Outils de recherche · manche en direct · 4 têtes

Palestra

Un gymnase de débat et d'effort où humains et modèles s'entraînent au raisonnement sous évaluation en direct.

Un gymnase de débat et d’effort où humains et modèles s’entraînent au raisonnement sous évaluation en direct, et non sur un benchmark figé.

format débat · exercice · voix · socratique
évaluateurs coach · critique · effort · socratique
boucle vocale whisper large-v3 → kokoro v1
Ce qu’est Palestra

Un gymnase, pas un benchmark

Palestra est le gymnase cognitif que nous utilisons pour étudier la collaboration humain–IA. Il déroule des manches structurées — débats, exercices, exercices vocaux — avec des évaluateurs multi-têtes pour le coaching, la critique, l’effort et l’incitation socratique. C’est là que nous mesurons la qualité du raisonnement en conditions réelles, et non sur un benchmark figé.

benchmark
  • jeu de prompts figé
  • note en un seul coup
  • récompense l’aisance
  • aucune réfutation autorisée
gymnase
  • adversaires en direct
  • noté sur tout le tracé
  • récompense le raisonnement qui survit à un véritable échange
  • la sonde doit viser l’affirmation porteuse
Comment ça marche

Quatre têtes d’évaluation, un seul gymnase

Quatre têtes, notées indépendamment. Le score de la manche est le tracé, pas un seul chiffre.

P1 Coach

Note les coups selon qu’ils font avancer le raisonnement du participant, et non selon qu’ils sonnent intelligents.

récompense
les coups qui font avancer le raisonnement
pénalise
les coups qui sonnent intelligents mais ne mènent nulle part
P2 Critique

Rôle adversarial qui sonde l’affirmation la plus faible de chaque manche.

récompense
la pression sur l’affirmation la plus faible
pénalise
la pression diffuse qui manque l’affirmation porteuse
P3 Modèle de récompense de l’effort

Sépare l’effort du résultat afin que la qualité du raisonnement soit notée même lorsque la réponse se révèle chanceuse ou malchanceuse.

récompense
la qualité du raisonnement indépendamment de la chance
pénalise
la pensée axée sur le seul résultat — les raccourcis chanceux
P4 Socratique

Pose la question suivante au lieu de donner la réponse suivante. Utile lorsque le gymnase sert à entraîner, et non à évaluer.

récompense
poser la question suivante au lieu de répondre
pénalise
clore la manche prématurément
Anatomie d’une manche

Six coups, quatre têtes, un tracé.

Les colonnes de score sont par tête et par coup. Le tracé est ce que le participant emporte.

# qui coup P1 P2 P3 P4
01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66
02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?
03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74
04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71
05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82
06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?
La voix dans la boucle

Une manche dans laquelle on peut parler.

Audio en entrée, audio en sortie, de bout en bout. Le pipeline d’évaluation ne casse pas quand le médium change.

01
mic
16 kHz capture
+0 ms
02
whisper L3
faster-whisper large-v3
+120 ms
03
evaluator
4-head scoring
+280 ms
04
response
reasoning trace
+720 ms
05
kokoro v1
speech synthesis
+920 ms
aller-retour vérifié · la reconnaissance et la synthèse vocale fonctionnent sans casser le pipeline à 4 têtes
Modes du gymnase

Quatre formats, un même pipeline.

Débat
manches 2 contre 2
têtes P1·P2·P3

argumentation structurée sous notation en direct

Exercice
manches 1 contre RM
têtes P1·P3

courtes répétitions sur un seul coup

Voix
manches en direct
têtes P1·P2·P3·P4

audio en entrée / audio en sortie de bout en bout

Socratique
manches entraînement
têtes P4

pose la question suivante, ne donne jamais la réponse

01

La voix dans la boucle

Palestra dispose d’un mode vocal câblé à un chemin de reconnaissance et de synthèse vocale vérifié, de sorte que les exercices de débat en direct se déroulent de bout en bout sans casser le pipeline d’évaluation.

02

Pourquoi c’est important

Les benchmarks figés récompensent l’aisance. Le gymnase récompense le raisonnement qui survit à un véritable échange. Nous l’utilisons pour étudier comment des équipes d’humains et de modèles collaborent réellement, avec les têtes d’évaluation visibles des deux côtés.

Un gymnase pour le raisonnement qui survit à un véritable échange.