Note les coups selon qu’ils font avancer le raisonnement du participant, et non selon qu’ils sonnent intelligents.
Palestra
Un gymnase de débat et d'effort où humains et modèles s'entraînent au raisonnement sous évaluation en direct.
Un gymnase de débat et d’effort où humains et modèles s’entraînent au raisonnement sous évaluation en direct, et non sur un benchmark figé.
Un gymnase, pas un benchmark
Palestra est le gymnase cognitif que nous utilisons pour étudier la collaboration humain–IA. Il déroule des manches structurées — débats, exercices, exercices vocaux — avec des évaluateurs multi-têtes pour le coaching, la critique, l’effort et l’incitation socratique. C’est là que nous mesurons la qualité du raisonnement en conditions réelles, et non sur un benchmark figé.
- jeu de prompts figé
- note en un seul coup
- récompense l’aisance
- aucune réfutation autorisée
- adversaires en direct
- noté sur tout le tracé
- récompense le raisonnement qui survit à un véritable échange
- la sonde doit viser l’affirmation porteuse
Quatre têtes d’évaluation, un seul gymnase
Quatre têtes, notées indépendamment. Le score de la manche est le tracé, pas un seul chiffre.
Rôle adversarial qui sonde l’affirmation la plus faible de chaque manche.
Sépare l’effort du résultat afin que la qualité du raisonnement soit notée même lorsque la réponse se révèle chanceuse ou malchanceuse.
Pose la question suivante au lieu de donner la réponse suivante. Utile lorsque le gymnase sert à entraîner, et non à évaluer.
Six coups, quatre têtes, un tracé.
Les colonnes de score sont par tête et par coup. Le tracé est ce que le participant emporte.
Une manche dans laquelle on peut parler.
Audio en entrée, audio en sortie, de bout en bout. Le pipeline d’évaluation ne casse pas quand le médium change.
Quatre formats, un même pipeline.
argumentation structurée sous notation en direct
courtes répétitions sur un seul coup
audio en entrée / audio en sortie de bout en bout
pose la question suivante, ne donne jamais la réponse
La voix dans la boucle
Palestra dispose d’un mode vocal câblé à un chemin de reconnaissance et de synthèse vocale vérifié, de sorte que les exercices de débat en direct se déroulent de bout en bout sans casser le pipeline d’évaluation.
Pourquoi c’est important
Les benchmarks figés récompensent l’aisance. Le gymnase récompense le raisonnement qui survit à un véritable échange. Nous l’utilisons pour étudier comment des équipes d’humains et de modèles collaborent réellement, avec les têtes d’évaluation visibles des deux côtés.