Outils de recherche · manche en direct · 4 têtes

Palestra

Un gymnase de débat et d'effort où humains et modèles s'entraînent au raisonnement sous évaluation en direct.

Un gymnase de débat et d’effort où humains et modèles s’entraînent au raisonnement sous évaluation en direct, et non sur un benchmark figé.

format débat · exercice · voix · socratique

évaluateurs coach · critique · effort · socratique

boucle vocale whisper large-v3 → kokoro v1

round · #2046 live

participant A claim

participant B probe

P1 Coach

P2 Critic

P3 Effort RM

P4 Socratic

01 A Opening claim: X causes Y under conditions C. 0.72

02 B Counter: prior P shows Y occurs without X. 0.81

03 A Refines: only under C₁ does the causal link hold. 0.78

04 B Probes the weakest claim: define C₁ operationally. 0.65

Ce qu’est Palestra

Un gymnase, pas un benchmark

Palestra est le gymnase cognitif que nous utilisons pour étudier la collaboration humain–IA. Il déroule des manches structurées — débats, exercices, exercices vocaux — avec des évaluateurs multi-têtes pour le coaching, la critique, l’effort et l’incitation socratique. C’est là que nous mesurons la qualité du raisonnement en conditions réelles, et non sur un benchmark figé.

benchmark

jeu de prompts figé
note en un seul coup
récompense l’aisance
aucune réfutation autorisée

gymnase

adversaires en direct
noté sur tout le tracé
récompense le raisonnement qui survit à un véritable échange
la sonde doit viser l’affirmation porteuse

Comment ça marche

Quatre têtes d’évaluation, un seul gymnase

Quatre têtes, notées indépendamment. Le score de la manche est le tracé, pas un seul chiffre.

P1 Coach

Note les coups selon qu’ils font avancer le raisonnement du participant, et non selon qu’ils sonnent intelligents.

récompense: les coups qui font avancer le raisonnement
pénalise: les coups qui sonnent intelligents mais ne mènent nulle part

P2 Critique

Rôle adversarial qui sonde l’affirmation la plus faible de chaque manche.

récompense: la pression sur l’affirmation la plus faible
pénalise: la pression diffuse qui manque l’affirmation porteuse

P3 Modèle de récompense de l’effort

Sépare l’effort du résultat afin que la qualité du raisonnement soit notée même lorsque la réponse se révèle chanceuse ou malchanceuse.

récompense: la qualité du raisonnement indépendamment de la chance
pénalise: la pensée axée sur le seul résultat — les raccourcis chanceux

P4 Socratique

Pose la question suivante au lieu de donner la réponse suivante. Utile lorsque le gymnase sert à entraîner, et non à évaluer.

récompense: poser la question suivante au lieu de répondre
pénalise: clore la manche prématurément

Anatomie d’une manche

Six coups, quatre têtes, un tracé.

Les colonnes de score sont par tête et par coup. Le tracé est ce que le participant emporte.

# qui coup P1 P2 P3 P4

01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66 –

02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?

03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74 –

04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71 –

05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82 –

06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?

La voix dans la boucle

Une manche dans laquelle on peut parler.

Audio en entrée, audio en sortie, de bout en bout. Le pipeline d’évaluation ne casse pas quand le médium change.

mic

16 kHz capture

+0 ms

whisper L3

faster-whisper large-v3

+120 ms

evaluator

4-head scoring

+280 ms

response

reasoning trace

+720 ms

kokoro v1

speech synthesis

+920 ms

aller-retour vérifié · la reconnaissance et la synthèse vocale fonctionnent sans casser le pipeline à 4 têtes

Modes du gymnase

Quatre formats, un même pipeline.

Débat

manches 2 contre 2

têtes P1·P2·P3

argumentation structurée sous notation en direct

Exercice

manches 1 contre RM

têtes P1·P3

courtes répétitions sur un seul coup

Voix

manches en direct

têtes P1·P2·P3·P4

audio en entrée / audio en sortie de bout en bout

Socratique

manches entraînement

têtes P4

pose la question suivante, ne donne jamais la réponse

La voix dans la boucle

Palestra dispose d’un mode vocal câblé à un chemin de reconnaissance et de synthèse vocale vérifié, de sorte que les exercices de débat en direct se déroulent de bout en bout sans casser le pipeline d’évaluation.

Pourquoi c’est important

Les benchmarks figés récompensent l’aisance. Le gymnase récompense le raisonnement qui survit à un véritable échange. Nous l’utilisons pour étudier comment des équipes d’humains et de modèles collaborent réellement, avec les têtes d’évaluation visibles des deux côtés.

Un gymnase pour le raisonnement qui survit à un véritable échange.

Toute la recherche Approche des évaluations

Loominum^™ 1.0

Des systèmes de qualité production

La famille Loominum

Solutions

En savoir plus

Les questions ouvertes que nous explorons

Outils de recherche

Domaines d'investigation

En savoir plus

Trouver les invariants sous-jacents

Outils scientifiques

Domaines

En savoir plus

Notre mission est de bâtir une intelligence vérifiable qui fait progresser la science et sert l'humanité.

L'entreprise

En savoir plus

Palestra

Un gymnase, pas un benchmark

Quatre têtes d’évaluation, un seul gymnase

Six coups, quatre têtes, un tracé.

Une manche dans laquelle on peut parler.

Quatre formats, un même pipeline.

La voix dans la boucle

Pourquoi c’est important

Un gymnase pour le raisonnement qui survit à un véritable échange.

Préférences relatives aux cookies

Strictement nécessaires