Forschungswerkzeuge · Live-Runde · 4 Köpfe

Palestra

Ein Debatten- und Anstrengungslabor, in dem Menschen und Modelle das Schlussfolgern unter Echtzeit-Bewertung üben.

Ein Debatten- und Anstrengungslabor, in dem Menschen und Modelle das Schlussfolgern unter Echtzeit-Bewertung üben – nicht an einem statischen Benchmark.

Format Debatte · Drill · Stimme · sokratisch
Bewertende Coach · Kritiker · Anstrengung · Sokratik
Sprachschleife whisper large-v3 → kokoro v1
Was Palestra ist

Ein Trainingslabor, kein Benchmark

Palestra ist das kognitive Trainingslabor, mit dem wir die Zusammenarbeit von Mensch und KI untersuchen. Es führt strukturierte Runden aus – Debatten, Drills, Sprachübungen – mit mehrköpfigen Bewertenden für Coaching, Kritik, Anstrengung und sokratisches Nachfragen. Hier messen wir die Qualität des Schlussfolgerns unter Echtzeitbedingungen, nicht an einem statischen Benchmark.

Benchmark
  • statischer Prompt-Satz
  • Einzelbewertung
  • belohnt Sprachgewandtheit
  • keine Erwiderung erlaubt
Trainingslabor
  • lebende Gegnerinnen und Gegner
  • über den gesamten Verlauf bewertet
  • belohnt Schlussfolgern, das einen echten Austausch übersteht
  • die Sonde muss die tragende Behauptung treffen
Wie es funktioniert

Vier Bewertungsköpfe, ein Trainingslabor

Vier Köpfe, unabhängig bewertet. Die Rundenbewertung ist der Verlauf, nicht eine einzelne Zahl.

P1 Coach

Bewertet Züge danach, ob sie das Schlussfolgern der teilnehmenden Person voranbringen, nicht danach, ob sie klug klingen.

belohnt
Züge, die das Schlussfolgern voranbringen
bestraft
Züge, die klug klingen, aber nirgendwohin führen
P2 Kritiker

Adversariale Rolle, die in jeder Runde die schwächste Behauptung auf die Probe stellt.

belohnt
Druck auf die schwächste Behauptung
bestraft
breiten Druck, der die tragende Behauptung verfehlt
P3 Anstrengungs-Belohnungsmodell

Trennt Anstrengung vom Ergebnis, sodass die Qualität des Schlussfolgerns auch dann bewertet wird, wenn die Antwort zufällig glücklich oder unglücklich ausfällt.

belohnt
Qualität des Schlussfolgerns unabhängig vom Glück
bestraft
ergebnisorientiertes Denken – glückliche Abkürzungen
P4 Sokratisch

Stellt die nächste Frage, statt die nächste Antwort zu geben. Nützlich, wenn das Trainingslabor zum Trainieren genutzt wird, nicht zum Bewerten.

belohnt
die nächste Frage stellen, statt zu antworten
bestraft
die Runde vorzeitig zu verschließen
Anatomie einer Runde

Sechs Züge, vier Köpfe, ein Verlauf.

Die Bewertungsspalten sind pro Kopf und pro Zug. Der Verlauf ist das, was die Teilnehmenden mitnehmen.

# wer Zug P1 P2 P3 P4
01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66
02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?
03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74
04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71
05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82
06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?
Stimme in der Schleife

Eine Runde, in die man hineinsprechen kann.

Audio rein, Audio raus, durchgängig. Die Bewertungspipeline bricht nicht, wenn sich das Medium ändert.

01
mic
16 kHz capture
+0 ms
02
whisper L3
faster-whisper large-v3
+120 ms
03
evaluator
4-head scoring
+280 ms
04
response
reasoning trace
+720 ms
05
kokoro v1
speech synthesis
+920 ms
Round-Trip verifiziert · STT und TTS laufen, ohne die 4-Kopf-Pipeline zu unterbrechen
Trainingsmodi

Vier Formate, dieselbe Pipeline.

Debatte
Runden 2 gegen 2
Köpfe P1·P2·P3

strukturiertes Argument unter Echtzeit-Bewertung

Drill
Runden 1 gegen RM
Köpfe P1·P3

kurze Wiederholungen zu einem einzelnen Zug

Stimme
Runden live
Köpfe P1·P2·P3·P4

Audio rein / Audio raus, durchgängig

Sokratisch
Runden Training
Köpfe P4

stellt die nächste Frage, gibt nie die Antwort

01

Stimme in der Schleife

Palestra verfügt über einen Sprachmodus, der an einen verifizierten Pfad für Sprache-zu-Text und Text-zu-Sprache angebunden ist, sodass Live-Debattenübungen durchgängig laufen, ohne die Bewertungspipeline zu unterbrechen.

02

Warum es zählt

Statische Benchmarks belohnen Sprachgewandtheit. Das Trainingslabor belohnt Schlussfolgern, das einen echten Austausch übersteht. Wir nutzen es, um zu untersuchen, wie Teams aus Menschen und Modellen tatsächlich zusammenarbeiten – wobei die Bewertungsköpfe für beide Seiten sichtbar sind.

Ein Trainingslabor für Schlussfolgern, das einen echten Austausch übersteht.