Bewertet Züge danach, ob sie das Schlussfolgern der teilnehmenden Person voranbringen, nicht danach, ob sie klug klingen.
Palestra
Ein Debatten- und Anstrengungslabor, in dem Menschen und Modelle das Schlussfolgern unter Echtzeit-Bewertung üben.
Ein Debatten- und Anstrengungslabor, in dem Menschen und Modelle das Schlussfolgern unter Echtzeit-Bewertung üben – nicht an einem statischen Benchmark.
Ein Trainingslabor, kein Benchmark
Palestra ist das kognitive Trainingslabor, mit dem wir die Zusammenarbeit von Mensch und KI untersuchen. Es führt strukturierte Runden aus – Debatten, Drills, Sprachübungen – mit mehrköpfigen Bewertenden für Coaching, Kritik, Anstrengung und sokratisches Nachfragen. Hier messen wir die Qualität des Schlussfolgerns unter Echtzeitbedingungen, nicht an einem statischen Benchmark.
- statischer Prompt-Satz
- Einzelbewertung
- belohnt Sprachgewandtheit
- keine Erwiderung erlaubt
- lebende Gegnerinnen und Gegner
- über den gesamten Verlauf bewertet
- belohnt Schlussfolgern, das einen echten Austausch übersteht
- die Sonde muss die tragende Behauptung treffen
Vier Bewertungsköpfe, ein Trainingslabor
Vier Köpfe, unabhängig bewertet. Die Rundenbewertung ist der Verlauf, nicht eine einzelne Zahl.
Adversariale Rolle, die in jeder Runde die schwächste Behauptung auf die Probe stellt.
Trennt Anstrengung vom Ergebnis, sodass die Qualität des Schlussfolgerns auch dann bewertet wird, wenn die Antwort zufällig glücklich oder unglücklich ausfällt.
Stellt die nächste Frage, statt die nächste Antwort zu geben. Nützlich, wenn das Trainingslabor zum Trainieren genutzt wird, nicht zum Bewerten.
Sechs Züge, vier Köpfe, ein Verlauf.
Die Bewertungsspalten sind pro Kopf und pro Zug. Der Verlauf ist das, was die Teilnehmenden mitnehmen.
Eine Runde, in die man hineinsprechen kann.
Audio rein, Audio raus, durchgängig. Die Bewertungspipeline bricht nicht, wenn sich das Medium ändert.
Vier Formate, dieselbe Pipeline.
strukturiertes Argument unter Echtzeit-Bewertung
kurze Wiederholungen zu einem einzelnen Zug
Audio rein / Audio raus, durchgängig
stellt die nächste Frage, gibt nie die Antwort
Stimme in der Schleife
Palestra verfügt über einen Sprachmodus, der an einen verifizierten Pfad für Sprache-zu-Text und Text-zu-Sprache angebunden ist, sodass Live-Debattenübungen durchgängig laufen, ohne die Bewertungspipeline zu unterbrechen.
Warum es zählt
Statische Benchmarks belohnen Sprachgewandtheit. Das Trainingslabor belohnt Schlussfolgern, das einen echten Austausch übersteht. Wir nutzen es, um zu untersuchen, wie Teams aus Menschen und Modellen tatsächlich zusammenarbeiten – wobei die Bewertungsköpfe für beide Seiten sichtbar sind.