Forschungswerkzeuge · Live-Runde · 4 Köpfe

Palestra

Ein Debatten- und Anstrengungslabor, in dem Menschen und Modelle das Schlussfolgern unter Echtzeit-Bewertung üben.

Ein Debatten- und Anstrengungslabor, in dem Menschen und Modelle das Schlussfolgern unter Echtzeit-Bewertung üben – nicht an einem statischen Benchmark.

Format Debatte · Drill · Stimme · sokratisch

Bewertende Coach · Kritiker · Anstrengung · Sokratik

Sprachschleife whisper large-v3 → kokoro v1

round · #2046 live

participant A claim

participant B probe

P1 Coach

P2 Critic

P3 Effort RM

P4 Socratic

01 A Opening claim: X causes Y under conditions C. 0.72

02 B Counter: prior P shows Y occurs without X. 0.81

03 A Refines: only under C₁ does the causal link hold. 0.78

04 B Probes the weakest claim: define C₁ operationally. 0.65

Was Palestra ist

Ein Trainingslabor, kein Benchmark

Palestra ist das kognitive Trainingslabor, mit dem wir die Zusammenarbeit von Mensch und KI untersuchen. Es führt strukturierte Runden aus – Debatten, Drills, Sprachübungen – mit mehrköpfigen Bewertenden für Coaching, Kritik, Anstrengung und sokratisches Nachfragen. Hier messen wir die Qualität des Schlussfolgerns unter Echtzeitbedingungen, nicht an einem statischen Benchmark.

Benchmark

statischer Prompt-Satz
Einzelbewertung
belohnt Sprachgewandtheit
keine Erwiderung erlaubt

Trainingslabor

lebende Gegnerinnen und Gegner
über den gesamten Verlauf bewertet
belohnt Schlussfolgern, das einen echten Austausch übersteht
die Sonde muss die tragende Behauptung treffen

Wie es funktioniert

Vier Bewertungsköpfe, ein Trainingslabor

Vier Köpfe, unabhängig bewertet. Die Rundenbewertung ist der Verlauf, nicht eine einzelne Zahl.

P1 Coach

Bewertet Züge danach, ob sie das Schlussfolgern der teilnehmenden Person voranbringen, nicht danach, ob sie klug klingen.

belohnt: Züge, die das Schlussfolgern voranbringen
bestraft: Züge, die klug klingen, aber nirgendwohin führen

P2 Kritiker

Adversariale Rolle, die in jeder Runde die schwächste Behauptung auf die Probe stellt.

belohnt: Druck auf die schwächste Behauptung
bestraft: breiten Druck, der die tragende Behauptung verfehlt

P3 Anstrengungs-Belohnungsmodell

Trennt Anstrengung vom Ergebnis, sodass die Qualität des Schlussfolgerns auch dann bewertet wird, wenn die Antwort zufällig glücklich oder unglücklich ausfällt.

belohnt: Qualität des Schlussfolgerns unabhängig vom Glück
bestraft: ergebnisorientiertes Denken – glückliche Abkürzungen

P4 Sokratisch

Stellt die nächste Frage, statt die nächste Antwort zu geben. Nützlich, wenn das Trainingslabor zum Trainieren genutzt wird, nicht zum Bewerten.

belohnt: die nächste Frage stellen, statt zu antworten
bestraft: die Runde vorzeitig zu verschließen

Anatomie einer Runde

Sechs Züge, vier Köpfe, ein Verlauf.

Die Bewertungsspalten sind pro Kopf und pro Zug. Der Verlauf ist das, was die Teilnehmenden mitnehmen.

# wer Zug P1 P2 P3 P4

01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66 –

02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?

03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74 –

04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71 –

05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82 –

06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?

Stimme in der Schleife

Eine Runde, in die man hineinsprechen kann.

Audio rein, Audio raus, durchgängig. Die Bewertungspipeline bricht nicht, wenn sich das Medium ändert.

mic

16 kHz capture

+0 ms

whisper L3

faster-whisper large-v3

+120 ms

evaluator

4-head scoring

+280 ms

response

reasoning trace

+720 ms

kokoro v1

speech synthesis

+920 ms

Round-Trip verifiziert · STT und TTS laufen, ohne die 4-Kopf-Pipeline zu unterbrechen

Trainingsmodi

Vier Formate, dieselbe Pipeline.

Debatte

Runden 2 gegen 2

Köpfe P1·P2·P3

strukturiertes Argument unter Echtzeit-Bewertung

Drill

Runden 1 gegen RM

Köpfe P1·P3

kurze Wiederholungen zu einem einzelnen Zug

Stimme

Runden live

Köpfe P1·P2·P3·P4

Audio rein / Audio raus, durchgängig

Sokratisch

Runden Training

Köpfe P4

stellt die nächste Frage, gibt nie die Antwort

Stimme in der Schleife

Palestra verfügt über einen Sprachmodus, der an einen verifizierten Pfad für Sprache-zu-Text und Text-zu-Sprache angebunden ist, sodass Live-Debattenübungen durchgängig laufen, ohne die Bewertungspipeline zu unterbrechen.

Warum es zählt

Statische Benchmarks belohnen Sprachgewandtheit. Das Trainingslabor belohnt Schlussfolgern, das einen echten Austausch übersteht. Wir nutzen es, um zu untersuchen, wie Teams aus Menschen und Modellen tatsächlich zusammenarbeiten – wobei die Bewertungsköpfe für beide Seiten sichtbar sind.

Ein Trainingslabor für Schlussfolgern, das einen echten Austausch übersteht.

Alle Forschung Bewertungsansatz

Loominum^™ 1.0

Produktionsreife Systeme

Die Loominum-Familie

Lösungen

Mehr erfahren

Offene Fragen, denen wir nachgehen

Forschungswerkzeuge

Forschungsbereiche

Mehr erfahren

Die zugrunde liegenden Invarianten aufdecken

Wissenschaftswerkzeuge

Felder

Mehr erfahren

Unsere Mission ist es, überprüfbare Intelligenz zu entwickeln, die die Wissenschaft voranbringt und der Menschheit dient.

Unternehmen

Mehr erfahren

Palestra

Ein Trainingslabor, kein Benchmark

Vier Bewertungsköpfe, ein Trainingslabor

Sechs Züge, vier Köpfe, ein Verlauf.

Eine Runde, in die man hineinsprechen kann.

Vier Formate, dieselbe Pipeline.

Stimme in der Schleife

Warum es zählt

Ein Trainingslabor für Schlussfolgern, das einen echten Austausch übersteht.

Cookie-Einstellungen

Unbedingt erforderlich