研究ツール · ライブ・ラウンド · 4 ヘッド

Palestra

ライブ評価のもとで、人間とモデルが推論を実践するディベート・努力型ジムです。

静的なベンチマークではなく、ライブ評価のもとで人間とモデルが推論を鍛えるディベート・努力型ジムです。

形式 ディベート · ドリル · ボイス · ソクラテス式
評価者 コーチ · クリティック · 努力 · ソクラテス式
ボイス・ループ whisper large-v3 → kokoro v1
Palestra とは

ベンチマークではなく、ジム

Palestra は、人間と AI の協働を研究するために私たちが使う認知ジムです。ディベート、ドリル、ボイス・エクササイズといった構造化されたラウンドを、コーチング・批評・努力・ソクラテス式の問いかけのためのマルチヘッド評価者とともに実行します。ここでは、静的なベンチマークではなく、ライブの条件下で推論の質を測定します。

ベンチマーク
  • 静的なプロンプト集
  • 一発勝負の採点
  • 流暢さを報酬とする
  • 反論は認められない
ジム
  • ライブの対戦相手
  • トレース全体で採点される
  • 実際のやり取りを生き延びる推論を報酬とする
  • プローブは要となる主張に命中しなければならない
仕組み

4 つの評価ヘッド、1 つのジム

4 つのヘッドが独立して採点します。ラウンドのスコアは単一の数値ではなく、トレースそのものです。

P1 コーチ

賢く聞こえるかどうかではなく、参加者の推論を前進させるかどうかで手を採点します。

報酬
推論を前進させる手
ペナルティ
賢く聞こえるが何も生まない手
P2 クリティック

各ラウンドで最も弱い主張を突く敵対的な役割です。

報酬
最も弱い主張への圧力
ペナルティ
要となる主張を外した漠然とした圧力
P3 努力報酬モデル

努力と結果を切り分け、答えがたまたま運が良くても悪くても、推論の質が採点されるようにします。

報酬
運に左右されない推論の質
ペナルティ
結果だけの思考——まぐれの近道
P4 ソクラテス式

次の答えを与える代わりに、次の問いを投げます。ジムを評価ではなくトレーニングに使うときに有用です。

報酬
答えるのではなく次の問いを投げる
ペナルティ
ラウンドを早まって打ち切る
ラウンドの解剖

6 つの手、4 つのヘッド、1 つのトレース。

スコア列はヘッドごと・手ごとです。トレースこそ参加者が持ち帰るものです。

# 誰が P1 P2 P3 P4
01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66
02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?
03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74
04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71
05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82
06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?
ループ内のボイス

話しかけられるラウンド。

音声入力、音声出力、エンドツーエンド。媒体が変わっても評価パイプラインは破綻しません。

01
mic
16 kHz capture
+0 ms
02
whisper L3
faster-whisper large-v3
+120 ms
03
evaluator
4-head scoring
+280 ms
04
response
reasoning trace
+720 ms
05
kokoro v1
speech synthesis
+920 ms
ラウンドトリップ検証済み · STT と TTS は 4 ヘッドのパイプラインを破ることなく動作します
ジムのモード

4 つの形式、同じパイプライン。

ディベート
ラウンド 2 対 2
ヘッド P1·P2·P3

ライブ採点下での構造化された議論

ドリル
ラウンド 1 対 RM
ヘッド P1·P3

単一の手に絞った短い反復

ボイス
ラウンド ライブ
ヘッド P1·P2·P3·P4

音声入力 / 音声出力のエンドツーエンド

ソクラテス式
ラウンド トレーニング
ヘッド P4

次の問いを投げ、決して答えを与えない

01

ループ内のボイス

Palestra には、検証済みの音声認識(STT)と音声合成(TTS)のパスに接続されたボイス・モードがあり、ライブのディベート・エクササイズが評価パイプラインを破ることなくエンドツーエンドで実行されます。

02

なぜ重要か

静的なベンチマークは流暢さを報酬とします。ジムは、実際のやり取りを生き延びる推論を報酬とします。私たちはこれを、人間とモデルのチームが実際にどう協働するかを研究するために使い、評価ヘッドは両者に可視化されます。

実際のやり取りを生き延びる推論のためのジム。