研究ツール · ライブ・ラウンド · 4 ヘッド

Palestra

ライブ評価のもとで、人間とモデルが推論を実践するディベート・努力型ジムです。

静的なベンチマークではなく、ライブ評価のもとで人間とモデルが推論を鍛えるディベート・努力型ジムです。

形式ディベート · ドリル · ボイス · ソクラテス式

評価者コーチ · クリティック · 努力 · ソクラテス式

ボイス・ループ whisper large-v3 → kokoro v1

round · #2046 live

participant A claim

participant B probe

P1 Coach

P2 Critic

P3 Effort RM

P4 Socratic

01 A Opening claim: X causes Y under conditions C. 0.72

02 B Counter: prior P shows Y occurs without X. 0.81

03 A Refines: only under C₁ does the causal link hold. 0.78

04 B Probes the weakest claim: define C₁ operationally. 0.65

Palestra とは

ベンチマークではなく、ジム

Palestra は、人間と AI の協働を研究するために私たちが使う認知ジムです。ディベート、ドリル、ボイス・エクササイズといった構造化されたラウンドを、コーチング・批評・努力・ソクラテス式の問いかけのためのマルチヘッド評価者とともに実行します。ここでは、静的なベンチマークではなく、ライブの条件下で推論の質を測定します。

ベンチマーク

静的なプロンプト集
一発勝負の採点
流暢さを報酬とする
反論は認められない

ジム

ライブの対戦相手
トレース全体で採点される
実際のやり取りを生き延びる推論を報酬とする
プローブは要となる主張に命中しなければならない

仕組み

4 つの評価ヘッド、1 つのジム

4 つのヘッドが独立して採点します。ラウンドのスコアは単一の数値ではなく、トレースそのものです。

P1 コーチ

賢く聞こえるかどうかではなく、参加者の推論を前進させるかどうかで手を採点します。

報酬: 推論を前進させる手
ペナルティ: 賢く聞こえるが何も生まない手

P2 クリティック

各ラウンドで最も弱い主張を突く敵対的な役割です。

報酬: 最も弱い主張への圧力
ペナルティ: 要となる主張を外した漠然とした圧力

P3 努力報酬モデル

努力と結果を切り分け、答えがたまたま運が良くても悪くても、推論の質が採点されるようにします。

報酬: 運に左右されない推論の質
ペナルティ: 結果だけの思考——まぐれの近道

P4 ソクラテス式

次の答えを与える代わりに、次の問いを投げます。ジムを評価ではなくトレーニングに使うときに有用です。

報酬: 答えるのではなく次の問いを投げる
ペナルティ: ラウンドを早まって打ち切る

ラウンドの解剖

6 つの手、4 つのヘッド、1 つのトレース。

スコア列はヘッドごと・手ごとです。トレースこそ参加者が持ち帰るものです。

# 誰が手 P1 P2 P3 P4

01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66 –

02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?

03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74 –

04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71 –

05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82 –

06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?

ループ内のボイス

話しかけられるラウンド。

音声入力、音声出力、エンドツーエンド。媒体が変わっても評価パイプラインは破綻しません。

mic

16 kHz capture

+0 ms

whisper L3

faster-whisper large-v3

+120 ms

evaluator

4-head scoring

+280 ms

response

reasoning trace

+720 ms

kokoro v1

speech synthesis

+920 ms

ラウンドトリップ検証済み · STT と TTS は 4 ヘッドのパイプラインを破ることなく動作します

ジムのモード

4 つの形式、同じパイプライン。

ディベート

ラウンド 2 対 2

ヘッド P1·P2·P3

ライブ採点下での構造化された議論

ドリル

ラウンド 1 対 RM

ヘッド P1·P3

単一の手に絞った短い反復

ボイス

ラウンド ライブ

ヘッド P1·P2·P3·P4

音声入力 / 音声出力のエンドツーエンド

ソクラテス式

ラウンド トレーニング

ヘッド P4

次の問いを投げ、決して答えを与えない

ループ内のボイス

Palestra には、検証済みの音声認識（STT）と音声合成（TTS）のパスに接続されたボイス・モードがあり、ライブのディベート・エクササイズが評価パイプラインを破ることなくエンドツーエンドで実行されます。

なぜ重要か

静的なベンチマークは流暢さを報酬とします。ジムは、実際のやり取りを生き延びる推論を報酬とします。私たちはこれを、人間とモデルのチームが実際にどう協働するかを研究するために使い、評価ヘッドは両者に可視化されます。

実際のやり取りを生き延びる推論のためのジム。

全リサーチ評価アプローチ

Loominum^™ 1.0

プロダクション・グレードのシステム

Loominum ファミリー

ソリューション

詳細を見る

私たちが取り組むオープンな問い

リサーチツール

探究領域

詳細を見る

根底にある不変量を探して

サイエンスツール

分野

詳細を見る

私たちの使命は、科学を前進させ人類に貢献する、検証可能な知能を構築することです。

会社

詳細を見る

Palestra

ベンチマークではなく、ジム

4 つの評価ヘッド、1 つのジム

6 つの手、4 つのヘッド、1 つのトレース。

話しかけられるラウンド。

4 つの形式、同じパイプライン。

ループ内のボイス

なぜ重要か

実際のやり取りを生き延びる推論のためのジム。

Cookie の設定

厳密に必要