賢く聞こえるかどうかではなく、参加者の推論を前進させるかどうかで手を採点します。
Palestra
ライブ評価のもとで、人間とモデルが推論を実践するディベート・努力型ジムです。
静的なベンチマークではなく、ライブ評価のもとで人間とモデルが推論を鍛えるディベート・努力型ジムです。
ベンチマークではなく、ジム
Palestra は、人間と AI の協働を研究するために私たちが使う認知ジムです。ディベート、ドリル、ボイス・エクササイズといった構造化されたラウンドを、コーチング・批評・努力・ソクラテス式の問いかけのためのマルチヘッド評価者とともに実行します。ここでは、静的なベンチマークではなく、ライブの条件下で推論の質を測定します。
- 静的なプロンプト集
- 一発勝負の採点
- 流暢さを報酬とする
- 反論は認められない
- ライブの対戦相手
- トレース全体で採点される
- 実際のやり取りを生き延びる推論を報酬とする
- プローブは要となる主張に命中しなければならない
4 つの評価ヘッド、1 つのジム
4 つのヘッドが独立して採点します。ラウンドのスコアは単一の数値ではなく、トレースそのものです。
各ラウンドで最も弱い主張を突く敵対的な役割です。
努力と結果を切り分け、答えがたまたま運が良くても悪くても、推論の質が採点されるようにします。
次の答えを与える代わりに、次の問いを投げます。ジムを評価ではなくトレーニングに使うときに有用です。
6 つの手、4 つのヘッド、1 つのトレース。
スコア列はヘッドごと・手ごとです。トレースこそ参加者が持ち帰るものです。
話しかけられるラウンド。
音声入力、音声出力、エンドツーエンド。媒体が変わっても評価パイプラインは破綻しません。
4 つの形式、同じパイプライン。
ライブ採点下での構造化された議論
単一の手に絞った短い反復
音声入力 / 音声出力のエンドツーエンド
次の問いを投げ、決して答えを与えない
ループ内のボイス
Palestra には、検証済みの音声認識(STT)と音声合成(TTS)のパスに接続されたボイス・モードがあり、ライブのディベート・エクササイズが評価パイプラインを破ることなくエンドツーエンドで実行されます。
なぜ重要か
静的なベンチマークは流暢さを報酬とします。ジムは、実際のやり取りを生き延びる推論を報酬とします。私たちはこれを、人間とモデルのチームが実際にどう協働するかを研究するために使い、評価ヘッドは両者に可視化されます。