研究工具 · 实时回合 · 4 个评估头

Palestra

一个辩论与努力驱动的健身房,供人类与模型在实时评估下练习推理。

一座辩论与努力驱动的健身房,让人类与模型在实时评估下练习推理,而非在静态基准上应试。

形式 辩论 · 操练 · 语音 · 苏格拉底式
评估器 教练 · 批评 · 努力 · 苏格拉底式
语音回路 whisper large-v3 → kokoro v1
Palestra 是什么

一座健身房,而非一项基准

Palestra 是我们用来研究人机协作的认知健身房。它运行结构化的回合——辩论、操练、语音练习——并配以面向教练、批评、努力与苏格拉底式提问的多评估头评估器。它正是我们在实时条件下,而非在静态基准上,衡量推理质量的地方。

基准
  • 静态提示集
  • 单次打分
  • 奖励流利度
  • 不允许反驳
健身房
  • 实时对手
  • 贯穿全程轨迹打分
  • 奖励经得起真实交锋的推理
  • 探问必须落在承重论点上
运作方式

四个评估头,一座健身房

四个评估头,各自独立打分。回合得分是整条轨迹,而非单一数字。

P1 教练

依据着法是否推进参与者的推理来打分,而非依据它听起来是否聪明。

奖励
推进推理的着法
惩罚
听起来聪明却毫无进展的着法
P2 批评

对抗性角色,在每个回合中探问最薄弱的论点。

奖励
对最薄弱论点施加的压力
惩罚
泛泛施压却错过承重论点
P3 努力奖励模型

将努力与结果分离,从而即便答案恰好侥幸或不走运,推理质量仍能得到评分。

奖励
无论运气如何的推理质量
惩罚
只看结果的思维——侥幸取巧
P4 苏格拉底式

抛出下一个问题,而非给出下一个答案。在健身房用于训练而非评估时尤为有用。

奖励
抛出下一个问题而非给出答案
惩罚
过早地终结回合
一个回合的解剖

六步着法,四个评估头,一条轨迹。

得分列按每个评估头、每一步着法呈现。轨迹正是参与者所带走的东西。

# 由谁 着法 P1 P2 P3 P4
01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66
02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?
03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74
04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71
05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82
06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?
回路中的语音

一个你可以对它说话的回合。

音频进、音频出,端到端贯通。媒介改变时,评估流水线不会中断。

01
mic
16 kHz capture
+0 ms
02
whisper L3
faster-whisper large-v3
+120 ms
03
evaluator
4-head scoring
+280 ms
04
response
reasoning trace
+720 ms
05
kokoro v1
speech synthesis
+920 ms
往返已验证 · STT 与 TTS 运行时不会破坏 4 评估头流水线
健身房模式

四种形式,同一条流水线。

辩论
回合 2 对 2
评估头 P1·P2·P3

实时打分下的结构化论证

操练
回合 1 对 RM
评估头 P1·P3

针对单一着法的短回合重复

语音
回合 实时
评估头 P1·P2·P3·P4

音频进 / 音频出端到端

苏格拉底式
回合 训练
评估头 P4

抛出下一个问题,从不给出答案

01

回路中的语音

Palestra 设有语音模式,接入经过验证的语音转文本与文本转语音通路,使实时辩论练习能端到端运行而不破坏评估流水线。

02

意义何在

静态基准奖励流利度。健身房奖励经得起真实交锋的推理。我们用它来研究由人类与模型组成的团队究竟如何协作,并让评估头对双方皆可见。

一座让推理经得起真实交锋的健身房。