研究工具 · 实时回合 · 4 个评估头

Palestra

一个辩论与努力驱动的健身房，供人类与模型在实时评估下练习推理。

一座辩论与努力驱动的健身房,让人类与模型在实时评估下练习推理,而非在静态基准上应试。

形式辩论 · 操练 · 语音 · 苏格拉底式

评估器教练 · 批评 · 努力 · 苏格拉底式

语音回路 whisper large-v3 → kokoro v1

round · #2046 live

participant A claim

participant B probe

P1 Coach

P2 Critic

P3 Effort RM

P4 Socratic

01 A Opening claim: X causes Y under conditions C. 0.72

02 B Counter: prior P shows Y occurs without X. 0.81

03 A Refines: only under C₁ does the causal link hold. 0.78

04 B Probes the weakest claim: define C₁ operationally. 0.65

Palestra 是什么

一座健身房,而非一项基准

Palestra 是我们用来研究人机协作的认知健身房。它运行结构化的回合——辩论、操练、语音练习——并配以面向教练、批评、努力与苏格拉底式提问的多评估头评估器。它正是我们在实时条件下,而非在静态基准上,衡量推理质量的地方。

基准

静态提示集
单次打分
奖励流利度
不允许反驳

健身房

实时对手
贯穿全程轨迹打分
奖励经得起真实交锋的推理
探问必须落在承重论点上

运作方式

四个评估头,一座健身房

四个评估头,各自独立打分。回合得分是整条轨迹,而非单一数字。

P1 教练

依据着法是否推进参与者的推理来打分,而非依据它听起来是否聪明。

奖励: 推进推理的着法
惩罚: 听起来聪明却毫无进展的着法

P2 批评

对抗性角色,在每个回合中探问最薄弱的论点。

奖励: 对最薄弱论点施加的压力
惩罚: 泛泛施压却错过承重论点

P3 努力奖励模型

将努力与结果分离,从而即便答案恰好侥幸或不走运,推理质量仍能得到评分。

奖励: 无论运气如何的推理质量
惩罚: 只看结果的思维——侥幸取巧

P4 苏格拉底式

抛出下一个问题,而非给出下一个答案。在健身房用于训练而非评估时尤为有用。

奖励: 抛出下一个问题而非给出答案
惩罚: 过早地终结回合

一个回合的解剖

六步着法,四个评估头,一条轨迹。

得分列按每个评估头、每一步着法呈现。轨迹正是参与者所带走的东西。

# 由谁着法 P1 P2 P3 P4

01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66 –

02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?

03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74 –

04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71 –

05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82 –

06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?

回路中的语音

一个你可以对它说话的回合。

音频进、音频出,端到端贯通。媒介改变时,评估流水线不会中断。

mic

16 kHz capture

+0 ms

whisper L3

faster-whisper large-v3

+120 ms

evaluator

4-head scoring

+280 ms

response

reasoning trace

+720 ms

kokoro v1

speech synthesis

+920 ms

往返已验证 · STT 与 TTS 运行时不会破坏 4 评估头流水线

健身房模式

四种形式,同一条流水线。

辩论

回合 2 对 2

评估头 P1·P2·P3

实时打分下的结构化论证

操练

回合 1 对 RM

评估头 P1·P3

针对单一着法的短回合重复

语音

回合实时

评估头 P1·P2·P3·P4

音频进 / 音频出端到端

苏格拉底式

回合训练

评估头 P4

抛出下一个问题,从不给出答案

回路中的语音

Palestra 设有语音模式,接入经过验证的语音转文本与文本转语音通路,使实时辩论练习能端到端运行而不破坏评估流水线。

意义何在

静态基准奖励流利度。健身房奖励经得起真实交锋的推理。我们用它来研究由人类与模型组成的团队究竟如何协作,并让评估头对双方皆可见。

一座让推理经得起真实交锋的健身房。

全部研究评估方法

Loominum^™ 1.0

生产级系统

Loominum 家族

解决方案

了解更多

我们正在深入探索的开放问题

研究工具

研究方向

了解更多

探寻底层不变规律

科学工具

领域

了解更多

我们的使命是构建可验证的智能，推动科学进步并服务于人类。

公司

了解更多

Palestra

一座健身房,而非一项基准

四个评估头,一座健身房

六步着法,四个评估头,一条轨迹。

一个你可以对它说话的回合。

四种形式,同一条流水线。

回路中的语音

意义何在

一座让推理经得起真实交锋的健身房。

Cookie 偏好设置

严格必要