P1 教练
依据着法是否推进参与者的推理来打分,而非依据它听起来是否聪明。
一个辩论与努力驱动的健身房,供人类与模型在实时评估下练习推理。
一座辩论与努力驱动的健身房,让人类与模型在实时评估下练习推理,而非在静态基准上应试。
Palestra 是我们用来研究人机协作的认知健身房。它运行结构化的回合——辩论、操练、语音练习——并配以面向教练、批评、努力与苏格拉底式提问的多评估头评估器。它正是我们在实时条件下,而非在静态基准上,衡量推理质量的地方。
四个评估头,各自独立打分。回合得分是整条轨迹,而非单一数字。
依据着法是否推进参与者的推理来打分,而非依据它听起来是否聪明。
对抗性角色,在每个回合中探问最薄弱的论点。
将努力与结果分离,从而即便答案恰好侥幸或不走运,推理质量仍能得到评分。
抛出下一个问题,而非给出下一个答案。在健身房用于训练而非评估时尤为有用。
得分列按每个评估头、每一步着法呈现。轨迹正是参与者所带走的东西。
音频进、音频出,端到端贯通。媒介改变时,评估流水线不会中断。
实时打分下的结构化论证
针对单一着法的短回合重复
音频进 / 音频出端到端
抛出下一个问题,从不给出答案
Palestra 设有语音模式,接入经过验证的语音转文本与文本转语音通路,使实时辩论练习能端到端运行而不破坏评估流水线。
静态基准奖励流利度。健身房奖励经得起真实交锋的推理。我们用它来研究由人类与模型组成的团队究竟如何协作,并让评估头对双方皆可见。