Avaliações · multissemente por defeito · avaliado pelo rasto

Medir o raciocínio sob restrições reais

Novas avaliações para planeamento, humildade factual, fiabilidade de ferramentas e resolução colaborativa de problemas.

Os benchmarks padrão premeiam a fluência. Nós avaliamos a substância, e os mesmos números condicionam os lançamentos.

V1 planeamento V2 humildade V3 ferramenta V4 recuperação
Porque as avaliações fazem parte do trabalho

Os benchmarks padrão premeiam a fluência. Nós avaliamos a substância.

A avaliação é investigação na ReasonLoom, não uma verificação de fase final. Construímos as avaliações em paralelo com os sistemas que avaliam, para que os mesmos números que aparecem num artigo também condicionem os lançamentos. A fasquia é «apostaria neste resultado em produção», não «o modelo pontuou bem no laboratório».

benchmark padrão
  • conjunto de prompts estático
  • verificação de fase final
  • premeia a fluência
  • números de semente única em destaque
avaliações como investigação
  • avaliado pelo rasto, não apenas pela resposta
  • condicionam lançamentos, não apenas artigos
  • premeiam o raciocínio sob restrições reais
  • multissemente por defeito · semente única assinalada como preliminar
O que medimos

Quatro eixos sobre os quais publicamos

Cada eixo é publicado com o seu código de pontuação e os seus prompts. A fasquia é a reprodutibilidade, não as pontuações de destaque.

V1 Planeamento de horizonte longo

Tarefas que exigem planos coerentes ao longo de muitos passos, avaliadas pelo resultado e pelo rasto.

premeia
planos que sobrevivem ao longo de muitos passos
penaliza
planos que parecem coerentes mas desmoronam-se ao terceiro passo
V2 Humildade factual

Com que frequência o modelo adia quando a evidência é escassa, versus com que frequência confabula.

premeia
adiar quando a evidência é escassa
penaliza
confabular com confiança
V3 Fiabilidade de ferramentas

Se as ferramentas são usadas corretamente, incluindo a recusa em usá-las quando não ajudariam.

premeia
ferramentas usadas corretamente, ou corretamente não usadas
penaliza
ferramentas invocadas só porque estavam lá
V4 Recuperação

Quão bem um modelo recupera dos seus próprios erros dentro da mesma tarefa.

premeia
corrigir o seu próprio erro dentro da mesma tarefa
penaliza
recomeçar do zero quando um passo atrás teria bastado
Honestidade multissemente

Os números saem com as suas barras de erro.

Os números de semente única não condicionam lançamentos. Aparecem no apêndice como preliminares, rotulados n=1.

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release
V2 humility (correct defer) 0.84 ±0.03 n=5 gates release
V3 tool-use accuracy 0.81 ±0.05 n=5 gates release
V4 recovery within task 0.74 ±0.07 n=5 gates release
single-seed reasoning trace 0.72 n=1 preliminary
Superfície de publicação

O que sai, e o que fica.

A metodologia, o código de pontuação, os prompts e os cartões de modelo são públicos. As suites internas onde a própria avaliação é o diferenciador permanecem privadas.

01 methodology public paper + repo
02 scoring code public apache 2.0
03 prompts public in evaluation suite
04 model cards public with limits + risks
05 private suites internal where the eval itself is differentiating
01

Como o executamos

As tarefas são avaliadas pelo resultado e pelo rasto de raciocínio. Pontuamos a humildade factual, a fiabilidade de ferramentas e a recuperação de erros a par da exatidão bruta. As execuções multissemente são o padrão; os números de semente única são assinalados como preliminares.

02

O que publicamos

Metodologia, código de pontuação, prompts e cartões de modelo detalhados. O objetivo é que qualquer equipa consiga reproduzir o resultado, contestá-lo e estendê-lo ao seu próprio domínio.

Avaliações que avaliam a substância e condicionam os lançamentos.