Tarefas que exigem planos coerentes ao longo de muitos passos, avaliadas pelo resultado e pelo rasto.
Medir o raciocínio sob restrições reais
Novas avaliações para planeamento, humildade factual, fiabilidade de ferramentas e resolução colaborativa de problemas.
Os benchmarks padrão premeiam a fluência. Nós avaliamos a substância, e os mesmos números condicionam os lançamentos.
Os benchmarks padrão premeiam a fluência. Nós avaliamos a substância.
A avaliação é investigação na ReasonLoom, não uma verificação de fase final. Construímos as avaliações em paralelo com os sistemas que avaliam, para que os mesmos números que aparecem num artigo também condicionem os lançamentos. A fasquia é «apostaria neste resultado em produção», não «o modelo pontuou bem no laboratório».
- conjunto de prompts estático
- verificação de fase final
- premeia a fluência
- números de semente única em destaque
- avaliado pelo rasto, não apenas pela resposta
- condicionam lançamentos, não apenas artigos
- premeiam o raciocínio sob restrições reais
- multissemente por defeito · semente única assinalada como preliminar
Quatro eixos sobre os quais publicamos
Cada eixo é publicado com o seu código de pontuação e os seus prompts. A fasquia é a reprodutibilidade, não as pontuações de destaque.
Com que frequência o modelo adia quando a evidência é escassa, versus com que frequência confabula.
Se as ferramentas são usadas corretamente, incluindo a recusa em usá-las quando não ajudariam.
Quão bem um modelo recupera dos seus próprios erros dentro da mesma tarefa.
Os números saem com as suas barras de erro.
Os números de semente única não condicionam lançamentos. Aparecem no apêndice como preliminares, rotulados n=1.
O que sai, e o que fica.
A metodologia, o código de pontuação, os prompts e os cartões de modelo são públicos. As suites internas onde a própria avaliação é o diferenciador permanecem privadas.
Como o executamos
As tarefas são avaliadas pelo resultado e pelo rasto de raciocínio. Pontuamos a humildade factual, a fiabilidade de ferramentas e a recuperação de erros a par da exatidão bruta. As execuções multissemente são o padrão; os números de semente única são assinalados como preliminares.
O que publicamos
Metodologia, código de pontuação, prompts e cartões de modelo detalhados. O objetivo é que qualquer equipa consiga reproduzir o resultado, contestá-lo e estendê-lo ao seu próprio domínio.