Avaliações · multissemente por defeito · avaliado pelo rasto

Medir o raciocínio sob restrições reais

Novas avaliações para planeamento, humildade factual, fiabilidade de ferramentas e resolução colaborativa de problemas.

Os benchmarks padrão premeiam a fluência. Nós avaliamos a substância, e os mesmos números condicionam os lançamentos.

V1 planeamento V2 humildade V3 ferramenta V4 recuperação

Porque as avaliações fazem parte do trabalho

Os benchmarks padrão premeiam a fluência. Nós avaliamos a substância.

A avaliação é investigação na ReasonLoom, não uma verificação de fase final. Construímos as avaliações em paralelo com os sistemas que avaliam, para que os mesmos números que aparecem num artigo também condicionem os lançamentos. A fasquia é «apostaria neste resultado em produção», não «o modelo pontuou bem no laboratório».

benchmark padrão

conjunto de prompts estático
verificação de fase final
premeia a fluência
números de semente única em destaque

avaliações como investigação

avaliado pelo rasto, não apenas pela resposta
condicionam lançamentos, não apenas artigos
premeiam o raciocínio sob restrições reais
multissemente por defeito · semente única assinalada como preliminar

O que medimos

Quatro eixos sobre os quais publicamos

Cada eixo é publicado com o seu código de pontuação e os seus prompts. A fasquia é a reprodutibilidade, não as pontuações de destaque.

V1 Planeamento de horizonte longo

Tarefas que exigem planos coerentes ao longo de muitos passos, avaliadas pelo resultado e pelo rasto.

premeia: planos que sobrevivem ao longo de muitos passos
penaliza: planos que parecem coerentes mas desmoronam-se ao terceiro passo

V2 Humildade factual

Com que frequência o modelo adia quando a evidência é escassa, versus com que frequência confabula.

premeia: adiar quando a evidência é escassa
penaliza: confabular com confiança

V3 Fiabilidade de ferramentas

Se as ferramentas são usadas corretamente, incluindo a recusa em usá-las quando não ajudariam.

premeia: ferramentas usadas corretamente, ou corretamente não usadas
penaliza: ferramentas invocadas só porque estavam lá

V4 Recuperação

Quão bem um modelo recupera dos seus próprios erros dentro da mesma tarefa.

premeia: corrigir o seu próprio erro dentro da mesma tarefa
penaliza: recomeçar do zero quando um passo atrás teria bastado

Honestidade multissemente

Os números saem com as suas barras de erro.

Os números de semente única não condicionam lançamentos. Aparecem no apêndice como preliminares, rotulados n=1.

V1 long-horizon plan rate 0.78 ±0.04 n=5 gates release

V2 humility (correct defer) 0.84 ±0.03 n=5 gates release

V3 tool-use accuracy 0.81 ±0.05 n=5 gates release

V4 recovery within task 0.74 ±0.07 n=5 gates release

single-seed reasoning trace 0.72 n=1 preliminary

Superfície de publicação

O que sai, e o que fica.

A metodologia, o código de pontuação, os prompts e os cartões de modelo são públicos. As suites internas onde a própria avaliação é o diferenciador permanecem privadas.

01 methodology public paper + repo

02 scoring code public apache 2.0

03 prompts public in evaluation suite

04 model cards public with limits + risks

05 private suites internal where the eval itself is differentiating

Como o executamos

As tarefas são avaliadas pelo resultado e pelo rasto de raciocínio. Pontuamos a humildade factual, a fiabilidade de ferramentas e a recuperação de erros a par da exatidão bruta. As execuções multissemente são o padrão; os números de semente única são assinalados como preliminares.

O que publicamos

Metodologia, código de pontuação, prompts e cartões de modelo detalhados. O objetivo é que qualquer equipa consiga reproduzir o resultado, contestá-lo e estendê-lo ao seu próprio domínio.

Avaliações que avaliam a substância e condicionam os lançamentos.

Toda a investigação O ginásio de raciocínio

Loominum^™ 1.0

Sistemas de qualidade de produção

A família Loominum

Soluções

Saber mais

Questões abertas que estamos a explorar

Ferramentas de investigação

Áreas de investigação

Saber mais

Encontrar os invariantes subjacentes

Ferramentas de ciência

Áreas

Saber mais

A nossa missão é construir inteligência verificável que faça avançar a ciência e sirva a humanidade.

Empresa

Saber mais

Medir o raciocínio sob restrições reais

Os benchmarks padrão premeiam a fluência. Nós avaliamos a substância.

Quatro eixos sobre os quais publicamos

Os números saem com as suas barras de erro.

O que sai, e o que fica.

Como o executamos

O que publicamos

Avaliações que avaliam a substância e condicionam os lançamentos.

Preferências de cookies

Estritamente necessários