Pontua as jogadas consoante fazem avançar o raciocínio do participante, e não consoante soam inteligentes.
Palestra
Um ginásio de debate e esforço onde humanos e modelos praticam o raciocínio sob avaliação em tempo real.
Um ginásio de debate e esforço onde humanos e modelos praticam o raciocínio sob avaliação em tempo real, e não num benchmark estático.
Um ginásio, não um benchmark
A Palestra é o ginásio cognitivo que usamos para estudar a colaboração humano-IA. Executa rondas estruturadas — debates, treinos, exercícios de voz — com avaliadores multi-cabeça para treino, crítica, esforço e estímulo socrático. É onde medimos a qualidade do raciocínio em condições reais, e não num benchmark estático.
- conjunto de prompts estático
- nota num único disparo
- premeia a fluência
- sem direito a réplica
- adversários ao vivo
- pontuado ao longo do trajeto
- premeia o raciocínio que sobrevive a uma troca real
- a sondagem tem de acertar na alegação que sustenta o argumento
Quatro cabeças avaliadoras, um ginásio
Quatro cabeças, pontuadas de forma independente. A pontuação da ronda é o trajeto, não um único número.
Papel adversarial que sonda a alegação mais frágil de cada ronda.
Separa o esforço do resultado, para que a qualidade do raciocínio seja avaliada mesmo quando a resposta calha ser feliz ou infeliz.
Faz a pergunta seguinte em vez de dar a resposta seguinte. Útil quando o ginásio é usado para treinar, não para avaliar.
Seis jogadas, quatro cabeças, um trajeto.
As colunas de pontuação são por cabeça e por jogada. O trajeto é o que o participante leva para casa.
Uma ronda em que se pode falar.
Áudio à entrada, áudio à saída, de ponta a ponta. O pipeline de avaliação não se parte quando o meio muda.
Quatro formatos, o mesmo pipeline.
argumentação estruturada sob pontuação ao vivo
repetições curtas sobre uma única jogada
áudio à entrada / áudio à saída de ponta a ponta
faz a pergunta seguinte, nunca dá a resposta
Voz no ciclo
A Palestra tem um modo de voz ligado a um caminho verificado de fala-para-texto e texto-para-fala, para que os exercícios de debate ao vivo decorram de ponta a ponta sem partir o pipeline de avaliação.
Porque é que importa
Os benchmarks estáticos premeiam a fluência. O ginásio premeia o raciocínio que sobrevive a uma troca real. Usamo-lo para estudar como equipas de humanos e modelos colaboram de facto, com as cabeças avaliadoras visíveis para ambos os lados.