Ferramentas de investigação · ronda ao vivo · 4 avaliadores

Palestra

Um ginásio de debate e esforço onde humanos e modelos praticam o raciocínio sob avaliação em tempo real.

Um ginásio de debate e esforço onde humanos e modelos praticam o raciocínio sob avaliação em tempo real, e não num benchmark estático.

formato debate · treino · voz · socrático
avaliadores treinador · crítico · esforço · socrático
ciclo de voz whisper large-v3 → kokoro v1
O que é a Palestra

Um ginásio, não um benchmark

A Palestra é o ginásio cognitivo que usamos para estudar a colaboração humano-IA. Executa rondas estruturadas — debates, treinos, exercícios de voz — com avaliadores multi-cabeça para treino, crítica, esforço e estímulo socrático. É onde medimos a qualidade do raciocínio em condições reais, e não num benchmark estático.

benchmark
  • conjunto de prompts estático
  • nota num único disparo
  • premeia a fluência
  • sem direito a réplica
ginásio
  • adversários ao vivo
  • pontuado ao longo do trajeto
  • premeia o raciocínio que sobrevive a uma troca real
  • a sondagem tem de acertar na alegação que sustenta o argumento
Como funciona

Quatro cabeças avaliadoras, um ginásio

Quatro cabeças, pontuadas de forma independente. A pontuação da ronda é o trajeto, não um único número.

P1 Treinador

Pontua as jogadas consoante fazem avançar o raciocínio do participante, e não consoante soam inteligentes.

premeia
jogadas que fazem avançar o raciocínio
penaliza
jogadas que soam inteligentes mas não levam a lado nenhum
P2 Crítico

Papel adversarial que sonda a alegação mais frágil de cada ronda.

premeia
pressão sobre a alegação mais frágil
penaliza
pressão dispersa que falha a alegação que sustenta o argumento
P3 Modelo de recompensa por esforço

Separa o esforço do resultado, para que a qualidade do raciocínio seja avaliada mesmo quando a resposta calha ser feliz ou infeliz.

premeia
qualidade do raciocínio independentemente da sorte
penaliza
pensamento focado só no resultado — atalhos com sorte
P4 Socrático

Faz a pergunta seguinte em vez de dar a resposta seguinte. Útil quando o ginásio é usado para treinar, não para avaliar.

premeia
fazer a pergunta seguinte em vez de responder
penaliza
encerrar a ronda prematuramente
Anatomia de uma ronda

Seis jogadas, quatro cabeças, um trajeto.

As colunas de pontuação são por cabeça e por jogada. O trajeto é o que o participante leva para casa.

# quem jogada P1 P2 P3 P4
01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66
02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?
03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74
04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71
05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82
06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?
Voz no ciclo

Uma ronda em que se pode falar.

Áudio à entrada, áudio à saída, de ponta a ponta. O pipeline de avaliação não se parte quando o meio muda.

01
mic
16 kHz capture
+0 ms
02
whisper L3
faster-whisper large-v3
+120 ms
03
evaluator
4-head scoring
+280 ms
04
response
reasoning trace
+720 ms
05
kokoro v1
speech synthesis
+920 ms
ida e volta verificada · STT e TTS funcionam sem partir o pipeline de 4 cabeças
Modos do ginásio

Quatro formatos, o mesmo pipeline.

Debate
rondas 2 vs 2
cabeças P1·P2·P3

argumentação estruturada sob pontuação ao vivo

Treino
rondas 1 vs RM
cabeças P1·P3

repetições curtas sobre uma única jogada

Voz
rondas ao vivo
cabeças P1·P2·P3·P4

áudio à entrada / áudio à saída de ponta a ponta

Socrático
rondas treino
cabeças P4

faz a pergunta seguinte, nunca dá a resposta

01

Voz no ciclo

A Palestra tem um modo de voz ligado a um caminho verificado de fala-para-texto e texto-para-fala, para que os exercícios de debate ao vivo decorram de ponta a ponta sem partir o pipeline de avaliação.

02

Porque é que importa

Os benchmarks estáticos premeiam a fluência. O ginásio premeia o raciocínio que sobrevive a uma troca real. Usamo-lo para estudar como equipas de humanos e modelos colaboram de facto, com as cabeças avaliadoras visíveis para ambos os lados.

Um ginásio para o raciocínio que sobrevive a uma troca real.