Ferramentas de investigação · ronda ao vivo · 4 avaliadores

Palestra

Um ginásio de debate e esforço onde humanos e modelos praticam o raciocínio sob avaliação em tempo real.

Um ginásio de debate e esforço onde humanos e modelos praticam o raciocínio sob avaliação em tempo real, e não num benchmark estático.

formato debate · treino · voz · socrático

avaliadores treinador · crítico · esforço · socrático

ciclo de voz whisper large-v3 → kokoro v1

round · #2046 live

participant A claim

participant B probe

P1 Coach

P2 Critic

P3 Effort RM

P4 Socratic

01 A Opening claim: X causes Y under conditions C. 0.72

02 B Counter: prior P shows Y occurs without X. 0.81

03 A Refines: only under C₁ does the causal link hold. 0.78

04 B Probes the weakest claim: define C₁ operationally. 0.65

O que é a Palestra

Um ginásio, não um benchmark

A Palestra é o ginásio cognitivo que usamos para estudar a colaboração humano-IA. Executa rondas estruturadas — debates, treinos, exercícios de voz — com avaliadores multi-cabeça para treino, crítica, esforço e estímulo socrático. É onde medimos a qualidade do raciocínio em condições reais, e não num benchmark estático.

benchmark

conjunto de prompts estático
nota num único disparo
premeia a fluência
sem direito a réplica

ginásio

adversários ao vivo
pontuado ao longo do trajeto
premeia o raciocínio que sobrevive a uma troca real
a sondagem tem de acertar na alegação que sustenta o argumento

Como funciona

Quatro cabeças avaliadoras, um ginásio

Quatro cabeças, pontuadas de forma independente. A pontuação da ronda é o trajeto, não um único número.

P1 Treinador

Pontua as jogadas consoante fazem avançar o raciocínio do participante, e não consoante soam inteligentes.

premeia: jogadas que fazem avançar o raciocínio
penaliza: jogadas que soam inteligentes mas não levam a lado nenhum

P2 Crítico

Papel adversarial que sonda a alegação mais frágil de cada ronda.

premeia: pressão sobre a alegação mais frágil
penaliza: pressão dispersa que falha a alegação que sustenta o argumento

P3 Modelo de recompensa por esforço

Separa o esforço do resultado, para que a qualidade do raciocínio seja avaliada mesmo quando a resposta calha ser feliz ou infeliz.

premeia: qualidade do raciocínio independentemente da sorte
penaliza: pensamento focado só no resultado — atalhos com sorte

P4 Socrático

Faz a pergunta seguinte em vez de dar a resposta seguinte. Útil quando o ginásio é usado para treinar, não para avaliar.

premeia: fazer a pergunta seguinte em vez de responder
penaliza: encerrar a ronda prematuramente

Anatomia de uma ronda

Seis jogadas, quatro cabeças, um trajeto.

As colunas de pontuação são por cabeça e por jogada. O trajeto é o que o participante leva para casa.

# quem jogada P1 P2 P3 P4

01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66 –

02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?

03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74 –

04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71 –

05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82 –

06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?

Voz no ciclo

Uma ronda em que se pode falar.

Áudio à entrada, áudio à saída, de ponta a ponta. O pipeline de avaliação não se parte quando o meio muda.

mic

16 kHz capture

+0 ms

whisper L3

faster-whisper large-v3

+120 ms

evaluator

4-head scoring

+280 ms

response

reasoning trace

+720 ms

kokoro v1

speech synthesis

+920 ms

ida e volta verificada · STT e TTS funcionam sem partir o pipeline de 4 cabeças

Modos do ginásio

Quatro formatos, o mesmo pipeline.

Debate

rondas 2 vs 2

cabeças P1·P2·P3

argumentação estruturada sob pontuação ao vivo

Treino

rondas 1 vs RM

cabeças P1·P3

repetições curtas sobre uma única jogada

Voz

rondas ao vivo

cabeças P1·P2·P3·P4

áudio à entrada / áudio à saída de ponta a ponta

Socrático

rondas treino

cabeças P4

faz a pergunta seguinte, nunca dá a resposta

Voz no ciclo

A Palestra tem um modo de voz ligado a um caminho verificado de fala-para-texto e texto-para-fala, para que os exercícios de debate ao vivo decorram de ponta a ponta sem partir o pipeline de avaliação.

Porque é que importa

Os benchmarks estáticos premeiam a fluência. O ginásio premeia o raciocínio que sobrevive a uma troca real. Usamo-lo para estudar como equipas de humanos e modelos colaboram de facto, com as cabeças avaliadoras visíveis para ambos os lados.

Um ginásio para o raciocínio que sobrevive a uma troca real.

Toda a investigação Abordagem de avaliação

Loominum^™ 1.0

Sistemas de qualidade de produção

A família Loominum

Soluções

Saber mais

Questões abertas que estamos a explorar

Ferramentas de investigação

Áreas de investigação

Saber mais

Encontrar os invariantes subjacentes

Ferramentas de ciência

Áreas

Saber mais

A nossa missão é construir inteligência verificável que faça avançar a ciência e sirva a humanidade.

Empresa

Saber mais

Palestra

Um ginásio, não um benchmark

Quatro cabeças avaliadoras, um ginásio

Seis jogadas, quatro cabeças, um trajeto.

Uma ronda em que se pode falar.

Quatro formatos, o mesmo pipeline.

Voz no ciclo

Porque é que importa

Um ginásio para o raciocínio que sobrevive a uma troca real.

Preferências de cookies

Estritamente necessários