Herramientas de investigación · ronda en vivo · 4 cabezas

Palestra

Un gimnasio de debate y esfuerzo donde humanos y modelos practican el razonamiento bajo evaluación en vivo.

Un gimnasio de debate y esfuerzo donde humanos y modelos practican el razonamiento bajo evaluación en vivo, no sobre un benchmark estático.

formato debate · drill · voz · socrático
evaluadores coach · crítico · esfuerzo · socrático
bucle de voz whisper large-v3 → kokoro v1
Qué es Palestra

Un gimnasio, no un benchmark

Palestra es el gimnasio cognitivo que usamos para estudiar la colaboración humano-IA. Ejecuta rondas estructuradas —debates, drills, ejercicios de voz— con evaluadores multicabeza para coaching, crítica, esfuerzo y planteamiento socrático. Es donde medimos la calidad del razonamiento bajo condiciones en vivo, no sobre un benchmark estático.

benchmark
  • conjunto de prompts estático
  • calificación de un solo disparo
  • premia la fluidez
  • no se permite réplica
gimnasio
  • oponentes en vivo
  • puntuado a lo largo de la traza
  • premia el razonamiento que sobrevive a un intercambio real
  • la sonda debe acertar en la afirmación que sostiene el peso
Cómo funciona

Cuatro cabezas evaluadoras, un gimnasio

Cuatro cabezas, puntuadas de forma independiente. La puntuación de la ronda es la traza, no un único número.

P1 Coach

Puntúa los movimientos según si hacen avanzar el razonamiento del participante, no según si suenan inteligentes.

premia
movimientos que hacen avanzar el razonamiento
penaliza
movimientos que suenan inteligentes pero no llevan a ninguna parte
P2 Crítico

Rol adversarial que sondea la afirmación más débil de cada ronda.

premia
presión sobre la afirmación más débil
penaliza
presión difusa que no acierta en la afirmación que sostiene el peso
P3 Modelo de recompensa por esfuerzo

Separa el esfuerzo del resultado, de modo que la calidad del razonamiento se califica incluso cuando la respuesta resulta afortunada o desafortunada.

premia
la calidad del razonamiento al margen de la suerte
penaliza
pensar solo en el resultado: atajos afortunados
P4 Socrático

Plantea la siguiente pregunta en lugar de dar la siguiente respuesta. Útil cuando el gimnasio se usa para entrenar, no para evaluar.

premia
plantear la siguiente pregunta en lugar de responder
penaliza
cerrar la ronda prematuramente
Anatomía de una ronda

Seis movimientos, cuatro cabezas, una traza.

Las columnas de puntuación son por cabeza y por movimiento. La traza es lo que el participante se lleva a casa.

# quién movimiento P1 P2 P3 P4
01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66
02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?
03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74
04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71
05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82
06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?
Voz en el bucle

Una ronda con la que puedes hablar.

Audio de entrada, audio de salida, de extremo a extremo. El pipeline de evaluación no se rompe cuando cambia el medio.

01
mic
16 kHz capture
+0 ms
02
whisper L3
faster-whisper large-v3
+120 ms
03
evaluator
4-head scoring
+280 ms
04
response
reasoning trace
+720 ms
05
kokoro v1
speech synthesis
+920 ms
ida y vuelta verificada · STT y TTS funcionan sin romper el pipeline de 4 cabezas
Modos del gimnasio

Cuatro formatos, el mismo pipeline.

Debate
rondas 2 vs 2
cabezas P1·P2·P3

argumentación estructurada bajo puntuación en vivo

Drill
rondas 1 vs RM
cabezas P1·P3

repeticiones cortas sobre un único movimiento

Voz
rondas en vivo
cabezas P1·P2·P3·P4

audio de entrada / audio de salida de extremo a extremo

Socrático
rondas entrenamiento
cabezas P4

plantea la siguiente pregunta, nunca da la respuesta

01

Voz en el bucle

Palestra tiene un modo de voz conectado a una ruta verificada de speech-to-text y text-to-speech, de modo que los ejercicios de debate en vivo se ejecutan de extremo a extremo sin romper el pipeline de evaluación.

02

Por qué importa

Los benchmarks estáticos premian la fluidez. El gimnasio premia el razonamiento que sobrevive a un intercambio real. Lo usamos para estudiar cómo colaboran realmente los equipos de humanos y modelos, con las cabezas evaluadoras visibles para ambos lados.

Un gimnasio para el razonamiento que sobrevive a un intercambio real.