Herramientas de investigación · ronda en vivo · 4 cabezas

Palestra

Un gimnasio de debate y esfuerzo donde humanos y modelos practican el razonamiento bajo evaluación en vivo.

Un gimnasio de debate y esfuerzo donde humanos y modelos practican el razonamiento bajo evaluación en vivo, no sobre un benchmark estático.

formato debate · drill · voz · socrático

evaluadores coach · crítico · esfuerzo · socrático

bucle de voz whisper large-v3 → kokoro v1

round · #2046 live

participant A claim

participant B probe

P1 Coach

P2 Critic

P3 Effort RM

P4 Socratic

01 A Opening claim: X causes Y under conditions C. 0.72

02 B Counter: prior P shows Y occurs without X. 0.81

03 A Refines: only under C₁ does the causal link hold. 0.78

04 B Probes the weakest claim: define C₁ operationally. 0.65

Qué es Palestra

Un gimnasio, no un benchmark

Palestra es el gimnasio cognitivo que usamos para estudiar la colaboración humano-IA. Ejecuta rondas estructuradas —debates, drills, ejercicios de voz— con evaluadores multicabeza para coaching, crítica, esfuerzo y planteamiento socrático. Es donde medimos la calidad del razonamiento bajo condiciones en vivo, no sobre un benchmark estático.

benchmark

conjunto de prompts estático
calificación de un solo disparo
premia la fluidez
no se permite réplica

gimnasio

oponentes en vivo
puntuado a lo largo de la traza
premia el razonamiento que sobrevive a un intercambio real
la sonda debe acertar en la afirmación que sostiene el peso

Cómo funciona

Cuatro cabezas evaluadoras, un gimnasio

Cuatro cabezas, puntuadas de forma independiente. La puntuación de la ronda es la traza, no un único número.

P1 Coach

Puntúa los movimientos según si hacen avanzar el razonamiento del participante, no según si suenan inteligentes.

premia: movimientos que hacen avanzar el razonamiento
penaliza: movimientos que suenan inteligentes pero no llevan a ninguna parte

P2 Crítico

Rol adversarial que sondea la afirmación más débil de cada ronda.

premia: presión sobre la afirmación más débil
penaliza: presión difusa que no acierta en la afirmación que sostiene el peso

P3 Modelo de recompensa por esfuerzo

Separa el esfuerzo del resultado, de modo que la calidad del razonamiento se califica incluso cuando la respuesta resulta afortunada o desafortunada.

premia: la calidad del razonamiento al margen de la suerte
penaliza: pensar solo en el resultado: atajos afortunados

P4 Socrático

Plantea la siguiente pregunta en lugar de dar la siguiente respuesta. Útil cuando el gimnasio se usa para entrenar, no para evaluar.

premia: plantear la siguiente pregunta en lugar de responder
penaliza: cerrar la ronda prematuramente

Anatomía de una ronda

Seis movimientos, cuatro cabezas, una traza.

Las columnas de puntuación son por cabeza y por movimiento. La traza es lo que el participante se lleva a casa.

# quién movimiento P1 P2 P3 P4

01 A Opening claim: X causes Y under conditions C. 0.72 0.41 0.66 –

02 B Counter: prior P shows Y occurs without X. 0.81 0.74 0.70 why C?

03 A Refines: only under C₁ does the causal link hold. 0.78 0.62 0.74 –

04 B Probes the weakest claim: define C₁ operationally. 0.65 0.88 0.71 –

05 A Operationalises C₁ with measurable threshold. 0.84 0.79 0.82 –

06 B Accepts refinement, asks for an out-of-sample test. 0.86 0.83 0.78 OOS?

Voz en el bucle

Una ronda con la que puedes hablar.

Audio de entrada, audio de salida, de extremo a extremo. El pipeline de evaluación no se rompe cuando cambia el medio.

mic

16 kHz capture

+0 ms

whisper L3

faster-whisper large-v3

+120 ms

evaluator

4-head scoring

+280 ms

response

reasoning trace

+720 ms

kokoro v1

speech synthesis

+920 ms

ida y vuelta verificada · STT y TTS funcionan sin romper el pipeline de 4 cabezas

Modos del gimnasio

Cuatro formatos, el mismo pipeline.

Debate

rondas 2 vs 2

cabezas P1·P2·P3

argumentación estructurada bajo puntuación en vivo

Drill

rondas 1 vs RM

cabezas P1·P3

repeticiones cortas sobre un único movimiento

Voz

rondas en vivo

cabezas P1·P2·P3·P4

audio de entrada / audio de salida de extremo a extremo

Socrático

rondas entrenamiento

cabezas P4

plantea la siguiente pregunta, nunca da la respuesta

Voz en el bucle

Palestra tiene un modo de voz conectado a una ruta verificada de speech-to-text y text-to-speech, de modo que los ejercicios de debate en vivo se ejecutan de extremo a extremo sin romper el pipeline de evaluación.

Por qué importa

Los benchmarks estáticos premian la fluidez. El gimnasio premia el razonamiento que sobrevive a un intercambio real. Lo usamos para estudiar cómo colaboran realmente los equipos de humanos y modelos, con las cabezas evaluadoras visibles para ambos lados.

Un gimnasio para el razonamiento que sobrevive a un intercambio real.

Toda la investigación Enfoque de evaluación

Loominum^™ 1.0

Sistemas de grado producción

La familia Loominum

Soluciones

Más información

Preguntas abiertas que estamos explorando

Herramientas de investigación

Áreas de investigación

Más información

Encontrando los invariantes subyacentes

Herramientas científicas

Disciplinas

Más información

Nuestra misión es construir inteligencia verificable que haga avanzar la ciencia y sirva a la humanidad.

Empresa

Más información

Palestra

Un gimnasio, no un benchmark

Cuatro cabezas evaluadoras, un gimnasio

Seis movimientos, cuatro cabezas, una traza.

Una ronda con la que puedes hablar.

Cuatro formatos, el mismo pipeline.

Voz en el bucle

Por qué importa

Un gimnasio para el razonamiento que sobrevive a un intercambio real.

Preferencias de cookies

Estrictamente necesarias