Puntúa los movimientos según si hacen avanzar el razonamiento del participante, no según si suenan inteligentes.
Palestra
Un gimnasio de debate y esfuerzo donde humanos y modelos practican el razonamiento bajo evaluación en vivo.
Un gimnasio de debate y esfuerzo donde humanos y modelos practican el razonamiento bajo evaluación en vivo, no sobre un benchmark estático.
Un gimnasio, no un benchmark
Palestra es el gimnasio cognitivo que usamos para estudiar la colaboración humano-IA. Ejecuta rondas estructuradas —debates, drills, ejercicios de voz— con evaluadores multicabeza para coaching, crítica, esfuerzo y planteamiento socrático. Es donde medimos la calidad del razonamiento bajo condiciones en vivo, no sobre un benchmark estático.
- conjunto de prompts estático
- calificación de un solo disparo
- premia la fluidez
- no se permite réplica
- oponentes en vivo
- puntuado a lo largo de la traza
- premia el razonamiento que sobrevive a un intercambio real
- la sonda debe acertar en la afirmación que sostiene el peso
Cuatro cabezas evaluadoras, un gimnasio
Cuatro cabezas, puntuadas de forma independiente. La puntuación de la ronda es la traza, no un único número.
Rol adversarial que sondea la afirmación más débil de cada ronda.
Separa el esfuerzo del resultado, de modo que la calidad del razonamiento se califica incluso cuando la respuesta resulta afortunada o desafortunada.
Plantea la siguiente pregunta en lugar de dar la siguiente respuesta. Útil cuando el gimnasio se usa para entrenar, no para evaluar.
Seis movimientos, cuatro cabezas, una traza.
Las columnas de puntuación son por cabeza y por movimiento. La traza es lo que el participante se lleva a casa.
Una ronda con la que puedes hablar.
Audio de entrada, audio de salida, de extremo a extremo. El pipeline de evaluación no se rompe cuando cambia el medio.
Cuatro formatos, el mismo pipeline.
argumentación estructurada bajo puntuación en vivo
repeticiones cortas sobre un único movimiento
audio de entrada / audio de salida de extremo a extremo
plantea la siguiente pregunta, nunca da la respuesta
Voz en el bucle
Palestra tiene un modo de voz conectado a una ruta verificada de speech-to-text y text-to-speech, de modo que los ejercicios de debate en vivo se ejecutan de extremo a extremo sin romper el pipeline de evaluación.
Por qué importa
Los benchmarks estáticos premian la fluidez. El gimnasio premia el razonamiento que sobrevive a un intercambio real. Lo usamos para estudiar cómo colaboran realmente los equipos de humanos y modelos, con las cabezas evaluadoras visibles para ambos lados.