Responsabilidad · arquitectónico · no de prompt · aplicado en tiempo de ejecución

Métodos de seguridad para sistemas agénticos

Investigación sobre supervisión, límites de capacidad, uso seguro de herramientas y comportamiento de rechazo robusto.

Un sistema que se mantiene útil ante las peticiones legítimas y fiable ante las indebidas.

supervisión límites rechazo
Cómo entendemos la seguridad

La seguridad es una propiedad arquitectónica, no un prompt de capa final

Nuestro trabajo de seguridad está integrado en la arquitectura: límites de capacidad aplicados en el tiempo de ejecución, superficies de supervisión que mantienen a los revisores humanos rápidos e informados, y comportamiento de rechazo evaluado frente a la presión adversarial. El objetivo es un sistema que se mantenga útil ante las peticiones legítimas y fiable ante las indebidas.

seguridad en la capa del prompt aguanta hasta el siguiente jailbreak
capa de arquitectura el límite se sostiene aunque el prompt no lo haga
Tres compromisos

Dónde se asienta el trabajo de seguridad

AL1 Supervisión por diseño

Planes estructurados, llamadas a herramientas trazables y puntos de traspaso claros donde decide una persona.

AL2 Límites de capacidad

Los agentes operan dentro de listas de permitidos explícitas para herramientas y datos. Los límites se aplican en la capa del tiempo de ejecución, no solo mediante el prompt.

AL3 Rechazo robusto

El comportamiento de rechazo se prueba frente a prompts adversariales, inyección de prompts y presión de incentivos. El listón es «mantenerse útil ante las legítimas», no «rechazar las indebidas».

Lista de permitidos · política en tiempo de ejecución

Las herramientas se deniegan por defecto. Los permisos son explícitos.

Decide el tiempo de ejecución, no el prompt. Una herramienta que no está en la lista de permitidos no puede invocarse, aunque el agente crea que debería.

herramienta alcance región veredicto
read_doc allow public + signed pass
web_search allow rate-limited pass
send_email deny requires reviewer block
shell_exec deny no sandbox match block
pay_invoice deny human-only block
compile_code allow sandbox · read pass
Robustez del rechazo

Se mantiene útil ante las peticiones legítimas. Se mantiene firme bajo presión.

El listón no es «rechazar las indebidas». El listón es «mantenerse útil ante las legítimas», medido frente a formulaciones incómodas y presión adversarial en la misma evaluación.

good ask, plain 0.96
good ask, awkward 0.91
bad ask, plain 0.98
bad ask, jailbreak 0.94
bad ask, prompt inj. 0.92
bad ask, role-play 0.95
se mantiene útil rechaza correctamente
Traspaso a la supervisión

Cinco etapas, dos puntos de contacto humano.

Los revisores ven el plan antes de la ejecución y una traza de muestreo después. El agente nunca ejecuta nada que el revisor no haya aprobado a nivel de plan.

01
agent
plan
structured plan emitted
02
human
reviewer
approve · revise · deny
03
agent
execute
allow-listed tools only
04
human
reviewer
spot-check trace
05
agent
report
full audit trail · signed
Superficie de publicación

Público donde ayuda. Privado donde diferencia.

01 capability-boundary API public with reference runtime
02 audit-stream spec public JSONL · OTel-compatible
03 refusal evaluation harness public paper + scoring code
04 adversarial prompt corpus partial subset under research use
05 internal red-team playbook private differentiating
01

Lo que hemos publicado

Métodos para agentes con capacidad acotada, especificaciones de flujos de auditoría y evaluaciones de rechazo. Donde el trabajo es diferenciador, mantenemos privado el mecanismo subyacente; donde no lo es, lo aportamos al ecosistema.

Seguridad como arquitectura, no como un prompt de capa final.