Responsabilidad · arquitectónico · no de prompt · aplicado en tiempo de ejecución

Métodos de seguridad para sistemas agénticos

Investigación sobre supervisión, límites de capacidad, uso seguro de herramientas y comportamiento de rechazo robusto.

Un sistema que se mantiene útil ante las peticiones legítimas y fiable ante las indebidas.

supervisión límites rechazo

Cómo entendemos la seguridad

La seguridad es una propiedad arquitectónica, no un prompt de capa final

Nuestro trabajo de seguridad está integrado en la arquitectura: límites de capacidad aplicados en el tiempo de ejecución, superficies de supervisión que mantienen a los revisores humanos rápidos e informados, y comportamiento de rechazo evaluado frente a la presión adversarial. El objetivo es un sistema que se mantenga útil ante las peticiones legítimas y fiable ante las indebidas.

seguridad en la capa del prompt → aguanta hasta el siguiente jailbreak

capa de arquitectura → el límite se sostiene aunque el prompt no lo haga

Tres compromisos

Dónde se asienta el trabajo de seguridad

AL1 Supervisión por diseño

Planes estructurados, llamadas a herramientas trazables y puntos de traspaso claros donde decide una persona.

AL2 Límites de capacidad

Los agentes operan dentro de listas de permitidos explícitas para herramientas y datos. Los límites se aplican en la capa del tiempo de ejecución, no solo mediante el prompt.

AL3 Rechazo robusto

El comportamiento de rechazo se prueba frente a prompts adversariales, inyección de prompts y presión de incentivos. El listón es «mantenerse útil ante las legítimas», no «rechazar las indebidas».

Lista de permitidos · política en tiempo de ejecución

Las herramientas se deniegan por defecto. Los permisos son explícitos.

Decide el tiempo de ejecución, no el prompt. Una herramienta que no está en la lista de permitidos no puede invocarse, aunque el agente crea que debería.

herramienta alcance región veredicto

read_doc allow public + signed pass

web_search allow rate-limited pass

send_email deny requires reviewer block

shell_exec deny no sandbox match block

pay_invoice deny human-only block

compile_code allow sandbox · read pass

Robustez del rechazo

Se mantiene útil ante las peticiones legítimas. Se mantiene firme bajo presión.

El listón no es «rechazar las indebidas». El listón es «mantenerse útil ante las legítimas», medido frente a formulaciones incómodas y presión adversarial en la misma evaluación.

good ask, plain 0.96

good ask, awkward 0.91

bad ask, plain 0.98

bad ask, jailbreak 0.94

bad ask, prompt inj. 0.92

bad ask, role-play 0.95

se mantiene útil rechaza correctamente

Traspaso a la supervisión

Cinco etapas, dos puntos de contacto humano.

Los revisores ven el plan antes de la ejecución y una traza de muestreo después. El agente nunca ejecuta nada que el revisor no haya aprobado a nivel de plan.

agent

plan

structured plan emitted

→

human

reviewer

approve · revise · deny

→

agent

execute

allow-listed tools only

→

human

reviewer

spot-check trace

→

agent

report

full audit trail · signed

Superficie de publicación

Público donde ayuda. Privado donde diferencia.

01 capability-boundary API public with reference runtime

02 audit-stream spec public JSONL · OTel-compatible

03 refusal evaluation harness public paper + scoring code

04 adversarial prompt corpus partial subset under research use

05 internal red-team playbook private differentiating

Lo que hemos publicado

Métodos para agentes con capacidad acotada, especificaciones de flujos de auditoría y evaluaciones de rechazo. Donde el trabajo es diferenciador, mantenemos privado el mecanismo subyacente; donde no lo es, lo aportamos al ecosistema.

Seguridad como arquitectura, no como un prompt de capa final.

Toda la investigación Enfoque de evaluaciones

Loominum^™ 1.0

Sistemas de grado producción

La familia Loominum

Soluciones

Más información

Preguntas abiertas que estamos explorando

Herramientas de investigación

Áreas de investigación

Más información

Encontrando los invariantes subyacentes

Herramientas científicas

Disciplinas

Más información

Nuestra misión es construir inteligencia verificable que haga avanzar la ciencia y sirva a la humanidad.

Empresa

Más información

Métodos de seguridad para sistemas agénticos

La seguridad es una propiedad arquitectónica, no un prompt de capa final

Dónde se asienta el trabajo de seguridad

Las herramientas se deniegan por defecto. Los permisos son explícitos.

Se mantiene útil ante las peticiones legítimas. Se mantiene firme bajo presión.

Cinco etapas, dos puntos de contacto humano.

Público donde ayuda. Privado donde diferencia.

Lo que hemos publicado

Seguridad como arquitectura, no como un prompt de capa final.

Preferencias de cookies

Estrictamente necesarias