Planes estructurados, llamadas a herramientas trazables y puntos de traspaso claros donde decide una persona.
Métodos de seguridad para sistemas agénticos
Investigación sobre supervisión, límites de capacidad, uso seguro de herramientas y comportamiento de rechazo robusto.
Un sistema que se mantiene útil ante las peticiones legítimas y fiable ante las indebidas.
La seguridad es una propiedad arquitectónica, no un prompt de capa final
Nuestro trabajo de seguridad está integrado en la arquitectura: límites de capacidad aplicados en el tiempo de ejecución, superficies de supervisión que mantienen a los revisores humanos rápidos e informados, y comportamiento de rechazo evaluado frente a la presión adversarial. El objetivo es un sistema que se mantenga útil ante las peticiones legítimas y fiable ante las indebidas.
Dónde se asienta el trabajo de seguridad
Los agentes operan dentro de listas de permitidos explícitas para herramientas y datos. Los límites se aplican en la capa del tiempo de ejecución, no solo mediante el prompt.
El comportamiento de rechazo se prueba frente a prompts adversariales, inyección de prompts y presión de incentivos. El listón es «mantenerse útil ante las legítimas», no «rechazar las indebidas».
Las herramientas se deniegan por defecto. Los permisos son explícitos.
Decide el tiempo de ejecución, no el prompt. Una herramienta que no está en la lista de permitidos no puede invocarse, aunque el agente crea que debería.
Se mantiene útil ante las peticiones legítimas. Se mantiene firme bajo presión.
El listón no es «rechazar las indebidas». El listón es «mantenerse útil ante las legítimas», medido frente a formulaciones incómodas y presión adversarial en la misma evaluación.
Cinco etapas, dos puntos de contacto humano.
Los revisores ven el plan antes de la ejecución y una traza de muestreo después. El agente nunca ejecuta nada que el revisor no haya aprobado a nivel de plan.
Público donde ayuda. Privado donde diferencia.
Lo que hemos publicado
Métodos para agentes con capacidad acotada, especificaciones de flujos de auditoría y evaluaciones de rechazo. Donde el trabajo es diferenciador, mantenemos privado el mecanismo subyacente; donde no lo es, lo aportamos al ecosistema.