Planos estruturados, chamadas de ferramentas rastreáveis e pontos de transferência claros onde é uma pessoa que decide.
Métodos de segurança para sistemas agênticos
Investigação sobre supervisão, limites de capacidade, uso seguro de ferramentas e comportamento de recusa robusto.
Um sistema que se mantém prestável nos pedidos legítimos e fiável nos perigosos.
A segurança é uma propriedade arquitetural, não um prompt de camada final
O nosso trabalho de segurança está integrado na arquitetura: fronteiras de capacidade impostas ao nível do runtime, superfícies de supervisão que mantêm os revisores humanos rápidos e informados, e comportamento de recusa avaliado contra pressão adversarial. O objetivo é um sistema que se mantém prestável nos bons pedidos e fiável nos maus.
Onde assenta o trabalho de segurança
Os agentes operam dentro de listas de permissões explícitas para ferramentas e dados. As fronteiras são impostas na camada de execução, não apenas por prompt.
O comportamento de recusa é testado contra prompts adversariais, injeção de prompt e pressão de incentivos. A fasquia é «manter-se prestável nos bons», não «recusar os maus».
As ferramentas são negadas por defeito. As permissões são explícitas.
É o runtime que decide, não o prompt. Uma ferramenta que não conste da lista de permissões não pode ser invocada, mesmo que o agente julgue que deveria.
Mantém-se prestável nos bons pedidos. Mantém-se firme sob pressão.
A fasquia não é «recusar os maus». A fasquia é «manter-se prestável nos bons», medida contra formulações ambíguas e pressão adversarial na mesma avaliação.
Cinco etapas, dois pontos de contacto humano.
Os revisores veem o plano antes da execução e um rasto de verificação por amostragem depois. O agente nunca executa nada que o revisor não tenha aprovado ao nível do plano.
Público onde ajuda. Privado onde diferencia.
O que publicámos
Métodos para agentes com capacidade limitada, especificações de fluxos de auditoria e avaliações de recusa. Onde o trabalho é diferenciador, mantemos privado o mecanismo subjacente; onde não é, contribuímos a montante.