Responsabilidade · arquitetural · não prompt · imposto em tempo de execução

Métodos de segurança para sistemas agênticos

Investigação sobre supervisão, limites de capacidade, uso seguro de ferramentas e comportamento de recusa robusto.

Um sistema que se mantém prestável nos pedidos legítimos e fiável nos perigosos.

supervisão fronteiras recusa
Como pensamos a segurança

A segurança é uma propriedade arquitetural, não um prompt de camada final

O nosso trabalho de segurança está integrado na arquitetura: fronteiras de capacidade impostas ao nível do runtime, superfícies de supervisão que mantêm os revisores humanos rápidos e informados, e comportamento de recusa avaliado contra pressão adversarial. O objetivo é um sistema que se mantém prestável nos bons pedidos e fiável nos maus.

segurança ao nível do prompt sobrevive até ao próximo jailbreak
ao nível da arquitetura a fronteira aguenta mesmo quando o prompt não aguenta
Três compromissos

Onde assenta o trabalho de segurança

AL1 Supervisão por desenho

Planos estruturados, chamadas de ferramentas rastreáveis e pontos de transferência claros onde é uma pessoa que decide.

AL2 Fronteiras de capacidade

Os agentes operam dentro de listas de permissões explícitas para ferramentas e dados. As fronteiras são impostas na camada de execução, não apenas por prompt.

AL3 Recusa robusta

O comportamento de recusa é testado contra prompts adversariais, injeção de prompt e pressão de incentivos. A fasquia é «manter-se prestável nos bons», não «recusar os maus».

Lista de permissões · política de execução

As ferramentas são negadas por defeito. As permissões são explícitas.

É o runtime que decide, não o prompt. Uma ferramenta que não conste da lista de permissões não pode ser invocada, mesmo que o agente julgue que deveria.

ferramenta âmbito região veredito
read_doc allow public + signed pass
web_search allow rate-limited pass
send_email deny requires reviewer block
shell_exec deny no sandbox match block
pay_invoice deny human-only block
compile_code allow sandbox · read pass
Robustez da recusa

Mantém-se prestável nos bons pedidos. Mantém-se firme sob pressão.

A fasquia não é «recusar os maus». A fasquia é «manter-se prestável nos bons», medida contra formulações ambíguas e pressão adversarial na mesma avaliação.

good ask, plain 0.96
good ask, awkward 0.91
bad ask, plain 0.98
bad ask, jailbreak 0.94
bad ask, prompt inj. 0.92
bad ask, role-play 0.95
mantém-se prestável recusa corretamente
Transferência para supervisão

Cinco etapas, dois pontos de contacto humano.

Os revisores veem o plano antes da execução e um rasto de verificação por amostragem depois. O agente nunca executa nada que o revisor não tenha aprovado ao nível do plano.

01
agent
plan
structured plan emitted
02
human
reviewer
approve · revise · deny
03
agent
execute
allow-listed tools only
04
human
reviewer
spot-check trace
05
agent
report
full audit trail · signed
Superfície de publicação

Público onde ajuda. Privado onde diferencia.

01 capability-boundary API public with reference runtime
02 audit-stream spec public JSONL · OTel-compatible
03 refusal evaluation harness public paper + scoring code
04 adversarial prompt corpus partial subset under research use
05 internal red-team playbook private differentiating
01

O que publicámos

Métodos para agentes com capacidade limitada, especificações de fluxos de auditoria e avaliações de recusa. Onde o trabalho é diferenciador, mantemos privado o mecanismo subjacente; onde não é, contribuímos a montante.

Segurança como arquitetura, não como um prompt de camada final.