Responsabilidade · arquitetural · não prompt · imposto em tempo de execução

Métodos de segurança para sistemas agênticos

Investigação sobre supervisão, limites de capacidade, uso seguro de ferramentas e comportamento de recusa robusto.

Um sistema que se mantém prestável nos pedidos legítimos e fiável nos perigosos.

supervisão fronteiras recusa

Como pensamos a segurança

A segurança é uma propriedade arquitetural, não um prompt de camada final

O nosso trabalho de segurança está integrado na arquitetura: fronteiras de capacidade impostas ao nível do runtime, superfícies de supervisão que mantêm os revisores humanos rápidos e informados, e comportamento de recusa avaliado contra pressão adversarial. O objetivo é um sistema que se mantém prestável nos bons pedidos e fiável nos maus.

segurança ao nível do prompt → sobrevive até ao próximo jailbreak

ao nível da arquitetura → a fronteira aguenta mesmo quando o prompt não aguenta

Três compromissos

Onde assenta o trabalho de segurança

AL1 Supervisão por desenho

Planos estruturados, chamadas de ferramentas rastreáveis e pontos de transferência claros onde é uma pessoa que decide.

AL2 Fronteiras de capacidade

Os agentes operam dentro de listas de permissões explícitas para ferramentas e dados. As fronteiras são impostas na camada de execução, não apenas por prompt.

AL3 Recusa robusta

O comportamento de recusa é testado contra prompts adversariais, injeção de prompt e pressão de incentivos. A fasquia é «manter-se prestável nos bons», não «recusar os maus».

Lista de permissões · política de execução

As ferramentas são negadas por defeito. As permissões são explícitas.

É o runtime que decide, não o prompt. Uma ferramenta que não conste da lista de permissões não pode ser invocada, mesmo que o agente julgue que deveria.

ferramenta âmbito região veredito

read_doc allow public + signed pass

web_search allow rate-limited pass

send_email deny requires reviewer block

shell_exec deny no sandbox match block

pay_invoice deny human-only block

compile_code allow sandbox · read pass

Robustez da recusa

Mantém-se prestável nos bons pedidos. Mantém-se firme sob pressão.

A fasquia não é «recusar os maus». A fasquia é «manter-se prestável nos bons», medida contra formulações ambíguas e pressão adversarial na mesma avaliação.

good ask, plain 0.96

good ask, awkward 0.91

bad ask, plain 0.98

bad ask, jailbreak 0.94

bad ask, prompt inj. 0.92

bad ask, role-play 0.95

mantém-se prestável recusa corretamente

Transferência para supervisão

Cinco etapas, dois pontos de contacto humano.

Os revisores veem o plano antes da execução e um rasto de verificação por amostragem depois. O agente nunca executa nada que o revisor não tenha aprovado ao nível do plano.

agent

plan

structured plan emitted

→

human

reviewer

approve · revise · deny

→

agent

execute

allow-listed tools only

→

human

reviewer

spot-check trace

→

agent

report

full audit trail · signed

Superfície de publicação

Público onde ajuda. Privado onde diferencia.

01 capability-boundary API public with reference runtime

02 audit-stream spec public JSONL · OTel-compatible

03 refusal evaluation harness public paper + scoring code

04 adversarial prompt corpus partial subset under research use

05 internal red-team playbook private differentiating

O que publicámos

Métodos para agentes com capacidade limitada, especificações de fluxos de auditoria e avaliações de recusa. Onde o trabalho é diferenciador, mantemos privado o mecanismo subjacente; onde não é, contribuímos a montante.

Segurança como arquitetura, não como um prompt de camada final.

Toda a investigação Abordagem às avaliações

Loominum^™ 1.0

Sistemas de qualidade de produção

A família Loominum

Soluções

Saber mais

Questões abertas que estamos a explorar

Ferramentas de investigação

Áreas de investigação

Saber mais

Encontrar os invariantes subjacentes

Ferramentas de ciência

Áreas

Saber mais

A nossa missão é construir inteligência verificável que faça avançar a ciência e sirva a humanidade.

Empresa

Saber mais

Métodos de segurança para sistemas agênticos

A segurança é uma propriedade arquitetural, não um prompt de camada final

Onde assenta o trabalho de segurança

As ferramentas são negadas por defeito. As permissões são explícitas.

Mantém-se prestável nos bons pedidos. Mantém-se firme sob pressão.

Cinco etapas, dois pontos de contacto humano.

Público onde ajuda. Privado onde diferencia.

O que publicámos

Segurança como arquitetura, não como um prompt de camada final.

Preferências de cookies

Estritamente necessários