Verantwortung · architektonisch · kein Prompt · zur Laufzeit durchgesetzt

Sicherheitsmethoden für agentische Systeme

Forschung zu Aufsicht, Fähigkeitsgrenzen, sicherem Werkzeugeinsatz und robustem Ablehnungsverhalten.

Ein System, das bei den guten Anfragen hilfreich und bei den schlechten verlässlich bleibt.

Aufsicht Grenzen Ablehnung
Wie wir über Sicherheit denken

Sicherheit ist eine architektonische Eigenschaft, kein Prompt der letzten Schicht

Unsere Sicherheitsarbeit ist in die Architektur eingebaut: Fähigkeitsgrenzen, die zur Laufzeit durchgesetzt werden, Aufsichtsflächen, die menschliche Prüfende schnell und informiert halten, und Ablehnungsverhalten, das gegen gegnerischen Druck evaluiert wird. Das Ziel ist ein System, das bei guten Anfragen hilfreich und bei schlechten verlässlich bleibt.

Sicherheit auf Prompt-Ebene hält bis zum nächsten Jailbreak
Architektur-Ebene die Grenze hält, auch wenn der Prompt es nicht tut
Drei Verpflichtungen

Wo die Sicherheitsarbeit ansetzt

AL1 Aufsicht von Grund auf

Strukturierte Pläne, nachvollziehbare Werkzeugaufrufe und klare Übergabepunkte, an denen ein Mensch entscheidet.

AL2 Fähigkeitsgrenzen

Agenten operieren innerhalb expliziter Allowlists für Werkzeuge und Daten. Grenzen werden auf der Laufzeitebene durchgesetzt, nicht nur durch den Prompt.

AL3 Robuste Ablehnung

Das Ablehnungsverhalten wird gegen gegnerische Prompts, Prompt-Injection und Anreizdruck getestet. Der Maßstab ist „bleibt hilfreich bei guten“, nicht „lehnt schlechte ab“.

Allowlist · Laufzeitrichtlinie

Werkzeuge sind standardmäßig verboten. Erlaubnisse sind explizit.

Die Laufzeit entscheidet, nicht der Prompt. Ein Werkzeug, das nicht auf der Allowlist steht, kann nicht aufgerufen werden – selbst wenn der Agent meint, es sollte.

Werkzeug Geltungsbereich Region Urteil
read_doc allow public + signed pass
web_search allow rate-limited pass
send_email deny requires reviewer block
shell_exec deny no sandbox match block
pay_invoice deny human-only block
compile_code allow sandbox · read pass
Robustheit der Ablehnung

Bleibt hilfreich bei guten Anfragen. Bleibt fest unter Druck.

Der Maßstab ist nicht „lehnt schlechte ab“. Der Maßstab ist „bleibt hilfreich bei guten“, gemessen an unbeholfenen Formulierungen und gegnerischem Druck in derselben Evaluierung.

good ask, plain 0.96
good ask, awkward 0.91
bad ask, plain 0.98
bad ask, jailbreak 0.94
bad ask, prompt inj. 0.92
bad ask, role-play 0.95
bleibt hilfreich lehnt korrekt ab
Aufsichtsübergabe

Fünf Stufen, zwei menschliche Berührungspunkte.

Prüfende sehen den Plan vor der Ausführung und eine Stichproben-Spur danach. Der Agent führt niemals etwas aus, das die prüfende Person nicht auf Planebene freigegeben hat.

01
agent
plan
structured plan emitted
02
human
reviewer
approve · revise · deny
03
agent
execute
allow-listed tools only
04
human
reviewer
spot-check trace
05
agent
report
full audit trail · signed
Veröffentlichungsfläche

Öffentlich, wo es hilft. Privat, wo es differenziert.

01 capability-boundary API public with reference runtime
02 audit-stream spec public JSONL · OTel-compatible
03 refusal evaluation harness public paper + scoring code
04 adversarial prompt corpus partial subset under research use
05 internal red-team playbook private differentiating
01

Was wir veröffentlicht haben

Methoden für fähigkeitsbegrenzte Agenten, Spezifikationen für Audit-Streams und Ablehnungsevaluierungen. Wo die Arbeit differenzierend ist, halten wir den zugrunde liegenden Mechanismus privat; wo nicht, tragen wir sie upstream bei.

Sicherheit als Architektur, nicht als Prompt der letzten Schicht.