Verantwortung · architektonisch · kein Prompt · zur Laufzeit durchgesetzt

Sicherheitsmethoden für agentische Systeme

Forschung zu Aufsicht, Fähigkeitsgrenzen, sicherem Werkzeugeinsatz und robustem Ablehnungsverhalten.

Ein System, das bei den guten Anfragen hilfreich und bei den schlechten verlässlich bleibt.

Aufsicht Grenzen Ablehnung

Wie wir über Sicherheit denken

Sicherheit ist eine architektonische Eigenschaft, kein Prompt der letzten Schicht

Unsere Sicherheitsarbeit ist in die Architektur eingebaut: Fähigkeitsgrenzen, die zur Laufzeit durchgesetzt werden, Aufsichtsflächen, die menschliche Prüfende schnell und informiert halten, und Ablehnungsverhalten, das gegen gegnerischen Druck evaluiert wird. Das Ziel ist ein System, das bei guten Anfragen hilfreich und bei schlechten verlässlich bleibt.

Sicherheit auf Prompt-Ebene → hält bis zum nächsten Jailbreak

Architektur-Ebene → die Grenze hält, auch wenn der Prompt es nicht tut

Drei Verpflichtungen

Wo die Sicherheitsarbeit ansetzt

AL1 Aufsicht von Grund auf

Strukturierte Pläne, nachvollziehbare Werkzeugaufrufe und klare Übergabepunkte, an denen ein Mensch entscheidet.

AL2 Fähigkeitsgrenzen

Agenten operieren innerhalb expliziter Allowlists für Werkzeuge und Daten. Grenzen werden auf der Laufzeitebene durchgesetzt, nicht nur durch den Prompt.

AL3 Robuste Ablehnung

Das Ablehnungsverhalten wird gegen gegnerische Prompts, Prompt-Injection und Anreizdruck getestet. Der Maßstab ist „bleibt hilfreich bei guten“, nicht „lehnt schlechte ab“.

Allowlist · Laufzeitrichtlinie

Werkzeuge sind standardmäßig verboten. Erlaubnisse sind explizit.

Die Laufzeit entscheidet, nicht der Prompt. Ein Werkzeug, das nicht auf der Allowlist steht, kann nicht aufgerufen werden – selbst wenn der Agent meint, es sollte.

Werkzeug Geltungsbereich Region Urteil

read_doc allow public + signed pass

web_search allow rate-limited pass

send_email deny requires reviewer block

shell_exec deny no sandbox match block

pay_invoice deny human-only block

compile_code allow sandbox · read pass

Robustheit der Ablehnung

Bleibt hilfreich bei guten Anfragen. Bleibt fest unter Druck.

Der Maßstab ist nicht „lehnt schlechte ab“. Der Maßstab ist „bleibt hilfreich bei guten“, gemessen an unbeholfenen Formulierungen und gegnerischem Druck in derselben Evaluierung.

good ask, plain 0.96

good ask, awkward 0.91

bad ask, plain 0.98

bad ask, jailbreak 0.94

bad ask, prompt inj. 0.92

bad ask, role-play 0.95

bleibt hilfreich lehnt korrekt ab

Aufsichtsübergabe

Fünf Stufen, zwei menschliche Berührungspunkte.

Prüfende sehen den Plan vor der Ausführung und eine Stichproben-Spur danach. Der Agent führt niemals etwas aus, das die prüfende Person nicht auf Planebene freigegeben hat.

agent

plan

structured plan emitted

→

human

reviewer

approve · revise · deny

→

agent

execute

allow-listed tools only

→

human

reviewer

spot-check trace

→

agent

report

full audit trail · signed

Veröffentlichungsfläche

Öffentlich, wo es hilft. Privat, wo es differenziert.

01 capability-boundary API public with reference runtime

02 audit-stream spec public JSONL · OTel-compatible

03 refusal evaluation harness public paper + scoring code

04 adversarial prompt corpus partial subset under research use

05 internal red-team playbook private differentiating

Was wir veröffentlicht haben

Methoden für fähigkeitsbegrenzte Agenten, Spezifikationen für Audit-Streams und Ablehnungsevaluierungen. Wo die Arbeit differenzierend ist, halten wir den zugrunde liegenden Mechanismus privat; wo nicht, tragen wir sie upstream bei.

Sicherheit als Architektur, nicht als Prompt der letzten Schicht.

Alle Forschung Evaluierungsansatz

Loominum^™ 1.0

Produktionsreife Systeme

Die Loominum-Familie

Lösungen

Mehr erfahren

Offene Fragen, denen wir nachgehen

Forschungswerkzeuge

Forschungsbereiche

Mehr erfahren

Die zugrunde liegenden Invarianten aufdecken

Wissenschaftswerkzeuge

Felder

Mehr erfahren

Unsere Mission ist es, überprüfbare Intelligenz zu entwickeln, die die Wissenschaft voranbringt und der Menschheit dient.

Unternehmen

Mehr erfahren

Sicherheitsmethoden für agentische Systeme

Sicherheit ist eine architektonische Eigenschaft, kein Prompt der letzten Schicht

Wo die Sicherheitsarbeit ansetzt

Werkzeuge sind standardmäßig verboten. Erlaubnisse sind explizit.

Bleibt hilfreich bei guten Anfragen. Bleibt fest unter Druck.

Fünf Stufen, zwei menschliche Berührungspunkte.

Öffentlich, wo es hilft. Privat, wo es differenziert.

Was wir veröffentlicht haben

Sicherheit als Architektur, nicht als Prompt der letzten Schicht.

Cookie-Einstellungen

Unbedingt erforderlich