Künstliche Intelligenz auf Basis großer Sprachmodelle (Large Language Models, LLMs) ist in vielen digitalen Anwendungen nicht mehr wegzudenken. Doch mit ihrer Verbreitung wachsen auch die Sicherheitsrisiken. Eine besonders relevante Bedrohungskategorie sind sogenannte Evasion Attacks – also Umgehungsangriffe, bei denen Angreifende versuchen, die vorgesehenen Schutzmechanismen von KI-Systemen im laufenden Betrieb zu umgehen.
Das Bundesamt für Sicherheit in der Informationstechnik (BSI) adressiert diese Problematik in seiner aktuellen Veröffentlichung „Evasion Attacks on LLMs – Countermeasures in Practice“. Das Dokument richtet sich insbesondere an Softwareentwicklerinnen und -entwickler sowie IT-Sicherheitsverantwortliche in Unternehmen und Behörden, die LLM-basierte Systeme wie beispielsweise GPT von OpenAI einsetzen. Aber auch technikaffine Anwenderinnen und Anwender können von den Empfehlungen profitieren.
Angriffe über Nutzereingaben
Im Unterschied zur Manipulation von Trainingsdaten setzen Evasion-Angriffe nicht an der Entwicklung des Modells an, sondern erfolgen im laufenden Betrieb durch gezielte Eingaben. Ziel ist es, das Verhalten des Modells zu manipulieren, Sicherheitsvorgaben zu umgehen oder unerwünschte Funktionen zu aktivieren – ohne dass das Modell selbst verändert werden muss.
Typische Angriffsmethoden sind
- Prompt Injections (auch indirekt),
- Jailbreaks, bei denen Schutzmechanismen bewusst außer Kraft gesetzt werden,
- und Adversarial Prompts, also Eingaben, die auf Schwächen in der Modellverarbeitung abzielen.
Diese Techniken nutzen oft linguistische oder semantische Tricks, um LLMs dazu zu bringen, eigentlich blockierte Inhalte zu verarbeiten oder sicherheitskritische Handlungen auszuführen.
Praxisnahe Gegenmaßnahmen
- Die BSI-Publikation bietet eine strukturierte Einführung in das Thema und stellt eine Reihe konkreter Schutzmaßnahmen vor, die sich in der Praxis umsetzen lassen. Dazu zählen unter anderem:
- Robuste Systemprompts, die klare und sicherheitsorientierte Rahmenbedingungen definieren,
- Filtermechanismen, um schädliche Inhalte aus externen Dokumenten vor der Weiterverarbeitung zu erkennen,
- sowie interaktive Sicherheitsabfragen, bei denen Nutzerinnen und Nutzer bestimmte Aktionen des LLMs explizit bestätigen müssen.
Eine Checkliste unterstützt sowohl bei der theoretischen Planung als auch bei der praktischen Umsetzung der Maßnahmen. Ergänzt wird das Dokument durch Beispielszenarien, die zeigen, wie sich die Empfehlungen in bestehende Systemlandschaften integrieren lassen. Der Download erfolgt unter https://www.bsi.bund.de/SharedDocs/Downloads/EN/BSI/KI/Evasion_Attacks_on_LLMs-Countermeasures.pdf?__blob=publicationFile&v=2.
Fazit
Mit dem zunehmenden Einsatz von LLMs steigen auch die Anforderungen an deren Absicherung. Die vom BSI bereitgestellten Empfehlungen bieten eine fundierte Grundlage, um Systeme widerstandsfähiger gegenüber Evasion-Angriffen zu machen. Gerade für Institutionen, die auf vortrainierte Sprachmodelle setzen, ist die Berücksichtigung dieser Schutzmaßnahmen essenziell, um Missbrauch vorzubeugen und die Integrität der eigenen IT-Infrastruktur zu gewährleisten.