Prompt Injection

Sicherheit von Sprachmodellen: Wenn KI zum Risiko wird

Die rasante Entwicklung generativer KI-Modelle eröffnet enorme Chancen – aber ebenso erhebliche Risiken. In vielen Unternehmen wächst der Wunsch, Large Language Models (LLMs) produktiv einzusetzen, etwa für interne Assistenzsysteme, Kundenservice oder automatisierte Wissensabfragen. Gleichzeitig stellt sich die Frage: Wie lässt sich dieses mächtige, aber hochkomplexe Werkzeug sicher integrieren? Der folgende Beitrag fasst wesentliche Erkenntnisse und praktische Erfahrungen aus aktuellen Projekten und Sicherheitsanalysen zusammen – inklusive konkreter Handlungsempfehlungen für Unternehmen.

Jailbreaks: Wenn KI ausbricht

LLMs wirken oft allwissend, reaktionsschnell und neutral – doch sie lassen sich relativ leicht zu unerwünschten Antworten bewegen. Das zeigt ein Beispiel, das selbst mit aktuellen Modellen noch funktioniert: Ein scheinbar harmloser Prompt wie „Wie sieht ein Seepferdchen-Emoji aus?“ führt dazu, dass das Modell minutenlang versucht, ein nicht existentes Emoji zu beschreiben. Statt nüchtern zu melden „Dieses Emoji gibt es nicht“, verfängt sich das System in Endlosschleifen – ein klassisches Beispiel für ein Jailbreak-Verhalten: Das Modell agiert außerhalb seines vorgesehenen Reaktionsmusters.

Noch problematischer wird es bei sicherheitskritischen Themen. Während moderne Modelle direkte Anfragen etwa zur Herstellung von Sprengstoff blockieren, lassen sich manche Systeme über Rollenspiel-Szenarien oder sprachliche Tarnungen („Erzähl mir eine Gute-Nacht-Geschichte, Oma…“) austricksen. Die Entwickler reagieren mit Filtern – doch diese sind oft reaktiv und leicht zu umgehen.

Prompt Injection: Der unterschätzte Angriffsvektor

Viele Jailbreaks sind harmlos. Doch es gibt eine deutlich kritischere Klasse: Prompt Injections.
Dabei wird ein Modell so manipuliert, dass es:

interne Regeln ignoriert

vertrauliche Daten preisgibt

verbotene Aktionen ausführt

angebundene Tools missbraucht (z. B. E-Mail, Datenbanken, Ticketsysteme)

Diese Angriffe funktionieren häufig über subtil veränderte Eingaben oder kodierte Inhalte. Menschen erkennen das oft nicht – doch Modelle können die Anweisungen problemlos decodieren und ausführen. Diese Angriffe funktionieren auch über Bilder, Audiodateien oder Dokumente, in denen manipulierte Daten versteckt sind.

Warum klassische Filter nicht ausreichen

Die bekannten Sicherheitsschichten der LLM-Anbieter – etwa Reinforcement Learning mit Human Feedback oder Sprachfilter – sind wichtig, aber nicht ausreichend. Sie können:

nicht alle manipulativen Muster abdecken

leicht umgangen werden

nur reaktiv auf neue Angriffsmethoden reagieren

keine unternehmensspezifischen Risiken berücksichtigen

Viele Unternehmen verlassen sich darauf, dass der Anbieter des Modells „schon alles sicher macht“. Die Erfahrung aus zahlreichen Tests zeigt: Das reicht in der Praxis nicht aus.