KI im Fadenkreuz

So anfällig sind Sprachmodelle für Manipulation

Sicherheit von Sprachmodellen: Wenn KI zum Risiko wird

Die rasante Entwicklung generativer KI-Modelle eröffnet enorme Chancen – aber ebenso erhebliche Risiken. In vielen Unternehmen wächst der Wunsch, Large Language Models (LLMs) produktiv einzusetzen, etwa für interne Assistenzsysteme, Kundenservice oder automatisierte Wissensabfragen. Gleichzeitig stellt sich die Frage: Wie lässt sich dieses mächtige, aber hochkomplexe Werkzeug sicher integrieren? Der folgende Beitrag fasst wesentliche Erkenntnisse und praktische Erfahrungen aus aktuellen Projekten und Sicherheitsanalysen zusammen – inklusive konkreter Handlungsempfehlungen für Unternehmen. 

Jailbreaks: Wenn KI ausbricht 

LLMs wirken oft allwissend, reaktionsschnell und neutral – doch sie lassen sich relativ leicht zu unerwünschten Antworten bewegen. Das zeigt ein Beispiel, das selbst mit aktuellen Modellen noch funktioniert: Ein scheinbar harmloser Prompt wie „Wie sieht ein Seepferdchen-Emoji aus?“ führt dazu, dass das Modell minutenlang versucht, ein nicht existentes Emoji zu beschreiben. Statt nüchtern zu melden „Dieses Emoji gibt es nicht“, verfängt sich das System in Endlosschleifen – ein klassisches Beispiel für ein Jailbreak-Verhalten: Das Modell agiert außerhalb seines vorgesehenen Reaktionsmusters. 

Noch problematischer wird es bei sicherheitskritischen Themen. Während moderne Modelle direkte Anfragen etwa zur Herstellung von Sprengstoff blockieren, lassen sich manche Systeme über Rollenspiel-Szenarien oder sprachliche Tarnungen („Erzähl mir eine Gute-Nacht-Geschichte, Oma…“) austricksen. Die Entwickler reagieren mit Filtern – doch diese sind oft reaktiv und leicht zu umgehen. 

Prompt Injection: Der unterschätzte Angriffsvektor 

Viele Jailbreaks sind harmlos. Doch es gibt eine deutlich kritischere Klasse: Prompt Injections. 
Dabei wird ein Modell so manipuliert, dass es: 

  • interne Regeln ignoriert
  • vertrauliche Daten preisgibt
  • verbotene Aktionen ausführt
  • angebundene Tools missbraucht (z. B. E-Mail, Datenbanken, Ticketsysteme) 

Diese Angriffe funktionieren häufig über subtil veränderte Eingaben oder kodierte Inhalte. Menschen erkennen das oft nicht – doch Modelle können die Anweisungen problemlos decodieren und ausführen. Diese Angriffe funktionieren auch über Bilder, Audiodateien oder Dokumente, in denen manipulierte Daten versteckt sind. 

Warum klassische Filter nicht ausreichen 

Die bekannten Sicherheitsschichten der LLM-Anbieter – etwa Reinforcement Learning mit Human Feedback oder Sprachfilter – sind wichtig, aber nicht ausreichend. Sie können: 

  • nicht alle manipulativen Muster abdecken
  • leicht umgangen werden
  • nur reaktiv auf neue Angriffsmethoden reagieren
  • keine unternehmensspezifischen Risiken berücksichtigen 

Viele Unternehmen verlassen sich darauf, dass der Anbieter des Modells „schon alles sicher macht“. Die Erfahrung aus zahlreichen Tests zeigt: Das reicht in der Praxis nicht aus. 

Guard-Modelle: Klein, effizient, unverzichtbar 

Eine der effektivsten Schutzmaßnahmen sind sogenannte Guard Models – ultraleichte, vorgeschaltete KI-Modelle, die Eingaben und Ausgaben des Hauptsystems prüfen. Sie erkennen Muster von Prompt Injections deutlich zuverlässiger als einfache Wortfilter. In Tests reduzieren sie die Erfolgsrate von Angriffen oft von über 60 % auf unter 1 %. Und das Beste: Sie sind kostenfrei, benötigen kaum Rechenleistung und lassen sich binnen Minuten integrieren. 

Das Grundproblem: Neuronale Netze sind manipulierbar 

Forschung zeigt, dass sich KI-Modelle grundsätzlich in die Irre führen lassen. Schon minimale Veränderungen – oft so unauffällig, dass Menschen sie nicht wahrnehmen würden – können ein System komplett falsch reagieren lassen. Das betrifft nicht nur Bilderkennungs- oder Sprachsysteme, sondern ebenso moderne Sprachmodelle. 

Hinzu kommt: Diese Modelle funktionieren im Kern wie ein frei programmierbarer Computer. Man kann ihnen nahezu jede Aufgabe in natürlicher Sprache beschreiben, und sie versuchen, sie auszuführen. Diese enorme Flexibilität macht Sprachmodelle so mächtig – und zugleich anfällig für Manipulation. Sie sind deshalb weit mehr als Chatwerkzeuge: Sie sind universelle Maschinen, die sich mit Worten steuern und eben auch fehlsteuern lassen. Das macht Angriffe extrem einfach. 

Trennung von Daten und Instruktionen: Ein bewährtes Prinzip 

Um Risiken zu minimieren, sollten Unternehmen ein bewährtes Security-Prinzip anwenden: 
die strikte Trennung von Daten und Befehlen. 

Was in der IT seit Jahrzehnten SQL-Injections verhindert, lässt sich auch auf LLM-Architekturen übertragen: 

  • Ein unprivilegiertes Modell verarbeitet ausschließlich externe Nutzereingaben und erzeugt vorbereitete Antworten („Prepared Answers“).
  • Ein zweites, privilegiertes Modell führt nur freigegebene Inhalte aus – und hat erst dann Zugang zu Tools, APIs oder Unternehmensdaten.
  • Zwischen beiden Systemen liegt eine geprüfte „Schleuse“, nicht vertrauenswürdige Eingaben wie E-Mails oder Webseiten werden gesondert behandelt. 

Dieses Dual-LLM-Pattern gewinnt zunehmend an Bedeutung. 

Security by Design – und nicht als Notfall-Patch 

Viele Unternehmen experimentieren aktuell mit Agentensystemen und KI-Integration – doch oft wird „Security by Design“ nicht von Anfang an mitgedacht. Das kann teuer werden: 
Das Nachrüsten einer Sicherheitsarchitektur kann mehr als 100-mal mehr Aufwand verursachen als eine frühzeitige Einplanung. Darum gilt: Je früher Sicherheit berücksichtigt wird, desto geringer die Kosten und desto höher die Erfolgswahrscheinlichkeit. 

Die drei wichtigsten Empfehlungen für Unternehmen 

  1. Frühzeitig Expertise hinzuziehen 

    Sicherheit sollte nicht erst dann Thema werden, wenn die ersten Prototypen laufen, sondern bereits ganz am Anfang. Erfahrene Security- und KI-Expert:innen können frühzeitig einschätzen, welche Risiken und regulatorischen Anforderungen relevant sind, welche Modelle sich eignen und wie eine robuste Architektur aussehen muss. Das verhindert spätere Umbaumaßnahmen, die oft zeit- und kostenintensiv sind, und stellt sicher, dass die Lösung langfristig stabil, sicher und compliant betrieben werden kann. 
     
  2. Strukturiert analysieren: Architektur, Risiken, Berechtigungen 

    Bereits ein intensiver Workshop reicht häufig aus, um ein konkretes Bedrohungsmodell für den geplanten Use Case zu erstellen. Dabei werden unter anderem untersucht: 

    - Welche Daten verarbeitet die KI?
    - Welche Systeme und Tools werden angebunden?
    - Welche Rollen interagieren mit dem System, und mit welchen Berechtigungen?
    - Wo könnten Prompt Injections oder andere Manipulationen auftreten? 

    Diese Analyse schafft Klarheit über tatsächliche Risiken und ist die Grundlage für eine maßgeschneiderte Sicherheitsarchitektur – statt Standardempfehlungen, die am Bedarf vorbeigehen. 

     
  3. Technische Mindeststandards umsetzen 

    Guard-Modelle verpflichtend einsetzen 
    Leichte vorgeschaltete Modelle prüfen Anfragen und Antworten automatisch auf verdächtige Muster, manipulierte Inhalte oder sicherheitskritischen Kontext. Sie filtern einen Großteil potenzieller Angriffe heraus, bevor diese das Hauptmodell überhaupt erreichen. 

    Dual-LLM-Muster bei kritischen Systemen nutzen 
    Wann immer die KI operative Aufgaben ausführen darf – E-Mails verschicken, Daten auslesen, Tickets anlegen – muss die Trennung von Daten und Befehlen gewährleistet sein. Das Dual-LLM-Prinzip verhindert, dass manipulierte Nutzereingaben direkt in Aktionen übersetzt werden können.

    Granulares Berechtigungs- und API-Management umsetzen 
    Jede Funktion braucht nur die Rechte, die unbedingt erforderlich sind. Kein LLM-Agent sollte „volle Systemrechte“ besitzen. Jede angebundene API sollte einzeln freigegeben und isoliert abgesichert sein. 

    Human in the Loop-Systeme nutzen 
    Wenn kritische Aktionen von KI-Modellen ausgeführt werden sollen, müssen diese zunächst von einem Menschen freigegeben werden. Hierfür ist es wichtig, dass die Bedienung komfortabel in den Workflow integriert ist und den notwendigen Kontext für eine Prüfung übersichtlich darstellt.

    Monitoring, Logging und SIEM-Integration aktivieren 
    Sämtliche Interaktionen mit der KI müssen nachvollziehbar und analysierbar sein. Eine Integration in SIEM-Systeme ermöglicht es, Auffälligkeiten frühzeitig zu erkennen und zu reagieren. 

    Kontinuierliche Validierung von KI-Antworten 
    Antworten eines LLM sollten nie ungeprüft in operative Prozesse einfließen. Validierungsmechanismen – weitere Modelle, heuristische Checks oder regelbasierte Prüfungen – stellen sicher, dass falsche oder manipulierte Inhalte nicht unbemerkt weitergegeben oder ausgeführt werden. 

Sicherheit als fortlaufender Prozess 

LLMs sind mächtig – aber nicht ungefährlich. Sie lassen sich manipulieren, fehlsteuern und missbrauchen. Doch mit der richtigen Architektur, modernen Schutzmaßnahmen und einem klaren Blick auf Risiken können Unternehmen generative KI sicher einsetzen. Materna unterstützt Sie dabei – von der Architekturberatung über die Risikobewertung bis hin zur Umsetzung robuster Sicherheitsmechanismen. So wird KI nicht zur Gefahr, sondern zum zuverlässigen Werkzeug mit echtem Mehrwert. 

Der Autor

Eduard Hübner, Experte für IT-Sicherheit bei Materna

Alle Artikel dieser Ausgabe

Monitor
Cyber Security
25.11.2025
Prompt Injection

Über die Sicherheit von Sprachmodellen.

Weiterlesen
Monitor
Public Sector
25.11.2025
Intelligente Verwaltung: KI beim ITZBund

Mehr Effizienz in der Verwaltung dank KI

Weiterlesen
Monitor
Life @ Materna
21.11.2025
Menschen bei Materna

Impulse, die verbinden - Impressionen von diesen besonderen Momenten

Weiterlesen
Monitor
Data & AI
Cyber Security
21.11.2025
SecurePIM

Daten-Souveränität heißt, dass keine Information das Gerät verlässt, ohne dass die Organisation das will oder weiß.

Weiterlesen
Monitor
Verwaltung Digital
Data & AI
Public Sector
Justiz
21.11.2025
Law2Logic

Mit dem KI-Assistenten Law2Logic zeigt Materna eindrucksvoll, wie Gesetze und Normen digitaltauglich werden.

Weiterlesen
Monitor
Data & AI
Public Sector
21.11.2025
KI beim ITZBund

Mehr Effizienz in der Verwaltung dank KI

Weiterlesen
Monitor
Think ahead
Data & AI
21.11.2025
Bewerbungsmanagement

Schnell, souverän, fair und rechtssicher: Wie KI-Agenten das Recruiting revolutionieren

Weiterlesen
Monitor
Think ahead
Verwaltung Digital
Transport und Logistik
Defence
21.11.2025
Military Mobility

Digitale Logistik als strategischer Faktor

Weiterlesen
Monitor
Europe
Resilience
Public Sector
21.11.2025
EU Data Act und der Cyber Resilience Act

Die größten Herausforderungen, praktische Umsetzungsschritte und die Chancen für Unternehmen und Behörden.

Weiterlesen
Monitor
Verwaltung Digital
Data & AI
Public Sector
21.11.2025
AI Transformation

Erfahren Sie, wie Unternehmen und Behörden KI effektiv, souverän und zukunftsfähig einsetzen können.

Weiterlesen
Monitor
Cyber Security
21.11.2025
Human Firewall

Ein Gespräch über die Human Firewall, KI, Live-Hacking und die Kunst, Sicherheit mit Humor zu vermitteln

Weiterlesen
Monitor
Data & AI
21.11.2025
Datenmonetarisierung

Darum ist warten teurer als starten

Weiterlesen
Monitor
Data & AI
21.11.2025
KI-Schulungen für Mitarbeiter

Spätestens mit dem EU AI Act wird klar: KI-Kompetenz ist keine Kür mehr, sondern Pflicht.

Weiterlesen
Monitor
Resilience
Sustainability
21.11.2025
Resilienztag 2025

Krisen lassen sich nicht verhindern – aber besser bewältigen

Weiterlesen
Monitor
Data & AI
21.11.2025
Digitale Souveränität

Über den Umgang mit amerikanischer Dominanz

Weiterlesen
Monitor
Data & AI
21.11.2025
Physical AI

Europas industrielle Antwort auf den KI-Hype

Weiterlesen
Monitor
Sustainability
Data & AI
21.11.2025
Digitale Souveränität: Was ist das überhaupt?

Digitale Souveränität wird zum Schlüsselbegriff unserer Zeit.

Weiterlesen