Neue Jailbreaking-Technik namens „Deceptive Delight“ entdeckt

Entdeckt hat die Jailbreaking-Technik das Unit 42-Team von Palo Alto Networks. Laut den Security-Experten zeigen  die KI-Systeme erhebliche Schwachstellen und verdeutlichen, wie dringend erforderlich verbesserte Sicherheitsmaßnahmen sind, um den Missbrauch von Generativer KI (Gen AI) zu verhindern.

Deceptive Delight ist interaktiv

„Deceptive Delight“ ist eine mehrstufige Technik, die LLMs in einer interaktiven Unterhaltung schrittweise dazu bringt, ihre Sicherheitsvorkehrungen zu umgehen. Dieser Ansatz erhöht sowohl die Relevanz als auch die Schwere von erzeugten schädlichen Inhalten.

Geschickt bettet „Deceptive Delight“ schädliche Themen in harmlose Erzählungen ein. Dadurch werden die LLMs dazu verleitet, schädliche Inhalte zu generieren, während sie sich auf scheinbar unkritische Details fokussieren.

Die Technik erzielt in Tests mit Open-Source- und proprietären KI-Modellen eine Erfolgsquote von 65 Prozent. Dies übertrifft deutlich die Erfolgsquote von 5,8 Prozent, die bei direkten Angriffen ohne Jailbreaking-Techniken erzielt wird.

Roger Homrich

Recent Posts

“KI-Agenten müssen mit ERP, CRM und Co interagieren können”

Der Begriff „Agent" wird oft unscharf verwendet, aber es kristallisieren sich Funktionstypen heraus, die verschiedene…

2 Tagen ago

Operation Eastwood: NoName057(16) am Ende oder noch im Rennen?

Die jüngsten internationalen Maßnahmen gegen NoName057(16) werden ihre Aktivitäten wahrscheinlich nicht dauerhaft beenden, sagt Rafa…

2 Tagen ago

Siemens gewinnt führenden KI-Experten

Vasi Philomin wechselt von Amazon, wo er die KI-Produktstrategie von Amazon Web Services (AWS) verantwortete.

2 Tagen ago

Mittelständische IT-Beratungen richten sich neu aus

Laut Lündendonk verändert die Cloud ihr Geschäftsmodell. Kompetenzen in der Softwareentwicklung stehen auf dem Prüfstand.

2 Tagen ago

Autonome Shuttles als Alternative?

Forschende des KIT haben untersucht, wie selbstfahrende Kleinbusse den Öffentlichen Nahverkehr stärken könnten.

2 Tagen ago

Digitale Zwillinge: Wenn Brücken sprechen lernen

Was wäre, wenn Brücken selbst melden könnten, wann und wo sie Reparaturbedarf haben?

4 Tagen ago