Palo Alto Networks: “(Ook) DeepSeek makkelijk te misleiden”

DeepSeek geeft instructies om Molotovcocktails te maken

(Ook) AI-model DeepSeek blijkt opvallend makkelijk te misleiden. Onderzoekers van cybersecuritybedrijf Palo Alto Networks slaagden erin instructies los te peuteren om Molotovcocktails te maken of code voor malware te schrijven.

De onderzoekers pasten drie “jailbreaking”-technieken toe (letterlijk: ontsnapping), die ze eerder met wisselend succes bij andere taalmodellen uitprobeerden. Bij jailbreaking wordt een opdracht zo geformuleerd dat het model als het ware wordt misleid om schadelijke antwoorden te genereren.

Bad Likert Judge

Bij de eerste techniek, “Bad Likert Judge”, wordt DeepSeek gevraagd een antwoord te beoordelen op een schaal van goed- tot kwaadaardig. De meest kwaadaardige optie bevat mogelijk illegale informatie. Wanneer vervolgens wordt doorgevraagd naar die laatste optie, geeft DeepSeek uiteindelijk verboden informatie vrij.

Afbeelding 1: Bad Likert Judge: eerste vraag met Likert-schaal 

Afbeelding 2: Bad Likert Judge: laatste vraag met code om malware te bouwen 

Crescendo

De tweede jailbreaking-techniek, “Crescendo”, is even eenvoudig als doeltreffend. In minder dan vijf interacties wordt DeepSeek in een hoek gedreven om gevoelige informatie vrij te geven over een bepaald onderwerp. De vragen worden crescendogewijs steeds agressiever.

Afbeelding 3: Crescendo: eerste vraag met de geschiedenis van Molotovcocktails

Afbeelding 4: Crescendo: laatste vraag met instructies voor een Molotovcocktail

Deceptive Delight

Bij de derde techniek, “Deceptive Delight”, wordt gevaarlijke inhoud “gesandwicht” tussen onschuldige onderwerpen. DeepSeek verliest hierdoor de bredere context uit het oog en geeft zonder aarzelen een antwoord.

Afbeelding 5: Deceptive Delight: eerste vraag met sandwich-methode

Afbeelding 6: Deceptive Delight: laatste vraag met broncode voor malware

Gebruikers beschermen

Hoewel veel van deze schadelijke informatie vrij beschikbaar is op het internet, waarschuwen experts dat taalmodellen zoals DeepSeek de drempel verder verlagen. In minder dan vijf interacties kan DeepSeek vaak misleid worden. Naarmate deze modellen steeds vaker worden ingezet, moeten bedrijven achter deze technologieën de nodige maatregelen nemen om gebruikers te beschermen.

Lees meer over jailbreaking met DeepSeek. 

Over Palo Alto Networks

Palo Alto Networks is 's werelds leider op het gebied van cyberbeveiliging. Wij innoveren om cyberbedreigingen te overtreffen, zodat organisaties technologie met vertrouwen kunnen omarmen. Wij leveren next-gen cybersecurity aan duizenden klanten wereldwijd, in alle sectoren. Onze best-in-class cyberbeveiligingsplatforms en -diensten worden ondersteund door toonaangevende informatie over bedreigingen en versterkt door ultramoderne automatisering. Of het nu gaat om het inzetten van onze producten om de Zero Trust Enterprise mogelijk te maken, het reageren op een beveiligingsincident of het aangaan van partnerschappen om betere beveiligingsresultaten te leveren via een partnerecosysteem van wereldklasse, wij zetten ons in om ervoor te zorgen dat elke dag veiliger is dan de vorige. Dat is wat ons tot de cyberbeveiligingspartner bij uitstek maakt.

Bij Palo Alto Networks zijn we toegewijd aan het samenbrengen van de allerbeste mensen in dienst van onze missie, dus we zijn er ook trots op de cybersecurity werkplek bij uitstek te zijn, erkend in Newsweek's Most Loved Workplaces (2021), Comparably Best Companies for Diversity (2021) en HRC Best Places for LGBTQ Equality (2022).

Ga voor meer informatie naar www.paloaltonetworks.com.

 

Contact info

Rodrigue Delépine

rodrigue@comiti.be

+32 4 98 29 13 14

LinkedInWeb Site

Geen berichten meer ontvangen van ons? Klik hier