Palo Alto Networks ontdekt methode om taalmodellen in 2 op de 3 gevallen te misleiden

In drie interacties of minder slagen onderzoekers erin om taalmodellen gevaarlijke antwoorden te laten genereren

Onderzoekers van Palo Alto Networks hebben een techniek ontwikkeld waarmee ze in drie of minder interacties taalmodellen kunnen misleiden om gevaarlijke antwoorden te geven. Zo slaagden ze erin om instructies te ontlokken voor het maken van een molotovcocktail of het formuleren van dreigende boodschappen.

Sandwichen

UNIT 42, de onderzoekstak van Palo Alto Networks, voerde ongeveer 8.000 gesprekken met 8 verschillende AI-modellen. In 65% van de gevallen wisten de onderzoekers binnen drie interacties of minder de modellen te misleiden. De namen van de chatbots zijn geanonimiseerd om de AI-leveranciers niet publiekelijk te schaden.

De methode om deze taalmodellen om de tuin te leiden is opvallend eenvoudig. LLM’s (Large Language Models) hebben een beperkte aandachtsspanne: ze verwerken slechts kleine stukken tekst tegelijkertijd, wat hen vatbaar maakt voor manipulatie bij complexe logica. De onderzoekers maakten gebruik van deze zwakte door gevaarlijke inhoud te “sandwichen” tussen onschuldige onderwerpen. Hierdoor verloor het model de bredere context uit het oog en gaf het zonder aarzeling antwoord.

Figuur 1: Template van een succesvolle prompt

Figuur 2: Voorbeeld van een succesvolle prompt om een molotov cocktail te maken

Modellen versterken

Hoewel taalverwerking bijzonder complex is, moeten AI-modellen dringend robuuster worden. De onderzoekers adviseren het gebruik van contentfilters die schadelijke inhoud vooraf kunnen opsporen. Daarnaast is het essentieel dat AI-technici de prompts van hun modellen verfijnen. Dit kan bijvoorbeeld door lijsten met toegestane onderwerpen in te stellen of door het model een specifieke persona te geven. Een model dat zich voordoet als een leraar zal veel minder geneigd zijn om ongepaste antwoorden te formuleren.

Bekijk het onderzoek via de volgende link.

Over Palo Alto Networks

Palo Alto Networks is 's werelds leider op het gebied van cyberbeveiliging. Wij innoveren om cyberbedreigingen te overtreffen, zodat organisaties technologie met vertrouwen kunnen omarmen. Wij leveren next-gen cybersecurity aan duizenden klanten wereldwijd, in alle sectoren. Onze best-in-class cyberbeveiligingsplatforms en -diensten worden ondersteund door toonaangevende informatie over bedreigingen en versterkt door ultramoderne automatisering. Of het nu gaat om het inzetten van onze producten om de Zero Trust Enterprise mogelijk te maken, het reageren op een beveiligingsincident of het aangaan van partnerschappen om betere beveiligingsresultaten te leveren via een partnerecosysteem van wereldklasse, wij zetten ons in om ervoor te zorgen dat elke dag veiliger is dan de vorige. Dat is wat ons tot de cyberbeveiligingspartner bij uitstek maakt.

Bij Palo Alto Networks zijn we toegewijd aan het samenbrengen van de allerbeste mensen in dienst van onze missie, dus we zijn er ook trots op de cybersecurity werkplek bij uitstek te zijn, erkend in Newsweek's Most Loved Workplaces (2021), Comparably Best Companies for Diversity (2021) en HRC Best Places for LGBTQ Equality (2022).

Ga voor meer informatie naar www.paloaltonetworks.com.

Contact info

Rodrigue Delépine

rodrigue@comiti.be

+32 4 98 29 13 14

Geen berichten meer ontvangen van ons? Klik hier