Honeypot-cyberbeveiligingstechniek kan ook aanvallen bij natuurlijke taalverwerking stoppen

Honeypot Cybersecurity-techniek kan ook aanvallen in natuurlijke taalverwerking stoppen

Naarmate online nepnieuwsdetectoren en spamfilters geavanceerder worden, worden ook de methoden van aanvallers om hen te misleiden steeds geavanceerder, inclusief aanvallen via de ‘universele trigger’. Bij deze op leren gebaseerde methode gebruikt een aanvaller een zin of een reeks woorden om een onbepaald aantal invoergegevens voor de gek te houden. Een succesvolle aanval kan ertoe leiden dat er meer nepnieuws in uw socialemediafeed verschijnt of dat spam uw e-mailinbox bereikt. Onderzoekers van het Penn State College of Information Sciences en Technologie hebben een machine learning-framework ontwikkeld dat zich 99% van de tijd proactief kan verdedigen tegen dezelfde soorten aanvallen in toepassingen voor natuurlijke taalverwerking.

Het model, DARCY genaamd, gebruikt een cyberbeveiligingsconcept dat bekend staat als een "honeypot" om potentiële aanvallen op natuurlijke taalverwerkingstoepassingen, zoals nepnieuwsdetectoren en spamfilters, te lokken en op te vangen. De honeypot dient als een lokmiddel en trekt een aanvaller aan door ze naar woorden en zinnen te lokken die ze in hun hack gebruiken.

"Aanvallers proberen deze universele aanvalszinnen te vinden, dus we proberen het voor hen erg aantrekkelijk te maken om de zinnen te vinden die we al hebben ingesteld", zegt Thai Le, doctoraalstudent informatiewetenschappen en technologie en hoofdauteur van het onderzoekspaper. "We proberen het aanvallende werk heel gemakkelijk voor ze te maken, en dan vallen ze in de val."

DARCY zoekt en injecteert meerdere valluiken, of lokaas, in een tekstueel neuraal netwerk - de technologie die natuurlijke taalverwerkingstoepassingen aanstuurt - om kwaadaardige inhoud die wordt gegenereerd door universele triggeraanvallen op te vangen en uit te filteren.

"Voor zover we weten, is dit het eerste werk dat het concept van honeypot uit het cyberbeveiligingsdomein gebruikt bij het verdedigen van tekstuele neurale netwerkmodellen tegen vijandige aanvallen", zegt Dongwon Lee, hoogleraar informatiewetenschappen en technologie en hoofdonderzoeker van het project.

Le legde uit dat de huidige verdedigingsmethoden tegen aanvallen van tegenstanders grotendeels reactief zijn, wat betekent dat verdedigers de technieken van hackers moeten observeren en leren na een aanval en vervolgens moeten wachten op een nieuwe aanval om ze te detecteren en te verwijderen.

Met DARCY kan het nieuwe idee van een proactieve verdedigingsaanpak helpen bij het detecteren en voorkomen van aanvallen.

“Wat mensen vroeger deden, is een machine learning model en probeer het vervolgens te verdedigen nadat het is getraind,' zei Le. "Maar wat we proberen te doen, is verdedigen tijdens het trainingsproces, dus we beschermen modellen proactief tijdens de trainingsfase."

De onderzoekers testten DARCY op vier afzonderlijke datasets voor tekstclassificatie en gebruikten het framework om zich te verdedigen tegen zes verschillende mogelijke aanvalsscenario's, bijvoorbeeld of een aanvaller toegang had tot het detectienetwerk of dat ze zich bewust waren van de ingebouwde valluiken. DARCY presteerde aanzienlijk beter dan vijf bestaande algoritmen voor detectie van tegenstanders die als defensieve baselines dienden.

"DARCY was bijvoorbeeld in staat om de universele, op triggers gebaseerde vijandige aanvallen te detecteren met een percentage tot 99% true positive en in de meeste gevallen minder dan 2% false positives, wat een significante verbetering is ten opzichte van de bestaande baselines", aldus Lee.

Gezien de effectiviteit van het gebruik van een succesvolle cyberbeveiligingstactiek om toepassingen voor natuurlijke taalverwerking te verdedigen, hopen de onderzoekers dezelfde technieken en hetzelfde raamwerk te gebruiken om andere soorten aanvallen in de toekomst te voorkomen.

“Het toepassen van een concept uit een heel ander vakgebied is intrigerend, omdat we kunnen zien hoe verschillende vakgebieden met elkaar samenhangen en hoe de beveiligingsparaplu kan worden toegepast op veel verschillende aspecten in de informatica”, besluit Le.

Honeypot Cybersecurity-techniek kan ook aanvallen in natuurlijke taalverwerking stoppen