Er zijn duidelijke richtlijnen nodig voor synthetische gegevens om transparantie, verantwoording en eerlijkheid te garanderen, zegt onderzoek

big data — Krediet: Pixabay / CC0 Public Domain

Er moeten duidelijke richtlijnen worden opgesteld voor het genereren en verwerken van synthetische gegevens om transparantie, verantwoording en eerlijkheid te garanderen, aldus een nieuwe studie.

Synthetische data – gegenereerd door machine learning-algoritmen op basis van originele data uit de echte wereld – winnen aan bekendheid omdat ze privacybeschermende alternatieven kunnen bieden voor traditionele databronnen. Het kan met name nuttig zijn in situaties waarin de daadwerkelijke gegevens te gevoelig zijn om te delen, te schaars zijn of van te lage kwaliteit zijn.

Synthetische gegevens verschillen van gegevens uit de echte wereld omdat ze worden gegenereerd door algoritmische modellen die bekend staan als synthetische gegevensgeneratoren, zoals Generative Adversarial Networks of Bayesiaanse netwerken.

Het onderzoek waarschuwt dat de bestaande wetgeving inzake gegevensbescherming, die alleen van toepassing is op persoonlijke gegevens, niet goed toegerust is om de verwerking van alle soorten synthetische gegevens te reguleren.

Wetten zoals de AVG zijn alleen van toepassing op de verwerking van persoonsgegevens. De definitie van persoonsgegevens in de AVG omvat ‘alle informatie met betrekking tot een geïdentificeerde of identificeerbare natuurlijke persoon’. Niet alle synthetische datasets zijn echter volledig kunstmatig; sommige kunnen persoonlijke informatie bevatten of een risico op heridentificatie met zich meebrengen. Volledig synthetische datasets zijn in principe vrijgesteld van de AVG-regels, behalve wanneer er een mogelijkheid tot heridentificatie bestaat.

Het blijft onduidelijk welk niveau van heridentificatierisico voldoende zou zijn om de toepassing ervan in de context van volledig synthetische gegevensverwerking in gang te zetten. Dat schept rechtsonzekerheid en praktische problemen bij de verwerking van dergelijke datasets.

De studie, door professor Ana Beduschi van de Universiteit van Exeter, is gepubliceerd in het tijdschrift Big Data en de samenleving.

Er staat dat er duidelijke procedures moeten zijn om degenen die verantwoordelijk zijn voor het genereren en verwerken van synthetische data ter verantwoording te roepen. Er moeten garanties zijn dat synthetische gegevens niet worden gegenereerd en gebruikt op manieren die negatieve gevolgen hebben voor individuen en de samenleving, zoals het bestendigen van bestaande vooroordelen of het creëren van nieuwe.

Professor Beduschi zei: “Er moeten duidelijke richtlijnen komen voor alle soorten synthetische data. Zij moeten prioriteit geven aan transparantie, verantwoordingsplicht en eerlijkheid. Het hebben van dergelijke richtlijnen is vooral belangrijk omdat generatieve AI en geavanceerde taalmodellen zoals DALL-E 3 en GPT-4 – die zowel kunnen worden getraind op als synthetische gegevens kunnen genereren – de verspreiding van misleidende informatie kunnen vergemakkelijken en schadelijke gevolgen kunnen hebben voor de samenleving. Het naleven van deze principes kan dus potentiële schade helpen beperken en verantwoorde innovatie aanmoedigen.

“Dienovereenkomstig moeten synthetische gegevens duidelijk als zodanig worden geëtiketteerd en moet informatie over de generatie ervan aan gebruikers worden verstrekt.”

Er zijn duidelijke richtlijnen nodig voor synthetische data om transparantie, verantwoording en eerlijkheid te garanderen, aldus de studie