Synthetische datageneratie: veilig leren van persoonlijke data

Thema:
Data sharing
Privacy enhancing technologies
31 maart 2023

Persoonlijke data van patiënten, burgers, of klanten kunnen voor organisaties waardevol en leerzaam zijn, maar gebruik stuit vaak op problemen met privacy. Synthetische data kunnen uitkomst bieden. Deze kunstmatig gegenereerde gegevens bestaan niet uit echte mensen, maar kunnen wel worden gebruikt voor analyses en voorspellingen.

Door persoonlijke data te gebruiken en te verrijken ontstaan nieuwe inzichten en innovatieve oplossingen die kunnen bijdragen aan maatschappelijke oplossingen. Denk aan gepersonaliseerde zorg, of effectievere fraudebestrijding. Maar hoe ga je veilig om met persoonlijke gegevens zonder de privacy te schenden?

Bij TNO werken we aan verschillende privacy enhancing technologies, zoals multi-party computation (MPC), federated learning en synthetische datageneratie (SDG).

SDG-methodes creëren een volledig nieuwe, kunstmatige dataset die gebruikt kan worden in plaats van de originele, privacygevoelige data. De synthetische gegevens bootsen verbanden uit de echte wereld na.

Doordat de realiteit nauwkeurig wordt nagebootst, zijn synthetische data geschikt voor verschillende analysemethoden en AI-technieken. Doordat ze geen echte persoonlijke informatie bevatten, kunnen deze kunstmatige data een alternatieve aanpak zijn

Zo werkt SDG

Synthetische data worden gegenereerd door eerst een model te maken van persoonlijke data, waarmee vervolgens nieuwe, nagebootste data gegenereerd kunnen worden. Zo’n model wordt met behulp van Artificial Intelligence (AI), Machine Learning (ML), of statistische methoden gemaakt, om te bepalen welke informatie van de originele data wordt meegenomen.

Zo kun je de eigenschappen van variabelen bepalen, bijvoorbeeld dat een leeftijd niet negatief kan zijn, of dat bewoners van een verzorgingstehuis gemiddeld een hoge leeftijd hebben. Daarnaast kun je de relaties tussen variabelen vastleggen, bijvoorbeeld dat mannen gemiddeld genomen langer zijn dan vrouwen.

Infographic synthetische datageneratie

De visual legt uit hoe synthetische datageneratie werkt. Aan de linkerkant zie je de originele data met privégegevens over leeftijd, geslacht en inkomen. Van die data wordt een model gegenereerd waarbij de belangrijke kenmerken en structuur van de data blijven bestaan. De rechterkant van de afbeelding zijn de synthetische data die uit het model zijn gekomen. Dit is een dataset met gegevens die niet meer herleidbaar zijn tot een persoon.

Meer transparantie

Synthetische data worden vooral gebruikt voor analyses die om privacyoverwegingen niet kunnen worden uitgevoerd met originele, persoonlijke data.

Zo kunnen er dankzij SDG toch veilig data worden gedeeld met externe partijen voor nieuwe inzichten. Ook kunnen organisaties met deze methodiek transparanter zijn en wordt kennisopbouw met data laagdrempeliger en toegankelijker.

Dankzij SDG wordt onderzoek met data van patiënten, burgers, gebruikers en klanten een stuk eenvoudiger. Dit kan bijvoorbeeld bijdragen aan het optimaliseren van patiëntenzorg, het verhogen van de efficiëntie van gemeentes, of betere producten en diensten voor consumenten.

Synthetische data tegen witwassen

Een interessante toepassing van SDG is het opsporen van witwaspraktijken. Om illegale geldstromen te kunnen signaleren, zijn transactiegegevens van meerdere banken nodig. Maar die data-uitwisseling stuit op privacywetgeving en zorgen over de privacy van klanten en banken.

Om veilig met behulp van privacy enhancing technologies witwastransacties te kunnen opsporen, is het Alliance of Privacy Preserving Detection of Financial Crime (APP-DFC) opgericht. Voor dit consortium van de Rabobank, ABN AMRO, TMNL, de Volksbank, CWI en TNO, hebben wij een synthetische transactiegenerator ontwikkeld.

Met synthetische transacties en accounts worden eigenschappen van gevoelige transactiedata nagebootst. Zo kunnen we eigenschappen van de data delen, zonder informatie prijs te geven over de daadwerkelijke transacties.

Bovendien werkt TNO aan het ontwikkelen van een synthetisch transactienetwerk, gebaseerd op data van meerdere banken, zonder dat ze onderling data hoeven uit te wisselen. Hiervoor maken we gebruik van een unieke combinatie van SDG met MPC.

Welke kansen biedt SDG voor jouw organisatie?

Hoewel SDG een relatief nieuwe oplossing is voor het conflict tussen kennisopbouw en privacy, biedt TNO een onderzoeksgroep met ruime ervaring in synthetische data op verschillende domeinen.

Zo hebben we inmiddels tabellen, transactienetwerken en teksten gesynthetiseerd. Bovendien onderscheidt TNO zich door voortdurend nieuwe methoden te onderzoeken en ontwikkelen voor SDG, waarbij zowel behoud van privacy als de kwaliteit van de informatie voorop staan.

Bij TNO zijn we op zoek naar partners voor wie de bestaande SDG-methoden ontoereikend zijn, omdat ze nog niet bestaan voor hun type data, of omdat de kwaliteit van de gesynthetiseerde data onvoldoende is.

Ook kan het zijn dat de evaluatiemethoden voor privacy en datakwaliteit nog onvoldoende ontwikkeld zijn. Neem contact met ons op en ontdek of synthetische datageneratie een oplossing kan bieden voor jouw organisatie.

Laat je verder inspireren

13 resultaten, getoond 1 t/m 5

GPT-NL versterkt Nederlandse autonomie, kennis en technologie in AI

Informatietype:
Artikel
Large language models zoals ChatGPT bieden veelbelovende technische mogelijkheden, maar er zijn ook zorgen. TNO werkt aan GPT-NL, een eigen nederlands taalmodel.

Betrouwbare en real-time digital twin systemen

Informatietype:
Artikel

Vragen armoede bestrijden met technologie

Informatietype:
Artikel

TNO's EASSI kan adoptie van SSI versnellen

Informatietype:
Artikel

Generative AI

Informatietype:
Artikel