Federated learning: maak kennis met privacybestendige data analyse
Het gebruik van privacygevoelige gegevens heeft een enorme potentie om de maatschappij te helpen verbeteren. Denk bijvoorbeeld aan nieuwe inzichten die de energietransitie of onze gezondheid vooruit helpen. Alleen mag je die data niet gebruiken zonder toestemming van burgers of bedrijven. Zelfs niet als ze daar zelf beter van worden. Gelukkig is er een privacyvriendelijke manier om dat probleem in bepaalde gevallen op te lossen: Federated Learning.
Wat is Federated Learning
Federated Learning is een decentrale en privacyvriendelijke vorm van machine learning. Dat wil zeggen dat er geen centrale database nodig is waar alle gevoelige data in moet worden gestopt. Zo kan de data ook niet lekken. In plaats van dat de data naar het machine learning model wordt gebracht, brengt Federated Learning het machine learning model naar de data.
Zo wordt het trainen van de modellen opgeknipt in deelberekeningen die lokaal bij een organisatie worden uitgevoerd. Na het uitvoeren van de berekeningen worden alleen de geanonimiseerde (tussen)resultaten gedeeld met de organisaties die het onderzoek uitvoeren, niet de privacygevoelige data zelf.
Whitepaper “Eindelijk een privacyvriendelijke manier om data te benutten”
Ontdek hoe je data kunt gebruiken zonder de privacy te schenden
Welke problemen lost Federated Learning op?
Federated Learning lost twee grote problemen rondom data analyse op. Ten eerste verbetert het kwalitatieve analyses voor de maatschappij en ten tweede bewaakt het het recht op privacy van burgers.
Het analyseren van grote hoeveelheden data zelf lukt tegenwoordig beter dan ooit. Rekenkracht wordt steeds groter en algoritmes steeds geavanceerder. Bovendien is er steeds meer data beschikbaar om waardevolle analyses op te kunnen doen. Tegelijkertijd zijn er wel steeds meer maatschappelijke bezwaren tegen het gebruik van gevoelige data.
Wat hebben organisaties aan Federated Learning?
Met Federated Learning kun je data benutten zonder de privacy te schenden. Doordat je data uit meerdere databases kunt analyseren is de hoeveelheid beschikbare data groter. Het gevolg daarvan is weer dat de uitkomsten van een onderzoek betrouwbaarder zijn. Dat betekent betere voorspellingen, betere modellen en dus veel beter geïnformeerde (beleids)beslissingen.
Een voorbeeld? Neem kankeronderzoek. Met Federated Learning kun je bij ziekenhuizen data analyseren over zaken als succesvolle behandelmethodes per kankersoort bij verschillende patiënten, zonder de privacy van die patiënten te schenden.
Wat doet TNO op het gebied van Federated Learning en hoe kan je met TNO samenwerken?
Maar liefst 8,5% van de wereldbevolking heeft diabetes, waarvan 90% Type 2. Dat is schrijnend omdat het veelal te voorkomen is met bijvoorbeeld andere lifestyle-keuzes.
Hoe machine learning (ML) daarbij kan helpen? Door risicogroepen te identificeren en zo vroeg mogelijk te waarschuwen. Dus voordat Type 2 ontwikkeld is. Om dat voor elkaar te krijgen moet het ML-model zo goed mogelijk getraind worden op een flink aantal mensen met verschillende lifestyles en medische condities in meerdere leeftijdsgroepen.
Om dit goed te doen heb je veel verschillende databronnen van zorginstellingen nodig. Alleen zijn medische gegevens onder de AVG dusdanig goed beschermd dat het delen bijna onmogelijk is, laat staan al die gevoelige gegevens opslaan in een centrale database om daar de modellen op los te laten.
Zo draagt federated learning bij
TNO werkte samen met Lifelines om een Federated Logistic Regression model te creëren om de opkomst van Type 2 diabetes te voorspellen voor mensen tussen 2 en 11 jaar. Via de organisatie Lifelines zijn de gegevens van 167.000 mensen in Nederland privacyvriendelijk geanalyseerd.
De data komt uit verschillende bronnen, waaronder data van in het lab geteste proteïnen en enquêtes met mensen over hun lifestyle. Dat resulteerde in een Federated Learning model dat bijna even goed werkt als een globaal getraind model. De resultaten zijn veelbelovend en motiveren verder onderzoek.
De energietransitie is nu al een groot thema en wordt de komende jaren alleen maar groter. Een belangrijke issue is de energievraag voorspellen om vraag en aanbod te matchen.
Want je moet weten hoeveel netcapaciteit je nodig hebt om een aanbod te kunnen leveren dat matcht met de energievraag. Het liefst per wijk zodat er slim geleverd kan worden. Alleen is het opvragen van je energieverbruik lastig. Dat kan mogelijk privacy gevoelige informatie aan derde partijen geven, zoals wanneer je niet thuis bent.
Zo draagt federated learning bij
TNO heeft, samen met partners als Strukton, gewerkt aan een model voor het voorspellen van de engerievraag van een wijk. Dit vindt plaats op een privacyvriendelijke manier met behulp van Federated Learning. Zo hoeven de persoonlijke gegevens van de huishoudens niet worden ingezien door onderzoekers of opgeslagen op een centrale locatie, wat privacyschade voorkomt.
In plaats daarvan kan nu de energievraag per wijk geanalyseerd en voorspeld worden op een privacy vriendelijke wijze. Op basis daarvan kan gekeken worden hoeveel capaciteit er nodig is. Een uitkomst! Zo kan met behulp van FL de energievraag van een wijk voorspeld worden, zonder de privacy van de burger te schenden en met als doel om een stabiele elektriciteitsvoorziening te garanderen.