Personal Health Train: an application to risk equalization (in Dutch)

The concept of the Personal Health Train promises a major step forward by facilitating sharing privacy-sensitive data in a decentralized way. In order to actually get this train running, some practical problems need to be solved yet.
risk equalization
digital transformation
Author

Piet Stam

Published

February 19, 2019

Deze blog van mijn hand heb ik op bovenstaande datum op LinkedIn gepubliceerd en is hier integraal overgenomen om de openbare beschikbaarheid te garanderen.

Voor onderzoek & uitvoering van de risicoverevening tussen zorgverzekeraars wordt het zorggebruik van alle 17 miljoen individuele (!) Nederlanders centraal verzameld in een landelijk databestand. Kan dat ook decentraal? Misschien met de Personal Health Train (PHT), het concept dat Minister Bruins propageert en is ontwikkeld door DTL, MAASTRO en LUMC? Mijn voorlopige conclusie is: helaas (nog?) niet.

De bedoeling is dat de PHT gaat rijden voor zgn. horizontaal èn verticaal gepartitioneerde databestanden. Het landelijke databestand van de risicoverevening is een voorbeeld van een verticaal gepartitioneerd databestand. Dat betekent zoveel als dat de informatie in de verschillende kolommen uit verschillende databronnen (lees: locaties) komt. Bijv. de inkomensinformatie voor het kenmerk Sociaal-Economische Status (SES) wordt van de Belastingdienst betrokken, terwijl de informatie over de leeftijd van een individu door zijn/haar zorgverzekeraar wordt aangeleverd. Zo kom je tot een centraal databestand met 17 miljoen horizontale records en (o.a.) SES en leeftijd in de kolommen.

De bedoeling van de PHT is het tegenovergestelde van de gebruikelijke werkwijze, waarbij data eerst in een centraal databestand vanuit verschillende bronnen bij elkaar gebracht worden, voordat onderzoekers en algoritmen hun werk kunnen doen. De PHT beoogt juist de data op de bronlocatie te laten staan en de onderzoeker en de algoritmen daar naartoe te brengen. Voor de techneuten onder ons: je kunt een algoritme in een Docker container programmeren en deze op de data op de bronlocatie laten uitvoeren. Voor de niet-techneuten onder ons: stel je een treintje voor (met daarop een algoritme) dat langs de verschillende stations (i.e. bronlocaties) rijdt. Dit is fraai gevisualiseerd in een korte video.

Alleen al om privacyredenen zou het prachtig zijn als de PHT faciliteert dat horizontaal èn verticaal gepartitioneerde databestanden op de bronlocatie kunnen blijven staan. Ten aanzien van horizontaal gepartitioneerde databestanden zijn inmiddels prototypes van de PHT beschikbaar, maar ten aanzien van verticaal gepartitioneerde databestanden zit de PHT vooralsnog in de experimentele fase. Het algoritme wordt weliswaar naar de bronlocaties gebracht, maar als de data van verschillende bronlocaties met elkaar gecombineerd moeten worden, dan moeten de data toch even deze bronlocaties (tegelijkertijd) verlaten voordat het algoritme haar werk kan doen. En juist op dat ene moment is er toch weer (even) sprake van een centraal databestand waarop de berekening wordt uitgevoerd. En dat willen we met de PHT idealiter voorkomen.

Een oplossing hiervoor is er nog niet. Er wordt momenteel gedacht over het invoegen van een derde partij, die de data uit de locaties ophaalt en centraal koppelt zonder zelf inzage te krijgen in de data. Maar dat is niet nieuw: dat doet ZorgTTP al langer ten behoeve van het onderzoek en de uitvoering van de risicoverevening middels pseudonimisatie. Ook deze oplossingsrichting laat echter onverlet dat data de bronlocaties (tijdelijk) moeten verlaten voordat we onderzoekers en algoritmen hun werk kunnen laten doen. De werkwijze van ZorgTTP speelt weliswaar al goed in op de aspiratie van de PHT om de data zo dicht mogelijk bij de bronlocaties te verwerken, maar idealiter gebeurt dat op de bronlocaties zelf. Net zoals dat met de prototypes van de PHT bij horizontaal gepartitioneerde databestanden lukt.

De hamvraag is: hoe krijgen we de PHT op volle snelheid aan het rijden voor datavraagstukken zoals de risicoverevening? Als dat lukt, dan zou dit een enorme verbetering en vereenvoudiging betekenen voor de jaarlijkse verwerking van de individuele zorggebruikdata van ons allemaal. Op dinsdag 19 maart leggen Hans van Vlaanderen (ZorgTTP) en ik deze vraag voor in de “Making data work for health” sessie van COMMIT/ en DTL op de ICT.OPEN2019 conferentie. Samen met aanwezigen gaan we op zoek naar nieuwe oplossingsrichtingen. Want hoe mooi zou het zijn om de PHT ook voor data van de risicoverevening op volle snelheid aan het rijden te krijgen?

Citation

BibTeX citation:
@online{stam2019,
  author = {Stam, Piet},
  title = {Personal {Health} {Train:} An Application to Risk
    Equalization (in {Dutch)}},
  date = {2019-02-19},
  url = {https://www.pietstam.nl/posts/2019-02-19-personal-health-train-case-risk-equalization},
  langid = {en}
}
For attribution, please cite this work as:
Stam, Piet. 2019. “Personal Health Train: An Application to Risk Equalization (in Dutch).” February 19, 2019. https://www.pietstam.nl/posts/2019-02-19-personal-health-train-case-risk-equalization.