Interview met Cas de Weerd

Winnaar Rotterdam Urban Big Data Thesis Award 2018

	Voorspellen van jeugdhulpgebruik

De Rotterdamse Kenniswerkplaats Urban Big Data (www.urbanbigdata.nl) bevordert op allerlei manieren het gebruik van en kennis over Big Data in de stad (in het bijzonder Rotterdam). Zo deelt dit platform jaarlijks een prijs uit voor de beste scriptie over het gebruik van Big Data in de stad. Cas de Weerd won de scriptieprijs van het academisch jaar 2017/2018 voor zijn Masterscriptie over het voorspellen van toekomstig jeugdhulpgebruik in Rotterdam, welke hij afrondde aan de Rotterdam School of Management van de Erasmus Universiteit Rotterdam. Hij deed zijn onderzoek binnen de onderzoeksafdeling van de gemeente Rotterdam. Hieronder een interview met hem over zijn bevindingen.

Interview door Fadi Hirzalla

Voor de scriptie zelf en meer informatie, zie hier.

Waar gaat je scriptie over?

Mijn scriptie gaat over het voorspellen van toekomstig jeugdhulpgebruik in Rotterdam. Meer specifiek voorspelt mijn model of jeugdigen (leeftijd 0-23) die nog niet in de jeugdhulp zitten in het volgende jaar in de jeugdhulp terechtkomen.

Mijn model doet dit door op basis van persoonlijke gegevens voor ieder individu een risicoscore te berekenen. Op basis van deze score wordt iemand al dan niet geclassificeerd als waarschijnlijk toekomstig jeugdhulpgebruiker.

Aan de hand van deze voorspellingen kunnen gezinnen en individuen met problemen vroegtijdig geïdentificeerd worden en kan jeugdhulpgebruik mogelijk voorkomen worden. Daarnaast kunnen zulke voorspellingen gebruikt worden om een betere inschatting te maken van de middelen die nodig zijn voor toekomstige jeugdhulpvoorzieningen.

Om welke problemen gaat het meer concreet?

Jeugdhulp wordt gedefinieerd als de hulp aan jongeren met psychische en psychosociale problemen, zoals angstklachten of depressieve gevoelens, of jongeren met een verstandelijke beperking. Het kan ook gaan om gedragsproblemen, zoals pesten of agressief gedrag, of om ouders die niet goed weten hoe ze met het gedrag of temperament van hun kind kunnen omgaan.

Dat klinkt als een belangrijk onderwerp. Is er niemand eerder geweest die jeugdhulpgebruik heeft proberen te voorspellen?

Traditioneel wordt er vooral beschrijvend onderzoek gedaan, waarin regressiemodellen worden toegepast op data die afkomstig zijn uit enquêtes. Dit onderzoek is gericht op het vinden en beschrijven van de belangrijkste risicofactoren en is retrospectief van aard.

Ik heb het anders gedaan. Ik heb geprobeerd risicofactoren uit eerder onderzoek te gebruiken om jeugdhulpgebruik te voorspellen. In de wetenschap is dat niet eerder gedaan. Dat heeft mede te maken met het feit dat jeugdhulp een unieke Nederlandse voorziening is. Wel zijn er eerder voorspellende onderzoeken gedaan naar onderwerpen die gerelateerd zijn aan jeugdhulp, zoals het voorspellen van depressie, kindermishandeling en het gebruik van geestelijke gezondheidszorg.

Kan je wat meer vertellen over hoe jij jeugdhulpgebruik hebt getracht te voorspellen?

Mijn model is gebaseerd op administratieve data, zoals gegevens van jeugdhulpinstellingen, gemeentelijke registers, zorgverzekeraars en de belastingdienst. Zulke data hebben verschillende voordelen ten opzichte van traditionele enquêtedata. Ten eerste zijn administratieve data veel groter, omdat de gegevens van alle inwoners gebruikt kunnen worden en niet alleen van degenen die hebben meegewerkt aan een enquête. Daarnaast zijn zulke data geschikt voor het bestuderen van gevoelige onderwerpen, omdat de gegevens objectief zijn en niet afhangen van de mate waarin respondenten waarheidsgetrouw enquêtevragen beantwoorden.

De data die ik heb gebruikt hebben betrekking op risicofactoren. Dat zijn kindfactoren, zoals geslacht, leeftijd en onderwijsniveau. Daarnaast heb ik gekeken naar gezinsfactoren, zoals ouders met een langdurige ziekte en huishoudinkomen. En ik heb gekeken naar ingrijpende levensgebeurtenissen, zoals de dood van een ouder. Ik heb deze data aan elkaar gelinkt en zo één dataset gemaakt. Vervolgens heb ik zes verschillende technieken op basis van “supervised machine learning” toegepast op deze dataset om te kijken welk model toekomstig jeugdhulpgebruik het beste voorspelt.

Je maakt dus gebruik van persoonlijke data. Denk je dat deze werkwijze te maken kan krijgen met privacy-zorgen?

Zolang gegevens anoniem blijven denk ik niet dat er veel reden tot zorg is. Ik maakte voor mijn scriptie gebruik van geanonimiseerde gegevens van het CBS. Deze gegevens zijn zodanig gecodeerd dat niet te zien is welke gegevens tot welke persoon behoren. Daarnaast deed ik mijn analyses binnen een afgesloten offline omgeving en worden er strenge controles uitgevoerd op alle informatie die uit die omgeving wordt geëxporteerd.

Meer algemeen was het doel van mijn onderzoek om te kijken of het mogelijk is voorspellingen te doen over jeugdhulpgebruik. Ik had hierbij geen standpunt ingenomen over privacy en andere ethische vraagstukken.

Wel biedt mijn onderzoek een aanknopingspunt voor een maatschappelijke discussie daarover. Mogen algoritmes gebruikt worden om problematiek bij kinderen vroegtijdig te signaleren en om een behandeling mogelijk te voorkomen? Kan er bijvoorbeeld een screening-tool worden ontwikkeld die de populatie opdeelt in groepen met verschillende risico’s op jeugdhulpgebruik? Onder meer via scholen kan daarmee worden gecontroleerd of kinderen met een verhoogd risico daadwerkelijk problemen ondervinden of aan zulke kinderen extra informatie worden gegeven.

Dat kan inderdaad controversieel zijn. Werkt zo’n screening-tool bijvoorbeeld niet stigmatiserend?

Ik kan me voorstellen dat daar zorgen over kunnen ontstaan, net zoals die bijvoorbeeld bestaan over etnisch profileren, waarbij mensen op basis van etniciteit worden ingedeeld in risicogroepen. Indien nodig kunnen etnische achtergrond of andere persoonskenmerken echter uit het model worden gelaten. De kwaliteit van voorspellingen zal dan echter iets omlaag gaan, omdat informatie over persoonlijke achtergrond voorspellingen wel accurater maakt.

Vond je het lastig om je onderzoek uit te voeren?

Het lastigste was nog wel dat ik zelf bij de start van het onderzoek geen ervaring had met data science en predictive modeling en ook niet bekend was met het gemeentelijke zorgdomein. Alles was nieuw voor mij. Ik heb mij volledig moeten verdiepen in programmeren en modelleren. Ik ben op zoek gegaan naar veel extra oefenmateriaal en heb ook een extra keuzevak gevolgd. Daarnaast heb ik nauw contact gehouden met mijn scriptiebegeleiders vanuit de gemeente en de universiteit. Zij hebben mij ontzettend goed begeleid.

Was het toen je de technische expertise eenmaal had moeilijk om een voorspelmodel te bouwen? Met welke beperkingen had je te maken?

Een belangrijke beperking is dat ik de beschikking had over data over vijftien risicofactoren. Vergelijkbaar onderzoek maakt vaak gebruik van veel grotere hoeveelheden risicofactoren. Er zijn bijvoorbeeld onderzoeken die zich bezighouden met het voorspellen van kindermishandeling op basis van meer dan honderd risicofactoren.

Door deze beperking voorspelt mijn model 51% van alle jeugdhulpgebruikers correct. Dat is op zich niet gek. Er zitten jaarlijks zo’n 400 duizend jongeren in de jeugdhulp in Nederland. Als hiervan meer dan 200 duizend gevallen voorspeld en mogelijk voorkomen hadden kunnen worden, vind ik dat op basis van een eerste onderzoek ontzettend veel.

Daarnaast kun je je afvragen hoe zinvol het is om voorspellingen voor het volgende jaar te maken. Voor preventief beleid is het waarschijnlijk zinvoller om voorspellingen voor de langere termijn te maken, zodat tijdig gesignaleerd en ingegrepen kan worden. Het maken van zulke voorspellingen voor de langere termijn was echter helaas niet mogelijk met de data waarmee ik kon werken.

Dus enerzijds heb je met je scriptie stappen voorwaarts gemaakt, maar je model is nog niet helemaal gebruiksklaar?

Klopt. De voorspellende kracht van mijn model is nog te laag om voor concreet beleid gebruik te worden, maar het is wel aanzienlijk sterker dan de modellen die in het verleden zijn ontwikkeld. Ik heb met mijn onderzoek laten zien dat zelfs met een beperkte dataset jeugdhulpgebruik redelijk goed voorspeld kan worden en dat het toepassen van moderne voorspelmethodes op basis van administratieve databronnen tot nieuwe inzichten kan leiden.

Interview met Cas de Weerd

Winnaar Rotterdam Urban Big Data Thesis Award 2018

Voorspellen van jeugdhulpgebruik

Contact

nieuwsbrief ontvangen?