
Stef van Buuren

Tijdens mijn carrière bij TNO en binnen de academia heb ik baanbrekende kwantitatieve algoritmes ontwikkeld voor het vervangen van ontbrekende waarden door een verdeling.
Onderzoeksgebied
Ontbrekende waarden zijn de data die we niet zien. Door ontbrekende data kan het zijn dat we de wereld verkeerd begrijpen, onjuiste conclusies trekken en slechte beslissingen nemen. In de praktijk zijn data altijd incompleet. Maar hoe kunnen we dan toch zinvolle conclusies trekken? Nou, door te bedenken hoe de volledige data eruit zouden zien, vast te stellen wat er ontbreekt en waarom, en vervolgens de ontbrekende data te proberen in te vullen op basis van wat we wel weten. Natuurlijk is die invulling nooit perfect; daarom moeten we deze nieuwe synthetische data weergeven als verdelingen in plaats van als puntwaarden. Als we deze methode correct toepassen, kunnen we systematische fouten in onze beoordeling vermijden. Tijdens mijn carrière bij TNO en binnen de academia heb ik baanbrekende kwantitatieve algoritmes ontwikkeld voor het vervangen van ontbrekende waarden door een verdeling. Deze methoden leren wat plausibele waarden zijn op basis van de waargenomen data. Het MICE-algoritme (Multivariate Imputation by Chained Equations) is in veel vakgebieden de feitelijke norm voor het invullen en analyseren van data. Onderzoekers zowel binnen als buiten TNO en in allerlei wetenschappelijke disciplines maken gebruik van MICE. Ik pas MICE en daarmee samenhangende methodes toe bij veel TNO-projecten, bijvoorbeeld over de groei en ontwikkeling van kinderen, gezond leven en in projecten voor de Wereldgezondheidsorganisatie en de Bill & Melinda Gates Foundation.
Recente resultaten
- Het Global Scales of Early Development (GSED)-project, geleid door de Wereldgezondheidsorganisatie, baseert nieuwe instrumenten voor het meten van de ontwikkeling van kinderen op de D-score, een innovatie van TNO.
- Om de gezamenlijke ontwikkeling soepel te laten verlopen, hebben we de ontwikkeling van innovatieve R-software ondergebracht in drie nieuwe GitHub-organisaties: amices, D-score en groeischema's.
- De tweede editie van Flexible Imputation of Missing Data bevat nu een gratis integrale online versie, inclusief alle R-code om de resultaten te berekenen.
- De MICE-software wordt ongeveer 60.000 keer per maand gedownload. De MICE-paper uit 2011 is inmiddels bijna 10.000 keer geciteerd.
- De webservice JAMES (Joint Automatic Measurement and Evaluation System) verwerkt ongeveer een miljoen verzoeken per maand.
- We hebben bij Gates Open Research afzonderlijke gateways voor werk op het gebied van de D-score.
- Het nieuwe pakket brokenstick op CRAN is bijzonder effectief voor het combineren, analyseren en voorspellen van individuele gezondheidstrajecten.
- shinyMice biedt interactieve diagnostiek voor de imputatie van ontbrekende data.
- Veelvuldig geciteerd TNO-onderzoeker (5000+ citaten per jaar).
Begeleiding van promovendi
- Mingyang Cai (verwacht, 2022)
- Hanne Oberman (nieuw, verwacht, 2027)
- Thom Volker (nieuw, verwacht 2027)
Belangrijkste publicaties
- Weber, A. M., Rubio-Codina, M., Walker, S. P., van Buuren, S., Eekhout, I., Grantham-McGregor, S. M., . . . Hamadani, J. D. (2019). The D-score: a metric for interpreting the early development of infants and toddlers across global settings. BMJ Global Health, 4(6).
- van Buuren, S. (2018). Flexible Imputation of Missing Data. Second Edition. Boca Raton, FL: Chapman & Hall/CRC Press.