Hoe ik in een wetenschappelijke fittie over migratiecijfers belandde en wat ik daarvan leerde

Maite Vermeulen
Correspondent Migratie
Illustratie door redactioneel ontwerper Luka van Diepen

Statistische modellen zijn zo ingewikkeld geworden, dat nog maar weinig mensen ze snappen. En dat maakt statistische studies heel lastig controleerbaar, voor leken, journalisten én experts.

Ik moet jullie vertellen hoe de ontkrachting van een belangrijke theorie over migratie zelf weer ontkracht werd. Dat je die zin twee keer moet lezen, snap ik. Het is nogal een mindfuck.

Maar wel eentje waarvan ik veel leerde. Over hoe wetenschap werkt, en hoe wij journalisten daarmee omgaan. Over wat expertise eigenlijk is, en waarom het zo beperkt is. En over zekerheid, twijfel en gelijk. 

Dus hou je vast voor een verhaal over die keer dat ik zei dat ik ongelijk had – en dat dat dus niet klopte. 

Hoe het begon: de migration hump 

Het begon allemaal toen ik een paar maanden geleden onder ogen kreeg over de Ik was meteen geïnteresseerd, want ‘de hump’ is een bekende, zeer invloedrijke theorie over de relatie tussen migratie en ontwikkeling. 

Kort gezegd stelt de theorie dat als arme landen rijker worden, er niet mínder, maar méér gemigreerd wordt. Dat is een beetje tegenintuïtief: je zou zeggen dat wanneer landen rijker worden, er minder reden is voor mensen om te vertrekken – ze hebben thuis dan immers een beter leven. Maar de migration hump laat zien dat dat pas het geval is vanaf een bepaald inkomensniveau: ongeveer 7.000 tot 10.000 dollar per persoon per jaar. 

Veel arme landen zitten daar ver vanaf, en dat betekent dus dat economische ontwikkeling in die landen zal zorgen voor meer migratie. Want migratie kost geld, en wanneer voorheen zeer arme mensen dat tot hun beschikking krijgen, zullen ze dus vertrekken. 

Zet je inkomen en emigratie tegen elkaar af in een grafiek, dan zie je dus een soort heuvelvormig patroon, waarin arme landen de minste emigratie hebben, middeninkomenslanden de meeste, en rijke landen weer wat minder: de migration hump

Ik heb de migration hump vaak gebruikt in mijn artikelen, met name om het Europese migratiebeleid te bekritiseren. De EU besteedt namelijk steeds meer geld aan ontwikkelingshulp om migratie terug te dringen. Maar de migration hump laat zien dat dit beleid berust op een misvatting: als er met dat geld méér ontwikkeling wordt bereikt in arme landen, zal dat juist tot méér migratie leiden, niet minder. 

En toen kwam dus dat nieuwe onderzoek op mijn bureau, uitgebracht onder het onderzoeksproject De onderzoekers wonden er geen doekjes om: hun analyse van liet zien dat de migration hump te kort door de bocht was. Sterker nog: uit hun modellen kwamen tegenovergestelde resultaten. Zij vonden dat wanneer een arm land rijker wordt, de emigratie naar dáált. 

Dat verklaarden ze doordat hun methode anders was: in plaats van arme en rijke landen te vergelijken in hun emigratie, vergeleken ze landen met zichzelf, met de tijd. Want, zo stelden de onderzoekers, als je arme en rijke landen vergelijkt zie je de verschillen tussen die landen over het hoofd: verschillen die zowel op inkomen áls op migratie

Ik liet het nieuwe paper lezen door collega’s en migratie-experts met meer kennis van econometrie dan ik, ik sprak de onderzoekers, en besloot toen Het onderzoek zag er overtuigend uit, en ik wilde rekenschap geven aan het feit dat een theorie die ik al vaak had aangehaald in mijn stukken, geen stand leek te houden. 

Ik dacht dat mijn hump-kous daarmee wel zo’n beetje af was.

Maar toen werd ik getagd in een van Michael Clemens, een vooraanstaande ontwikkelingseconoom van het Center for Global Development. Het nieuwe onderzoek berustte, zo twitterde hij, op een statistische fout. 

Clemens en zijn berekeningen

Er was op zich niks mis met mijn artikel, schreef Clemens me in een persoonlijk bericht. ‘The problem is with the research itself.’

Zeer vriendelijk natuurlijk. Maar zelf was ik hier niet zo zeker van – had ik dit kunnen zien aankomen? Had ik iets anders moeten doen? Wat kon ik hiervan leren?

Ik verdiepte me opnieuw in het paper, en in de kritiek van Clemens. Ik bekeek zijn  

Het probleem was alleen: ik snapte er geen zak van. 

En dat was op zich niet zo gek: de kritiek van Clemens gaat over de statistische methodes die de onderzoekers gebruiken. Voor wie geen econometrie heeft gestudeerd, is dat bijna niet te volgen. Wat zeg ik, ook voor wie wél econometrie heeft gestudeerd bleek het knap lastig. Mijn collega Sanne Blauw – gepromoveerd econometrist – belde me na drie uur in de papers te hebben gedoken op: ‘Ik denk dat ik Clemens’ kritiek ongeveer snap.’

Ik vroeg meer experts om hulp: hoogleraren en PhD-studenten die me de statistiek konden uitleggen, die ervaring hadden met time series en cross-sectional panel data, die meer wisten over spurious regressions en non-stationary variables. Ik belde uitgebreid met Michael Clemens én met Claas Schneiderheinze, een van de onderzoekers van het originele paper. 

Ik kan niet zeggen dat ik het volledig in de vingers heb. Maar dit is wat ik nu van de discussie begrijp. 

Wil je de inhoudelijke kritiek overslaan en direct naar de lessen die ik hiervan als journalist leerde? Klik dan hier.

Hoe kan dit allebei waar zijn? 

De reden dat Michael Clemens in de statistiek van dit paper dook was simpel: de bevindingen van de onderzoekers liggen héél ver van wat hij in de echte wereld observeert. En dat roept vragen op.

Op zich, zegt Clemens, is het een goed idee om te kijken naar veranderingen in inkomen en migratie voor individuele landen, in plaats van landen met elkaar te vergelijken. Dan kun je inderdaad, zoals de onderzoekers stellen, voorkomen dat je verkeerde causale verbanden trekt die eigenlijk komen door andere fundamentele verschillen tussen landen (bijvoorbeeld hun ligging of hun politiek). 

Uit het model komt een sterk negatief verband tussen inkomen en emigratie

Alleen, zegt Clemens, als je kijkt naar die veranderingen per land, zie je juist níét wat het paper stelt. Uit het model komt een sterk negatief verband tussen inkomen en emigratie: als het inkomen per capita van een land verdubbelt, dan halveert de emigratie. Dat is een gigantisch effect. En een effect dat totaal verschilt van landen die de afgelopen jaren hun inkomen per capita daadwerkelijk hebben zien verdubbelen. Kijk maar eens naar de grafieken die Clemens maakte over de relatie tussen inkomen en migratie in al deze landen: 

Voor geen enkel land geldt hier dat emigratie op lange termijn daalt bij een stijgend inkomen. De data van deze landen laten zien wat de migration hump voorspelt: stijgt het inkomen van een arm land, dan stijgt de emigratie. Het MEDAM-paper zou alleen kunnen kloppen, zegt Clemens, als de arme landen van nu diametraal verschillen van de arme landen van een paar decennia geleden. Zou dat zo kunnen zijn?

Misschien wel. 

Maar kijk je naar de arme landen van nu, dan zie je dat ook hún ontwikkeling over de afgelopen vijftig jaar heel anders is dan de MEDAM-onderzoekers zouden verwachten. Hier laat Clemens – hou je vast – het verband zien tussen inkomen en migratie voor álle ontwikkelingslanden naar rijke landen, van 1970 tot 2019:

De onderkant van de pijlen is emigratie in 1970, de bovenkant emigratie in 2019. Hoewel de grafiek natuurlijk kun je één ding goed zien: vrijwel álle landen hebben, naarmate inkomen stijgt, een stijgende pijl. Met andere woorden: op basis van deze grafiek, waarin ook de arme landen van nu zitten, zou je nog steeds moeten geloven dat de migration hump

Hoe kan het dan dat uit het model van de MEDAM-onderzoekers een totaal ander resultaat rolt? Dat was de vraag waarmee Clemens in hun statistische model dook.

Te veel detail? Klik hier om naar mijn conclusie te gaan!

Is dit een goede dataset?

En daar signaleerde Clemens twee zaken waar hij grote vraagtekens bij heeft: de statistiek en de data. 

Laten we beginnen met de data, het makkelijkst te begrijpen.

De onderzoekers gebruiken van de Voor elk OESO-land is gekeken hoeveel mensen van verschillende nationaliteiten er per jaar een verblijfsvergunning kregen. Die zijn vervolgens opgeteld per land van herkomst. Hiermee vang je een deel van de migratie niet: mensen die niet naar én mensen die zich nooit melden bij de autoriteiten.

Maar fundamenteler, zegt Clemens, is het feit dat mensen die een verblijfsvergunning krijgen vaak al jaren, zo niet decennia, in een OESO-land aanwezig zijn. In de Verenigde Staten is bijvoorbeeld de helft van de mensen die een green card krijgen al lang en breed Koppel je dan de inkomensstijging van Mexico in dat jaar aan het toegenomen aantal Mexicanen in de VS volgens deze dataset, dan krijg je volgens Clemens een vertekend beeld. De aankomsten van Mexicanen in de VS dalen in feite al jaren, maar omdat Mexicanen die al lang in de VS wonen een green card krijgen lijkt hun aantal in deze dataset te stijgen. 

Een betere dataset, vindt Clemens, is die van de VN en de Wereldbank, die de zogenoemde international migrant stock telt: het aantal mensen uit een land dat in het Zie je dit als percentage van de bevolking toenemen, dan weet je dat er een toename van migratiestromen is geweest, niet van

Klik hier om direct naar mijn conclusie te gaan.

Klopt de statistiek?

Dan waar het moeilijk wordt: de statistiek. De MEDAM-onderzoekers nemen aan één kant van hun regressie twee niet-stationaire variabelen die mogelijk gecoïntegreerd zijn en verwijderen daarmee de langetermijntrend van beide variabelen, zodat ze alleen de effecten van economische schokken meten. 

Duidelijk toch?

Nou oké, nu nog even in gewonemensentaal. 

Je hebt in de econometrie reeksen die stationair en niet-stationair zijn. Dat wil zeggen: die wel of niet een trend vertonen in de loop van de tijd. Een stationaire variabele is bijvoorbeeld de ligging van een land. Een niet-stationaire variabele is bijvoorbeeld inkomen. Verandert met de tijd. 

Als je wilt weten of twee niet-stationaire variabelen elkaar beïnvloeden, kun je daar niet zomaar achter komen door ze tegen elkaar uit te zetten in een grafiekje. Want of ze nou iets met elkaar te maken hebben of niet, de kans is groot dat ze onderling een verband opleveren. Een voorbeeld: als een stad groter wordt, worden er meer ooievaars in de stad gezien (non-stationaire variabele 1) en worden er ook meer kinderen geboren (non-stationaire variabele 2). Als je die twee variabelen vervolgens tegen elkaar uitzet, krijg je een significant onzinresultaat: meer ooievaars hangt precies samen met meer kinderen – de kindjes zullen wel van de ooievaar komen. 

De normale econometrische truc om dit probleem op te lossen, is de tijdstrend eruit te halen. Je kijkt dan naar de verandering in de variabelen ten opzichte van de trend. Dus bijvoorbeeld: je kijkt naar perioden dat het aantal ooievaars sneller stijgt dan verwacht en in diezelfde periode bekijk je of het aantal kinderen dan óók bovengemiddeld snel groeit. Is dat niet het geval, dan kun je aantonen dat er geen causaal verband is – en dat baby’s dus niet met een vogel uit de lucht komen vallen. 

Dit is een goede truc, maar het nadeel is dat we op deze manier alleen nog wat kunnen zeggen over afwijkingen op korte termijn. De langetermijntrend verdwijnt uit je analyse.

Wat dit paper volgens Clemens níét beschrijft, is de relatie tussen migratie en economische ontwikkeling

Terug naar migratie: dit is volgens Clemens ongeveer wat er gebeurd is in het MEDAM-paper. Ik zeg ongeveer, omdat er nog één ingewikkeld stapje ontbreekt – namelijk dat deze fout indirect in het paper zou zijn geslopen. 

Hou je vast. De onderzoekers halen niet de langetermijntrend van inkomen uit hun analyse, maar corrigeren wél voor bevolkingsgroei. Omdat de langetermijntrend van bevolkingsgroei gelijk loopt met die van inkomensgroei, verdwijnt ook de langetermijntrend van inkomen uit hun analyse. Corrigeer je voor één variabele, dan corrigeer je ook voor alle variabelen die daar nauw mee samenhangen. 

Waarschijnlijk snap je dit niet helemaal – ik ook niet. Gevalletje: we nemen van de hoogleraren econometrie even aan dat dit in de statistiek zo werkt. Want hierop gebaseerd concludeert Clemens dat de MEDAM-onderzoekers eigenlijk alleen inkomensschokken vergelijken met emigratie naar rijke landen. Ze negeren dus de langetermijntrend van inkomensgroei.

Op zich is dit heel interessant: het paper leert ons dan wat de relatie is tussen economische schokken (een olie-boom bijvoorbeeld, of een valutacrisis) en emigratie. Als inkomens plotseling veel meer dalen dan normaal, zoals bijvoorbeeld recent in Venezuela, zal de emigratie dus harder stijgen. 

Maar wat dit paper volgens Clemens níét beschrijft, is de relatie tussen migratie en economische ontwikkeling. Want de langetermijntrend van inkomen, die volgens hem verwijderd is uit deze analyse – dat ís economische ontwikkeling. 

Dat is geen semantiek, benadrukt Clemens: ‘There is no meaningful definition of “economic development” that does not center on incomes rising sustainably over time. For GDP per capita to be above the long term trend for a few years is nót development. Development is the unfolding of a prosperous economy, that is totally unrelated to short-term shocks.’

Natuurlijk kun je debatteren over de definitie van economische ontwikkeling. Maar ik moet Clemens hier gelijk geven: er is eigenlijk geen definitie te bedenken die niet over de langetermijninkomensgroei van een land gaat. 

Klik hier om direct naar mijn conclusie te gaan.

Wat de MEDAM-onderzoekers van Clemens’ kritiek vinden

Maar daarmee zijn we er niet. Want in een uitgebreid gesprek met de MEDAM-onderzoekers gaat de discussie verder. Zij zeggen: ho eens even Clemens, we bekijken je kritiek graag, maar gooi je onze analyse niet wat snel bij het grofvuil? 

De onderzoekers zijn zelf nu nog volop bezig hun analyses te controleren, dubbelchecken, en zullen daar in de komende periode ook zeker over publiceren. En hoewel ik, dankzij de input en uitleg van andere econometristen, Clemens’ punten overtuigend vind, haalde ik uit het gesprek toch een paar belangrijke nuanceringen bij Clemens’ kritiek. 

Allereerst is Clemens’ interpretatie van de MEDAM-uitkomsten wat overdreven. bijvoorbeeld dat de onderzoekers beweren dat wanneer het inkomen per capita van een land verdubbelt, emigratie halveert. Maar zo’n harde voorspelling doen de onderzoekers helemaal niet in hun werk. Zelf nuanceren ze ook: veranderend migratiebeleid, conflicten, verbeterde infrastructuur – al die dingen hebben ook invloed op de  

Dan is er nog Clemens’ kritiek dat de onderzoekers alleen economische schokken meten. Daar zijn de onderzoekers zelf niet Op dit moment proberen ze met kunstmatige data een beter beeld te krijgen van mogelijke fouten in hun model. Wat ze al wél hebben gecheckt: de oplossing die Clemens Passen ze dat toe, dan zeggen ze nog steeds dezelfde resultaten te krijgen. Voor de econometrische leek blijft dit dus een beetje een welles-nietes-verhaal. En omdat de MEDAM-data niet openbaar zijn, is het ook voor de geleerde econometrist lastig te checken wie er nu gelijk heeft. 

Waar de kern van het probleem lijkt te zitten is dit: welke vraag beantwoorden de onderzoekers nu precies? De MEDAM-onderzoekers zijn geïnteresseerd, zeggen ze, in de korte- tot middellangetermijneffecten van inkomensgroei op migratie. Dat is namelijk hoe beleidsmakers op dit moment naar die relatie kijken: kunnen we met ontwikkelingshulp banen creëren in arme landen, en daarmee voorkomen dat mensen migreren in de komende, zeg, vijf jaar? En nee, geven ze toe, daarmee meet je inderdaad geen Maar het is wel dé vraag die nu van belang is voor  

En dat brengt ons ook bij de keus voor de dataset. De data die Clemens gebruikt, gaan over langere periodes: de datapunten zijn telkens tien jaar van elkaar Dat is voor het onderzoeken van deze vraag niet zo nuttig, omdat je juist de effecten van inkomensgroei op jaarlijkse basis  

Als ik dit alles zo afweeg, moet ik wel concluderen dat de MEDAM-onderzoekers hun paper verkeerd dit onderzoek spreekt niet tegen dat er op lange termijn een heuvelvormige relatie is tussen economische ontwikkeling en migratie. Het is dus géén ontkrachting van de migration hump. Maar het paper spreekt wél tegen dat diezelfde relatie ook van toepassing is op de kortetermijnplannen die Europese overheden maken om migratie tegen te gaan. 

De analyses van Clemens en MEDAM verschillen op allerlei vlakken: data, tijdsduur, regressiemodel. Maar het belangrijkste is: ze gaan van start met een andere vraag. 

Wat ik hiervan leerde

Of dit paper nu wel of niet op een statistische fout berust (die discussie zal in de komende maanden vast nog beslecht worden in academische tijdschriften), vraag ik me door dit tumult af wat mijn relatie als journalist met de wetenschap is – of wat die zou moeten zijn. 

Ieder mens – de journalist incluis – heeft een beperkt kader vanwaaruit hij of zij iets kan begrijpen. Ik heb gestudeerd, maar heb nooit geavanceerde statistiek gehad. Net zomin begrijp ik bijvoorbeeld de stikstofcyclus, Japanse grammatica of de wiskunde achter klimaatmodellen. Je weet nu eenmaal meer niet dan wel. 

Soms maakt dat niet uit. Ik hoef Newton niet te snappen om iets zinnigs te zeggen over armoedebestrijding. Maar vaak maakt het wél uit, zonder dat we dat doorhebben. Want als journalist vertrouw je in de gevallen dat je eigen kennis en kunde tekortschieten op experts. Alleen: die experts begrijpen natuurlijk óók meer niet dan wel. 

De wiskunde achter de modellen staat zo ver af van de werkelijkheid, dat resultaten eruit rollen als een konijn uit een hoge hoed

Zeker als het gaat om statistiek. Veel biologen, medici, psychologen, economen of sociologen besteden hun statistische analyses uit aan gespecialiseerde collega’s. Die bouwen modellen die zo ingewikkeld zijn dat maar een handjevol mensen ze écht kan doorgronden, of van kritische kanttekeningen kan voorzien. De wiskunde achter de modellen staat zo ver af van de werkelijkheid, dat resultaten eruit rollen als een konijn uit een hoge hoed: hoe het kan weten we niet, maar dit is de uitkomst nu eenmaal. 

Wie snapt zo’n statistische goocheltruc nog? De parallel met de epidemiologische modellen rond corona dringt zich op: wie snapt nog hoe die En zo kom je als journalist – of beleidsmaker – in een lastige situatie als twee experts tegenovergestelde dingen roepen. Kun je twee niet-stationaire variabelen aan één kant van een panel data regression plaatsen zonder de langetermijntrend te verliezen? Welles, nietes! Hoe kun je daar als journalist in vredesnaam een oordeel over vellen?

De enige oplossing lijkt dan: cumulatieve kennis. Zo veel mogelijk knappe koppen vragen hun hoofd er óók over te breken. Dat is natuurlijk hoe wetenschap op z’n best ook zou moeten werken. 

En vaak blijkt het dan helemaal niet een kwestie van waar of niet waar. Eerder een kwestie van: welke vraag willen we beantwoorden? Het MEDAM-paper beantwoordt een interessante vraag – het is alleen niet de vraag of de migration hump nu wel of niet klopt. En misschien trapten de onderzoekers daarmee onbewust in een val die de wetenschap voor zichzelf heeft gecreëerd: tegendraadse onderzoeken, die iets belangrijks ontkrachten, hebben meer aanzien dan onderzoeken die de heersende aannames bevestigen. Ga maar na: dit was een onderzoek waar ik (journalist) aandacht aan besloot te geven. Dat had ik waarschijnlijk niet gedaan als hun model de beroemde migration hump had ondersteund. 

Deze discussie laat zien dat het beste wat we kunnen doen is: constant twijfelen, bevragen én toegeven dat onze eigen expertise, en die van experts, beperkt is. Dat er vraagtekens te zetten waren bij de dataset van het MEDAM-paper, had ik zelf misschien wel kunnen achterhalen, als ik er nog dieper in was gedoken. Maar is er een dataset te vinden die géén problemen kent, als het om zoiets ingewikkelds als  

En dat twee niet-stationaire variabelen niet op elkaar geregresseerd kunnen worden als er voor een gecoïntegreerde derde variabele gecontroleerd wordt – dat is niet een vraag die ik bij dit paper had kúnnen stellen. En met mij heel veel wetenschappers niet, want het MEDAM-paper is door vele andere slimmeriken  

Eigenlijk, ben ik gaan denken, zitten journalisten, wetenschappers en beleidsmakers hier allemaal in hetzelfde schuitje: we willen dolgraag dat de wereld simpeler is dan die kan zijn. We wíllen dat-ie in een mooi model, en daarna in een mooi artikel, is te vangen. Maar de werkelijkheid is zoveel grilliger en complexer. 

Meer grijstinten gaan zien is ook een manier om de wereld beter te begrijpen. Het laat zich alleen net iets minder lekker vangen in een headline. 

Makkelijker is het dan om te zeggen: ik had toch gelijk. 

Veel dank aan Monique de Haan, hoogleraar economie aan de Universiteit van Oslo; Bas van der Klaauw, hoogleraar economie aan de Vrije Universiteit Amsterdam (VU); Quint Wiersma, PhD-student economie aan de VU; Benjamin Wache, PhD-student economie aan de VU; en Maarten Lindeboom, hoogleraar economie aan de VU, voor het bekijken van de papers en hun geduldige uitleg van de econometrie erachter. 

Meer lezen?