Wat een dode vis zegt over goede en slechte breinwetenschap

In hun vandaag verschenen boek Kijken in het Brein laten de Nederlandse neurowetenschappers Sandra van Aalderen, Nienke van Atteveldt en Meike Grol zien hoe makkelijk resultaten van hersenonderzoek worden opgevat als onomstotelijke waarheden. En hoe groot de teleurstelling is als het ‘echte’ verhaal ingewikkelder in elkaar zit.

In populaire media, maar ook in de wetenschap zelf, levert een nieuwe technologie of vorm van wetenschapsbeoefening vaak een golf wetenswaardigheden op. Wanneer het nieuwe ervan af is, worden die weetjes bijeengeveegd in een metaverhaal waaruit zou blijken dat we ons hebben laten meeslepen in een hype: dat het allemaal helemaal zo onomstotelijk niet is. Want dat is dan weer het nieuws.

De werkelijkheid? Die zit er vaak tussenin. Wetenschappers boeken vooruitgang met horten en stoten en onder grote onzekerheden. Ook bij hersenonderzoek gaat de nuance vaak verloren, zo blijkt uit de verhalen uit het boek.

Hoe maak je als hersenwetenschapper duidelijk hoe ingewikkeld de realiteit is achter de resultaten? De Amerikaan Craig Bennett besloot zijn MRI-scanner en een dode zalm te gebruiken om dat te laten zien. Hij won een Ig Nobelprijs met zijn onderzoek.

Dit verhaal uit het boek, dat hieronder als voorpublicatie verschijnt, maakt duidelijk waarom wetenschappers heel goed moeten kijken naar hun metingen voordat ze besluiten wat ze denken te zien.

En het leert de leek hoe hij eigenlijk naar die iconische plaatjes van ‘oplichtende hersengebieden’ moet kijken.

Over breinonderzoek wordt vaak ongenuanceerd bericht. De frustratie en verbazing daarover vormde de basis voor ons vandaag verschenen boek Kijken in het brein. Vaak betreft dit nieuwe technieken waarmee we het levende brein kunnen bestuderen.

Een van de opvallendste: fMRI (functionele magnetische resonantie imaging). Maar zoals met veel nieuwe technologie, wordt ook hier niet altijd een realistisch beeld gegeven van wat we ermee kunnen. Als je sommige berichten mag geloven, kunnen hersenscans op bijna elke vraag wel antwoord geven.

Bijvoorbeeld: kunnen we voorspellen wie er een misdaad zal begaan? Of: wie er autisme heeft en wie adhd.

Tijdens het schrijven verbaasden we ons in toenemende mate over de feller wordende sceptische geluiden, óók vaak ongenuanceerd. Steeds vaker lazen we in boze kritieken en opiniestukken dat hersenscans alleen maar een misleidende hype zouden zijn en dat ze niks zouden toevoegen aan wat we al konden en al wisten.

Een van de meest bizarre verhalen over fMRI gaat over een dode zalm. In 2010 werd een artikel gepubliceerd waarin er met behulp van fMRI hersenactiviteit werd gemeten in een dood exemplaar.

Sceptici grepen dit nieuws gretig aan om nog eens te onderstrepen dat fMRI een onbetrouwbare techniek is en dus een hype. Maar volgens ons toont het avontuur met de dode zalm iets heel anders aan: hoe belangrijk het is dat onderzoekers heel goed weten wat ze nu precies meten en daar vervolgens heel nauwkeurig over berichten.

Want wat kunnen we met de hersenactiviteit van een dode zalm verklaren? Een onderzoek ontleed.

Selderij en rauwe biefstuk

Eerst mocht de pompoen de scanner in, daarna de kip en als laatste de zalm. Die vond het niet erg om even te wachten, want hij was dood. De Amerikaanse neurowetenschapper Craig Bennett had tijdens zijn promotieonderzoek - het testen van een nieuw soort MRI-scanner - een interessante serie ‘proefpersonen.’

Bennett liet de kip en de zalm zelfs plaatjes op het beeldscherm zien, als waren het menselijke proefpersonen. Dit deed hij om te testen of het beeldscherm werkte en of het programma de plaatjes met de juiste timing vertoonde. De data van de tests werden niet bekeken, maar wel bewaard.

Vijf jaar later vroeg een collega aan Bennett of hij een goed voorbeeld kon bedenken van een verkeerde analyse van fMRI-resultaten. Na wat peinzen schoot Bennett ineens te binnen dat hij de hersenscans van de dode zalm nog ergens had liggen. Als hij daarmee kon aantonen dat de zalmhersenen actief waren, zou dat een ultiem voorbeeld zijn van een foutieve analyse van fMRI-gegevens. Want hersenactiviteit in een dode zalm, die hoor je natuurlijk nooit te vinden.

Het empathisch vermogen van een dode zalm

Bennett ging aan de slag met de software waarmee je fMRI-scans kunt inlezen en analyseren. Belangrijk om te weten is dat de felgekleurde hersenplaatjes die je vaak in kranten of op internet ziet geen foto’s zijn van oplichtende hersencellen of iets dergelijks. Het zijn de door een computerprogramma ingekleurde delen van de fMRI-beelden. Zo’n ingekleurd deel noemen we ook wel een ‘blob.’ Het is niet meer dan de uitkomst van een statistische test, uitgevoerd om betrouwbare verbanden te vinden tussen de gemeten fMRI-signalen en de door de proefpersonen uitgevoerde opdrachten.

Bennetts dode zalm moest naar plaatjes kijken. De plaatjes waren foto’s van mensen in sociale situaties, de opdracht van de zalm was om te beslissen welke emotie deze personen waarschijnlijk voelden: of ze boos waren, of verdrietig enzovoort. De vis ‘keek’ telkens tien seconden naar een reeks van vier plaatjes, dan had hij twaalf seconden rust, dan kwamen er weer tien seconden lang plaatjes, dan weer rust enzovoort. In totaal zo’n zes minuten lang. In de figuur hieronder is te zien hoe doorlopend gescand wordt terwijl taak en rustperiodes, ook wel baseline genoemd, afgewisseld worden.

Uit het boek ‘Kijken in het brein’. Illustratie: Edda Grol

Vervolgens liet Bennett de computer berekenen in welke hersengebieden het fMRI-signaal een verband vertoonde met het kijken naar de emoties op de plaatjes: waar ging het fMRI-signaal omhoog tijdens de plaatjes en omlaag tijdens de rust?

Bennett deed dit voor de zalm zes minuten lang. Het fMRI-signaal bestaat dan uit alle metingen van het begin van het experiment tot aan het einde. Vandaar dat we het ook wel een ‘film’ noemen in plaats van een foto, of technischer: een tijdserie. Je kunt dit zien in de illustratie hierboven, waar het fMRI-signaal de grillige lijn in de grafieken rechtsboven is.

De taak is verdeeld in blokken van plaatjes (witte balken) en blokken rust (ingekleurde balken). De computer berekent of er een verband is tussen de tijdserie en de taak. In de bovenste grafiek zie je dat er een verband is tussen de taak en de tijdserie; het signaal in het gemeten gebiedje is hoger tijdens de taak dan tijdens rust. In de onderste grafiek verschilt het signaal tussen de taak en rust niet of nauwelijks; daar is geen effect van de taak te zien.

130.000 mogelijke vondsten

Een verband tussen de fMRI-tijdserie en een bepaalde taak of prikkel, zoals het zien van foto’s van emotionele personen, noemen we betrouwbaar of ‘significant’, als de kans groot genoeg is dat het verband niet toevallig is ontstaan. Het fMRI-signaal gaat altijd wat op en neer, dus het kan zo zijn dat het bij toeval wat hoger is in een bepaald hersengebied tijdens het zien van de foto’s en wat lager tijdens de rust. Dit wordt een valspositieve bevinding genoemd – de uitkomst van de statistische test is positief, maar het verband is toevallig ontstaan en dus schone schijn.

We maken niet alleen véél scans van meer personen, maar elke scan bevat ook nog eens enorm veel signalen

Doorgaans accepteer je als onderzoeker dat de kans op zo’n toevallig verband kleiner is dan 5 procent. Deze grens van 5 procent kans noem je de drempelwaarde, en het programma kleurt alle hersengebieden in die onder deze waarde liggen. Dat zijn onze blobs. Je kleurt ze bijvoorbeeld licht als het verband sterk significant is, iets donkerder als het iets minder significant is en heel donker als het maar net significant is.

Dit klinkt redelijk eenvoudig, maar de databerg van fMRI maakt de analyses vreselijk complex. We maken niet alleen véél scans van meer personen, maar elke scan bevat ook nog eens enorm veel signalen.

Resolutie wordt ook wel onderscheidend vermogen genoemd: in ons geval hoe groot (of klein) de stukjes brein zijn waarbij je nog twee afzonderlijke signalen kunt meten. Bij fMRI zijn deze stukjes brein meestal zo’n 27 kubieke millimeter (drie bij drie bij drie millimeter). Zo’n breineenheid of blokje wordt een voxel genoemd, een samentrekking van ‘volumepixel.’

Om alles in perspectief te plaatsen: in elke voxel bevinden zich meestal wel een miljoen hersencellen. Een doorsnee fMRI-scan van één heel brein omvat zo’n 130.000 voxels. Dat betekent dat we met elke scan 130.000 afzonderlijke meetgebieden meten, waarbij elk signaal ook nog eens minutenlang duurt. De meeste standaardanalyses voeren voor elk het signaal in elk van deze voxels apart een statistische test uit – 130.000 statistische tests dus!

Cruciale keuzes

Ook al doen de computerprogramma’s het rekenwerk, als onderzoeker moet je de juiste instellingen bepalen. En dat betekent: keuzes maken. Vergelijk ik het zien van foto’s van een boos persoon rechtstreeks met het zien van een verdrietig iemand? Of is het beter het signaal tijdens rust eerst van het signaal tijdens beide emoties af te trekken, en dan de resterende signalen met elkaar te vergelijken? Laat ik proefpersonen die hun hoofd te veel bewogen hebben uit de analyse weg? En waar ligt de grens voor ‘te veel’?

Een cruciale keuze bij elke fMRI-analyse is hoe om te gaan met de kans op valspositieve (toevallige) resultaten. Als je een meting 130.000 keer doet, honderd keer herhaalt, en honderd keer dezelfde statistische test doet, dan zul je dus waarschijnlijk vijf keer een valspositieve uitkomst hebben.

Hoe zit dat dan als je voor 130.000 hersengebiedjes voxels dezelfde test doet? Dan krijg je waarschijnlijk zo’n 6500 keer een positieve uitslag terwijl er helemaal geen verband is. Er is daarom een statistische correctie nodig voor het feit dat je dezelfde test heel vaak herhaalt.

Hersenactiviteit in de dode zalm

Door wat te spelen met verschillende instellingen vond Bennett wat hij zocht: een paar heel kleine, maar toch echt aanwezige blobs van activiteit in het zalmbrein. Die ‘hersenactiviteit’ trad alleen op als hij geen enkele correctiemethode gebruikte. Bij het gebruik van twee verschillende correctiemethoden bleef de activiteit keurig weg. Hieronder kun je het resultaat va verschillende correctiemethoden zien op de blobs uit een van Nienkes fMRI-experimenten.

Je bent als onderzoeker vrij in je keuze voor een bepaalde correctie-instelling. Helaas heeft deze vrijheid er ook toe geleid dat er studies met ongecorrigeerde resultaten zijn gepubliceerd, met name in de beginjaren van fMRI en PET, een vergelijkbare scantechniek. Het gevaar hierbij is dat valspositieve resultaten voor waar worden aangenomen. In 1996 bijvoorbeeld, bij een studie in het vooraanstaande vakblad Neuron, deden de onderzoekers verslag van een pet-studie waarin ze een verschillend activatiepatroon hadden gezien voor echte en valse herinneringen. Ze corrigeerden echter níet voor herhaalde metingen, terwijl dit bij PET net zo belangrijk is als bij fMRI

Het gevolg was dat het idee ontstond dat echte en valse herinneringen te onderscheiden waren met hersenscans, wat natuurlijk erg interessant was voor toepassingen zoals het verhoren van getuigen. De studie was alleen helaas niet betrouwbaar en bleek dus ook lastig te repliceren. Valse hersenactiviteit voor valse herinneringen dus. Gelukkig wordt het aantal publicaties dat resultaten presenteert die niet voldoende zijn gecorrigeerd voor valspositieven de laatste jaren steeds kleiner.

In 2010 publiceerde Bennett zijn dodezalmbevindingen in een wetenschappelijk artikel met als (vertaalde) titel ‘Neurale correlaten van intersoortelijke perspectiefname in de post-mortem Atlantische zalm: een argument voor herhaalde-metingencorrectie.’

Het artikel diende als waarschuwing voor andere wetenschappers: zonder correctie voor de hoeveelheid tests die je doet, is de kans op valspositieven zo groot dat je zelfs in een dode vis activiteit kunt vinden. Bij de dode zalm was het duidelijk dat de activiteit niet aanwezig kon zijn, maar bij echte experimenten weet je niet wat je hoort te zien.

In de media werd vervolgens breed uitgemeten dat fMRI een onbetrouwbare methode zou zijn. Helaas werd in bijna geen enkel uitgelegd dat het dode zalmenbrein alléén actief was als een belangrijke correctie achterwege werd gelaten. Een correctie die gelukkig tegenwoordig meestal goed wordt uitgevoerd, zeker sinds Bennetts macabere vondst.

De zalmscan kwam dus negatief in het nieuws, terwijl het wetenschappelijk gezien juist noodzakelijk was wat Bennett deed: onderzoekers moeten elkaar scherp houden. FMRI is zeker betrouwbaar: zolang je maar de juiste statistische correcties uitvoert. En zolang we als onderzoekers met elkaar blijven nadenken welke keuzes we maken en waarom.

Dit verhaal is geschreven door Sandra van Aalderen, Nienke van Atteveldt en Meike Grol en een voorpublicatie uit Kijken in het Brein.