Wie wint er straks het goud: de beste schaatser of wie het meest geluk heeft?

De 5 kilometer schaatsen, afgelopen zondag tijdens de Olympische Spelen in Pyeongchang, was om meerdere redenen bijzonder.

Natuurlijk vanwege Sven Kramer, die een derde gouden medaille op rij won. Maar op dezelfde afstand gebeurde iets wat veel zegt over moderne topsport.

De Canadees Ted-Jan Bloemen en de Noor Sverre Pedersen finishten na 6 minuten, 11 seconden, en 61 honderdste. Het verschil bedroeg slechts tweeduizendste van een seconde - en was alleen per finishfoto te zien.

Een dag later was er een vergelijkbare close race. Op de 1500 meter vrouwen zat er tussen Marrit Leenstra (brons) en Lotte van Beek (vierde) maar een honderdste seconde verschil - als het meetsysteem het goed had, tenminste.

De komende dagen zijn alleen maar meer van zulke uitslagen te verwachten. Schaatsers, bobsleeërs en skiërs zullen waarschijnlijk - ondanks de aanzienlijke afstanden die ze afleggen – binnen fracties van seconden na elkaar finishen.

Dat is indrukwekkend - maar ook een groeiend probleem.

Professionele sporters zijn zó goed geworden, en de verschillen tussen hun prestaties zó klein, dat één individuele wedstrijd nauwelijks meer uitwijst wie de beste is.

Een startfout, een omslag van het weer, het lot dat bepaalt of je start op de binnen- of de buitenbaan - het heeft allemaal niks te maken met de kwaliteit van de sporter, maar kan toch het verschil maken tussen winst en verlies.

Of het is een meetfout die de winnaar aanwijst. Want zelfs lasers, computers die gesynchroniseerd zijn met atoomklokken, en high-definition-fotofinishes kunnen niet altijd uitsluitsel geven over wie welke medaille verdient te winnen.

Dus wie heeft straks de gouden medaille? De beste of de gelukkigste? Steeds vaker, vermoeden onderzoekers, zal dat de tweede zijn.

Illustratie: Suus Hessling (voor De Correspondent)

Een wonderlijke paradox

Eén man zag dit al lang geleden aankomen: de Amerikaanse evolutiebioloog Stephen Jay Gould. Gould, fanatiek honkbalfan, stelde zich begin jaren negentig van de vorige eeuw een vraag.

Waarom had je in de jaren twintig van de vorige eeuw nog vaak slagmannen die over een heel seizoen meer dan 40 procent van de ballen raak sloegen? En waarom zag hij ze vrijwel nooit meer? Zijn spelers tegenwoordig slechter dan destijds?

Dat leek hem onwaarschijnlijk. Uiteindelijk kwam hij tot een verklaring. Het kwam, legde Gould uit in zijn essay Why No One Hits .400 Anymore, juist omdat de gemiddelde speler steeds beter wordt.

Vroeger, toen het honkbal nog geen commerciële massasport was, waren er matige werpers die je als slagman makkelijk de baas kon. En dus kon je tegen die matige werpers je slaggemiddelde flink opvijzelen.

Die matige werpers zijn er niet meer. Alleen als je erg goed bent, kom je nog in de Major League Baseball. En dus is het als slagman veel moeilijker een batting average van 0,400 te halen - zelfs al zijn de slagmannen van nu veel beter dan vroeger.

Die wet van Gould zie je bij meer sporten. Het komt nog maar zelden voor dat één atleet alle anderen overvleugelt - en dat komt omdat er juist meer getalenteerde mensen meedoen aan het spel.

Natuurlijk - er zijn nog steeds sporters die er duidelijk boven uitsteken, ook in sporten waar het vaak om kleine verschillen gaat. Neem Sven Kramer of Usain Bolt: zij zijn vaak maar een klein beetje beter dan de rest. Maar ze zijn wel structureel een klein beetje beter dan de rest - hun succes is geen toeval.

Niettemin: de Bolts en de Kramers zijn zeldzaam, en worden zeldzamer. En dat betekent dus ook dat het toeval vaker zal beslissen over winst en verlies.

De crisis in de snelle sporten

Een van de sporten waar dit vaker gaat voorkomen, is het schaatsen, schreven drie Nederlandse econometristen vorig jaar in het paper The growing problem of comparing elite sport performances.

Volgens emeritus hoogleraar Gerard Sierksma, een van de auteurs, bevinden snelle sporten als schaatsen zich in een crisis. Hoe dichter de prestaties op elkaar zitten, des te vaker zullen sporters hun plek op het podium moeten delen. Ook zullen er steeds vaker ‘winnaars’ worden uitgeroepen, terwijl hun afstand tot de nummer twee niet groter is dan de foutmarge van de meetsystemen.

‘De verschillen tussen de resultaten liggen vaak binnen de foutmarge bij de tijdmeting. Je kunt gewoon niet zeggen wie de winnaar is’

‘De 500-, 1000- en 1500-meter-wedstrijden bij het schaatsen zijn steeds ongeschikter om een ranglijst bij op te stellen,’ zegt Sierksma. ‘Deskundigen op het gebied van tijdmeting zeggen dat de foutmarge bij elke race drieduizendste seconde bedraagt. De verschillen tussen de resultaten liggen regelmatig binnen die foutmarges. Je kunt gewoon niet meer zeggen wie de winnaar is.’

Maar zelfs op langere afstanden doet het probleem zich voor, zoals de 5 kilometer-races van Bloemen en Pedersen van zondag aantoonden. Het verschil stussen hen, tweeduizendste van een seconde, was minder dan de foutmarge van het meetsysteem.

Gelukkig reden zij direct tegen elkaar, en was er een finishfoto die liet zien dat Bloemen eerder over de finishlijn kwam. Maar wat als Bloemen en Pedersen elk in een andere rit hadden gereden?

En als er dus geen finishfoto was die bewees wie daadwerkelijk sneller was?

Koen Verweij had in 2014 ook goud moeten krijgen

Precies dat gebeurde bij de vorige Olympische Spelen in Sotsji.

De Nederlander Koen Verweij kreeg zilver op de 1.500 meter omdat hij volgens de tijdmeting drieduizendste van een seconde langzamer was dan de Pool Zbigniew Bródka.

Sierksma: ‘Voor hetzelfde geld was het onderlinge verschil anders geweest: Verweij een paar duizendste sneller, Bródka trager, en was er een andere winnaar geweest. Je weet het niet. Kortom: Verweij had ex aequo goud moeten hebben [mét Bródka dus, red.].’

‘Als iemand straks weer een verschil rijdt van een paar duizendste: god weet wie gewonnen heeft. Ik zou als schaatser een bodemprocedure beginnen, als me dit zou overkomen.’

En gebeurtenissen zoals met Bródka en Verweij, waar toeval de uitkomst bepaalt, zullen vaker voorkomen.

De tombola van de 500 meter schaatsen

Prangendste voorbeeld: de 500 meter bij schaatsen.

Op deze Olympische Spelen wordt de 500 meter schaatsen weer via één race verreden. Dat was sinds 1998 niet gebeurd.

In dat jaar besloot de internationale schaatsbond ISU elke deelnemer twee ritten te laten rijden. Onderzoek had namelijk aangetoond dat starten in de binnenbocht een voordeel gaf omdat je dan als schaatser eindigt in de buitenbocht, wat technisch eenvoudiger is. De oplossing: een deelnemer start één keer in de binnenbocht, en een keer in de buitenbocht. Eerlijker.

Met ingang van deze Spelen is dat afgeschaft. Eén argument van de schaatsbond ISU was dat de verschillen tussen binnen- en buitenbocht niet meer bestaan. Dat zou zijn gebleken uit onderzoek dat was uitgevoerd door… Gerard Sierksma.

Maar de econometrist is zelf ongelukkig met de uitleg van zijn werk. Destijds klopte de conclusie, zegt hij, en de schaatsers voelden dat zelf ook zo. Maar inmiddels wordt er weer een stuk harder gereden, en is een laatste binnenbocht voor veel schaatsers toch weer een probleem.

‘Sommige schaatsers hebben voorkeuren. De een wil liever beginnen op de buitenbaan, de ander op de binnenbaan. Het zijn, in essentie, verschillende disciplines.’

De mate van oneerlijkheid is kolossaal, vindt Sierksma, die zichzelf ook verwijten maakt. Want ook tijdens het kwalificatietoernooi voor de Spelen is over één rit beslist wie naar Pyeongchang mocht. En Sierksma adviseert de schaatsbond bij het opzetten van de kwalificatieprocedure - het beroemde OKT. Tijdens dat toernooi ontdekte hij zijn fout, en schreef hij erover in Trouw. Maar toen was het al te laat.

Ook de schaatsers die zich wel plaatsten, kunnen in Pyeongchang zomaar op een voor hen ongunstige baan starten, en enkele honderdsten van seconden verliezen. Zondag en maandag worden de 500 meter-races verreden.

Het is een bizarre situatie, vindt Sierksma: vier jaar train je voor de Spelen, en dan bepaalt het lot of je je wel of niet op je best kunt laten zien - in één race van minder dan 38 seconden.

Het skiën is een schoolvoorbeeld van hoe je prestaties niet moet meten

Het skiën kent een vergelijkbare problematiek.

In het skiën lijkt het soms duidelijk wie de beste is. Dat komt omdat de Fédération Internationale de Ski (FIS) een eigen puntensysteem kent. De winnaar van een race krijgt 100 punten, de nummer twee 80, de derde 60, enzovoorts. De skiër met de meeste punten wordt wereldkampioen.

100, 80, 60: dat zijn duidelijke verschillen. Maar de verschillen in tijden zijn vaak veel kleiner. De puntentelling vertekent de fantastisch kleine verschillen in prestatie daarmee enorm – zozeer zelfs, dat het handboek Statistics in Psychology Using R and SPSS de puntentelling bij het wereldkampioenschap alpineskiën gebruikt als voorbeeld van foutief gebruik van meetniveaus.

Daardoor kan een skiër die gemiddeld de snelste is toch het wereldkampioenschap verliezen van iemand die vaker eerste werd.

De auteurs van het statistiekboek schrijven: ‘Het is irrelevant dat die schaalverdeling zo oneerlijk is zolang atleten en kijkers vrijelijk instemmen met zulke autoritaire regels omwille van het amusement. Wetenschappelijk onderzoek vraagt echter om eerlijkheid en objectiviteit.’

Nu is sport geen wetenschap, maar zo’n vaststelling schuurt wel. Je wilt dat een klassement een afspiegeling is van kwaliteit. Maar dat is het dus ook bij het skiën niet.

Eigenlijk moet je vaker tegen elkaar racen

Als je objectief wilt vaststellen wie de beste sporter is, moet je meerdere metingen doen, zegt statisticus Casper Albers van de Rijksuniversiteit Groningen.

‘De wetenschappelijke benadering zou zijn om te zeggen: "Nummers één tot en met vijf waren ongeveer even snel. We moeten iedereen nog minstens tien keer van die berg af laten racen om te weten of de nummer één ook significant beter is dan de nummer twee.” Maar dat levert natuurlijk geen interessante sportbeelden op.’

Ook Albers denkt daarom dat toeval het spel kan gaan ‘domineren,’ zeker als de verschillen tussen spelers heel klein zijn. ‘Toeval is in wezen onderdeel van de sport (...). Maar pas als teams of sporters het vaker tegen elkaar opnemen en het ene net wat vaker wint dan het andere, kun je concluderen dat het ene team wel beter zal zijn.’

De rol van het toeval is in het skiën simpelweg geaccepteerd - in de vorm van het weer. Dat zegt de Zwitserse econoom Stefan Legge, die de uitkomsten van ‘close’-uitslagen onderzocht. Als je vroeg op de dag racet, kan het weer duidelijk anders zijn dan in de middag. Het betekent soms het verschil tussen winst en verlies.

Een toename van close-uitslagen in de afgelopen twintig jaar vond Legge overigens niet in de data - wat suggereert dat het niveau in het skiën de afgelopen jaar niet is toegenomen. Mogelijk is de ontwikkeling die Gould voorspelde bij het skiën tot stilstand gekomen: het niveau was al hoog, en is hoog gebleven.

Commentatoren zoeken betekenis in de foutmarge

De marginale verschillen tussen sporters aan de top stellen commentatoren voor een onmogelijke opdracht.

Zij moeten verschillen tussen atleten waarnemen en verklaren - commentaar geven is immers hun vak. Maar de verschillen zijn voor hen nauwelijks of niet waarneembaar.

Neem de parallelle reuzenslalom, een relatief nieuwe discipline in het skiën. Twee aan twee racen skiërs binnen twintig seconden langs vijftien tot achttien poortjes voor ze over de finishlijn komen, met tijden die hooguit een paar honderdste seconden uit elkaar liggen.

Ondanks de praktisch gelijktijdige afdaling deinzen de commentatoren er niet voor terug de race te analyseren alsof het een strategisch spel is. ‘Hier zie je dat ze in het eerste deel wel heel veel tijd verliest,’ zegt een tv-commentator over een van de deelnemers tijdens een recente wedstrijd in Oslo. ‘Ze lijkt een kleine voorsprong te hebben,’ zeggen de twee commentatoren ook vaak.

Volgens experimenteel psycholoog Stefan van der Stigchel van de Universiteit Utrecht slaan zulke analyses nergens op. ‘Als je naar het parallel slalommen kijkt, gaan je ogen continu heen en weer. Zulke oogbewegingen kosten tijd. Je hebt minimaal 80 milliseconden nodig om van de ene naar de andere plek te gaan. Dat is heel snel, maar hiervoor niet snel genoeg. In die tijd gebeurt er gewoon heel veel.’

‘Je hebt 80 milliseconden nodig om je oog van de ene naar de andere plek te laten gaan. Dat is niet snel genoeg voor de verschillen bij het parallelskiën’

Een van de commentatoren zei, na alweer een afdaling die slechts met enkele honderdsten was beslist: ‘Het verschil onderaan is bijna te klein om met het blote oog te zien.’ Dat is terechte bescheidenheid én een understatement. Er is namelijk geen enkele kans dat iemand het verschil goed kan zien, weet Van der Stigchel.

‘Ze finishen soms op een paar honderdsten van elkaar. Dat is niet waar te nemen. Je kijkt er ook nog eens schuin op. Alleen als de camera exact haaks op het parcours staat, kun je misschien zien wie de eerste is, net als bij een fotofinish.’

De commentatoren zien wel meer dan de gemiddelde kijker, denkt Van der Stigchel. ‘Zij kunnen de juiste bewegingen herkennen, en die interpreteren als een voorsprong. Helemaal nutteloos is het commentaar dus niet. Maar als ze denken dat ze even goed kunnen observeren als de officiële tijdwaarneming, overschatten ze zichzelf.’

De suggestie van precisie is een illusie

Dus als het toeval zo’n rol speelt, hoe komt het dan dat we denken te kijken naar een wedstrijd die uitmaakt wie de beste sporter is?

Wat niet helpt, is dat mensen niet doorhebben hoe weinig een honderdste of duizendste van een seconde is. Die verschillen zijn beter voor te stellen als we de race vertalen naar een denkbeeldige wedstrijd die veel langer duurt.

Neem het Wereldkampioenschap reuzenslalom in het Oostenrijkse Lienz, op 29 december vorig jaar. De top-drie eindigde daar binnen acht honderdste van een seconde van elkaar. Nul komma nul acht seconde – één keer met je ogen knipperen duurt al langer.

Stel nu dat die reuzenslalom niet 20 seconden maar 3,5 uur had geduurd, waarbij de atletes geen 44 maar ruim 4.000 poortjes voorbij waren geskied. Dan zouden de finalisten nog steeds binnen 8 seconden van elkaar zijn geëindigd.

Die cijfers achter de komma wekken de indruk dat de metingen allemaal erg exact zijn. Dat is een denkfout die precision bias of ‘valse precisie’ heet. Mensen hebben veel vertrouwen in cijfers die met meer precisie worden gepresenteerd dan gerechtvaardigd is.

Albers: ‘Als tijden worden genoteerd met vier cijfers achter de komma, denken we ‘wat weten wij dat goed.’ Maar die precisie heeft niks meer met de prestatie van de sporters te maken.’

Hoe bestrijden we het toeval?

De wrange conclusie is: wie rekening houdt met meetfouten en de invloed van toeval kan na sommige wedstrijden niet meer met zekerheid zeggen wie de beste sporter is.

Anders gezegd: de wedstrijdvorm waarin sommige sporten zijn gegoten, is geen goede manier meer om het kunnen van de atleten te meten.

Sierksma: ‘Sommige disciplines zullen echt anders moeten worden ingericht. Je zou bijvoorbeeld bij de 500 meter schaatsen kunnen nadenken over een toernooivorm met een knock-outsysteem. Doe je dat niet, dan is de kans groot dat de gouden medaille naar de gelukkigste gaat, en niet naar de beste.’