Tussen 2012 en 2016 programmeerde Pinkpop 248 acts. Van die acts, die honderdduizenden mensen hebben vermaakt, was 11,5 procent vrouw.

Is Pinkpop een mannenfeest? Of zijn de man-vrouwverhoudingen in de muziekindustrie overal zo scheef?

Het waren interessante vragen die toen hij de acts van Pinkpop op een rijtje had.

Dus besloot ik hem te helpen die vragen te beantwoorden. Door meer data te verzamelen en daar patronen in te vinden. Maar het liep al snel uit de hand. Avonden later ben ik blij met

Daarom: hoe ik dit dataonderzoek heb uitgevoerd. En hoe je zelf met de data aan de slag kunt.

Het onderzoek begon bij 3FM

Ik begon bij de site van 3FM. Ik verzamelde alle gedraaide liedjes tussen 1 april 2016 en 1 april 2017. Daarbij keek ik naar de naam van de artiest, het nummer, de draaidatum en de draaitijd.

Hiervoor gebruikte ik een handig programma waarmee je binnen een paar minuten een simpele scraper kunt bouwen.

De expeditie leverde de data van meer dan een half miljoen liedjes op, van meer dan 8.000 verschillende artiesten

Dat ging zo makkelijk, dat ik dezelfde data verzamelde bij Sky Radio, FunX, Radio2, Qmusic en Radio 538. De expeditie leverde de data van meer dan een half miljoen liedjes op, van meer dan 8.000 verschillende artiesten.

Toen kwam het lastiger deel, want hoe bepaal je of een artiest een man of vrouw is? En, hoe zoek je dat voor zoveel liedjes en artiesten uit zonder dat je helemaal gek wordt?

Toen vond ik een opensource-goudmijn

Via vormgever Leon de Korte kwam ik op met allerlei informatie over popartiesten. Musicbrainz heeft een API en er is een gemaakt.

Waarom dat zo handig is?

Een API is software waarmee je rechtstreeks de database kunt bevragen. Je hoeft dus niet eerst naar de website te gaan, daar geautomatiseerd naar informatie te zoeken en die er vervolgens, wederom geautomatiseerd, af te halen.

Een python library is een verzameling scripts in de programmeertaal python. Met die scripts kun je bijvoorbeeld heel makkelijk een zoekopdracht doen in de database van Musicbrainz.

Door die API en de python library ongeveer de helft van de artiesten categoriseren als man of vrouw. Voor gemengde bands en samenwerkingen tussen artiesten heb ik het percentage vrouwen en mannen berekend. Eminem ft. Dido (ja, is dan 50 procent man en 50 procent vrouw.

De geslachten van de overige artiesten moesten met de hand worden toegewezen. Met een tool als ging dat redelijk snel. Je kunt daar makkelijk sorteren op hoe vaak een artiest is gedraaid, waardoor ik me eerst over de veelgedraaide liedjes kon buigen.

De laatste duizend artiesten - die vaak maar één of twee keer te horen zijn geweest op de zes stations - heb ik laten zitten. Met een score van meer dan 99 procent van de liedjes, ben ik best tevreden.

Dan: YouTube en Spotify

Omdat ik de smaak te pakken kreeg, heb ik de artiesten ook door twee andere databases gehaald: YouTube en Spotify.

Bij 3FM bepalen de dj’s en - naar ik meen - hun manager wat er gedraaid wordt. Bij YouTube zoeken mensen zelf naar de liedjes die ze willen horen. En Spotify geeft volgens mij ook sterker weer waar mensen naar willen luisteren (al wordt daar ook een selectie gemaakt in de playlists).

Ook YouTube heeft en het was om met wat pythoncode van alle artiesten en nummers te achterhalen hoe vaak de video’s waren bekeken, hoe vaak die zijn geliket, gedisliket en hoeveel comments eronder stonden.

Spotify en ik was erg verrast over hoe liberaal die is: je kunt echt heel veel data van ze krijgen. En ook hier om

Tot slot heb ik de radioliedjes (hoe vaak is iets gedraaid) en de YouTubefilmpjes (het aantal views, likes en dislikes) geïndexeerd. Op die manier kon ik de radio, YouTube en Spotify wat beter vergelijken.

Wat valt hierop aan te merken?

Is dit onderzoek loepzuiver? Er zijn best wat mitsen en maren:

  • Voor radio is belangrijk hoe laat een liedje wordt gespeeld. Wordt een nummer vaak primetime gedraaid, of diep in de nacht?
  • Voor YouTube weet ik niet wanneer een videoclip populair was. Sommige video’s staan er al zes, zeven jaar op. Dat maakt het lastig om de populariteit van video’s met elkaar te vergelijken. Datzelfde geldt voor Spotify.
  • Met 8.000 artiesten hebben we veel informatie over veel artiesten, maar het kan goed zijn dat veel vrouwelijke artiesten hier niet tussen zitten. We hebben dus geen idee wat de algemene verhouding is tussen mannen en vrouwen in de muziekindustrie.

Maar goed, de analyse liet zien dat uit de vergelijking tussen radiospeeltijd, Spotify en YouTube weinig zinnigs te halen viel. Ik kon geen patroon vinden dat daadwerkelijk inzicht bood.

Als jij een gok wilt wagen, dan hoor ik het graag. Sowieso vind ik het erg leuk als je met de data aan de slag gaat. Stuur me even een mail, dan zorg ik dat je de data krijgt (40MB, csv-format).

Meer weten?

Zo weinig vrouwen draaiden Nederlandse radiozenders afgelopen jaar Ik berekende hoeveel vrouwelijke artiesten Nederlandse radiostations draaien. Dat blijken er heel weinig. Wat kunnen we hieraan doen? Lees het verhaal hier Het gebrek aan vrouwelijke headliners begint al op de basisschool Van radio tot Pinkpop, overal in de muziekwereld zijn vrouwen in de minderheid. Met hulp van Correspondentleden en experts vond ik daar drie belangrijke verklaringen voor. Lees de update hier terug