Tussen 2012 en 2016 programmeerde Pinkpop 248 acts. Van die acts, die honderdduizenden mensen hebben vermaakt, was 11,5 procent vrouw.

Is Pinkpop een mannenfeest? Of zijn de man-vrouwverhoudingen in de muziekindustrie overal zo scheef?

Het waren interessante vragen die Lees hier de aankondiging van Rufus’ onderzoek. collega Rufus Kain stelde toen hij de acts van Pinkpop op een rijtje had.

Dus besloot ik hem te helpen die vragen te beantwoorden. Door meer data te verzamelen en daar patronen in te vinden. Maar het Scrapen is het geautomatiseerd, maar vooral gestructureerd informatie van websites (of uit databases) halen. liep al snel uit de hand. Avonden later ben ik blij met Lees hier het verhaal van Rufus Kain over vrouwen op de radio. het resultaat.

Daarom: hoe ik dit dataonderzoek heb uitgevoerd. En hoe je zelf met de data aan de slag kunt.

Het onderzoek begon bij 3FM

Ik begon bij de site van 3FM. Ik verzamelde alle gedraaide liedjes tussen 1 april 2016 en 1 april 2017. Daarbij keek ik naar de naam van de artiest, het nummer, de draaidatum en de draaitijd.

Hiervoor gebruikte ik Hier vind je meer informatie over Outwit Hub. Outwit Hub, een handig programma waarmee je binnen een paar minuten een simpele scraper kunt bouwen.

De expeditie leverde de data van meer dan een half miljoen liedjes op, van meer dan 8.000 verschillende artiesten

Dat ging zo makkelijk, dat ik dezelfde data verzamelde bij Sky Radio, FunX, Radio2, Qmusic en Radio 538. De expeditie leverde de data van meer dan een half miljoen liedjes op, van meer dan 8.000 verschillende artiesten.

Toen kwam het lastiger deel, want hoe bepaal je of een artiest een man of vrouw is? En, hoe zoek je dat voor zoveel liedjes en artiesten uit zonder dat je helemaal gek wordt?

Toen vond ik een opensource-goudmijn

Via vormgever Leon de Korte kwam ik op Musicbrainz vind je hier. Musicbrainz, een opensource-muziekdatabase, met allerlei informatie over popartiesten. Musicbrainz heeft een API en er is een Die library vind je hier. gemaakt.

Waarom dat zo handig is?

Een API is software waarmee je rechtstreeks de database kunt bevragen. Je hoeft dus niet eerst naar de website te gaan, daar geautomatiseerd naar informatie te zoeken en die er vervolgens, wederom geautomatiseerd, af te halen.

Een python library is een verzameling scripts in de programmeertaal python. Met die scripts kun je bijvoorbeeld heel makkelijk een zoekopdracht doen in de database van Musicbrainz.

Door die API en de python library Dat deed ik met dit script. kon ik vrij makkelijk ongeveer de helft van de artiesten categoriseren als man of vrouw. Voor gemengde bands en samenwerkingen tussen artiesten heb ik het percentage vrouwen en mannen berekend. Eminem ft. Dido (ja, Voor wie Eminem ft. Dido niet kent. dat wordt nog steeds vaak uitgezonden) is dan 50 procent man en 50 procent vrouw.

De geslachten van de overige artiesten moesten met de hand worden toegewezen. Met een tool als Open Refine kun je hier downloaden. ging dat redelijk snel. Je kunt daar makkelijk sorteren op hoe vaak een artiest is gedraaid, waardoor ik me eerst over de veelgedraaide liedjes kon buigen.

De laatste duizend artiesten - die vaak maar één of twee keer te horen zijn geweest op de zes stations - heb ik laten zitten. Met een score van meer dan 99 procent van de liedjes, ben ik best tevreden.

Dan: YouTube en Spotify

Omdat ik de smaak te pakken kreeg, heb ik de artiesten ook door twee andere databases gehaald: YouTube en Spotify.

Bij 3FM bepalen de dj’s en - naar ik meen - hun manager wat er gedraaid wordt. Bij YouTube zoeken mensen zelf naar de liedjes die ze willen horen. En Spotify geeft volgens mij ook sterker weer waar mensen naar willen luisteren (al wordt daar ook een selectie gemaakt in de playlists).

Ook YouTube heeft Die API en documentatie is te vinden op de developers-pagina van Google. en het was Hier vind je mijn YouTube-script. een koud kunstje om met wat pythoncode van alle artiesten en nummers te achterhalen hoe vaak de video’s waren bekeken, hoe vaak die zijn geliket, gedisliket en hoeveel comments eronder stonden.

Spotify De documentatie van Spotify vind je hier. en ik was erg verrast over hoe liberaal die is: je kunt echt heel veel data van ze krijgen. En ook hier Op GitHub vind je mijn Spotify-script. was het vrij eenvoudig om Ook hier is een python library beschikbaar, namelijk spotipy. Spotify geeft ieder nummer een zogenoemde ‘popularity score’, een getal tussen 0 en 100 dat weergeeft hoe vaak een liedje wordt afgespeeld op het platform en hoe succesvol het is. Uiteraard heb ik naar de scores voor de Nederlandse markt gezocht.

Tot slot heb ik de radioliedjes (hoe vaak is iets gedraaid) en de YouTubefilmpjes (het aantal views, likes en dislikes) geïndexeerd. Op die manier kon ik de radio, YouTube en Spotify wat beter vergelijken.

Wat valt hierop aan te merken?

Is dit onderzoek loepzuiver? Er zijn best wat mitsen en maren:

  • Voor radio is belangrijk hoe laat een liedje wordt gespeeld. Wordt een nummer vaak primetime gedraaid, of diep in de nacht?
  • Voor YouTube weet ik niet wanneer een videoclip populair was. Sommige video’s staan er al zes, zeven jaar op. Dat maakt het lastig om de populariteit van video’s met elkaar te vergelijken. Datzelfde geldt voor Spotify.
  • Met 8.000 artiesten hebben we veel informatie over veel artiesten, maar het kan goed zijn dat veel vrouwelijke artiesten hier niet tussen zitten. We hebben dus geen idee wat de algemene verhouding is tussen mannen en vrouwen in de muziekindustrie.

Maar goed, de analyse liet zien dat uit de vergelijking tussen radiospeeltijd, Spotify en YouTube weinig zinnigs te halen viel. Ik kon geen patroon vinden dat daadwerkelijk inzicht bood.

Als jij een gok wilt wagen, dan hoor ik het graag. Sowieso vind ik het erg leuk als je met de data aan de slag gaat. Stuur me even een mail, dan zorg ik dat je de data krijgt (40MB, csv-format).

Meer weten?

Illustraties: Seenaeme (voor De Correspondent) Illustraties: Seenaeme (voor De Correspondent) Zo weinig vrouwen draaiden Nederlandse radiozenders afgelopen jaar Ik berekende hoeveel vrouwelijke artiesten Nederlandse radiostations draaien. Dat blijken er heel weinig. Wat kunnen we hieraan doen? Lees het verhaal hier Het gebrek aan vrouwelijke headliners begint al op de basisschool Van radio tot Pinkpop, overal in de muziekwereld zijn vrouwen in de minderheid. Met hulp van Correspondentleden en experts vond ik daar drie belangrijke verklaringen voor. Lees de update hier terug

Facebook
Twitter
LinkedIn
Whatsapp
E-mail