Altius Europe voorspelt winnaar Eurovisie 2020

Altius Europe voorspelt winnaar Eurovisie 2020

In 2020 zal het Eurovisie songfestival in Nederland plaatsvinden. De spanning om dit mega-evenement begint al op te lopen en het Altius-team voedt de speculatie met een machine learning-model waarmee wij de winnaar van de Eurovisie 2020 voorspellen.

Een overwinning voor Nederland in 2019

Na de overwinning van Nederland in 2019, organiseert Nederland in mei 2020 de 64e jaarlijkse liedjeswedstrijd. ‘Open up’ is gekozen als het 2020-thema en de 41 deelnemende landen zijn aangekondigd. De komende weken zullen de deelnemers van de verschillende landen bekend worden gemaakt, maar de grote vraag is natuurlijk wie zal de wedstrijd dit jaar winnen?

Het is een vraag die altijd veel aandacht trekt. Bookmakers voorspellen kansen; forums en officiële Eurovisie-fanclubs wagen zich aan deze vraag en in de sociale media wordt er volop gespeculeerd. Vorig jaar kregen de bookmakers gelijk en voorspelden Nederland als overwinnaar. Ze voorspelden echter ook Australië als de tweede favoriet, op de voet gevolgd door Zweden.  Dit liep anders en Italië nam de tweede plaats in en Rusland werd derde. In de aanloop naar de wedstrijd werd in 2019 Italië door Spotify voorspeld als de Eurovisie-winnaar. Zij baseerden hun voorspelling destijds op de populariteit van elk nummer op hun streamingdienst. De OGAE, de grootste poll van het Eurovisie-fanclubnetwerk, voorspelde Italië zelfs als de winnaar van 2019.

Wat zijn de kansen?

Eén ding is zeker, het voorspellen van de Eurovisie-winnaar is verre van eenvoudig. Maar is het een exacte wetenschap? Strenge richtlijnen voor liedjes en uitvoeringen geven alle deelnemers dezelfde uitgangspositie. De maximale liedduur is drie minuten; de artiest moet ouder zijn dan 16 op de dag van de finale; ze moeten live zingen met alleen een instrumentale backing-track; en er mogen niet meer dan zes artiesten op het podium staan ​​- en absoluut geen dieren!

Welke andere functies zullen de sleutel tot het succes van de 2020-winnaar zijn? Het data science team van Altius is vastbesloten om de resultaten van de finale te voorspellen.

Waar te beginnen?

Het is nog vroeg in de 2020-wedstrijd, maar omdat het festival al sinds 1956 word gehouden , zijn er veel historische gegevens om te analyseren (meer dan 1500 nummers!). We zijn begonnen met datasets van Wikipedia en van ‘datagraver’ op de website data.world. Vanwege de complexiteit en de hoeveelheid beschikbare gegevens hebben we besloten het probleem als een reeks analyses te benaderen:

  • In de eerste analyse die hieronder wordt beschreven, visualiseerden we de uitgebrachte stemmen en bouwden we een basismodel voor het voorspellen van een winnaar voor de wedstrijd van 2019, alleen gebaseerd op gegeven en ontvangen historische stemmen.
  • In de tweede en verdere analyse die we zullen uitvoeren zullen we het basismodel verbeteren door nieuwe databronnen toe te voegen, zoals songteksten en songfuncties, die ons hopelijk helpen de 2020-winnaar te voorspellen!

Van ABBA tot Conchita Wurst

We zijn begonnen met het visualiseren van historische gegevens door twee interactieve Power BI-rapporten te maken. Het eerste rapport bevat een kaart die kan worden gefilterd om het aantal keren weer te geven dat een land de competitie heeft gewonnen (Win Count); de gemiddelde plaats waar ze in de loop van de tijd zijn gekomen (Average Rank) en hun percentage ontvangen punten ten opzichte van het maximum aantal te behalen punten (Points Ratio). Klik op elke kop bovenaan en klik vervolgens op ‘spelen’ om door de jaren te bladeren!

De historische gegevens worden in de loop van de tijd geaggregeerd in het rapport, zodat landen die scores verzamelen hun kleuren veranderen. Nadat je de cyclus hebt doorgespeeld, probeer je een bepaald jaar te selecteren om de stand van zaken te zien. Neem bijvoorbeeld 1987 – het Verenigd Koninkrijk en Ierland hebben tot nu toe de meeste overwinningen behaald. Hoe de tijden zijn veranderd voor het Verengigd Koninkrijk! En voor de rest van Europa? Tot het einde van de jaren tachtig domineerde West-Europa de wedstrijd, maar naarmate het aantal deelnemers groeide, zien wij dat de winnaar steeds vaker uit Oost-Europa kwam.

Het tweede rapport bevat een staafdiagram dat de prestaties van elke winnaar in de loop van de tijd bijhoudt. Klik op “play” om het staafdiagram elk jaar te laten groeien naarmate er nieuwe winnaars verschijnen, of selecteer een land op de kaart om de plaats in het algemeen te bekijken.

Als we naar de interacties tussen landen kijken, hebben we enkele interessante observaties ontde. Er zijn clusters van landen die altijd punten met elkaar uitwisselen (de Nordics en de Baltics, worden groen weergegeven op het netwerk rechtsboven hieronder). Het lijkt ook een klein voordeel om in het Engels te zingen en het land dat de wedstrijd organiseert is in het voordeel.

Landen met sterke puntenlinks (hoge puntenverhouding) zijn geclusterd

 

 

Nog iets interessants: Rusland ontvangt veel punten uit Letland, maar beantwoord deze gunst niet door punten terug te geven.

Gemiddelde puntverhouding gegeven aan Rusland door Letland (links) en door Rusland ten opzichte van Letland (rechts)

 

Niet alle punten zijn gelijk in waarde

Sinds 1956 is het puntensysteem en het aantal deelnemende landen (onder andere criteria) in de loop van de tijd veranderd. Om door de jaren heen eerlijk te kunnen vergelijken, hebben we een metriek genaamd ‘puntenverhouding’ (hierboven weergegeven voor Rusland en Letland) gemaakt. Dit komt overeen met de verhouding van het aantal punten dat een land in de finale ontvangt ten opzichte van het maximumaantal te behalen punten. In 2019 deden 41 landen mee en was het aantal te behalen punten 960 (40 landen x 12 jurypunten en 40 landen x 12 openbare punten). Een land dat in totaal 100 punten ontving in 2019 zou een verhouding van 0,1041 punten hebben (100/960). We hebben aanvankelijk de stemmen gegeven door de jury en het publiek afzonderlijk gemodelleerd vanwege het feit dat ze behoorlijk verschillen. Maar publiek stemmen werd pas in 2015 geïntroduceerd, waardoor we geen zinvolle patronen vinden.

Verschillende modellen toegepast

Om ons model te bouwen, hebben we de historische dataset omgezet in een functieset. Gecreëerde functies zijn: Welke landen doen mee, waar halen ze hun punten vandaan, zijn ze het gastland, is het nummer in het Engels? Vervolgens hebben we verschillende modellen toegepast: Random Forest, LightGBM, Extreme Gradient Boosting (XGB) en een Neural Network.

Het XGB-model is tot nu toe het best in staat gebleken om de dynamiek van de officiële jurypunten vast te leggen. Australië leek bijvoorbeeld de meeste punten van de jury’s te ontvangen, gevolgd door Zweden en Oostenrijk. Op dit moment zijn de voorspellingen van ons model echter verre van nauwkeurig, omdat onze voorspelling voor 2019 slechts vier landen als uitkomst heeft die daadwerkelijk in 2019 de top 10 zijn geëindigd

Het is slechts een begin…

Met alleen historische puntgegevens kunnen we de winnaar voor 2020 niet voorspellen. We zullen echter nieuwe gegevensbronnen en functies opnemen, zoals songteksten, tempo, volume en energieniveau. Dit geeft ons nieuwe inzichten en brengen ons naar het antwoord op de vraag: Wie wint in 2020 het Eurovisie songfestival?

Binnenkort verschijnt deel II van onze zoektocht!