Problem B
Haydn Seek
Languages
en
sv
Många har någon gång använt tjänsten Shazam, en app som
givet en musiksnutt ger dig låtnamn, artist och så vidare. Det
inte lika många vet är att Shazam som alla andra vettiga
företag använder sig av AI (Asmånga Islänningar) för det här
genom att outsource:a allting till isländska musikexperter.
Hordigordur har nyligen blivit anställd på Shazam och i sitt CV
skrev han att han har dunderkoll på klassiskt piano och kan
genom att endast lyssna på en kort snutt av ett stycke berätta
vad det är för kompositör som har skrivit stycket. Tyvärr är
detta en lögn, vilket har satt Hordigordur i en knepig sits.
Men han får en idé om att skriva en modell som gör detta åt
honom. Hordigordur saknar tyvärr också den kompetensen som
krävs för det och tvingas göra det otänkbara: han outsource:ar
det arbetet till dig. Han ber dig alltså att skapa en modell
som lyssnar på en musiksnutt och ger tillbaka vilken kompositör
som skrev det.
Indata
Ladda ner zip-filen med träningsdata och testdata. Denna
hittas längst ved vid "attachments". Datan kommer att innehålla
ett intervall av 100 noter i ett stycke musik. Varje not
beskrivs av sin starttid (i kolumnen "start"), sin längd (i
kolumnen "duration"), sin ton (i kolumnen "pitch") och sin
styrka (i kolumnen "velocity").
Träningsdatan innehåller även vilken kompositör som skrev varje
stycke.
Utdata
För varje testfall ska ditt program producera en rad med en
sträng: kompositörens namn.
Notera att vissa namn kan stavas på ett sätt som man inte hade
förväntat sig i svenskan, se därför till att kopiera namnen
direkt från träningsdatan.
Poängsättning
Om $x$ är hur många
procent av styckena du har gissat rätt kompositör för. Är din
slutgiltiga score:
Vid slutet av tävlingen testas alla lösningar om på resterande 70% av siffrorna. Din poäng i slutet av tävlingen är alltså endast poängen på de resterande 70% av siffrorna, de 30% som du testats på hittills har ingen påverkan. Det är garanterat att de 30% som testas under tävlingen har valts uniformt slumpmässigt och är helt disjunkta från de 70% som du testas på i slutet. Därmed borde resultaten på de 30% som du testas på under tävlingen ses som en stark indikator på hur bra din lösning är. Samtidigt är det dåligt överanpassa (overfitta) din lösning till testdatan.