Problem A
Struntprat
Languages
en
sv

Katastrof! Det har påkommits att din ansedda vetenskapliga tidskrift har accepterat en artikel som bäst kan beskrivas som välformaterat struntprat. Det visar sig att den genererats av ett särskilt program. Även om du inte vet mycket om det, så är du säker på att det är ganska gammalt, med tanke på den dåliga kvaliteten på de artiklar det producerar.
För att avgöra omfattandet av skadan vill du skriva ett program som uppskattar hur många befintliga publikationer som har producerats av programmet. Det är självklart viktigt att inte råka felaktigt rapportera att en artikel skriven av en människa är skriven av programmet.
Du har redan gjort den jobbiga delen, att göra om alla artiklar klartext. Allt som återstår är att skriva programmet.
Indata
Indatan består av en enda rad med som mest $3 \cdot 10^5$ tecken, innehållet i en artikel. Se bilagorna för exempel.
Utdata
Skriv ut ”Fake” om du tror att artikeln är programgenererad, annars ”Real”.
Poängsättning
Din lösning kommer att testas på flera testfall som skiljer sig från de givna. De hemliga testen
är garanterade att vara jämförbara med de givna exemplen. Den
totala poängen beräknas med följande formel:
$\text{Poäng} = 100 \cdot
\text{truePositive} \cdot
\text{trueNegative}^{2.5}$.
där $\text{truePositive}$
är andelen programgenererade artiklar du identifierar
korrekt,
och $\text{trueNegative}$
är andelen riktiga artiklar du identifierar korrekt.
I synnerhet, om du alltid svarar rätt får du 100 poäng. Exponenten innebär att det är mycket viktigt att inte felaktigt klassificera riktiga artiklar som programgenererade.
Vid slutet av tävlingen testas alla lösningar om på resterande 70% av siffrorna. Din poäng i slutet av tävlingen är alltså endast poängen på de resterande 70% av siffrorna, de 30% som du testats på hittills har ingen påverkan. Det är garanterat att de 30% som testas under tävlingen har valts uniformt slumpmässigt och är helt disjunkta från de 70% som du testas på i slutet. Därmed borde resultaten på de 30% som du testas på under tävlingen ses som en stark indikator på hur bra din lösning är. Samtidigt är det dåligt överanpassa (overfitta) din lösning till testdatan.