Hide

Problem A
Struntprat

Languages en sv

/problems/struntprat/file/statement/sv/img-0001.jpg

Effekten av B-träds popularitet.

Katastrof! Det har påkommits att din ansedda vetenskapliga tidskrift har accepterat en artikel som bäst kan beskrivas som välformaterat struntprat. Det visar sig att den genererats av ett särskilt program. Även om du inte vet mycket om det, så är du säker på att det är ganska gammalt, med tanke på den dåliga kvaliteten på de artiklar det producerar.

För att avgöra omfattandet av skadan vill du skriva ett program som uppskattar hur många befintliga publikationer som har producerats av programmet. Det är självklart viktigt att inte råka felaktigt rapportera att en artikel skriven av en människa är skriven av programmet.

Du har redan gjort den jobbiga delen, att göra om alla artiklar klartext. Allt som återstår är att skriva programmet.

Indata

Indatan består av en enda rad med som mest $3 \cdot 10^5$ tecken, innehållet i en artikel. Se bilagorna för exempel.

Utdata

Skriv ut ”Fake” om du tror att artikeln är programgenererad, annars ”Real”.

Poängsättning

Din lösning kommer att testas på flera testfall som skiljer sig från de givna. De hemliga testen är garanterade att vara jämförbara med de givna exemplen. Den totala poängen beräknas med följande formel:
$\text{Poäng} = 100 \cdot \text{truePositive} \cdot \text{trueNegative}^{2.5}$.
där $\text{truePositive}$ är andelen programgenererade artiklar du identifierar korrekt,
och $\text{trueNegative}$ är andelen riktiga artiklar du identifierar korrekt.

I synnerhet, om du alltid svarar rätt får du 100 poäng. Exponenten innebär att det är mycket viktigt att inte felaktigt klassificera riktiga artiklar som programgenererade.

Vid slutet av tävlingen testas alla lösningar om på resterande 70% av siffrorna. Din poäng i slutet av tävlingen är alltså endast poängen på de resterande 70% av siffrorna, de 30% som du testats på hittills har ingen påverkan. Det är garanterat att de 30% som testas under tävlingen har valts uniformt slumpmässigt och är helt disjunkta från de 70% som du testas på i slutet. Därmed borde resultaten på de 30% som du testas på under tävlingen ses som en stark indikator på hur bra din lösning är. Samtidigt är det dåligt överanpassa (overfitta) din lösning till testdatan.

Attachments

baseline.py fake.zip real.zip

Problem AStruntprat

Indata

Utdata

Poängsättning

Problem A
Struntprat