tiistai 17. joulukuuta 2019

Mikä numero on yleisin netissä?

Mikähän numeroista (kirjaimin kirjoitettuna) mahtaa esiintyä netissä eniten: yksi, kaksi, kolme, neljä, viisi, kuusi, seitsemän, kahdeksan, yhdeksän vai kymmenen?

Tällainen kysymys heräsi eräänä kevätpäivänä mieleeni, enkä osannut sanoa siihen mitään. Looginen vastaus olisi yksi. Onneksi asia on helppo selvittää.

Eilen 16.12.2019 tilanne eri numeroiden suhteen oli tämä:

"Kolme" on yleisin numerosana.
Tulokset ovat kiinnostavia. Kolme on ylivoimaisesti yleisin, yksi tulee seuraavana ja kaksi kolmantena. Mistähän syystä juuri "kolme" on yleisin?

Kolmikon perässä tulevat numerot tasavahvoina numerot neljä ja viisi. Kuusi on selvästi harvinaisempi. Numerot seitsemän, kahdeksan, yhdeksän ja kymmenen erottuvat omana ryhmänään.

Viisikko näyttää siis erottuvan muista. Arpanopan kuudes luku on orpolapsi. Ero kuusi ja seitsemän -sanojen välillä on lähes nelinkertainen. Kuusi-sanan päällekkäiset merkitykset korostuvat varsinkin näin joulukuussa, joten suosion luulisi olevan viiden luokkaa.

Yksi mahdollinen selitys on taivutusmuodoissa. Perusmuotojen hakeminen ei välttämättä kerro koko totuutta numerosanojen yleisyydestä. Ehkä joitakin numeroita taivutetaan enemmän kuin toisia?

Olen seurannut numerosanojen yleisyyttä kerran kuukaudessa tekemälläni testillä. Tulokset näyttävät vaihtelevan suuresti ajan mukaan.

Kaksi (punainen) on aiempina kuukausina ollut yleisin.
Grafiikasta näkyy, että varsinkin syyskuussa kaksi oli ylivoimaisesti yleisin. Joulukuun tulos on poikkeuksellinen, eikä sitä ole helppo selittää. Kyse voi olla satunnaisesta vaihtelusta tai Googlen hakualgoritmista, mutta kun numeroilla on 100 miljoonaa osumaa, taustalta voi löytyä jotain muutakin. Siinäpä pohtimista.

Numerosanat yhdestä kymmeneen yhteensä antaa osviittaa Googlen hakuindeksin koosta ja web-sisällön määrästä. Syksyllä määrä on selvästi kasvanut, mutta joulukuun lukema on kesän tasolla.

Numerosanojen osumien yhteismäärä (100 miljoonaa).
Jälkiviisaana voi todeta, että seurantaan olisi pitänyt ottaa myös numero nolla. Sitä löytyy juuri nyt 25 270 000 000 kappaletta, eli numero on ylivoimaisesti yleisin. Tulos on ymmärrettävä, sillä nollalla on myös yleismerkitys ("olet täysin nolla", "nollatuntisopimus" jne).

Olen tehnyt saman vertailun myös englanninkielisistä numeroista, mutta siitä lisää toisessa kirjoituksessa.

Lisäys: Twitterissä tuli pari hyvää palautetta. Mitä pidempi numerosana, sitä todennäköisemmin se kirjoitetaan numerolla kirjainten sijaan, sanoi kielioppi mitä tahansa. Ja vaikka suomen numerosanat ovat ääkkösineen outoja, joillakin on päällekkäismerkityksiä. Eniten kaiketi numerolla kolme, joka on japanilaisen tyttöbändin nimi ("Callme").

Jättipään Olli Parviainen listasi Twitter-tunnistuksen perusteella numerosanojen "suomalaisuuden":
Yksi 95 %
kaksi 91 %
kolme 76 %
neljä 100 %
viisi 94 %
kuusi 68 %
seitsemän 98 %
kahdeksan 98 %
yhdeksän 98 %
kymmenen 99 %

4 kommenttia:

Jari kirjoitti...

Melkoista bigdataa...

Itse uskon, että todellinen tilasto on paljon enemmän eksponentaalinen. Nollasta tai yhdestä lähtien tilasto voisi olla kauniin käyrämäinen, vaikka 5 ja 10 olisivat yliedustettuina kymmenjärjestelmämme vuoksi.

Harmi, ettei algoritmi tunne sanojen merkityksiä. Sanojen yksi ja kaksi tulisi olla moninkertaisesti yleisempiä. Kaksi sanaan voidaan viitata sanoilla pari, kaksoset tai tupla-. Yksi sanaa merkitsevien sanojen miettiminen on jo aika turhaa, koska jokainen yksikössä oleva sana tulisi laskea mukaan. Numero kuudella on myös tunnettu homonyymi, joka lisää sanan suosiota.

Onko tällä pohdinnalla sitten järkeä? Ehkä hakukoneen toiminnan kannalta, ja miksi ei aivojen toiminnan kannalta, sitten kun yleistä tekoälyä kehitellään.

Nimetön kirjoitti...

Jari: "Itse uskon, että todellinen tilasto on paljon enemmän eksponentaalinen. Nollasta tai yhdestä lähtien tilasto voisi olla kauniin käyrämäinen, vaikka 5 ja 10 olisivat yliedustettuina kymmenjärjestelmämme vuoksi."

Vähän näin onkin, jos tarkastellaan itse numeroiden esiintymistä datassa: https://en.wikipedia.org/wiki/Benford%27s_law (tämä on yksi niistä Wikipedia-artikkeleista, jotka kannattaa ehdottomasti lukea englanniksi, suomalainen versio on todellakin tynkä).

Tekstin suhteen tilanne on ymmärrettävästi erilainen, kirjoitetuilla numeroilla viitataan yleensä melko pieniin lukuihin tai suurten lukujen tapauksissa usein pyöristettyihin lukuihin.

Nimetön kirjoitti...

Sinkkujen keskuudessa yleisin luku netissä lienee kuusysi?

Jari kirjoitti...

"Vähän näin onkin, jos tarkastellaan itse numeroiden esiintymistä datassa: https://en.wikipedia.org/wiki/Benford%27s_law"

Tuosta artikkelista käy myös ilmi, että kaksi- ja kolmenumeroiset luvut (10-99 ja 100-999) ovat paljon yleisempiä kuin yksinumeroiset luvut, kun taas nelinumeroiset luvut ovat harvinaisia. Näyttäisi siis siltä, että vastaus kaikkeen voi hyvinkin olla 42. ;)