torstai 30. huhtikuuta 2026

Helsingin Sanomien haku-toiminto kaipaa korjausta

Yksi syy maksaa Helsingin Sanomien tilauksesta on lehden arkisto. Aikakone tarjoaa mielenkiintoisia hetkiä vanhojen lehtien näköispainoksiin. Vuoden 1990 jälkeen ilmestyneitä juttuja voi etsiä hakutoiminnolla. Valitettavasti se ei ole koskaan toiminut kunnolla.

Haku uudistettiin vuosia sitten, jolloin sen tärkeä ominaisuus poistettiin: haku ei enää kerro osumien määrää. Arkistosta oli kiinnostavaa seurata käsitteiden yleistymistä, suosiota ja hiipumista. Nykyisin tulosten määrän laskenta pitää tehdä manuaalisesti, mikä on todella hankalaa. 

Olen seurannut tekoäly-sanan yleisyyttä ja laskenut esiintymien määrän kuukausittain. Tammikuusta 2020 tulee kuitenkin tyhjä tulos:

Tammikuussa 2020 ei yhtään tekoäly-aiheista juttua?

Voisiko olla, ettei aihetta tosiaan käsitelty kertaakaan? Tuskinpa, sillä helmikuun haku antaa ihan erilaisen tuloksen (2020 oli karkausvuosi, mutta rajoitin haun 28.2. jotta ainakaan se ei sotkisi tuloksia):

Helmikuussa 2020 juttuja oli useita.

Tässä olisi suuri apu, jos näkisi tulosten määrän, mutta ei - sivua pitää vierittää manuaalisesti ja laskea käsin. 

Tarkistetaan vielä ulottamalla haku tammi-helmikuuhun:

Tammi-helmikuu yhteensä: nolla.

Tämä osoittaa, että haku toimii yksinkertaisesti väärin. Mutta ehkä tammikuun lehteä ei ole indeksoitu lainkaan? Kokeillaan sanaa norsu:

Tammikuussa 2020 kuusi norsu-uutista.

Sivua vierittämällä selviää, että norsu esiintyi tammikuussa 2020 kuusi kertaa. Sanassa tekoäly on jotain sellaista, mikä saa haun sekaisin. Tuloksissa on muitakin epäloogisuuksia, mutta tämä oli helpoin todistaa yksinkertaisella esimerkillä.

Manuaalisesti laskemalla nähdään, että Hesari uutisoi tekoälystä tasaisesti jo ennen ChatGPT-julkistusta, mutta se aiheutti tason nousun. Viime aikoina tekoälyn vaikutukset ovat levinneet niin laajalle, että määrä on noussut taas uudelle tasolle.

Vaivalloisen käsin laskennan tuloksena saatu graafi.

Haku ei ole mennyt rikki äskettäin, se on aina toiminut huonosti. Tämä on yllättävää sillä mediassa hehkutetaan, miten vibe-koodaus tekee meistä kaikista ohjelmoijia ja miten kaikki softaprojektit muuttuvat helpoksi kuin lasten leikki.

Itse asiassa Clauden Desktop Agent pystyy automatisoimaan hakua aika pitkälle, mutta jostain syystä sen antamat lukemat poikkeavat kahdella verrattuna siihen, mitä sain käsin laskien. Haun selville virheille agenttikaan ei voi mitään.

Uudistan jälleen toiveeni, että Hesari korjaisi hakutoimintonsa - vaikka sitten tekoälyä käyttäen.

Ei kommentteja: