perjantai 2. maaliskuuta 2018

Helsingin Sanomat pilasi arkistohakunsa

Hesarin arkistohaku (jutut vuodesta 1990 lähtien) on ollut itselleni keskeinen syy maksaa palvelusta. Arkistosta pystyi seuraamaan esimerkiksi digitalisaatio-sanan yleistymistä. Käyttöliittymä oli askeettinen, mutta se toimi juuri niin kuin piti.

Marraskuun 2016 tienoilla Hesari pilasi kaiken. Haku korvattiin uudella, joka näyttää modernilta ja helpolta, mutta toimii miten sattuu eikä tuloksiin ole luottamista.

Aiempi haku näytti osumien tarkan määrän. Nykyinen huonompi versio näyttää määrän vain 50 asti, joten en pysty päivittämään yllä linkittämääni blogikirjoitusta digitalisaatio-sanan määristä vuoden 2016 lopussa tai vuonna 2017. Haku näyttää kyllä linkit osumiin, mutta ei niiden kappalemäärää -- ymmärtäisin, jos asia olisi päinvastoin.

Esimerkkejä varten valitsin hakusanan, jonka tulokset jäävät riittävän pieniksi. Haetaan sanaa hex vuoden 2010 aikana ilmestyneistä jutuista.

Tuloksena 8 osumaa.
Kun lajitteluperusteeksi valitaan Osuvin ensin, tuloksia on enää kolme:

Enää kolme osumaa.
Mielestäni lajittelujärjestyksen ei pitäisi vaikuttaa osumien määrään, vain niiden järjestykseen (jostain syytä Aravirta-juttu näkyy kahteen kertaan, mutta ei lasketa sitä haun viaksi -- sillä on ihan tarpeeksi omiakin ongelmia).

Mikä mahtaa olla urheilutuloksissa ja Hämähäkkimiehen tv-listauksessa esiintyvä hex-sana?
hex == Hexan
Ahaa, haku etsii siis vain sanan alun perusteella, joten hex-sana tuottaa osuman myös Hexan-sanasta. TV-ohjelmalistauksessa osuma tulee kohdasta "8.00 Uusi elämä maalla Hexham - perinnerakentamista".

Laajennetaanpa hakuaikaa 2010-2011. Voisi kuvitella, että loppuajan kalenterinäytöstä voi hakea hiirellä uuden vuoden:

Laajennetaan hakuaikaa vuodella, mutta miten?
Listasta valitulla vuodella ei kuitenkaan ole mitään vaikutusta, sillä sen arvo ei näytä päivittyvän hakukenttiin. Vuoden ja kuukauden lisäksi pitää klikata myös päivää, jotta arvo vaihtuisi.

Jos haluaisi hakea 2011-2012 ja erehtyy muuttamaan ensiksi aloituspäivää (jolloin lopetuspäivä jää 31.12.2010 eli aikaisemmaksi), haku palaa takaisin alkuun ja tyhjentää näytön. Peräkkäisiä aikoja haettaessa on siis muistettava muuttaa ensin lopetuspäivää ja vasta sen jälkeen aloituspäivää.

Muutetaan pelkkää lopetuspäivää vuodella eteenpäin, jolloin tuloksia on 44 (Osuvin ensin -järjestyksessä vain 32).
Vuosina 2010-2011 yhteensä 44 osumaa.
Ensimmäinen osuma tulee lauseesta "...hintatasoa kuvaava HEX-indeksi on laskenut...", mikä on loogista. Mutta miksi Osuvin ensin -vaihtoehto kääntää järjestyksen niin, että Aravirran uutinen on ensimmäisenä?

Osuvin ensin suosii Aravirtaa..
Aravirran uutisessa esiintyy kolme kertaa sana Hexi, joten hakukone painottaa ilmeisesti esiintymiskertojen määrää eikä sitä, että hakusana olisi tarkasti se, mitä on haettu. Tällainen tuntuu nurinkuriselta.

Kolme Hexiä nostaa tämän tuloksen osuvimmaksi.
Haussa ei ole käyttöohjetta, mutta kokeillaanpa lainausmerkkejä. Ne pakottavat (fraasihaun lisäksi) Googlen etsimään täsmälleen annettua sanaa -- ja niin näyttää olevan Hesarinkin haussa:

Lainausmerkit pakottavat haun sanatarkaksi.
Erikoista kyllä, lainausmerkeillä ei ole vaikutusta Osuvin ensin -vaihtoehtoon. Se tarjoaa edelleen 32 osumaa.
Osuvin ensin -järjestys ei piittaa lainausmerkeistä.
Aiemmin hakua pystyi rajaamaan valitsemalla osiot, joihin haku kohdistui yksi kerrallaan. Nykyisessä haussa voi valita joko kaikki tai vain yhden. On siis mahdotonta jättää radio- ja tv-ohjelmia sekä urheilutuloksia pois tuloksista, vaikka ne tuottavat aina turhia osumia.

Olen odottanut puolitoista vuotta haun korjaamista, mutta mitään ei ole tapahtunut. Tällaisena haku palvelee maksavia asiakkaita huonommin kuin edeltäjänsä. Jos tätä ei voi korjata, saisiko edes sen vanhan haun rinnalle takaisin?

6 kommenttia:

Anonyymi kirjoitti...

Hesarilla on ilmeisesti kaksi eri hakukonetta. Toinen tuo ja toinen ns. aikakone (www.hs.fi/aikakone), jossa voi hakea hesarin näköislehdistä vuosilta 1904-1997. Aikakoneen haku on vielä huonompi. Lainausmerkeillä ei mitään merkitystä. Kaikki "etunimi sukunimi" -haut antaa tuloksiin myös kaikki "etunimi" tai "sukunimi" tulokset. Hakukriteereissä on vain hakusana, ei mitään muuta.

Anonyymi kirjoitti...

Näiden hakukoneiden alkeellisuus on sitäkin kummallisempaa kun Hesarilla on kuitenkin olemassa erittäin hyvä hakukone, jota kuka tahansa pääsee ilmaiseksi käyttämään Päivälehden arkistossa Helsingissä. Tämä hakukone osaa fraasit ja läheisyyshaun sekä tietysti aikarajaukset. Lisäksi se kattaa paitsi Helsingin Sanomat vuodesta 1904 alkaen myös esim. Ilta-Sanomat vuodesta 1932 alkaen sekä muita Sanomien lehtiä. Miksei sitä anneta asiakkaiden käyttöön netissä.

Matti Rissanen kirjoitti...

Eipä ole eka kerta, kun HS:n digitaiturit pilaavat jotain, HS:n näköislehti selaimella oli muutama vuosi sitten kelvollinen, nyt sitä ei voi selailla suurennettuna hiiren rullalla tai kosketuslevyn tuplasormella. HS:n digikeisarin mukaan on harkittu juttu!

Olen onnitellut Otavan lehtiä TM ja SK. että ovat onnistuneet tekemään vieläkin huonomman näköislehden.

Lehtiluukku.comilla on hyvä näköislehtitoteutus.

BizDev kirjoitti...

Kohta kaksi vuotta on mennyt eikä HS:n Aikakoneen haku ole parantunut lainkaan.

Kurt Linderoos kirjoitti...

Saisipa edes tuon lainausmerkissä olevien sanojen haun!

Anonyymi kirjoitti...

Hesarilla on Kansalliskirjaston kanssa meneillään projekti vanhojen Hesarien uudelleen digitoimiseksi mikrofilmeiltä: https://www.kansalliskirjasto.fi/fi/projektit/helsingin-sanomien-ja-ilta-sanomien-digitointi
Pitäisi tulla valmiiksi kesän 2024 lopussa.
Hesarin Aikakoneessa digitointijälki on ollut heikompaa kuin Kansalliskirjaston Verkkoarkistossa. Jännä juttu on että Kansalliskirjasto on digitoinut Maaseudun Tulevaisuuden kaikki vanhat numerot Maaseudun Tulevaisuuden sponsoroimana mutta lehtiä ei vieläkään pääse tekijänoikeusongelmien takia lukemaan edes lehden nettisivuilta.