sunnuntai 26. marraskuuta 2023

Kielimallien kissanpäivät ohi? Mediat suojaavat sisältöjään koulutuskäytöltä

Kielimallit saivat lentävän lähdön, koska netistä löytyi valtavasti korkealaatuista sisältöä niiden kouluttamiseen. Mediayhtiöt ovat sallineet hakukoneiden vierailut, koska ne tuovat kävijöitä sivuille, mutta eivät huomanneet sisältöjensä olevan arvokkaita myös tekoälyn näkökulmasta.

Googlen, Facebookin ja OpenAI:n robotit louhivat tekstejä ja kouluttavat niillä tekoälyä, joka sitten vastailee käyttäjille ilmaiseksi tai pientä maksua vastaan. Jatkossa tekoälystä tulee suurta bisnestä, mutta koulutusmateriaalin tuottajat eivätkä hyödy siitä mitään. Pikemminkin päinvastoin.

Mediayhtiöt ovat havahtuneet asiaan ja estäneet koulutusrobottien vierailut. Tämä tapahtuu vanhalla tekniikalla (robots.txt-tiedosto), jolla on aiemmin rajoitettu hakukoneiden indeksointia. Esimerkiksi Helsingin Sanomien sisällön käyttöä rajoittavat nykyisin seuraavat rivit:

User-Agent: *
Disallow: /promo/
Disallow: /sivulaskuri
Disallow: /api/
Disallow: /rest/
Allow: /api/paid-article/
User-agent: ChatGPT-user
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Sitemap: https://www.hs.fi/sitemap/html/hs/sitemapindex.xml
Sitemap: https://www.hs.fi/rss/custom/news-sitemap.xml

Google-Extended viittaa Googlen Bardiin; Googlen perinteistä hakukonetta ei ole estetty. ChatGPT-user estää plugin-laajennukset ja GPTBot tavallisen ChatGPT:n. Pisin löytämäni rimpsu oli Keskisuomalainen-lehdellä, joka on estänyt myös koulutusdataa palveluna myyvän Omgilibotin.

Pikaisen kokeilun perusteella sivustonsa käytön ovat estäneet Iltalehti, Helsingin Sanomat, Turun Sanomat, Keskisuomalainen, Aamulehti, Kauppalehti sekä Vauva.fi. Estoja ei ollut MTV Uutisilla, Ylellä eikä Suomi24-palvelussa. Viimeksi mainitussa on jopa teksti "All robots are welcome".

Eston vaikutus on helppo huomata, sillä ChatGPT ilmoittaa asiasta:

"En pysty avaamaan kyseistä uutisartikkelia, koska sen verkkosivusto estää..."

Yleensä eston huomaa vain epäsuorasti, kun ChatGPT ei osaa toteuttaa tehtävää, jonka pitäisi olla helppo, tai se antaa odotettua huonomman vastauksen.

Teknologiayhtiöt pääsivät jälleen yllättämään vanhat mediatalot. Ne hyödynsivät ilmaiseksi valtavan määrän korkeatasoista aineistoa. Jatkossa mediataloilla on oikeus vaatia maksua työnsä kaupallisesta hyödyntämisestä. Käsittääkseni maksuvelvollisuutta pohditaan lisättäväksi myös EU:n tekoälysääntelyyn. Aiemmin kielimallien kouluttajat ovat yllättäneet myös suomalaiset kirjakustantajat.

Jos sopimuksia ei synny, kielimallien kehittyminen lakkaa. Yhä suurempi osa nettiin päätyvästä materiaalista alkaa olla niiden itsensä tuottamaa, jolloin tekoäly kouluttaa itse itseään vanhalla tiedolla ja vanhoilla sanoilla. Se johtaa yleiseen laadun heikkenemiseen ja voi vahvistaa aineistossa olevia vinoumia.

Tekoälykehityksen ja käytön on oltava reilua ja eettistä koko elinkaaren ajan, koulutuksesta alkaen.

Lisäys 13.12.2023: Jatkossa mediat voivat saada korvausta aineistojensa koulutuskäytöstä.

Lisäys 28.12.2023: New York Times vaatii korvauksia aineistonsa opetuskäytöstä ja väittää ChatGPT:n ohittavan sen maksumuurin vastatessaan ajankohtaisiin kysymyksiin. https://www.hs.fi/talous/art-2000010083633.html  Jutun mukaan BBC, Reuters, CNN ja New York Times ovat estäneet sivujensa käytön uusiin tekoälyn koulutustarkoituksiin.

Lisäys 21.4.2024: Myös Yle on estänyt robottien vierailut. Rahalla varmaan ratkeaisi tämäkin.

Yle estää tekoälyn kouluttautumisen omalla sisällöllään.

8 kommenttia:

Anonyymi kirjoitti...

Kiva artikkeli mutta et pohtinut asiaa eräältä erittäin tärkeästä näkökulmasta. Miten käy suomalaisen kulttuurin jos tekoälyt eivät hallitse suomea. Suomalaiset siitä kärsivät ei kukaan muu. Toivotaan, että suomalaiset tulevat järkiinsä ja ymmärtävät että tekoälyn etu on erityisesti tällaiselle pienelle kielialueelle tärkeää. Isoissa kielissä aina on materiaalia.

Markus kirjoitti...

Googlen kannattaisi keskittyä siihen omaan hakukoneeseensa viimeinkin. On mennyt muutaman viime vuoden ajan harvinaisen rujosti pilalle. Mainoksia ja sponsporoituja asioita löytyy sivujen täydeltä, alla teksti "osa sivuista on poisettu jonkin MDCA jutun takia" tai EU henkilötietosuojan takia tai mistä syystä tahansa. Niin tai näin, Google ei enää löydä mitään!

Mistä tiedän, että asiat on kuitenkin hakukoneen löydettävissä? Jossain vaiheessa havahduin, että entä jos yritän jollain toisella hakukoneella. Bing on samaa roskaa kuin googlekin. Bing on kyllä aina ollut roskaa. Mutta DuckDuckGo yllättäen toimii kuin se vanha google. Sillä oikeasti löytyy! Kun aikani löin päätä katajaiseen ja huomasin, että googlella ei oikeasti löydy enää nykyisin kovin hyvin asioita, aloin jo suoraan käyttämään ennemmin duckduckgo:ta.

Netflixit ja Youtube on täynnä jotain ihme short-videoita ja pikkusia klippipelejä. Tulee mieleen ihan 2000-luvun alku ja niin sanottu portaalisota. Kaikki firmat yrittää olla vähän kaikkea mutta ei ole sitten yhtään mitään.

Ei nämä itseään pelasta jollain tekoäly-hömpötyksellä. Ei nämä osaa edes alkeellisinta asiaa, jota firman pitäisi osata - No se asia minkä takia koko firma yleensä on olemassa. Keskittyisivät siihen tuotteeseensa eikä kaikkiin maailman asioihin.

Meinaan. Niitä portaaleja ei enää ole olemassa. Ne katosi sillä, kun Google kadotti ne olemasta vain olemalla pelkkä tyhjä sivu ja tarjoamalla käyttäjälle sen ainoan asian, jota käyttäjä tahtoi (käytännöllisessti katsoen).

Markus kirjoitti...

Anonyymin ensimmäisen pointti on ihan hyvä, mutta sen kymmenen vuotta myöhässä.

Itse havahduin jo aikoinaan siihen, että aina mukana ollut "valikkokieli", Suomi alkoi katoamaan teknisistä laitteista. Se oli jo ensimmäinen indikaattori sihen, että Suomi tulee olemaan markkinoissa etäinen satellitti, johon ei panosteta.

Tuon jälkeen tilanne on vain huonontunut. Jopa viimeisimpiä pioneereja, Apple ja Microsoft on hylännyt Suomen. Asioita ei joko käännetä, tai niitä ei tuoda ollenkaan Suomen markkinoille. Google ja Amazonit yms ei ole oikein koskaan ollut Suomen markkinoilla kunnolla. Esimerkiksi pixel-laitteet tai "avustajat". Microsoftin cortanaa ei koskaan tullut suomeksi. Applen Siri sentään on Suomeksi, mutta on tuoteryhmiä, joita ei Appleltakaan enää Suomeen tarvitse odotella. Edes sanakirjaa tai tekstinkorjausta eivät koskaan ole saaneet aikaiseksi, vaikka meillä olisi jopa tarjota Nokian aikainen T9.

Sittemmin olen huomannut undergroud-puolella, että sieläkään ei tahdo enää olla asioita Suomeksi. Virot, ja muut entiset itäblokin valtiotkin löytyy listalta, mutta ei Suomea. Norja ja Ruotsi on aina löytynyt.

Tämä tosin ei ole vain ja ainoastaan Applen sun muiden isojen firmojen vikaa. Viro siis löytyy listalta vaikka on lilliputti ja ihan "Suomen-kaltainen" valtio. Miksi Viro löytyy, mutta Suomi ei löydy? Siihen on yksinkertainen syy. Suomi ei ole enää tietotekniikan suurvalta eikä ilmeisesti haluakaan olla mukana koko touhussa. Suomessa se "pöhinä" on kuollut pois ja Suomalaiset ihan itse on kadottaneet itsensä maailmankartalta. Missä on tekevät käsiparit? Virosta niitä löytyy, aktiiveja vaikka kuinka, jotka haluaa pitää maansa kartalla ja tekevät asioita sen eteen. Suomesta nämä on muuttanut pois tai aika menee kaikkeen muuhun vatvomiseen Byrokratia-hirviön ruokkimiseen.

Tämä tulee vaikuttamaan myös Petterin ammattiin................ (vaikuttaa jo).

Petteri Järvinen kirjoitti...

En ihan ymmärrä kritiikkiä Googlea kohtaan, minusta se lukee suorastaan ajatukset ja löytää etsittävän, vaikka hakutermi olisi vähän sinne päin kirjoitettu. Kaupallisia tuotteita haettaessa tilanne on varmaan toinen.

Voitko antaa esimerkkejä hauista, jotka toimivat huonosti Google/Bingillä mutta hyvin DuckDuckGo:lla?

---

Jos oikeinkirjoituksesta puhutaan, "sieläkään ei tahdo enää olla asioita Suomeksi" pitäisi olla "sielläkään ei tahdo enää olla asioita suomeksi".

Joni Kärki kirjoitti...

Englanti on aina dominoinut Internetiä ja tietotekniikan maailmaa ylipäätään. Jos tekoäly lisää muiden kielten jalansijaa netissä, on se vain positiivista.

Samaan aikaan on ymmärrettävää, että sisällöntuottajat ja mediatalot eivät halua antaa sisältöjään käytettäväksi korvauksetta. Kielimallithan eivät luo mitään uutta vaan kopioivat vanhaa. Ei sisältöjen luvaton käyttö voi muuttua luvalliseksi vain siksi, että se automatisoidaan tekoälyn avulla.

Tosiaan jonkinlaista sopimista tarvittaisiin, mutta itse olen kyllä skeptinen.

Anonyymi kirjoitti...

Suomen kielisen sisällöntuottajilla on liialliset kuvitelmat tietonsa arvosta. Se liiketoiminta minkä jonkun tekoälyn suomen osaamisen arvo on varsin alhainen. Ei se suomenkieliseen liikenteeseen myydyn mainonnan arvo kovinkaan suuri olla. Pieni kieli - pieni taloudellinen arvo. Ei kukaan maksa sisällöstä enempää kuin sen liiketoiminnan arvo minkä sillä voi luoda.

Anonyymi kirjoitti...

No mutta tämähän on vaan hyvä että tekoäly ei pääse hurahtamaan Helsingin Sanomien agendaan.

Anonyymi kirjoitti...

Google julkaisi juuri Gemini tekoälyn, videot ovat aika vakuuttavia.

ps. Firefoxilla upotetut videot eivät minulla toimineet, Chrome / Chromium -näyttävät OK.