keskiviikko 10. maaliskuuta 2021

Tekoälyn etiikka, Google Translate ja woke-signalointi

Naistenpäivän kunniaksi Googlen kääntäjästä nousi pienimuotoinen kohu. Median oli helppo tarttua aiheeseen, joka ainakin itselleni oli tuttu jo ennestään: kun suomen kielen pronomineja ei voi kääntää englantiin, Google valitsee todennäköisimmän. Niinpä Maikkarin uutinen syytti Googlea ummehtuneiden sukupuoliroolien toistamisesta, Journalistin päätoimittaja Maria Pettersson kommentoi Twitterissä "Kyllä, algoritmi voi olla seksisti, ja onkin".

Hmm... voiko algoritmi olla seksistinen? Vaikka tapaus juontaa juurensa kielitieteeseen, se koskettaa ajankohtaista ja herkkää aihetta: tekoälyn vinoutumia (bias) sekä sen tapaa vahvistaa usein piiloon jääviä kaavamaisia ja stereotyyppisiä ajatusmalleja.

Insinöörin näkökulma on selvä: kääntäjän algoritmi ei ymmärrä tekstistä mitään, se vain etsii netistä tilastollisesti sopivimman vaihtoehdon. Yksittäistä lausetta "hän on lääkäri" tai "hän on johtaja" ei voi kääntää englanniksi tietämättä, onko kyse miehestä vai naisesta. Suomi on harvoja kieliä, joissa sukupuolella ei ole väliä. Siten tilastollisesti yleisin muoto on paras valinta käännösvastineeksi.

Hän on johtaja. Hän on lääkäri.

Monissa kielissä maskuliinimuoto on oletusarvo, joka juontaa juurensa kielen alkuhämäristä asti, ja on paljon syvempi asia kuin pelkkä ammattien tai toimintojen sukupuolijako. Kun Google kääntää johtajan mieheksi (he) ja lääkärin naiseksi (she), se kuvastaa vallitsevia oloja. Ainakin Suomessa enemmistö johtajista on miehiä ja lääkäreistä naisia (vähän yleistäen). 

Mutta riittääkö tässä insinöörilogiikka? Miten Googlen pitäisi toimia, jotta se olisi moderni ja ottaisi huomioon aikojen muuttumisen? Kaikenkattava "he/she is a doctor" olisi kömpelö ja käyttäjä joutuisi korjaamaan sen kaikista teksteistä manuaalisesti. Kääntäjä toimii myös puheella, joten puhekielisenä lausuttu "he/she" kertoo enemmän meistä suomalaisista kuin englantia puhuvista. He ovat tottuneet he-pronominin ylivaltaan. He/she olisi suomalainen bias.

Kun yritämme saada algoritmista ulos halutun lopputuloksen, sovellamme siihen omaa länsimaista bias-ajattelua. Vain puhtaasti tilastollinen ja algoritminen käsittely on täysin bias-vapaata. Vähän kuin Bitcoin, joka on luotettava vain siksi, että se on pelkkää matematiikkaa. Rahapolitiikka tai pankit konnineen eivät pääse vaikuttamaan. 

Pohjimmiltaan vika on datassa. Internetissä on liikaa tekstiä, joissa naiset ja miehet ovat stereotyyppisissä asemissa. Toisaalta juuri se on tämän päivän todellisuus. Googlen kääntäjä on pelkkä työkalu, joka heijastaa todellisuutta, ja käyttäjän pitää itse ottaa vastuuta tuloksista. Ei vasaraakaan voi syyttää, jos sillä lyö sormeensa.

Pitäisikö Googlen ohjelmoijien "tiedostaa" (sana, joka on taas noussut esiin 70-luvulta) valtansa ja korjata lähtödatassa olevat vinoumat algoritmia muuttamalla? Pitäisikö algoritmin ohjata käyttäjiä "moderniin" ajatteluun vanhojen rakenteiden toistamisen sijaan? Ohjelmien eettisyyttä on pohdittu Googlella jo vuonna 2018 myös konekäännöksen osalta (päivitetty versio 2020).

Jos algoritmeja lähdetään peukaloimaan maailman parantamiseksi ja tiedostavuuden lisäämiseksi, koodareille syntyy näkymätöntä valtaa, jota on houkutus käyttää väärin. Emme nytkään voi tietää, antaako Googlen hakukone neutraaleja tuloksia, vai onko sitäkin viilattu korjaamaan netin "vääristymiä".

Tekoälyn etiikka on kuuma puheenaihe. Poliisin ja sairaaloiden AI-järjestelmissä on käytetty lähtödatana vanhaa historiaa, joka johtaa esimerkiksi mustaihoisten pidempiin tuomioihin ja heille tyypillisten sairauksien alidiagnosointiin. Perimmäinen ongelma on historiassa, siis datassa, vallitsevissa olosuhteissa. Sen korjaaminen tekoälyvaiheessa luo näköharhan ongelman poistumisesta.

Ennen kaikkea järjestelmien käyttäjiä pitää kouluttaa tekoälyn työkalumaisuudesta. Se ei voi tehdä päätöksiä, vaan niistä valta ja vastuu jäävät aina ihmiselle. Tekoälyn taakse piiloutuminen on pelkuruutta.

Sukupuolipronominin valintaa eettisenä kysymyksenä voi pohtia, mutta vielä tärkeämpiä ovat Twitter ja Facebook, jotka vaikuttavat suoraan ihmisten ajatteluun ja toimintaan. Ei ole samantekevää, millaisia eettisiä valintoja tekoälyalgoritmit tekevät nostaessaan postauksia esiin.

Mutta millaista on se etiikka, jota some-yhtiöiden pitäisi noudattaa? Tehtävä on käänteinen Google-esimerkkiin verrattuna, sillä päivityksiin nimenomaisesti halutaan biasta - halutaan vahvistaa myönteisiä asioita ja estää kielteisiä. Tämän toteuttaminen globaalissa some-palvelussa on liki mahdoton tehtävä, sillä arvot ovat hyvin paikallisia.

Jos länsimaiset woke-herätyksen kokeneet koodarit haluavat luoda eettisesti kestävän somepalvelun, he tulevat samalla toteuttaneeksi länsimaisen ihmisen (yleensä vielä valkoihoisen miehen) etiikkaa. Aasiassa, Venäjällä tai Afrikassa eettiset arvot ovat erilaisia ja meidän etiikkamme on heille vahvasti biasoituntta, jopa siirtomaavaltaa ja läntistä hapatusta pönkittäviä.

Palataan siihen dataan. Maailmaa pitää muuttaa teoilla, ei tekoälyllä.

Muutosta odotellessa voi tutustua vaikka Helsingin yliopiston Tekoälyn etiikka online-kurssiin

6 kommenttia:

Jussi kirjoitti...

Superälyn syntyessä Suppe pystyy itse korjaamaan itsensä.
http://suppelaiset.blogspot.com/2021/02/superaly-totta-vai-tarua.html

Jussi kirjoitti...

http://suppelaiset.blogspot.com/2021/02/digitaalinen-evoluutio.html

William Gallop kirjoitti...

Joskus 60-luvun lopulla ope mainitsi ehdotetun "hen"- muotoa femiiniksi "hän"-sanaksi.

henris42 kirjoitti...

Ruotsissahan tuota "hen" pronominia on yritetty tyrkyttää.

Pakosta tulee tästä mieleen se sukupuolineutraali HETU, sitä varmaan ajetaan samaa vauhtia kuin ennenkin? Korona on vaientanut kaikki uutiset koko asiasta. Jotenkin pitäisi saada sekin torpattua, siitä ei tule mitään muuta kun kustannuksia. (paitsi konsulteille)

Anonyymi kirjoitti...

They/Them is a Doctor, käännös: joku on lääkäri.

Tommi kirjoitti...

Toivon, että tämän tarkka käännös on mahdollista jonain päivänä.