maanantai 24. helmikuuta 2020

Varoitus: Google Translate voi kääntää päin honkia

Googlen Translate on korvaamaton apuväline etsittäessä tietoa maailmalta. Itse olen seurannut sen avulla esimerkiksi Bulgarian paikallisen talouslehden Onecoin-kirjoituksia. Lehdellä ei ole englanninkielistä sivustoa, joten ilman kääntäjää tieto olisi jäänyt saamatta. Moni käyttää Translatea myös kielenopiskelun kotitehtäviin tai jopa työelämän sähköpostien kääntämiseen.

Silloin on syytä olla varuillaan, koska Google Translate tarjoilee välillä melkoisia ylläreitä. Taustalla on "tekoäly", jolla ei ole mitään tekemistä älyn kanssa. Translate ei ymmärrä tekstiä eikä osaa kääntää sitä. Sen sijaan se poimii valmiista tiedostoista sopivia sanoja ja pätkiä, joiden se arvelee liittyvän asiaan.

Useimmiten käännös menee oikein, mutta joskus tuloksena on ihan käsittämättömiä virheitä. Ne ovat erityisen vaarallisia siksi, että käännös näyttää onnistuvan hyvin, mutta vasta tekstin lukeminen ajatuksella paljastaa, mitä on tapahtunut.

Tässä on helppo tapaus: jostain syystä Translate tulkitsee Bitcoiniin liittyvän louhija-termin henkilönimeksi ja laittaa siihen jopa ison alkukirjaimen:

Termistä "louhija" tulee englanniksi sukunimi Louhija.
Vaikea keksiä, mistä Translate poimii tuon Louhijan, eihän sukunimi sentään kovin yleinen ole. Mieleen tulevat lähinnä Banerjee-Louhija sekä Aku Louhimies.

Sukunimistä puheenollen: joskus Vuorinen kääntyy sanaksi Mountains, vaikka yleensä isolla alkukirjaimella kirjoitetut nimet siirtyvät käännökseen sellaisinaan.

Paljon kummallisempi virhe näkyy tässä:

Häntäpäässä muuttuukin kärkisijaksi.
Kun alkuperäisestä tekstistä poistetaan EU, käännöskin menee oikein. Saman vaikutuksen tuo listan sanan poistaminen:

Yhden sanan poisto saa käännöksen toimimaan.
Tekoäly ja koneoppiminen ovat niin keinotekoisia, että pienikin muutos lähtödatassa voi aiheuttaa suuren eron lopputulokseen. Tämä on kuin koneoppimisen oma perhosefekti. Oppiminen ei ole todellista eikä sitä voi verrata ihmisen oppimiseen, älystä nyt puhumattakaan.

Sitten todella vaarallinen esimerkki:

Translate vaihtaa päiväyksen.
Alkuperäisen tekstin päiväys 2.11.2016 vaihtuu käännöksessä amerikkalaiseen muotoon 11/24/2016, missä on yli kolmen viikon ero. Entä jos kyseessä olisi vaikka sopimusteksti, jota lähettäjä ei lue riittävän huolellisesti?

Tässäkin pieni muutos vaihtaa ohjelman toiminnan aivan toiseksi.

Pieni muutos ja kaikki toimii.
Kuvasta muutosta on mahdoton havaita, mutta kyse on siitä, että päiväys on loogisesti samalla rivillä ensimmäisen lauseen kanssa (ts. kova rivinvaihto on poistettu). Ilmeisesti Googlen "tekoäly" harhautuu poimimaan väärän vastineen, jos rivi alkaa päiväyksellä. Go figure.

Kääntäjän toimintaa voi parantaa ilmoittamalla virheistä. Päivämääräyksen kohdalla onkin kaksi vaihtoehtoa:

Haluatko auttaa Googlea -- tai meitä kaikkia?
Jostain syystä Goole on valinnut sen väärän vaihtoehdon, minkä ihmiset voivat korjata, ja näin opettaa tekoälyä paremmaksi. Pitäisikö meidän auttaa Googlea? Kiinnostava kysymys. Autammeko samalla GAFA-jättiläistä vai itseämme?

Vielä yksi muistutus: Translateen ei kannata lähettää käännettäväksi liikesalaisuuksia eikä liian yksityisiä tekstejä. Emme voi olla varmoja, mihin tekstit päätyvät, ja tarjoaako Google niistä jotain lausetta käännöksenä vieraalle henkilölle.


18 kommenttia:

Anonyymi kirjoitti...

Tuttuahan ovat Google kääntäjän kummallisuudet. Itse en käytä sitä kuin ruotsinkielisten tekstien kääntämiseen englanniksi.
Englanniksi? Niin, Suomi on liian vaikea kieli tekoälyttömyyksille.
Ruotsi? Niin, olen kyllä kirjoittant laudaturin ruotsista, mutta siitä on jo niin kauan että kieli jota ei käytä kuin keskimäärin pari minuuttia vuodessa tuppaa unohtumaan lähes täydellisesti. Laiskuuttani käännätän tekstin kielelle jota olen käyttänyt paljon enemmän.

Anonyymi kirjoitti...

Surkuhupaisaa on se, että isotkin firmat saattavat kääntää tai käännättää ohjelmistoja ja käyttöohjeita konekäännöstä käyttäen. Esimerkki tästä oli Olympuksen kameroiden mukana tullut Olympus Master -ohjelmisto, jonka valikoista ainakin takavuosina löytyi valikko "Noin". Joo, onhan se yksi sanan "About" käännöksistä...

SB kirjoitti...

Anonyymi sanoi...
"isotkin firmat saattavat kääntää tai käännättää ohjelmistoja ja käyttöohjeita konekäännöstä käyttäen"

Eihän tuo mitään kerro millä tavalla se on käännetty. On se vaihtoehto sanakirjassakin.

Petteri Järvinen kirjoitti...

Näitä hassuja käännöksiä oli jo ennen konekäännösten aikaa. Ilmeisesti käännöstyö annettiin maallikolle pelkkinä tiedostoina ja yksittäisinä sanoina, jolloin hän ei nähnyt asiayhteyttä ja tuloksena oli kaikenlaista hassua.

TKirahvi kirjoitti...

Eikös tämä ole ihan yleistietoa ettei pidempien tekstien käännöksiin kannata luottaa. Itse käytän tuota lähinnä suomi-englanti-suomi-käännöksiin yksittäisten sanojen kanssa. En tosiaan luottaisi lainkaan tekstiin jos kääntäisin jonkun pitkän tekstin jostain kielestä, josta en itse ymmärrä mitään.

Anonyymi kirjoitti...

"Eikös tämä ole ihan yleistietoa ettei pidempien tekstien käännöksiin kannata luottaa. Itse käytän tuota lähinnä suomi-englanti-suomi-käännöksiin yksittäisten sanojen kanssa. En tosiaan luottaisi lainkaan tekstiin jos kääntäisin jonkun pitkän tekstin jostain kielestä, josta en itse ymmärrä mitään."

Pikemminkin päinvastoin. Isommasta tekstikokonaisuudesta on helpompi päätellä se, mikä sanan monista sanakirjasta löytyvistä suomennoksista on oikea, yksittäinen lause saattaa olla tässä suhteessa paljon vaikeampi tapaus. Tämä huomioiden ihmetyttää kyllä välistä tv-sarjojen kääntäjien toisinaan esiintyvä täydellinen kyvyttömyys ymmärtää kontekstia, yleissivistyksen puutteesta puhumattakaan.

Petteri Järvinen kirjoitti...

Translaten käännökset vaihtelevat ympäröivistä lauseista riippuen, eli se yrittää ottaa kontekstin huomioon. Yksittäisten sanojen kysyminen toimii ehkä sanakirjana, mutta silloinkin se arpoo vain yhden monista merkityksistä.

Tv-ohjelmien käännöksiä on helppo arvostella, mutta ne tehdään todella kiireellä ja halvalla. Kääntäjä ei voi olla asiantuntija eri alojen sanastosta. Toisaalta näkee paljon myös hyviä esimerkkejä - olen usein ihastellut Rillit huurussa -käännöksiä ja yrittänyt turhaan keksiä tiiviimpiä tai parempia vastineita kääntäjän käyttämille. Turhaan.

Anonyymi kirjoitti...

Vielä noista tv-sarjoista: mielestäni on ihan yleissivistystä tietää, että 13. vuosisata on 1200-luku eikä 1300-luku. Tällaista virhettä on tullut vastaan useammassakin dokumentissa, pahimmillaan yltäen tekstityksen sisäisiin päättömyyksiin, kun joistakin yksittäisistä tapahtumista on puhuttu tarkan vuosiluvun kera. Yleissivistykseen kuuluu mielestäni myös se, että avaruusluotaimissa ei ole potkureita (alkuperäisellä ääniraidalla sana "thruster").

Rillit huurussa -sarjaa olen katsonut yhden jakson, ei naurattanut pätkääkään, sillä huumori meni juuri sieltä, missä aita on matalin. Eikä asiaa auttanut se, että ainakin tuon jakson käännös hukkasi kaikki vivahteet. Tuo taisi olla Netflixin tai jonkin muun striimauspalvelun puolella, ehkä jollakin tv-kanavalla on ollut tähän laittaa hyvä kääntäjä.

TKirahvi kirjoitti...

"Pikemminkin päinvastoin. Isommasta tekstikokonaisuudesta on helpompi päätellä se, mikä sanan monista sanakirjasta löytyvistä suomennoksista on oikea, yksittäinen lause saattaa olla tässä suhteessa paljon vaikeampi tapaus."

Google Translate antaa yksittäisistä sanoista useita vaihtoehtoja, joista pystyy ihan omalla älyllään valita sen, joka kyseisessä kontekstissa toimii parhaiten.

Lars kirjoitti...

Muutaman kerran olen kääntänyt GT:llä Venäjästä Englantiin, niin käännös tuntuu varsin oikealta. Tosin ei osaa en osaa Venäjää. Onkohan näillä kielillä jotain yhteistä kun GT toimiin noilla kielillä hyvin.

Osmo kirjoitti...

Käännöksissä kannattaa muistaa tämä klassikko tuulettimesta: "3 ajonopeus heilahdus kassa ihailija"

https://media.riemurasia.net/albumit/m13996/ihailija_01.jpg

Nauramatta ei voi lukea.

Tällaiset tietääkseni tulee siitä, että koska käännösen korjaaminen on halvempaa kuin käännös. lähettävät konekäännöksen korjattavaksi. Sitten koska eivät ymmärrä kummastakaan mitään, lähettävät raakatekstin vahingossa painoon.

Jossain näppämistön ohjeessa sana country oli käännetty kreivikunta. Siis se, joka käännöksen teki oli vahingossa kirjoittanut county.

Anonyymi kirjoitti...

"Google Translate antaa yksittäisistä sanoista useita vaihtoehtoja, joista pystyy ihan omalla älyllään valita sen, joka kyseisessä kontekstissa toimii parhaiten."

Ja tässä se tekstin pituus auttaa kummasti. Yksittäinen lause voi joskus olla aika pahakin, mutta jos on kokonainen kappale sivusta puhumattakaan, niin tilanne on toinen. Tästä huolimatta on vastaan tullut romaanejakin, joissa on ollut käännösvirheitä. Nämä ovat kyllä liittyneet yleensä enemmän kääntäjän puutteelliseen kulttuurintuntemukseen.

Anonyymi kirjoitti...

Kiitos hyvästä uudesta kirjasta. Tosi sujuvasti ja ymmärrettävästi kirjoitettu.

Petteri Järvinen kirjoitti...

Kiitos!

Anonyymi kirjoitti...

AI on ihan kädetön, kun kirjoittaa viestin rivienväliin suomeksi.

Kääntäjä kirjoitti...

Erittäin mukava blogi, joka sinulla on täällä!

Jake kirjoitti...

Google translate on kyllä loistava työkalu myös minulle lukiessa eri maiden lehtien kirjoituksia. Seuraan vaihtelevasti Saksan ja Espanjan lehtien kirjoituksia ja käännökset Google translate on yleensä varsin hyvin tehnyt. Vielä menee luultavasti vuosia ennen kuin käännöksiin voi luottaa täysin. Onneksi on vielä käännöstoimistoja virallisille käännöksille koska näitä ajoittain monet ystäväni joutuvat teettämään täällä Helsingissä töihin liittyen, missä ulkomaan kauppaa tehdään. Google translateen ei voi vielä näissä asioissa luottaa ja toisaalta myös monet vaativat, että käännökset tapahtuvat virallisen käännöstoimiston kautta.

Vasco kirjoitti...

G Translate on rajoituksensa, mutta kuten muutkin huomauttivat, myös jotkut erittäin hyvät käyttötapaukset.