keskiviikko 10. huhtikuuta 2024

Tekoäly lukee radiouutisia

Viime perjantaina 5.4.2024 Bauer Median radiokanavat (mm. Radio Classic, Nova, Nostalgia ja Iskelmä) alkoivat esittää koneellisesti luettuja uutisia, jotka puhesyntetisaattori poimii STT:n virrasta. Tätä kutsutaan modernisti tekoälyksi, koska nykyään kaiken hienon it-tekniikan pitää sisältää tekoälyä.

Tiukan tulkinnan mukaan valmiin tekstin muuttaminen puheeksi ei vaadi älyä lainkaan. Väljän tulkinnan mukaan puheäänen mallintamiseen on käytetty oikeita ihmisääniä, tai että kun puhuja kuulostaa ihmiseltä, sen täytyy olla tekoälyä.

Koneen lukemat uutiset kuulostavat yllättävän hyviltä. Satunnainen kansalainen, joka kuuntelee uutisia autoradiosta kotimatkan aikana, tuskin huomaa eroa oikeaan ihmiseen. Keskittyneessä kuuntelussa ero on kuitenkin selvä. Vaikka koneen intonaatio on hyvin ihmismäinen, se on myös kaavamainen ja vaikeasti määriteltävällä tavalla mekaaninen. Inhimillinen vaihtelu ja epätäydellisyys puuttuvat.

Numerosanoissa koneääni takeltelee edelleen. Se lausuu "kaksikymmentä yksi" kun ihminen sanoisi "kaksikymmentäyksi" (ilman taukoa). Myös vaihteluvälit ovat hankalia. Miten kirjoitettu teksti "50-60 vuotta" pitäisi lausua? Ulkomaiset nimet ovat niin ikään ongelmallisia. 

Ennen mekanisointia Bauer Median radiokanavat tallensivat radiouutiset vähän ennen tasatuntia, mistä kanavat sitten toistivat ne mainostensa loputtua, kukin oman aikataulunsa mukaisesti. Työläs ja hankala prosessi, jonka koneääni tekee huomattavasti halvemmalla. 

Äänikirjojen lukijat eivät kuitenkaan ole vielä uhattuna. Lyhyet uutiset menettelevät, mutta kuka jaksaisi kuunnella koneääntä kokonaisen kirjan verran? Käyttäjät kertovat, että äänikirjan lukija vaikuttaa suuresti kuunteluelämykseen. Uutisteksti on neutraalia, mutta äänikirjan lukijan tulisi jollain tasolla heijastaa kirjan tapahtumia. Se vaatisi sisällön ymmärtämistä.

Jälleen kerran pieni pala perinteistä ihmistyötä on siirtynyt koneelle, mutta sen merkitystä ei pidä dramatisoida. Todella iso mullistus tulee vasta, jos tekoäly alkaa myös kirjoittaa lukemansa uutiset. 

7 kommenttia:

Anonyymi kirjoitti...

Supesta tulee totta!
http://jtalous.blogspot.com/2024/04/kommunistit-riehuvat.html

Yksi Turkkulaanen kirjoitti...

Olen ajatellut kuunnellessani erästä koneellisesti luettua pätkää että siinä pitäisi olla "esikääntäjä" joka muuttaisi alkuperäisen "50-60" muotoon "50 viiva 60" ennenkuin se annetaan ohjelmalle ääneen luettavaksi.

Ulkomaiset nimet voitaisiin varmaankin muuttaa foneettiselle merkistölle, mikä tietysti vaatisi kohtalaisen mittaista tietokantaa nimistä. Tuntevatko nuo lukuohjelmat foneettisen merkistön? Jossakin määrin varmaankin.

Jari kirjoitti...

Kuuntelin tänään aamukahdeksan uutiset, ja tekoäly kaatui heti ensimmäisen lauseen jälkeen. Kimmo Vehviläinen sitten vitsailikin uutisia kaikkien aikojen lyhimmiksi. Yhdeksältä lukeminen onnistui.

Ns. äänikirjat ovat erikoinen ilmiö. Toinen ilmiö on fiktiivisen sisällön häviäminen radiosta. Tekoäly olisi huono luomaan kaunokirjallisuutta, mutta enää sellaista ei tarvita. Näin meitä valmistellaan tekoälylle.

Anonyymi kirjoitti...

Korviinpistävin ongelma on vieraskielisten sanojen lausuminen. Ainakin hesarin syntetisaattori ääntää sanoja sekavasti suomalaisittain tai englantilaisittain eikä tiedä muista kielistä mitään.

Tahruska kirjoitti...

Itse asiassa yksi puhesyntetisaattorilla luettu äänikirja on minulla ollut kuuntelussa useammankin kerran. Lee Ridley on stand-up-koomikko, joka käyttää puhesyntetisaattoria ja kuulostaa... noh, tekoälyn lukemalta. Im Only In It For The Parking on aivan loistava kirja ja toimii hyvin äänikirjana kirjoittajansa lukemana.

Anonyymi kirjoitti...

"se on myös kaavamainen ja vaikeasti määriteltävällä tavalla mekaaninen. Inhimillinen vaihtelu ja epätäydellisyys puuttuvat."

Sama tekoälyn tekemässä musiikissa. Tarkkakorvaisimmat kuulee esim. kitaran vireen muuttumisen eri ottojen välillä ja varsinkin live-nauhoitetuissa taltioinneissa , jopa keikkalla.

Anonyymi kirjoitti...

Äänikirja on konseptina vielä vailla standardia, sillä jotkut luennat on tehty "elävästi" lukien, mikä lähenee kuunnelmien äänimaailmaa. Muistan, että koulun (kansakoulun!) äidinkielen opetuksessa kehotettiin lukemaan näin. Omiin korviini se kuulostaa teennäiseltä ja tarpeettoman teatraaliselta. Minusta kaunokirjallisuuskin pitää lukea neutraalisti (tämä ei ole sama kuin monotonisesti), jotta minulle lukijana jää vapaus kuvitella kirjan tunnelma ja dialogien sävyt. Äänikirjojen tuotetietoihin pitäisi siis saada luokitus, onko kyseessä neutraali luenta, vai draama.

Olen lähettänyt tästä pyynnön mm. kustannusalalle.

Terv. Maria