12.11.2020

Tekstiuutiset monikielisiksi ääniuutisiksi – analyysin kautta tarkempaa kääntämistä

Isoft loi tutkimuksessaan Helsingin Sanomien uutisista ääniuutisia sekä automaattisesti käänsi uutiset englanniksi. Tutkimuksessa tarkasteltiin virheitä, joita käännösohjelmat tekivät tekstiä kääntäessään.

Isoftin tutkimuksen tavoitteena oli kartoittaa tekoälypohjaisia palveluita ja niiden tuottamaa jälkeä sekä virheitä, joita automaattisessa ääniuutisten luomisessa tapahtuu. Tutkimus paneutui tekstimuotoisten uutisten automaattiseen kääntämiseen niin ääniuutisiksi kuin englannin kielelle. Tutkimuksessa tarkasteltiin virheitä, joita käännösohjelmat tekivät tekstiä kääntäessään niin ääneksi kuin englannin kielelle.

Virheitä 20–30 prosentissa lauseita

Ääniuutisissa virheitä havaittiin erityisesti numeroiden muunnoksessa. Hankaluuksia aiheuttivat numerosarjat ja desimaaliluvut. Seuraavaksi eniten vakavia virheitä ääniuutisissa löytyi ulkomaisten sanojen ja lyhennysten kohdalla. Ulkomaiset sanat lausuttiin virheellisesti tai kömpelösti, jolloin tulos kuulosti ”rallienglannilta”. Lyhenteissä virheet liittyivät väärään merkitykseen tai siihen, että lyhennys muuttui yhtenäiseksi sanaksi. Kaiken kaikkiaan virheitä esiintyi noin 20 % artikkeleissa. Lausekohtaisella tasolla virheitä esiintyi 1,29 %.

Automaattisessa englanninkielisessä käännöksessä vakavat virheet keskittyivät erityisesti muihin sanavirheisiin eli esimerkiksi suomenkielinen sana kääntyi virheelliseen tai epäsopivaan muotoon, jolloin lauseen merkitys muuttui virheelliseksi tai vaikeasti ymmärrettäväksi. Tällaisia virheitä oli lähes 30 % kaikista virheistä. Muut käännösvirheet olivat toiseksi yleisimpiä: tällöin suomenkielistä sanaa ei käännetty ollenkaan tai sitten esimerkiksi nimi käännettiin, vaikka sitä ei olisi pitänyt kääntää. Kolmanneksi yleisimpiä virheitä olivat virheelliset verbit, jotka käännettiin muotoon, joka muutti lauseen merkityksen toiseksi tai teki siitä vaikeasti ymmärrettävän. Virheitä oli artikkelitasolla noin 33 % artikkeleista, kun taas lausekohtaisella tasolla virheprosentti oli 2,12 %.

Virheistä opiksi

Ääniuutisten kääntämisessä huomattiin selkeitä alueita, joille virheet keskittyivät. Tutkimuksessa havaittiinkin, että markkinoiden johtavien käännöspalvelujen tukema äänisynteesin optimointi- ja korjaussyntaksin käyttö voi auttaa virheiden korjaamisessa.

Suomesta englanniksi käännettäessä virheet keskittyivät niin ikään muutamaan pääongelma-alueeseen. Suurin ongelma kääntäjässä, jota käytettiin, oli laajemman kontekstin ymmärtämisen puute. Lauseen tasolla käännökset onnistuivat, mutta kontekstin ymmärryksen puute näkyi käännöksissä.

Tutkimuksen toteutus viisivaiheinen

Tutkimus toteutettiin viidessä vaiheessa. Ensin kerättiin Helsingin Sanomien verkkolehden tekstimuotoisia uutisartikkeleita. Niistä luotiin ääniuutisia äänisynteesipalvelujen avulla ja ne käännettiin automaattisesti englannin kielelle kääntämistyökalulla. Tämän jälkeen analysoitiin ja arvioitiin työkalujen tuotoksia. Lopuksi luotuja artikkeleja analysoitiin uudestaan, jolloin kirjattiin ylös niissä tehdyt virheet ja kuunneltiin myös ääniuutisten äänten tasokkuutta.

Ääniuutisten luomisessa käytettiin sekä Googlen että Microsoftin äänisynteesipalveluja. Amazonin vastaavaa palvelua ei voitu käyttää puuttuvan Suomen kielen tuen vuoksi. Automaattisessa kääntämisessä käytettiin pääsääntöisesti Google Translate -palvelua. Microsoftin vastaavaa palvelua käytettiin vain alkuvaiheessa.

Monikielisten ääniuutisten automaattinen luominen tekstimuotoisista uutisista (pdf)

 

Media-alan tutkimussäätiö rahoitti tutkimusta 1.4.2020.