13.12.2022

Stipendiblogi: Aihemallinnus – datataitoisen journalistin uusin työkalu

Eleonora Alarieston opinnäytetyö käsitteli aihemallinnuksen hyödyntämistä journalismissa. Alariesto palkittiin Media-alan tutkimussäätiön vuoden 2022 stipendikilpailussa.

Kuvittele, että voisit lukea kaikki kirjaston kirjat yhdellä istumalla. Kirjoja on valtavasti ja niiden sisältämän tiedon määrä on henkeäsalpaava. Sanoja kirjaston kirjoissa on yhtä paljon kuin hiekanmurusia rannalla. Ihmisaivot ovat ihmeellinen ja tietoa tehokkaasti käsittelevä elin, mutta ne eivät kuitenkaan pysty käsittelemään tällaista määrää informaatiota hetkessä. Mutta ihan tavallinen tietokonepa pystyy. 

Aihemallinnus on joukkoon algoritmeja perustuva koneoppimismenetelmä, jolla voidaan tavallista tietokonetta käyttäen käsitellä tähtitieteellisiä määriä dataa. Menetelmän avulla dataa voidaan tarkastella, jäsentää ja esittää mielekkäästi. Aihemallinnus tarkastelee sille syötettyä aineistoa tilastollisesti, havaiten siitä rakenteita, joita kutsutaan menetelmän nimen mukaisesti aiheiksi. 

Kirjastoesimerkissämme kaikki kirjaston kirjat muodostavat data-aineiston. Aineisto koostuu dokumenteista eli yksittäisistä kirjoista. Kukin kirja taas koostuu kirjoittajansa valitsemista sanoista, joita voidaan pitää data-aineiston datayksikköinä. Aihemallinnus käy aineiston dokumentit läpi sana sanalta, laskien kullekin datayksikölle esiintymistodennäköisyysarvon. 

Noiden arvojen perusteella menetelmä kokoaa ‘aiheita’ eli sanojen joukkoja, joiden algoritmi on päätellyt liittyvän toisiinsa, koska ne ovat esiintyneet samoissa dokumenteissa. Menetelmä ei lue ja ymmärrä tekstiä tai sanojen merkityksiä kuten ihminen, vaan algoritmin havaitsemat aiheet ovat aineiston rakenteellisia ja tilastollisia ilmentymiä. 

Käydessään läpi aineistoa aihemallinnus merkkaa jokaisen sanan kuuluvaksi johonkin sen havaitsemista aiheista. Menetelmä havainnoi ja merkkaa myös, mistä dokumenteista kukin aihe koostuu ja sen, mitä aiheita kussakin dokumentissa esiintyy. Menetelmä luo eräänlaisen kartan koko aineistosta. Tämän merkkausprosessin tuloksena aineistosta voidaan hakea tietoa esimerkiksi hakusanoin tai kutakin aihetta tarkastelemalla. 

Aihemallinnus ei anna havaitsemilleen aiheille otsikoita tai nimiä, ja menetelmän havaitsemien aiheiden määrän päättää aihemallinnuksen suorittaja eli ihminen. Aihemallinnusta onkin toistettava eri aihemäärillä. Sopiva aihemäärä tuottaa sanajoukkoja, jonka sanoilla on luonteva yhteinen nimittäjä tai teema. Mikäli aiheiden määrä asetetaan liian pieneksi, ei aiheiden sisältämille sanoille välttämättä löydy yhteistä nimittäjää. Jos aiheiden määrä taas asetetaan liian suureksi, saattaa useampi aihe vaikuttaa sisältävän saman aihealueen sanoja. 

Aiheiden määrään vaikuttaa myös aineiston koko ja sisällöllinen moninaisuus. Kirjastoesimerkkimme aineisto on laaja ja sisällöiltään moninainen. Pienellä aihemäärällä aihemallinnus todennäköisesti havaitsisi kirjallisuuden eri lajeja ja tyyppejä, kuten tietokirja, keittokirja ja runous. Suurella aihemäärällä aihemallinnuksen havaitsemat aiheet todennäköisesti mukailevat aineiston sisällöllisiä teemoja, kuten sota, murha ja rakkaus. 

Aihemallinnuksen aineiston koolla ei ole ylärajaa. Eräässä tutkimuksessa aineisto sisälsi 77 miljoonaa twiittiä, toisessa käsiteltiin 2500 kirjaa. Aihemallinnusta voidaan käyttää lähes minkä tahansa koneluettavassa muodossa olevan datan tarkasteluun. Menetelmä on otettu käyttöön useilla eri tieteen aloilla, perinnöllisyyslääketieteestä politiikan tutkimukseen. 

Opinnäytetyössäni pohdin aihemallinnuksen soveltuvuutta journalismin työkaluksi. Ja mielestäni sille löytyy käyttökohteita alalta. Aihemallinnus on työkalu, jolla journalisti voi tarkastella ja jäsentää aineistoa, etsiä tietoa siitä sekä visualisoida havaintoja. Aineistojen ollessa valtavia se voi helpottaa neulan löytämistä heinäsuovasta.  

Erilaisten organisaatioiden ja viranomaisten tuottaman datan määrä on valtava ja aineistoihin tutustumiseen voi olla vain rajallisesti aikaa. Aihemallinnuksen tuottama kartta aineistosta toimii kuin esikatseluikkuna. Tämä ominaisuus on hyödyllinen erityisesti tutkivan journalismin tekijöille. 

Aihemallinnuksen tulosten ja menetelmän avulla jäsennetyn datan visualisoiminen istuu datajournalismin maailmaan erinomaisesti. Menetelmän avulla visualisoidusta datasta löytyy useita esimerkkejä monilta tutkimuksen aloilta. 

Aihemallinnuksella on tarjottavaa myös kulttuurijournalismille. Opinnäytetyössäni esittelen tapauksen, jossa aihemallinnuksella tarkasteltiin suomalaisten radiohittien lyriikoita. Tutkija yhdisti aihemallinnuksen tuloksiin Suomen Virallisen Listan tilastotietoja ja visualisoi musiikkikappaleiden lyyristen teemojen suosiota ja suosion jakautumista eri vuodenaikoina ja vuosina. Tutkimuksessa todettiin, että kesällä tykätään juomalauluista, talvella taas harmitellaan ryppyjä rakkaudessa. 

Kirjastoesimerkkimme voisikin olla mielenkiintoinen aihemallinnettava. Kirjaston lainaustilastojen suosituimpien teosten aihemallintaminen voisi paljastaa mitä teemoja suomalaisten lainaamat kirjat käsittelevät ja ovatko aiheet ja teemat muuttuneet vuosien saatossa. 

Tutkivan journalismin piiristä löytyy jo muutamia esimerkkejä, joissa menetelmää on hyödynnetty valtavan aineiston tarkasteluun ja tiedon etsimiseen siitä. Menetelmä on kuitenkin vaativa ja edellyttää käyttäjältään perehtyneisyyttä ja datataitoja.  

Aihemallinnuksen tulokset ovat määrällistä tietoa ja tuloksien tulkitseminen vaatii asiantuntijuutta. Aihemallinnuksen kautta journalisti voi tehdä kiinnostavia havaintoja, joita lähteä selvittämään asiantuntijaa haastatellen. Aihemallinnus voi siis auttaa löytämään journalistisesti kiinnostavan ilmiön tai kysymyksen. 

 

Alariesto palkittiin opinnäytetyöstään Media-alan tutkimussäätiön stipendikilpailussa.