12.7.2021

Miten tekstistä tehdään kuvia? Opas tekstipohjaiseen kuvangenerointiin asiasisällöissä

Vertti Luostarinen on luonut oppaan, jossa perehdytään siihen, mitä iloa ja harmia uudella, tekstiä kuviksi tahkoavalla teknologialla voisi olla asiasisältöjen parissa työskentelevälle. Hanke on tehty yhteistyössä Alma Median kanssa.

Projektissa tuotettiin blogimuotoinen opas, jota seuraamalla asiasisältöjen parissa työskentelevä saa käsityksen siitä, mihin tekstiä kuviksi muuttava tekoäly pystyy ja miten sitä käytetään. Opas koostuu kolmesta osasta:

  1. Miten tekstistä tehdään kuvia?
  2. Miltä kuvat näyttävät? ja
  3. Käyttöönoton haasteet ja mahdollisuudet

Opasta varten tuotettiin kuvia yhteistyössä Alma Median kanssa, ja osassa 2 tuotettuja kuvia käytettiin Tivi-lehden kesäkuun numeron kuvittamisessa.

Suuri harppaus parempaan

Vuoden 2021 alussa tekstipohjaisessa kuvangeneroinnissa tehtiin iso harppaus, kun yhdysvaltalainen tekoälyfirma OpenAI julkaisi blogipostauksen Dall-E-järjestelmästä. Postauksen perusteella Dall-E kykenee tuottamaan kuvia melkein mistä tahansa tekstisyötteestä ennennäkemättömällä tarkkuudella. Dall-E:n
täyttä versiota ei ole saatavilla, mutta sen avoimesti saatavilla olevista komponenteista on koottu sovellutuksia, eli työkirjoja, jotka kykenevät tuottamaan kuvia Dall-E:n tapaan.

Vaikka teknologian käyttömukavuudessa ja luotettavuudessa on vielä parannettavaa, opas osoittaa, että tekoälykuvitusten tuottaminen on jo nyt mahdollista ilman koodaamisosaamista tai erillisiä laitteistoinvestointeja. Kuvangenerointialgoritmeja voi pyörittää Googlen Colaboratory-pilvipalvelussa
ilmaiseksi.

Mielenkiintoista kuvitusta nopeasti, mutta rajoituksin

Oppaassa vertailtiin avoimilla sovellutuksilla Tivin juttuja varten tuotettuja kuvia Dall-E:sta kertovassa postauksessa oleviin kuviin. Vaikka avoimet sovellutukset eivät pystyneet läheskään kaikkeen mihin Dall-E:n täysi versio, niidenkin tuottamat kuvat istuivat lehtikuvakontekstiin. Etenkin General adversarial network –
eli GAN-teknologiaa hyödyntävien työkirjojen kuvista tuli esteettisesti miellyttäviä, kun aihe oli riittävän yksinkertainen ja syötteessä kuvan tyyli oli määritelty maalausmaiseksi esimerkiksi ”a painting of” -etuliitettä käyttämällä.

Uutiskuvakontekstiin generoiduilla kuvilla ei ole sijaa paitsi eettisten ongelmien, myös teknisten rajoitusten vuoksi. Tekoälykuvitus ei ole vahvimmillaan, kun sen yrittää saada tuottamaan yksityiskohtaista jälkeä. Sen sijaan abstraktimpien feature-juttujen kuvitukseen tekoäly voi soveltua, tosin tietyin varauksin. Tällä hetkellä ainoa tapa kontrolloida kuvan sisältöä on tekstisyöte, esimerkiksi rajausten tai värien muuttaminen on vaikeaa. Kuvat saattavat myös ohjata tulkintaa herkästi väärään suuntaan, joten kuvatekstin merkitys korostuu niitä hyödynnettäessä. Näistä rajoitteista huolimatta tekoälykuvitukset voivat toimia pienemmille toimijoille väylänä tuottaa visuaalisesti mielenkiintoista ja kunnianhimoista kuvitusta nopeasti ilman, että tehtävään täytyy pestata erillistä kuvittajaa.

Laatu ja sisällön uniikkius paranee, jos tekoälyn kouluttaa itse omalla materiaalilla. Siinä voisikin olla ainesta jatkotutkimukselle, jossa kartoitettaisiin, miten jälki paranisi, jos teknologia räätälöitäisiin tietyn median omiin tarpeisiin yleisten työkalujen käytön sijaan.

Kuvangenerointiin liittyvät ongelmat

Kolmannessa osassa kartoitin ongelmia, joista kuvangeneroinnin käyttöönottoa harkitsevan on syytä olla tietoinen. Ala jakautuu tällä hetkellä toisaalta valtaviin valtiollisiin toimijoihin ja suuryrityksiin, ja toisaalta ruohonjuuritason avoimen lähdekoodin tekijöihin; välimuodot uupuvat. Jos pieniä ja keskisuuria toimijoita
ei tueta, suuryritykset ja valtiot tulevat kontrolloimaan jatkossa sitä, kuka pääsee käsiksi tähän uuteen teknologiaan.

Tekoälyllä on myös taipumus periä samat representaatio-ongelmat kuin mitä on sillä datalla, jolla se on koulutettu. Esimerkiksi Tiviin kuvia tuottaessani havaitsin, että kaikki algoritmin generoimat ihmiset ovat ihonväriltään valkoisia. Lisäksi tekijänoikeusasioiden kartoittaminen voi vaatia vaivannäköä, sillä laki laahaa tällä hetkellä teknologian perässä.

Tekoälykuvitusten pyörittäminen ja uusien mallien kehittäminen kuluttaa myös paljon energiaa ja teknologian ympäristövaikutuksia voi olla vaikea arvioida. Kryptovaluutan veroisesta ongelmasta ei ole kyse, mutta parantamisen varaa löytyy.

 

Opas on julkaistu blogiteksteinä Medium-sivustolla. Opas osa 1 / osa 2 / osa 3

Media-alan tutkimussäätiö myönsi hankkeelle rahoitusta 2.2.2021.