Það er orðinn sjálfsagður hluti af daglegu lífi að tala við tölvur og snjalltæki. Við spyrjum Siri um veðrið og biðjum hana að stilla klukkuna á þrjár mínútur við eldamennskuna. Við biðjum Google Home um að spila tónlist eða segja okkur brandara. Við gefum tækjum raddskipanir sem voru áður framkvæmdar með því að nota takka á snertiskjá, mús eða lyklaborð. Öll samskipti okkar við Siri og vini hennar þurfa hins vegar að fara fram á ensku. Þegar ég spyr Siri hvort hún tali íslensku er svar hennar eftirfarandi: „Hmm, I don’t have an answer for that, is there something else I can help you with?”
Tækniframfarirnar eru hraðari en okkur grunar og erfitt er að segja til um hvert þróunin leiðir okkur. Það eina sem er öruggt er að lífsgæðin sem við búum við byggja á tæknibreytingum, menntun, rannsóknum og nýsköpun. Í öllum breytingum felast ógnanir og tækifæri. Ógnanirnar sem raddstýring tækja og tóla færir okkur snúa einna helst að áframhaldandi tilvist smærri tungumála. Tölvur og snjalltæki skilja ekki íslensku og tungumálinu okkar stafar hætta af þeirri staðreynd. Tungumál sem ekki er nothæft eða notað í því stafræna umhverfi sem verður sífellt stærri hluti daglegs lífs okkar deyr svokölluðum stafrænum dauða.
Máltækni tryggir að tölvur skilji íslensku
Máltækni vísar til samtvinnunar tungumáls og tölvutækni í hagnýtum tilgangi. Máltækni beinist að því að þróa kerfi sem geta unnið með og skilið tungumál, og stuðla að notkun þeirra í samskiptum manns, tölvu og annarra tækja sem byggja á stafrænni tækni. Markmið máltækniáætlunar er að tryggja að við getum og munum nota íslensku í samskiptum við – og í gegnum – stafræn tæki og tölvur. Áætlunin er samstarfsverkefni háskólasamfélagsins, stjórnvalda og atvinnulífs en haustið 2019 gerðu Almannarómur, sem er miðstöð máltækni, og rannsóknarhópurinn Samstarf um íslenska máltækni (SÍM) samning um smíði innviða í máltækni fyrir íslensku. Að SÍM standa níu lögaðilar – rannsakendur úr háskólasamfélaginu, opinberar stofnanir og frumkvöðlar úr atvinnulífinu.
Raddstýring tækja og tóla færir okkur fjöldann allan af tækifærum sem geta bætt líf okkar og gert daglegar athafnir einfaldari, fljótlegri og jafnvel ódýrari. Afrakstur fyrsta verkefnisárs máltækniáætlunar liggur nú fyrir og er ljóst að við erum á góðri leið með að tryggja framtíð móðurmálsins í stafrænum heimi. Ef fram heldur sem horfir er enginn vafi á því að tækifærin í raddstýringu tækja eru fleiri en ógnanirnar.
Mikið vatn runnið til sjávar á fyrsta ári máltækniáætlunar
Á fyrsta ári máltækniáætlunar vann rannsóknar- og þróunarhópurinn SÍM að 34 verkefnum. Megináhersla var lögð á gagnasöfn, bæði texta og tal, enda byggir allur máltæknihugbúnaður á gögnum um tungumálið. Meðal gagnasafna sem unnið var að á árinu má nefna uppfærða útgáfu íslenskrar Risamálheildar, sem er nýtt í öllum kjarnaverkefnum, m.a. til að hugbúnaður geti lært eðlilegt málfar, stór textasöfn á íslensku og ensku til þess að þjálfa þýðingarvélar, textasafn og greiningar á stafsetningu og málfari til þróunar á málrýnihugbúnaði og vandaðar upptökur á tali til þróunar talgervla.
Landsmönnum þykir vænt um tungumálið og vilja leggja sitt af mörkum til varðveislu þess. Það sést á framlaginu til söfnunar radda í gegnum vefinn Samrómur.is, sem Almannarómur og Háskólinn í Reykjavík standa að í sameiningu. Raddgagnasafnið Samrómur verður notað til þjálfunar máltæknihugbúnaðar fyrir íslensku. Nú þegar hafa um 12 þúsund einstaklingar lesið rúmlega 27 þúsund mínútur, eða tæplega 319 þúsund setningar, inn á Samróm. Til að tryggja að tækin skilji alla er brýnt að safna röddum sem flestra; fólks á öllum aldri, af öllum kynjum, hvaðanæva af landinu og með sem fjölbreyttastan framburð. Sérstök áhersla er lögð á söfnun radda barna og unglinga en án radda þeirra munu tækin ekki skilja raddskipanir og samræður þeirra á íslensku, þannig að þau þyrftu að halda áfram að tala ensku við símana sína. Framtíð íslenskunnar er því bókstaflega í hendi þeirra.
Nýverið gaf sprotafyrirtækið Miðeind út smáforritið Emblu. Embla er fyrsta raddappið sem skilur og talar íslensku en það byggir á ýmsum afurðum máltækniáætlunar. Hægt er að spyrja Emblu um tímasetningar strætóferða, opnunartíma sundlauga, landafræði, klukkuna og fréttir. Og þegar ég bað Emblu um að segja mér brandara þá sagði hún mér þennan: „Af hverju læðast Hafnfirðingar alltaf fram hjá apótekum? Til að vekja ekki svefnpillurnar.“
Þetta er ekki fyndnasti brandari sem ég hef heyrt, en hann er að minnsta kosti á íslensku. Stafræn framtíð móðurmálsins okkar felst í notkun þess á sem flestum sviðum daglegs lífs, líka til að segja lélega brandara.
Höfundur er framkvæmdastjóri Almannaróms – Miðstöðvar máltækni.
Almannarómur er miðstöð máltækni og ber ábyrgð á framkvæmd máltækniáætlunar fyrir íslensku. Markmið máltækniáætlunar er að vernda íslenska tungu, með því að tryggja að við getum og munum nota íslensku í samskiptum við og í gegnum stafræn tæki og tölvur. Rannsóknar- og þróunarhópurinn SÍM (Samstarf um íslenska máltækni) vinnur nú að smíði og þróun innviða fyrir íslenska máltækni.
Rannsókna- og þróunarhópurinn SÍM (Samstarf um íslenska máltækni) sér um fyrsta stig gagnasöfnunar og mótun svokallaðra kjarnalausna í samræmi við samning Almannaróms við SÍM. Að SÍM standa tíu lögaðilar – rannsakendur úr háskólasamfélaginu, opinberar stofnanir og frumkvöðlar úr atvinnulífinu: Háskóli Íslands, Háskólinn í Reykjavík, Stofnun Árna Magnússonar í íslenskum fræðum, Blindrafélagið, Ríkisútvarpið, Creditinfo Fjölmiðlavaktin ehf., Gammatek ehf., Miðeind ehf., Hljóðbókasafnið og Tiro ehf.