Dette programmet oversetter fra nordsamisk til norsk

Forskere ved UiT lanserer nå et program for maskinoversetting fra nordsamisk til norsk.

En mann med en laptop, i bakgrunnen en skjerm som viser en avisside
Nå kan flere følge med i debattene i samiske medier. På veggen bak Kevin Unhammer er en maskinoversatt versjon av en artikkel i den samiske avisa Ávvir. Photo: Bjørn Hatteng
Portrettbilde av Aarskog, Karine Nigar
Aarskog, Karine Nigar karine.n.aarskog@uit.no Seniorrådgiver og faggruppeleder, formidling
Published: 02.02.17 12:44 Updated: 07.12.23 09:39
Arts and culture Linguistics and litterature Indigenous people

– Vi håper programmet kan være til hjelp for dem som vil forstå nordsamisk tekst, men som ikke kan nordsamisk selv. Vi håper at programmet også gjør det lettere for samisktalende å velge å skrive på samisk, sier Lene Antonsen, forsker og lingvist ved Giellatekno ved UiT Norges arktiske universitet. 

Programmet er tilgjengelig via internett og gratis å bruke. Det støtter maskinoversetting av nettsider ved å bruke nettadressen, man kan laste opp dokumenter for oversetting, og man kan skrive eller kopiere inn tekst og få det oversatt umiddelbart, legger Antonsen til.

Har utbedret programmet
Arbeidet med programmet ble først gjort av programmerer Kevin Unhammer i 2010, i samarbeid med Giellatekno. Den første prøveversjonen har vært i bruk i noen år, men de siste par månedene har Lene Antonsen og Giellateknos professor Trond Trosterud arbeidet sammen med Unhammer for å forbedre programmet og grensesnittet. Forskerne mener at programmet nå er så bra at det kan være virkelig nyttig. Arbeidet med å forbedre kvaliteten fortsetter likevel, ikke minst med ordrekkefølgen på norsk.

Les også: Stavekontroll gir håp for truede språk

– Systemet kjenner igjen cirka 97 prosent av ordene i nordsamisk tekst, men vil gi dårligere resultat hvis det man skriver inneholder mange skrivefeil, eller er skrevet uten nordsamisk tastatur. Den norskspråklige teksten er av variabel kvalitet, og ikke egnet til publisering uten retting, men den er fullt forståelig, og programmet egner seg dermed godt for den som vil forstå innholdet i den nordsamiske teksten. Programmet er regel- og ordlistebasert, i motsetning til de fleste andre oversettingsprogrammer som er statistisk basert, forklarer Antonsen.

Kan gi flere ulike ord
Trond Trosterud trekker fram noen eksempler på hva man bør være oppmerksom på i den norske oversettinga:

– Samisk skiller ikke mellom «han» og «hun». For å unngå forvirring på grunn av feil oversetting, bruker vi «h_n» i de tilfellene programmet ikke er i stand til å bestemme rett kjønn. Samisk skiller heller ikke mellom bestemt og ubestemt form, for eksempel 'skole' / 'skolen', så programmet gir ikke alltid riktig bestemthet på norsk, sier Trosterud.

Les også: Teknologi kan redde truede språk

Når man oversetter sammensatte ord som ikke finnes i programmets ordbok, oversettes delene hver for seg, og man kan få oversettinger som 'fjellordfører' istedenfor 'varaordfører' ('várri' betyr både vara og fjell).

– I alle språk er det mange ord som har flere enn en betydning. Programmet klarer ikke alltid å finne korrekt betydning ut i fra sammenhengen. Brukeren kan, når hun er i tvil om betydninga, slå opp slike ord i ei ordbok, for eksempel i Neahttadigisánit, avslutter Trosterud.

Les også: Utviklet unik kommunikasjon gjennom lek

Les også: Verdens første teskt-til-tale-program for urfolksspråk

Aarskog, Karine Nigar karine.n.aarskog@uit.no Seniorrådgiver og faggruppeleder, formidling
Published: 02.02.17 12:44 Updated: 07.12.23 09:39
Arts and culture Linguistics and litterature Indigenous people