Den maskinella översättningen ökar – översättaren behövs ändå
1/2018

Anna Sågvall Hein

Den maskinella översättningen ökar – översättaren behövs ändå

Maskinell översättning har kommit i bruk alltmer på senare år. Det finns flera olika maskinöversättningstjänster tillgängliga på nätet, men den kvalitet som de olika tjänsterna erbjuder varierar.

 

Den allmänt mest använda översättningstjänsten är troligen Google Translate (GT). Tjänsten lanserades 2006 för översättning mellan ett begränsat antal språk. Därefter har antalet språkpar gradvis utökats och omfattar nu omkring 100 språk. Enligt en artikel i New York Times 2016, hade tjänsten då mer än 500 miljoner användare per månad och den översatte upp emot 140 biljoner ord till olika språk.

Bygger på återanvändning

Google Translate är ett statistiskt maskinöversättningssystem (SMT) och till skillnad från tidigare regelbaserade maskinöversättningssystem, använder sig GT inte av någon språkkunskap i traditionell bemärkelse. Systemet bygger helt på återanvändning av tidigare översättningar. En översättningsmodell tränas upp genom att källspråk och målspråk länkas ihop automatiskt på olika nivåer – ord, fraser, satser, meningar – och med hjälp av probabilistiska metoder identifieras sannolika översättningsekvivalenter. (Probabilitet bygger på sannolikhetsberäkningar.) Mängden av sådana sannolika ekvivalenter bildar den probabilistiska översättningsmodellen i ett SMT.

Se till exempel på två sammanlänkade meningspar hämtade ur den engelska översättningen av den svenska regeringsförklaringen från 1988.

 

Sveriges neutralitetspolitik är av avgörande betydelse för vårt lands fred och oberoende.

Sweden’s policy of neutrality is of decisive importance for our peace and independence.

 

Neutralitetspolitiken stöds av ett starkt försvar till värn för vårt oberoende.

Our policy of neutrality is underpinned by a strong defence. That safeguards our independence.

 

Vi noterar att strängarna neutralitetspolitik och oberoende respektive policy of neutrality och independence samförekommer i två meningspar. Träningssystemet letar efter sådana samförekomster, och när de identifierats i ett statistiskt relevant antal fall, så tas det som ett tecken på möjliga översättningsrelationer. I det här fallet skulle sålunda policy of neutrality kunna identifieras som en översättning av neutralitetspolitik och independence som en översättning av oberoende, förutsatt att tillräckligt många fall kunnat identifieras i träningskorpusen.

Jämför källtext och översättningsmodell

Google Translate 2006 är ett SMT som består av en probabilistisk översättningsmodell och en enkel syntaxmodell över målspråket. Vid översättning jämför systemet ord och ordsekvenser i källtexten med dem i översättningsmodellen och bygger statistiskt rankade översättningar av de delar som totalt sett stämmer bäst. Denna process leder till ett stort antal alternativ. Vidare jämförs de höst rankade översättningarna med en modell av målspråket och de som stämmer bäst väljs. Man kan säga att man ”tvättar” översättningarna mot målspråksmodellen.

Avgörande för kvaliteten på översättningarna är kvaliteten och omfånget på träningsdata.

Avgörande för kvaliteten på översättningarna är kvaliteten och omfånget på träningsdata. Tillgången till träningsdata skiljer sig väsentligt mellan olika språkpar, och därför blir också översättningskvaliteten språkparsspecifik. För att träna upp ett nytt språkpar behövs en översättningskorpus på minst 1 miljon ord och två enspråkiga korpusar på över 1 miljard ord vardera. Med jämna mellanrum tränas tjänsten om med nya data för de olika språkparen.

Det är viktigt att notera att de översättningar som genereras i ett SMT uttrycker sannolikheter, inte belagda översättningsrelationer. Det innebär bl.a. att ord kan saknas, ha lagts till eller felöversatts. Det blir då granskarens, postredigerarens, uppgift att kontrollera att översättningarna stämmer överens med källspråket, inte bara att det är bra flyt i målspråket. Ord som inte finns med i träningsdata (i rätt betydelse), får mer eller mindre godtyckliga översättningar. Speciella problem orsakar termer, t.ex. äldrelots (elderly care guide) som får översättningen older pilot. I GT 2006 tränade man upp systemet på data strukturerade i fraser, ordsekvenser, upp till en given längd. Man brukar därför tala om frasbaserad träning. Översättningsberoenden mellan ord i segment, som överstiger den givna längden, kan inte fångas upp av ett sådant system och översättningsproblem uppstår typiskt i gränserna mellan maximala fraser.

Framsteg inom maskinöversättningen

2016 lanserade Google en ny version av sin översättningstjänst, Google Neural Machine Translation (GNM). Även den nya tjänsten bygger på probabilistiska metoder och återanvändning av tidigare översättningar. Ändå innebär GNM för många språkpar och texttyper väsentliga framsteg jämfört med GT. Det beror på att träningen i GNM sker på ett mer effektivt sätt än i GT. Träningsdata i GNM är modellerade som biologiska neurala nätverk i flera lager och träningen går på djupet i dessa nätverk (deep training). På så vis kommer man åt flera tentativa översättningsrelationer och man kan träna på hela meningar och slippa begränsningen med maximala frassegment.

 

Gjestene som kom til ambassadøren var norske.

Guests who came to the Ambassador was Norwegian. (GT 2015)

The guests who came to the ambassador were Norwegian. (NGM 2018)

 

Var snäll och skriv under här.

Please write in here. (GT 2015)

Please enter below. (NGM 2018)

 

Det var ett Herrans under.

It was a Lord over. (GT 2015)

It was a Lord's underneath. (NGM 2018)

 

Som framgår av dessa exempel, får den norska meningen en tillfredsställande översättning med NGM, till skillnad från den som genererades av GT. Så är det dock inte med de båda svenska exemplen. NGM klarar inte av det svenska partikelverbet skriva under i den aktuella kontexten och inte heller substantivet under i bemärkelsen mirakel. Man kan dra slutsatsen att träningsdata inte innehåller tillräckligt många belägg för dessa ord i de aktuella kontexterna. Ett antal fristående exempel säger dock inte så mycket om ett översättningssystems kvalitet, men det har gjorts mer omfattande utvärderingar av GT och NGM. Utvärdering av maskinöversättning kan ske både med manuella och automatiska metoder. Automatiska utvärderingsmetoder jämför den maskinella översättningen, tecken för tecken, med en eller flera referensöversättningar, facit, om man så vill, och beräknar skillnaderna med hjälp av olika mått.

Maskinell översättning höjer kvaliteten

Maskinell översättning kan ha olika syften. Om det bara handlar om att snabbt ge ett hum om vad en text handlar om, s.k. gisting, då är de översättningstjänster som t.ex. Google erbjuder fullt tillräckliga. Om det å andra sidan handlar om att producera översättningar som ska kunna publiceras, så är kraven högre. Då måste man förutsätta mänsklig granskning och korrigering, s.k. postredigering. För denna uppgift krävs kompetenta språkspecialister med ämneskunskap. Den slutliga kvaliteten efter granskning ska vara fullt i paritet med mänsklig översättning, om inte bättre. Erfarenheten visar att sådana översättningar många gånger är mer konsekventa och fria från formella fel än texter som översatts helt manuellt. Den insats som krävs för manuell postredigering står i proportion till den översättningskvalitet som maskinöversättningen producerar. Ett viktigt komplement till ett maskinöversättningssystem är sålunda en smidig och funktionell postredigeringsmiljö som underlättar den manuella granskningen.

Den slutliga kvaliteten efter granskning ska vara fullt i paritet med mänsklig översättning, om inte bättre.

Maskinöversättning lämpar sig bäst för stora volymer av repetitiva, sakligt hållna texter. Exempel på sådana texter återfinns t.ex. inom e-handel (produktbeskrivningar, produktkataloger), utbildning (kursbeskrivningar, kursplaner) och näringsliv (manualer, tekniska rapporter, årsredovisningar). Översättning av patent är ett annat område som till stor del sker maskinellt. Marknadsföringsmaterial och andra mer fria texter lämpar sig inte för maskinöversättning.

Skönlitteratur ska översättas manuellt

Skönlitterär översättning är en kreativ uppgift som kräver att man förstår texten. Det gör inte MT-system som GNM. De arbetar på ytan och är oförmögna att använda sig av den mänskliga översättarens kognitivt grundade översättningsstrategier. Det kan t.ex. handla om att bygga om textstrukturen; en mening på källspråket kan behöva översättas till flera på målspråket, och vice versa. (Se exempel ovan från den svenska regeringsförklaringen 1988.) Många av de lexikala problemen i skönlitterär text ligger också utanför ett probabilistiskt grundat MT-system som NGM. Man kan knappast tänka sig att ett sådant system är tränat för att täcka en författares hela produktion. Vidare är de lexikala valen realiserade med olika frekvens i produktionen och mindre frekventa betydelser kommer att få svårt att hävda sig i det probabilistiska systemet. Det ligger också i sakens natur att nya skönlitterära verk innehåller nybildningar av många slag, vars översättning sålunda inte kan återfinnas i träningsdata, dvs. tidigare översättningar.

Behovet av skickliga översättare är också stort och växande när det gäller postredigering av maskinöversatt text.

Den mänskliga översättarens roll vid översättning av skönlitteratur är med andra ord ingalunda hotad. Däremot kan hen kanske få viss hjälp genom tillgång till ett för det aktuella språkparet vältränat maskinöversättningssystem. Den mänskliga översättaren är också oumbärlig vid översättning av andra typer av fri text, t.ex. av marknadsföringskaraktär. Behovet av skickliga översättare är också stort och växande när det gäller postredigering av maskinöversatt text. Det har t.o.m. hävdats att postredigering av bra maskinöversättning är extra svår. De problem som ett bra maskinöversättningssystem inte klarar av blir mer och mer subtila och kräver alltmer av postredigeraren.

Användning av maskinöversättning för allmänt bruk och för brukstexter av olika slag kommer med all sannolikhet att växa. En bidragande orsak är den ökande tillgången till internet i olika former (bärbara datorer, smarta mobiler och surfplattor). Enligt en utredning från 2016 använder 82 procent av svenskarna internet dagligen. Som internetanvändare träffar man också på maskinell översättning inte bara som fristående program utan också integrerade i olika program som Gmail, webbläsaren Chrome och många andra.

 

Litteratur

Castilho, Sheila, Moorkens, Joss, Gaspari, Federico, Calixto, Iacer, Tinsley, John and Way, Andy. 2017. Is Neural Machine Translation the New State of the Art? The Prague Bulletin of Mathematical Linguistics No. 108, 2017, pp. 109–120.

Hofstadter, Douglas. 2018. The Shallowness of Google Translate. https://www.theatlantic.com/technology/archive/2018/01/the-shallowness-of-google-translate/551570/

Lewis-Krausdec, G., 2016. The Great A.I. Awakening, New York Times Magazine 14, 2016.

Anna Sågvall Hein
Skribenten är professor em. i datorlingvistik vid Uppsala universitet. Hon leder sedan ett tiotal år ett språkteknologiskt avknoppningsföretag, Convertus AB, som specialiserar sig på maskinell översättning.