Från översättningsminne till översättningsintelligens

Varför över huvud taget låta datorn översätta?

Idén att använda datorn för översättning föddes på 1940-talet. Forskningen i automatisk översättning, eller maskinöversättning (engl. Machine Translation, MT) som disciplinen kallas idag, har gjorts sedan 1950-talet på olika håll i världen. Försvarsmakten i USA var en stor spelare i maskinöversättningens gryning; US Air Force ville till exempel ha ett system för automatisk översättning från ryska till engelska. Kalla kriget var ett faktum och man ville förstå fiendens språk.

Det forskades aktivt inom maskinöversättning under dessa första år, men system som skulle ha fungerat i praktiken fanns det dåligt om. På 1960-talet lades flera forskningsprojekt ned, inte minst som en följd av att en kommitté bestående av sponsorer i USA (ALPAC) år 1966 hävdade att det var osannolikt att man någonsin skulle kunna ta fram ett gediget maskinöversättningssystem på ett kostnadseffektivt sätt.

Forskningen inom maskinöversättning fortsatte dock i mindre skala och kom igen senare i Europa och Kanada. Året 1976 kan ses som en brytningspunkt. Då blev det kanadensiska Météo-systemet för översättning av väderrapporter färdigt och Europeiska kommissionen tog i bruk maskinöversättningssystemet Systran för översättning från engelska till franska.

Under åren som gått har flera olika metoder tagits fram och testats inom forskningen i maskinöversättning, även om det numera är få som tror att det går att ta fram system som på eget bevåg kan göra bra översättningar av text ur många olika domäner. Tack vare webben finns numera även många billiga system – som ger dåliga (men kanske läsbara) översättningar – till hands för var och en med Internetuppkoppling och webbläsarprogramvara. Även för det svenska språket finns numera bra maskinöversättningssystem, inte minst MATS-systemet som tagits fram vid Uppsala universitet.

Men, varför skulle man över huvud taget vilja låta datorn översätta själv?

Ett användningsområde är självklart: textförståelse av information på ett främmande språk. Med hjälp av ett maskinöversättningssystem kan man ta fram en snabb råöversättning ur vilken grundtanken i källtexten förhoppningsvis framgår på ett för användaren begripligt språk. De mer eller mindre undermåliga maskinöversättningstjänster som finns lite här och var på webben kan vara helt användbara för detta ändamål.

Om målet trots allt är att ta fram kvalitetsöversättningar är maskinöversättningen allt som oftast en klumpig och dyr lösning. För även om man har ett bra maskinöversättningssystem till sitt förfogande krävs ändå en mänsklig insats innan översättningen är klar för publicering. Man kan säga att ju mer olik källtexten är den domän eller texttyp som maskinöversättningssystemet har programmerats att klara av, desto mer redigering krävs det i slutänden. Redigeringsarbetet i sig blir i längden ett enerverande arbete, eftersom många av de fel som ska korrigeras återkommer gång på gång. Översättarens arbete blir att granska och korrigera samma rutinartade fel i text efter text – ett inte alltför givande arbete som knappast kräver flera års universitetsutbildning.

Det är värt att nämna att företag som använder kontrollerat språk (eng. controlled language), alltså väldefinierad syntax och entydig terminologi, kan uppnå nog så snabba och bra resultat med maskinöversättningsystem vid översättning av till exempel tekniska dokument som manualer och systembeskrivningar. Men det är värt att lägga på minnet att ett maskinöversättningssystem i ett sådant fall noga har anpassats för företagets bruk. Och det är inte gratis.

Kan datorn återanvända mänskliga översättningar?

Forskningen i översättningsminnen (eng. Translation Memory, TM) började på 1970-talet. De första kommersiella applikationerna dök upp på 1980-talet, även om översättningsminnena först på 1990-talet fick en bredare användarskara i synnerhet bland stora översättningsorganisationer som till exempel Europeiska kommissionens generaldirektorat för översättning.

Utgångspunkten för ett översättningsminne är en helt annan än för ett maskinöversättningssystem. Om det slutliga målet för maskinöversättningen har varit att ersätta människan, är ett översättningsminne ett datoriserat översättningshjälpmedel som försöker återanvända mänskliga översättningar och på det sättet göra översättningsprocessen effektivare.

Ett traditionellt översättningsminne delar upp, eller segmenterar, källtexten i grafiska meningar eller meningsartade segment med hjälp av interpunktionstecken eller layoutinformation. Översättarens uppgift är att översätta varje segment till målspråket. Översättningsminnet lagrar därefter källsegmentet med målsegmentet i sin databas som en s.k. översättningsenhet (eng. translation unit, TU) för framtida bruk.

När samma källspråksmening dyker upp igen någon annanstans i texten eller i en ny text, kommer översättningsminnet att föreslå den tidigare översättningen för människan. Det är då meningen att hon inte ska behöva översätta samma mening mer än en gång. De tidigare översättningarna återanvänds i stället.

Översättningsminnen har visat sig vara mycket användbara i sådana fall då texten som ska översättas är klart lik tidigare översatt text, till exempel då man översätter en ny version av en tidigare översatt text. Ett krav är naturligtvis att översättningsminnets databas innehåller tillräckligt med översättningsenheter, eftersom ett översättningsminne med en blank databas inte kan föreslå någonting över huvud taget. Det är inte ovanligt att en organisation har över en miljon översättningsenheter i sina databaser.

I regel brukar det vara mer meningsfullt att använda översättningsminnen än maskinöversättningssystem vid professionell översättning av texter som ska hålla för publicering. Jag hävdar ändå att traditionella översättningsminnen är behäftade med tre grundläggande problem som gör att de fortfarande bara lämpar sig väl för stora översättningsbyråer eller frilansöversättare som jobbar för sådana.

Meningar återkommer inte från text till text

Det första problemet gäller beroendet av återkommande meningar. Ett traditionellt översättningsminne delar upp, lagrar och återanvänder grafiska meningar eller meningsartade enheter (som rubriker) med hjälp av en statisk algoritm.

Problemet här är att hela meningar helt enkelt inte återkommer i nytext. Av 10 000 meningar eller meningsartade segment (100 000 ord) ur Språkbanken i Finlands (www.csc.fi/kielipankki/) finska Helsingin Sanomat 1990-korpus är bara 2,95 % av segmenten sådana som förekommer två eller fler gånger.

När man tittar närmare på dessa 2,95 % av segmenteten visar det sig att de flesta är vinjetter (”Meriennuste”, sv. ”Sjörapport”), namn på skribenter (”Jukka Kajava”) eller nyhetsbyråer (”STT”, sv. ”FNB” alltså Finska notisbyrån). Vid översättning av nyhetstext (eller annan text som varierar från dag till dag) är det därför rätt meningslöst att använda ett traditionellt översättningsminne. Det enda som egentligen kan översättas med systemet är vinjetterna. Det är ju sällan som man översätter personnamn från ett språk till ett annat, såvida det inte gäller kungligheter. Detta visar tydligt på att den grafiska meningen är en alltför stor enhet för att kunna användas effektivt vid datorstödd översättning av ny text.

Även företagen bakom översättningsminnena har noterat problemet och satsat stort på s.k. fuzzy match-teknik. Denna teknik går ut på att översättningsminnet kan identifiera och använda segment i sin databas som ur en matematisk synvinkel liknar (utan att vara identiska med) segment som dyker upp i källtexten. Om bara ett eller några ord skiljer ett segment i källtexten från ett segment i översättningsminnets databas, kommer programmet att kunna ta fram den översättningsenhet som finns i databasen för påseende. Användaren ska sedan själv bedöma om den tidigare översättningen är användbar eller inte och hon får själv modifiera denna tidigare översättning så att resultatet är en bra översättning av det källsegment som just då ska översättas. På detta sätt har översättningsminnets täckning breddats något, även om det underliggande problemet – att meningar inte återkommer – inte har åtgärdats.

Det är dyrt att ta i bruk ett översättningsminne, eftersom databasen är blank

Det andra problemet med översättningsminnen är att de levereras utan färdig översättningskunskap. Databasen innehåller alltså vid ibruktagningen inte en enda översättningsenhet, något som för med sig att översättningsminnet till en början inte hjälper översättaren alls. Det är heller inte möjligt att leverera en standarddatabas med översättningsenheter bestående av segment av meningsstorlek till alla kunder. Det finns helt enkelt inte tillräckligt med texttypsoberoende meningar – meningar i en tvättmaskinsmanual är knappast till någon nytta när du översätter en årsrapport för en pappersfabrik. Det enda alternativet för kunden blir då att bygga upp en översättningsminnesdatabas själv utifrån egna texter.

Ett sätt att ta fram en egen databas är helt enkelt att göra sina översättningar med översättningsminnet, trots att programmet inte ger någon hjälp till en början. På detta sätt byggs databasen upp mening för mening i takt med att man översätter med översättningsminnet. Efter några månader (eller i värsta fall några år) börjar databasen bli tillräckligt stor för att översättningsminnet ska kunna effektivera rutinöversättningarna.

Det andra alternativet är att använda diverse länkningsverktyg som utifrån kundens egna parallella texter (källspråksdokument med översättningar, eng. parallel texts) bygger upp en databas halvautomatiskt. Man kan också välja att köpa länkningstjänsten av ett företag till gängse marknadspris.

Om man har ett arkiv med tidigare översättningar kan man rätt snabbt bygga upp en användbar (alltså tillräckligt stor) översättningsminnesdatabas. En förutsättning är förstås att man har dessa parallella texter i elektronisk form samt att man klarar av att använda länkningsverktygen eller att hitta en partner som kan göra länkningen åt en. Länkningsarbetet tär dock på sådana resurser (pengar och tid) som annars kunde användas till den egentliga verksamheten, översättningen.

Ett översättningsminne vet ingenting om de språk det förväntas översätta mellan

För det tredje vet ett översättningsminne ingenting om de språk det förväntas översätta mellan. För ett översättningsminne är en översättningsenhet en teckensträng, försedd med en formell språkkod, som länkats med en annan teckensträng försedd med en annan formell språkkod. Även fuzzy match-teknikerna bygger på matematisk hantering av teckensträngar, inte på genuin språkteknologi.

Förvisso, översättningsminnenas okunskap om de språk det förväntas översätta mellan gör programmen språkoberoende (om man bortser från möjliga teckenuppsättningsproblem), något som innebär att du kan översätta mellan flera olika språk med ett och samma program. Men omedvetenheten innebär också att översättningsminnet barakan återanvända mänskliga översättningar på ytnivå där ett översättningsstöd med inbyggd språkkunskap kan använda översättningsenheterna i databasen även på grammatisk nivå.

Från översättningsminne till översättningsintelligens

Dagens verktyg för datorstödd översättning (eng. Computer-Aided Translation, CAT) kan grovt delas in i två grupper: maskinöversättningssystem och översättningsminnen. (Dessutom finns naturligtvis terminologihanteringssystem, elektroniska ordböcker etc. som hör till en alldeles egen kategori, men de avhandlas inte i denna artikel.)

Där maskinöversättningens grundidé har varit att ersätta människan, försöker ett översättningsminne att återanvända tidigare översättningar som gjorts av en översättare. Graden av återanvändning är dock rätt liten vid icke-återkommande text, på grund av de grundläggande problemen som översättningsminnena är behäftade med.

Men problem kan lösas. Ett förslag till lösning har tagits fram av det finländska översättningsteknologiföretaget Master’s Innovations Ab och används i företagets eget program för datorstödd översättning, Master Translator Pro (MTP), som i dagsläget klarar av att underlätta översättningsarbeten mellan finska och engelska i bägge riktningar. (En finsk-svensk-finsk version är under utveckling.)

Metoden som tagits fram vid företaget och som MTP bygger på – översättningsintelligens (eng. Translation Intelligence) – är så pass unik att den redan har beviljats patent i flera länder och världsdelar.

Bättre täckning med segment av flexibel storlek

Det mest centrala problemet hos traditionella översättningsminnen – beroendet av grafiska meningar – finns inte i MTP som i stället jobbar med flexibel segmentering (eng. flexible segmenting).

Ett källspråkssegment som ska översättas kan bestå av ett ord, en fras eller ett frasfragment, en sats eller en hel mening beroende av vad som bedöms vara en meningsfull enhet i källpråksmeningen. Det flexibla segmentet väljs utifrån en algoritm som med hjälp av artificiell intelligens jämför källtextens meningar mot tidigare översatta segment i programmet kunskapsbas (eng. Knowledge Base). Tack vare denna metod kan källtexten delas upp i segment som det är meningsfullt att översätta var för sig, trots att de oftast är kortare än en hel mening. Tanken är då att man kan förvänta sig att segment av frasstorlek återkommer från text till text i mycket större utsträckning än vad hela meningar gör.

I regel blir segmentstorleken i MTP fyra–fem ord. Om den flexibla metoden skulle segmentera fel kan användaren själv ändra segmentstorleken (lägga till eller stryka ord). Programmet lär sig då efterhand att segmentera bättre eller i alla fall mer i enlighet med hur användaren segmenterar själv.

Den största nyttan med flexibel segmentering är att det krävs mycket färre översättningsenheter i databasen (än vad som skulle krävas av databasen hos ett traditionellt översättningsminne) för att programmets täckning (eng. coverage), alltså hur väl ny text kan översättas med hjälp av tidigare kunskap, ska vara bred nog för att effektivera översättarens arbete. Med andra ord växer MTP:s täckning avsevärt mycket snabbare än vad täckningen hos ett traditionellt översättningsminne gör. Det räcker med en inkörningsperiod på en månad där ett traditionellt översättningsminne skulle kräva ett halvt år.

En standardkunskapsbas åt alla

Det andra problemet som traditionella översättningsminnen är behäftade med – att databasen är blank vid leverans – löses i MTP med hjälp av en standardkunskapsbas som levereras till alla användare som en del av programmet. Kunskapsbasen består av en översättningsminnesdatabas med översättningsenheter av varierande storlek samt ett omfångsrikt tvåspråkigt lexikon.

Eftersom korta segment – fraser och frasfragment – inte är nära på lika texttypsberoende som hela meningar är det fullt möjligt och värt besväret att ta fram en kunskapsbas som levereras till alla kunder. Som exempel kunde man ta segmentet stäng luckan, som kan återfinnas i många olika sorters text, medan meningen ”Stäng luckan och vrid på kranen innan du sätter på tvättmaskinen” knappast kan förväntas dyka upp i någon annan sorts text än en tvättmaskinsmanual.

Standardkunskapsbasen som levereras med MTP kan av naturliga skäl inte vara språkoberoende och det är inte MTP heller i motsats till traditionella översättningsminnen. I dagsläget stöder MTP översättning mellan finska och engelska i bägge riktningar. En finsk-svensk-finsk version är under utveckling och förväntas bli färdig vid årsskiftet 2006–2007.

Programmet lär sig översätta bättre

Översättningsminnenas tredje problem – ovetskapen om de språk de förväntas översätta mellan – löser MTP med hjälp av språkteknologi. I första hand används de tidigare översättningarna i kunskapsbasen som sådana, alltså på ytnivå, precis som ett traditionellt översättningsminne skulle göra. Men översättningsenheterna används även som grammatiska översättningsmönster(eng. translation pattern). Dessa används för att generera bra förslag till översättningar av sådana, tidigare oöversatta källsegment som har samma grammatiska struktur som ett segment i kunskapsbasen.

Om vi tänker oss att en översättare översätter den finska frasen ”pelin aikana” till ”under spelets gång” på svenska, kommer MTP att lära sig att det finska tvåordsmönstret ”substantiv-genitiv-singularis + aikana” kan motsvaras av treordsmönstret ”under + substantiv-genitiv-bestämd form-singularis + gång” på svenska. Detta översättningsmönster används sedan av MTP som framöver kommer att kunna föreslå till exempel ”under programmets gång” som översättning av ”ohjelman aikana” eller ”under resans gång” som översättning av ”matkan aikana”. Eftersom ett översättningsmönster i regel kan användas i båda översättningsriktningarna, kommer MTP även att kunna översätta ”under samtalets gång” till ”keskustelun aikana” utifrån detta ena översättningsmönster.

För att ett traditionellt översättningsminne ska klara av att översätta segment med samma grammatiska översättningsmönster, måste vart och ett av segmenten lagras separat med översättning i översättningsminnets databas. Ett översättningsmönster i MTP:s kunskapsbas kan alltså i bästa fall motsvaras av flera tusen översättningsenheter i en traditionell översättningsminnesdatabas.

Programmet föreslår alltid en översättning

För att garantera att MTP alltid ska ge något översättningsförslag till användaren, innehåller programmet en rudimentär maskinöversättningskomponent. Maskinöversättningen tar över i de fall det segment som översätts inte kan översättas med kunskap ur kunskapsbasen. Målet är att MTP alltid ska kunna ge något slags översättningsförslag. De maskinöversatta segmenten är sällan felfria, men hjälper användaren i synnerhet med att översätta specialtermer på ett konsekvent sätt.

Sammanfattning

Ett maskinöversättningsprogram kan vara ett nyttigt och till och med ett ekonomiskt försvarbart redskap om man behöver översätta stora mängder text ur en väl avgränsad domän eller om man vill bilda sig en uppfattning om vad en text på ett främmande språk handlar om.

Ett traditionellt översättningsminne är ett bra verktyg vid översättning av texter där stora partier återkommer gång på gång (till exempel nya versioner av tidigare översatta dokument) och främst för proffsöversättare som jobbar för stora översättningsorganisationer som har en rimlig möjlighet att bygga upp tillräckligt stora databaser bestående av meningar jämte översättningar.

Men det är tydligt att varken maskinöversättningen eller traditionella översättningsminnen duger som verktyg för datorstödd översättning bland sådana professionella språkbrukare som översätter olika typer av texter från dag till dag eller som översätter små mängder text på årsbasis. Däremot kan kanske en översättningsintelligens av den typ jag beskrivit föra ut datorstödd översättning från de stora organisationerna till var översättares dator. Kanske datorn aldrig blir översättarens bästis, men den kan vara en nog så väldresserad träl.