Kan datorn språkgranska?
2/1995

Mikael Reuter

Kan datorn språkgranska?

Svenska språkbyrån har under vintern och våren utarbetat listor över ett tusental finlandismer för den finlandssvenska versionen av språkverktyget Textkontroll, som utvecklats av Göteborgsföretaget Wordwork och anpassats till finlandssvenska förhållanden i samarbete med Esboföretaget Trantex. Arbetet har inneburit en hel del utmaningar, eftersom det har gällt att kombinera språkliga regler med datorns sätt att tänka. Utvecklingsarbetet och programmet presenteras här i korthet av Mikael Reuter.

 

Redan i ett par års tid har arbetsplanen för den svenska avdelningen vid Forskningscentralen för de inhemska språken innehållit en passus om att vi skall försöka utveckla ett datorprogram som i kombination med ett ordbehandlingsprogram känner igen finlandismer och föreslår ändringar. Det gällde bara att hitta en samarbetspartner som stod för den datatekniska biten av det hela.

När det i höstas framgick att det fanns ett svenskt textkontrollprogram som kunde användas som utgångspunkt var ivern därför stor på Svenska språkbyrån. Programmet var utvecklat av Wordwork AB i Göteborg, vars samarbetspartner i Finland, Esboföretaget Trantex, tog kontakt med oss. Utan någon längre tvekan antog vi utmaningen att få utarbeta och ansvara för urvalet av nytt språkmaterial för programmets finlandssvenska version.

Det program som vi hade att utgå från hade huvudsakligen utvecklats för att rätta skrivfel och slarvfel av olika slag, alltså sådana som inte är felstavningar och därför inte upptäcks av skrivprogrammets stavningskontroll. Det var fråga om felaktig användning eller placering av olika tecken, onödiga mellanslag, liten bokstav efter punkt, felaktiga förkortningar, oriktiga sär- och sammanskrivningar m.m. Dessutom ingick redan från början vissa typer av ”fel” på ordnivå, nämligen föråldrade och talspråkliga ord eller ordformer och inkonsekvent användning av i och för sig korrekta alternativa ordformer som ska/skall, gett/givit och stödjer/stöder.

Listor med tusen finlandismer

För oss gällde det då att sammanställa listor över de mest frekventa finlandismerna. Det visade sig snabbt vara betydligt mer krävande än man kanske först skulle tro. Att plocka ut orden ur våra existerande register var i och för sig inget större problem. De ca sextusen ord och uttryck som ingår i vårt register över finlandismer kunde skäras ner till ungefär en fjärdedel.

Därmed var emellertid bara början gjord. Det gällde för det första att dela upp dem i olika kategorier: ord som är fullt gångbara och ofta rentav officiella i Finland men som inte används i Sverige, andra mer eller mindre acceptabla finlandismer, felaktiga översättningslån och andra uttryck som vi bedömer som direkta fel, vardagliga och provinsiella ord och uttryck, felaktiga eller provinsiella former osv.

För det andra gällde det att plocka ut de flesta sådana ord och uttryck som är finlandismer bara i vissa betydelser – annars skulle larmet gå alltför ofta. Man kan ju inte låta programmet stanna upp varje gång det stöter på ett  slippa eller ännu. Men ord och uttryck som aula, dragare, lämna bort, skolning och vakans tog vi med, eftersom vi räknar med att de i de flesta fallen används på sitt finlandssvenska sätt i finlandssvenska texter. Ordet far i betydelsen ’farled’ kan naturligtvis inte vara med i sin grundform, men däremot kan de böjda formerna faret och faren och kombinationen ett far vara med.

sb0295dator.jpg

Eftersom programmet bara ser till ytan, dvs. till teckensträngarna i texten, måste vi vidare för varje ord och uttryck ta med alla de former de kan förväntas uppträda i. Det innebär bl.a. att substantiv och verb uppträder i upp till åtta former (aktionär, aktionärs, aktionären, aktionärens, aktionärer, aktionärers, aktionärerna, aktionärernas; dimittera, dimitterar, dimitterade, dimitterat, dimitteras, dimitterades, dimitterats, dimitterad).

Ett alldeles speciellt problem är tvåordsuttryck där orden inte nödvändigtvis står intill varandra och där ordningsföljden mellan orden dessutom kan variera. De visade sig vara krävande men ändå möjliga att ha med i viss utsträckning. Som det nu är hittar programmet bl.a. de finlandssvenska uttrycken göra beslut och avtjäna värnplikt så länge det finns högst fem ord mellan de två orden i kombinationen. Det innebär att man får ett felmeddelande om man t.ex. skriver ”detta beslut borde absolut inte ha gjorts” eller ”han avtjänade så vitt jag vet värnplikten i Dragsvik”.

Ytterligare en begränsning är den rent tekniska. Om listorna blir alltför omfattande, blir programmet långsamt. Vi har försökt hitta den optimala kompromissen. Textkontroll kan ibland kännas irriterande långsamt på en långsam dator, men i stället har vi inte strukit ord som vi anser bör vara med. Och vad är långsamt? Jämfört med att sitta och slå i böcker eller ringa till kolleger eller språkvårdare eller vända sig till språkgranskare går det snabbt att låta Textkontroll läsa igenom en text.

Efter de strykningar som måste göras av språkliga och tekniska skäl återstår fortfarande ett drygt tusental finlandismer av olika slag, de flesta av dem dessutom i minst ett halvt dussin former.

Föreslår utbytesord

I de allra flesta fallen föreslår programmet ett eller flera utbytesord som genom en knapptryckning kan fås att ersätta det ”felaktiga” ordet. Vanligen går det utan komplikationer, men om utbytesordet har annat genus eller numerus än det ur-sprungliga ordet (t.ex. om man byter ut arbetsolycka mot  arbetsolycksfall) kan det påverka t.ex. ett attribut eller predikativ, och kräver därför redigering. Eftersom manuell redigering medför vissa speciella problem har vi försökt att i mån av möjlighet främst välja utbytesord med samma genus och numerus som det ord som skall ersättas.

I enstaka fall (bl.a. när det gäller finlandssvenska ord och uttryck utan direkt motsvarighet på rikssvenska) ges inget direkt utbytesord, utan användaren får allmän information och en uppmaning att förklara eller omskriva ordet.

De rent språkliga begränsningar som ställs på ett program av det här slaget gör att det naturligtvis inte kan hitta alla tänkbara fel och finlandismer. Det finns inga garantier för att en text är felfri efter att den har kontrollerats med Textkontroll. Men man kan räkna med att Textkontroll hittar en betydande del av de skrivfel och finlandismer som en normal skribent använder av misstag (t.ex. prepositionsuttrycket i misstag skulle ha gett ett felmeddelande).

Omfattande hjälp

En av de starka sidorna hos programmet är att det har en mycket omfattande hjälp, som går långt utöver det tekniska. Man kan alltså få hjälp inte bara med hur man skall göra för att använda programmet utan också i rent språkliga frågor. Hjälpen omfattar bl.a. det huvudsakliga innehållet i  Svenska skrivregler  och innehåller en hel del allmän information om finlandssvenska och finlandismer. Det är bara att klicka sig fram mellan de olika avsnitten.

Användaren har full kontroll

Det som bör framhållas alldeles speciellt är att användaren naturligtvis har full frihet att strunta i de felmeddelanden som ges och hoppa över de ord som Textkontroll stannar på. Många av de finlandismer som ingår i listorna är sådana att de bra kan användas i olika informella sammanhang i texter som vänder sig till finlandssvenskar. Det är som redan Hugo Bergroth sade i inledningen till boken Finlandssvenska (1917): ”Vi kunna någon gång tillåta oss att skriva finländska av princip; men vi få inte göra det av håglöshet, och vi böra inte göra det av okunnighet.” Syftet med Textkontroll är att hjälpa skribenterna att råda bot på håglöshet och okunnighet.

Användaren kan också välja att koppla ifrån vissa ”feltyper”. Vi rekommenderar t.ex. att listan över accepterade och officiella finlandssvenska ord som inte används i Sverige (typ abiturient, arbetarinstitut, förskottsskatt) inte är aktiverad annat än när man skriver en text uttryckligen för rikssvenska läsare.

En viktig sak är också att de flesta listorna kan redigeras av användaren. Har man bestämt sig för att man inte vill ha något felmeddelande för ordet småkusin så är det bara att ta bort det (med alla dess böjningsformer) ur listan över ”finlandismer med begränsad spridning”. På samma sätt kan man lägga till nya ord och uttryck, vilket kan komma till pass t.ex. i grupper av skribenter som skriver texter inom något speciellt ämnesområde där vissa facktermer tenderar att användas fel.

Hur den finlandssvenska versionen fungerar i praktiken vet vi förstås först när ett större antal användare har använt den en längre tid. Vi är därför tacksamma för alla kommentarer och förbättringsförslag som kan beaktas när det någon gång blir aktuellt med en ny version. Alla kommentarer som har att göra med den språkliga sidan kan skickas till Svenska språkbyrån, Sörnäs strandväg 25, 00500 Helsingfors (fax 90-731 53 55, e-post textkontroll@domlang.fi). Synpunkter på de tekniska sidorna av programmet skickas till Trantex, Abborrvägen  4 B, 02170 Esbo (fax 90-61 33 53 90, e-post textkontroll@trantex.fi).

Mikael Reuter