Den danska Korpus 2000 — ett genombrott för tillämpad nordisk språkteknologi
3/2003

Sven-Göran Malmgren

Den danska Korpus 2000 — ett genombrott för tillämpad nordisk språkteknologi

Sven-Göran Malmgren är professor i svenska vid Göteborgs universitet och har varit verksam i många lexikografiska projekt, som bl.a. Svensk ordbok och Nationalencyklopedins ordbok. Han är mäkta imponerad av den nya danska Korpus 2000.

Många av Språkbruks läsare känner säkert till den svenska Språkbanken (http://spraakdata.gu.se). Det var den första stora korpusen (databehandlade textsamlingen) i Norden som gjordes tillgänglig på Internet, och den har spelat en viktig roll för modern svensk språkforskning och språkvård. Tack vare Språkbanken kan man snabbt få svar på frågor av typen ”vilken böjning är vanligast, kolleger eller kollegor?”, ”när ungefär fick ordet klassresa sin nya betydelse i svenskan?”, ”hur vanlig är den nya betydelsen ’föråldrad’ av daterad?”.Man kan också göra historiska studier, t.ex. följa hur användningen av icke och blott har minskat i svenskan sedan mitten av 1800-talet.

Det viktigaste är kanske att Språkbanken inte bara ger ordfrekvenser, utan också visar hur orden har använts i autentiska satssammanhang – i romaner, tidningsartiklar m.m. Sådana sorteringar brukar kallas konkordanser, och de kan illustreras just med exempelordet klassresa. Vi ser på två av Språkbankens delkorpusar, nämligen tidningstexter dels från 1987, dels från 1996:

Exempel ur tidningstexter från 1987

samla in pengar till en klassresa
pengarna ska de använda till en klassresa

Exempel ur tidningstexter från 1996

eleverna som ska på klassresa till Gotska Sandön
Har du gjort en klassresa? Ja /.../ Jag kommer ju från arbetarmiljö

Vi ser inga exempel på den nya betydelsen ’socialt avancemang’ av klassresa i den äldre delkorpusen, men i den nyare finns exemplet Har du gjort en klassresa? Ja /.../ Jag kommer ju från arbetarmiljö. Det är därför mycket troligt att den nya betydelsen har uppstått mellan 1987 och 1996. I själva verket är det första kända exemplet på den nya betydelsen från 1990, som framgår av Nyordsboken (utgiven av Svenska språknämnden).

I vissa avseenden är Språkbanken fortfarande oöverträffad bland nordiska Internetkorpusar. Det är t.ex. bara Språkbanken som tillhandahåller delkorpusar från vitt skilda tidsperioder, ända ner till medeltiden. Och när man är inne på Språkbanken, kan man lätt klicka sig vidare till den fantastiska OSA-databasen, dvs. den elektroniska versionen av Svenska Akademiens ordbok.

Men om man bara ser på korpusar över nuspråk, och även tar hänsyn till de sökverktyg som erbjuds användaren som snabbt vill ha information, så är det för närvarande en annan Internetkorpus som står i särklass i Norden – den danska Korpus 2000 (http://dsl.dk). (Jag tar inte upp finska i den här korta uppsatsen. Det bör emellertid sägas, att Finland har varit ett föregångsland i Norden och internationellt, när det gäller utveckling av sökverktyg som liknar de som Korpus 2000 bygger på.)

Projektet Korpus 2000 har administrerats av Det Danske Sprog- og Litteraturselskab (DSL) och finansierats av den s.k. År 2000 fonden. Storleksmässigt är Korpus 2000 ungefär i paritet med Språkbankens moderna delkorpusar. Den innehåller ca 56 miljoner ord, hälften hämtade från texter från omkring år 1990, hälften från omkring år 2000. Korpus 2000 är mycket väl balanserad, dvs. den har en rimlig fördelning mellan texter av olika slag (tidningstexter, romaner, populärvetenskap). I detta avseende överträffar den Språkbankens modernaste delkorpusar, som helt utgörs av tidningstexter.

För att få en uppfattning om vad man kan få ut av Korpus 2000, och bara av den, kan vi slå upp det danska ordet cykler i Korpus 2000 och det svenska ordet cyklar i Språkbanken. Båda ordformerna är homografa, de kan höra till ett verb eller ett substantiv (cykle/cykel resp. cykla/cykel). I Språkbanken får man lätt frekvenser för ordformen cyklar i olika delkorpusar, och man kan klicka sig vidare till konkordanser och se ordformens förekomst i autentiska kontexter. Men man får ingen sortering på substantiv och verb och det finns ingen länk till besläktade ordformer (cykeln, cyklade etc.). Det bör dock sägas att arbetet med att ta fram sådana analysverktyg pågår och kan väntas vara färdigt relativt snart.

I Korpus 2000 får man först upp följande – här något förenklade – skärmbild, när man söker på cykler:

o    cykel         subst
o    cykle         verb

Vi får alltså veta att böjningsformen cykler kan höra till ett substantiv, cykel, och ett verb, cykle. Om vi t.ex. vill se på substantivet (färdmedlet), så klickar vi till vänster på den översta raden och får då upp en ny skärmbild med alla böjningsformer av substantivet cykel. Här återger vi ett utdrag:

  Korpus 2000
Korpus 90
cykel     ....
    ....
cyklen   ....      ....
cykler ...
...

Antalet mörka (egentligen röda) punkter på samma rad som resp. böjningsform ger en viss uppfattning om böjningsformens frekvens. Om ett ord t.ex. har blivit vanligare mellan 1990 och 2000, så ser man det snabbt genom att det är fler mörka (röda) prickar i den vänstra kolumnen. Den exakta frekvensen får vi om vi klickar på den form vi för tillfället är intresserade av, t.ex. cykler. Då kommer vi också in på konkordansen:

cykler (<cykel, subst)
227 eksempler fundet

fremstille    cykler, som skulle selges
en cykelholder med to   cykler bagpå bilen
Man kan også låne    cykler og udstyr
Interessen for   cykler er så stor bland danskerne

Detta är inget mindre än ett kvalitativt språng i nordisk korpusproduktion och korpuslingvistik! Det finns dock en liten hake. Om man går igenom alla de 272 föregivna exemplen på substantivformen cykler så finner man bl.a. följande mening: For cykler de unge ikke mens de er 10 år, så skal der et mindre under til, for at få dem op på den tohjulede igen. Här är det alltså inte fråga om substantiv- utan om verb-formen cykler. Det påminner oss om något som egentligen är självklart: att 56 miljoner ord och tillhörande analyser inte kan kontrolleras av människor – man måste förlita sig på datorn. Och datorn är, för att uttrycka det paradoxalt, i hög grad behäftad med ”den mänskliga faktorn”; den analyserar fel ibland. Man brukar säga att 95 % rätta analyser är en bra prestation av datorn.

Men det finns en folkloristisk föreställning om att datorn aldrig gör fel, och därför kan det nog finnas risk för att många användare blir besvikna när de upptäcker att en påstådd substantivform egentligen är en verbform. I anvisningarna till Korpus 2000 borde det därför framgå tydligare att vissa analyser, frekvensuppgifter m.m. inte är hundraprocentigt korrekta.

Men Korpus 2000 innebär ett kvalitativt språng i ytterligare ett avseende. För att visa det väljer vi ett nytt exempelord, modstand (motstånd). Sådana substantiv kännetecknas av att de gärna ingår i s.k. kollokationer (fasta uttryck), ofta med verb och adjektiv, och dessa är ofta mer eller mindre oförutsägbara. På svenska heter det t.ex. (i ”aktiva” uttryck) göra eller bjuda motstånd och (i mer ”passiva” uttryck) möta eller stöta på motstånd. Om motståndet är starkt använder vi gärna kollokationen hårt motstånd.

Hur är det då med det danska modstand? Det får vi upplysning om i Korpus 2000, tack vare ett nytt hjälpmedel som – med hjälp av rätt avancerad statistik – räknar ut vilka ord som påfallande ofta förekommer i närheten (ett eller två ord till vänster eller till höger) av modstand. På den skärmbild som visar de olika böjningsformerna av modstand finns en knapp ”Naboord”. Om man klickar på den, kommer en ny skärmbild upp som visar vanliga ord till vänster och till höger om modstand. Med någon redigering ser ett utdrag ur listan med ”vänsterord” ut så här:

folkelig adj.
massiv adj.
hård adj.

mødt verb
yde verb
møde verb
opgive verb
gøre verb

Vi ser att hård, jämte massiv, är det viktigaste förstärkande adjektivet till modstand. De danska verb som motsvarar de ”aktiva” svenska göra och bjuda är yde och gøre, och det ”passiva” svenska möta motsvaras inte oväntat av det danska møde. En viktig kollokation är också opgive modstanden.

Också detta sökverktyg, som snabbt ger upplysningar om kollokationer, är synnerligen värdefullt för många olika grupper av användare: språkvårdare, ordboksförfattare, grammatiker, översättare, ja, egentligen för alla som är en smula intresserade av språk.

Den utomordentliga Korpus 2000 kommer förhoppningsvis att inspirera korpusarbetet i övriga nordiska länder. Vilket hjälpmedel för jämförande studier i de nordiska språken skulle vi inte ha med en svensk, en norsk och en isländsk – låt oss säga – ”Korpus 2005 ”!

Sven-Göran Malmgren

I denna tidskrift: 3/2003