Den finlandssvenska språkbanken och Korp
4/2011

Nina Martola

Den finlandssvenska språkbanken och Korp

Den 17 oktober lanserades det nya korpussökgränssnitt Korp vid Språkbanken vid Göteborgs universitet. En stor del av Språkbankens korpusar har varit fritt tillgängliga på webben under åtskilliga år och är säkert bekanta för många av Språkbruks läsare.

Via Korp kan man nu söka i sammanlagt drygt 800 miljoner löpande ord, varav största delen är relativt moderna texter.  Förutom korpusarna med löpande text ingår det ett antal så kallade Lexikonresurser i Språkbanken bestående främst av olika ordböcker.

Språkbanken innehåller numera en hel del finlandssvenska texter. Av 800 miljoner ord utgör det finlandssvenska materialet för närvarande (november 2011) ca 31 miljoner ord. Det består i huvudsak av pressmaterial, men tidskrifter och skönlitteratur är också förhållandevis väl representerade. Textsamlingen växer hela tiden och ska utökas med fler genrer. Under 2012 kommer det bland annat att börja läggas in äldre finlandssvenska texter.

Den första lilla finlandssvenska korpusen, den så kallade Fisc, kom till på 1990-talet vid Institutionen för nordiska språk vid Helsingfors universitet. Den omfattade drygt två miljoner ord och var ett pionjärarbete som utfördes av Jan Lindström. Åren 1999–2000 pågick ett mer omfattande korpusprojekt i samarbete mellan Forskningscentralen för de inhemska språken, Institutionen för allmän språkvetenskap och CSC (IT Center for Science/ IT-centret för vetenskap). Arbetet utfördes främst av Mickel Grönroos (datalingvist) och Nina Martola (textinsamling). Resultatet var en finlandssvensk språkbank med ca 32 miljoner ord bestående i huvudsak av presstexter (Hufvudstadsbladet, Jakobstads tidning) och romantexter (romaner från Söderströms förlag). Senare integrerades Fisc i samlingen. Den finlandssvenska språkbanken ligger på en server hos CSC och man kan anhålla om behörighet att använda den för forskning.

I januari 2011 startade ett nytt, treårigt finlandssvenskt korpusprojekt. Det är ett samarbete mellan Svenska litteratursällskapet i Finland, Forskningscentralen för de inhemska språken och Göteborgs universitet. Målet är att få till stånd en textsamling med åtminstone 70 miljoner ord. Materialet läggs vid Språkbanken vid Göteborgs universitet och blir fritt tillgängligt. För närvarande arbetar tre personer med korpusen, Anna Silvan, textinsamlare, Tuomas Katila, datalingvist och Nina Martola, projektledare. Under 2012 tillkommer en person med uppgift att samla in historiska texter.

Korpusarbetet är ett av fyra delprojekt inom projektet Svenskan i Finland – i dag och i går som pågår vid Svenska litteratursällskapet och som syftar till en heltäckande beskrivning av finlandssvenska. De andra delprojekten är Svenskan i Finland i tal och Svenskan i Finland i skrift samt en beskrivning av finlandssvenskans historia. Projektledare för helheten är Marika Tandefelt. (För utförligare information se www.sls.fi.)

På Språkbanken finns nu de första resultaten av det pågående korpusarbetet. I de drygt 30 miljoner ord som man kan söka i med hjälp av Korp ingår största delen av den tidigare finlandssvenska språkbanken och en hel del nytt material, främst tidskrifter. Korpusarna är fritt tillgängliga och sökgränssnittet är lätt att använda. Adressen är http://spraakbanken.gu.se/korp/. Man börjar med att välja vilka korpusar man vill söka i. Förhandsval är alla. Det enklaste sättet är att avmarkera alla och sedan klicka för vilka man vill ha. Man kan välja både enskilda korpusar och grupper.

Den enklaste formen av sökning är att välja alternativet Enkel och skriva in den exakta sträng man vill söka på (ett eller flera ord, inga citattecken). Så här ser ett litet utsnitt ur resultatet av en sökning på strängen hemma från i de finlandssvenska korpusarna:

SB_411_korp_stor_del.jpg
 

 

 

 

 

Samma sökning i sverigesvenska korpusar ger en annan typ av träffar:

SB411_s33_2.jpg

Via alternativet Utökad går det söka på annat än exakt sträng. Nedan ses ett litet utsnitt av träffarna på en sökning på strängen "hemma" följd av vilket ord som helst av ordklassen adverb följt av vilket ord som helst av ordklassen preposition.

SB411_s33_3.jpg

Principen är mycket enkel. Man skriver in det första orden i den fras man vill söka i den första rutan (eller väljer vilket som helst om det är alternativet). Genom att klicka på pluset i sökrutans nedre vänstra hörn kan man precisera villkoren för det ordet. Genom att klicka på pluset till höger om rutan får man fram sökrutan för nästa ord osv.

SB_411_korp_korp.jpg

 

 

 

 

 

 



I det sista sökalternativet, Avancerad, använder man sig av s.k. söksyntax. För sökningen hemma följt av adverb följt av preposition ser syntaxen ut så här:

[word = ”hemma”] [pos = ”AB”] [pos = ”PP”]

Men det behöver man alltså inte kunna för att göra förhållandevis avancerade sökningar i Språkbanken med hjälp av verktyget Korp.

Nina Martola
Skribenten är lexikograf och föreståndare på Svenska avdelningen vid Forskningscentralen för de inhemska språken.