Term-O-Stat – fyra steg för terminologiarbete på svenska myndigheter
4/2011

Magnus Merkel, Henrik Nilsson

Term-O-Stat – fyra steg för terminologiarbete på svenska myndigheter

I den svenska språklagen från 2009 finns en särskild paragraf om svensk terminologi. Henrik Nilsson och Magnus Merkel redogör för hur denna paragraf kan konkretiseras.

Den svenska språklagen (SFS 2009:600) från 2009 är inte längre helt ny, men ännu är den inte välkänd av alla. Framför allt är det inte helt tydligt hur de olika paragraferna ska uppfyllas av de svenska myndigheterna. Det gäller även paragraf 12:

Myndigheter har ett särskilt ansvar för att svensk terminologi inom deras olika fackområden finns tillgänglig, används och utvecklas.

Att det nu uttryckligen finns en särskild paragraf om terminologi har dock inte bara ett viktigt symbolvärde utan också en medvetandehöjande effekt. Den har fungerat som en katalysator och en motivation att lyfta terminologifrågorna och börja genomföra terminologirelaterade aktiviteter. Men det krävs ytterligare goda exempel och konkreta arbetsmetoder för att till fullo uppfylla lagens krav. I åtgärdsprogrammet Term-O-Stat kombineras de standardiserade metoder som bl.a. TNC:s terminologer använder med ny teknik. Genom ett sådant angreppssätt kan det bli enklare att komma igång med ett fungerande terminologiarbete och t.ex. komma tillrätta med inkonsekvent och oklar termanvändning inom en myndighet.

Term-O-Stat
Terminologicentrum TNC och Fodina Language Technology har skapat Term-O-Stat för att konkretisera språklagens terminologiparagraf. Det är ett fyrstegsprogram som består av både traditionellt terminologiarbete och maskinell terminologihantering med automatisk termextraktion. Term-O-Stat är uppdelat i fyra steg.

I steg 1 ”tas tempen på” termanvändningen. Genom en automatisk språklig analys av dokumentation och webbsidor fås myndighetsspecifika termkandidater fram. På det sättet går det att få fram de termer som verkligen används (vilket krävs enligt lagparagrafen), men också vilka synonymer som förekommer och om termer används inkonsekvent. Med hjälp av avancerade verktyg rangordnas termerna.

I steg 2 analyserar terminologer tillsammans med myndigheten hur termerna har använts, och vilka som fortsättningsvis bör användas – och hur. Termernas relevans för myndigheten i fråga viktas och de delas in i delområden som behandlas var för sig.

I steg 3 analyseras begreppen. Tydliga definitioner av begreppen inom myndighetens ansvarsområde arbetas fram med hjälp av de beprövade metoder som bl.a. beskrivs i ISO-standarder(framför allt SS-ISO 704 och ISO 1087-1).

I det sista steget, steg 4, skapas en strukturerad termdatabas med de termer och den terminformation som är resultatet av de tidigare tre stegen. I steg 4 kan termerna även integreras med befintliga skriv- och översättningsverktyg som t.ex. Microsoft Word så att både fastslagna och avrådda termer tydligt markeras redan när dokumenten skrivs. En annan åtgärd i steg 4 är att materialet förbereds för inläggning i Rikstermbanken, Sveriges nationella termbank (http://www.rikstermbanken.se) – så att terminologin ”finns tillgänglig” som det sägs i språklagen.

För att man inom en myndighet ska uppnå en smidigare termhantering behövs alla fyra stegen. Men innehållet i de olika stegen kan anpassas efter den specifika situationen hos varje myndighet (mängden material, antalet termer etc.), och vissa steg kan ibland utföras parallellt.

I nuläget (december 2011) har Term-O-Stat-programmet delvis genomförts på två svenska myndigheter: Försäkringskassan och IAF, Inspektionen för arbetslöshetsförsäkringen. Nedan redovisas resultat från de första stegen i projektet på Försäkringskassan samtidigt som de olika stegen beskrivs ytterligare.

Steg 1 – analys av befintliga dokument
I steg 1 analyseras en dokumentsamling från myndigheten automatiskt och manuellt. Först bestäms vilka dokument som ska ingå i analysen. Det kan t.ex. vara alla dokument som ligger på en webbplats, föreskrifter, informationsbroschyrer, interna vägledningar. Dokumentmängden kan variera från några hundratusen ord till tiotals miljoner ord för stora myndigheter. I Försäkringskassans fall analyserades drygt 2 000 dokument i olika format.  Under en s.k. automatisk termextraktion filtreras alla ord och ordkombinationer som skulle kunna utgöra termer i texterna, de s.k. termkandidaterna, fram. Enkelt uttryckt letas substantivfraser, innehållsverb och vissa adjektiv upp, medan resten inte anses vara termer. (Frågan om vad som utgör en term är komplex och behandlas inte fullständigt här. Ett kriterium är dock att termer oftast tillhör ordklasserna substantiv eller verb, mer sällan adjektiv eller adverb. Dessutom finns det termer som består av flera ord, s.k. flerordstermer.) När termextraktionen är utförd är alla förekomster av termkandidaterna i dokumenten sparade, liksom de omgivande textavsnitten. Därefter görs en manuell språklig validering av termkandidaterna, med hjälp av verktyget TermViewer. Den mängd termer som sedan återstår skickas därefter till en s.k. synonym­generator som grupperar samman termkandidater som kan ha likartad betydelse i möjliga kluster. Dessa s.k. synonym­kluster är antingen baserade på stränglikhet (t.ex. variation med eller utan bindestreck, foge-s eller mellanslag: ”au-pair” – ”aupair” – ”au pair” eller ”driftkostnad” – ”driftskostnad”) eller på semantisk likhet som tas fram via lexikala synonymresurser (”hustru” – ”maka”, ”PPM” – ”Premiepensionsmyndigheten”). De genererade synonym­klustren granskas sedan och eventuella uppenbara felaktigheter tas bort.

Efter steg 1 finns en lista med termkandidater i databasformat som utgör underlag för arbetet i steg 2. Hos Försäkringskassan blev resultatet 55 000 termkandidater med frekvens 4 eller högre (dvs. termkandidaten måste förekomma minst fyra gånger i det totala textmaterial­et). Dessa validerades interaktivt och ytterligare knappt 30 000 termkandidater kunde filtreras bort. Slut­resultatet blev att ca 17 000 termkandidater gick vidare till steg 2.

Steg 2 – urval och klassificering
I steg 2 av Term-O-Stat används termkandidaterna från steg 1 som indata. Terminologer från Terminologicentrum TNC går igenom alla termkandidaterna och klassificerar dem i olika prioritetsgrupper:

1. Myndighetsspecifika termer
2. Myndighetsgemensamma termer
3. Allmännare facktermer
4. Allmänord
5. Namn
6. Vet ej

Grupp 1 är av högsta prioritet för en given myndighet och utgör alltså dess ”egen” terminologi, dvs. termer inom deras fackområde. Denna grupp delas sedan lämpligen in i mindre undergrupper, se steg 3 nedan. Grupp 2 omfattar termer som inte bara är unika och viktiga för en viss myndighet utan som också kan vara relevanta för andra myndigheter. Exempelvis ”delar” Försäkringskassan termer med Statistiska centralbyrån, Arbetsförmedlingen och Skatteverket. I grupp 3 ingår facktermer av en mer generell natur som inte i första hand tas upp i arbetet i steg 3. I grupp 4 placeras sådana ord som snarare får anses vara del av det allmänspråkliga ordförrådet. En grupp för namn behövs, liksom en ”Vet ej”-grupp för termkandidater vars grupptillhörighet är svår för terminologen att avgöra. Myndighetens experter bör också delta i grupperingen och även granska om gruppindelningen av termkandidaterna bör justeras på något sätt.

När alla termkandidater fördelats på de olika grupperna görs vissa konsekvensjusteringar. På Försäkringskassan fördelades de 17 000 termerna över grupperna på följande sätt:

• Försäkringskassespecifika termer (2 628)
• Myndighetsgemensamma termer (2 320)
• Allmännare facktermer (6 235)
• Allmänord (4 618)
• Namn (726)

Steg 3 – förädling och definitioner
Terminologerna fortsätter i steg 3 att tillsammans med myndighetens experter arbeta med termkandidaterna i grupp 1 (de myndighetsspecifika termerna). Med en relevansmarkerad och klassificerad terminologi blir det enklare att fortsätta det traditionella terminologiarbetet i avgränsade begreppskluster. Hur dessa kluster bör skapas beror av terminologin ifråga och om myndigheten t.ex. förfogar över en egen klassifikation eller om det finns en annan naturlig indelning att utgå ifrån. I Försäkringskassans fall användes en intern indelning i grupper som t.ex. ”Arbete”, ”Sjuk”, ”Funktionsnedsättning” och ”Bostad” men också en ”Allmänt”-grupp. Dessa underindelades ytterligare. I möjligaste mån fördelades sedan termkandidaterna mellan dessa undergrupper. Tanken med steg 3 är att terminologerna och myndighetens experter sedan arbetar, enligt en standardiserad metodik för begreppsanalys, med ett eller flera begreppskluster parallellt. Resultatet blir att myndigheten internt kan enas kring begreppen och hur de bör definieras. Därefter kopplas detta arbete till termkandidaterna så att termerna kan förses med relevant status: rekommenderad, accepterad eller avrådd term. En sådan statusmarkering av termerna är en förutsättning för att det ska vara lönt att inkorporera terminologin i skrivverktyg och på så sätt skapa en automatiserad ”terminologikontroll” (se nedan, steg 4).

Steg 4 – integration med andra verktyg
I steg 4 är målet att resultatet av de tidigare stegen ska integreras i den skrivmiljö som finns på myndigheten. Språklagen föreskriver att terminologin inom en myndighets fackområde också används i myndighetens verksamhet. Att lägga upp en intern webbsida med termerna listade alfabetiskt eller att lägga in termerna i en termdatabas kan visserligen göra termerna tillgängliga för skribent­erna, men det är inte säkert att detta hjälper dem att fullt ut följa rekommenderad terminologi. Om man i steg 1–3 kommit fram till att vissa termer är avrådda och ska bytas ut mot nya, mer adekvata termer borde dessa slå igenom direkt i ordbehandlare, i en ”terminologikontroll”, på ungefär samma sätt som stavningskontrollen fungerar i moderna ordbehandlare.

Ett exempel på sådan programvara där terminologi (och även skrivregler) kan integreras i skrivmiljön är Acrolinx IQ. I Acrolinx IQ (som går att integrera med skrivverktyg som Word, Power Point, InDesign m.fl.) går det att kontrollera dokument med avseende på terminologi, stavning, grammatik och skrivregler genom at

• lagra och administrera termer i en integrerad termdatabas
• markera termer som är godkända enligt termdatabasen
• larma när avrådda termer används och i stället föreslå ett ”godkänt” alternativ
• hantera olika termsamlingar för olika texttyper, användare och domäner inom en myndighet
• extrahera förslag på nya termer ur dokumentation
• automatiskt kontrollera rättstavning
• automatiskt kontrollera grammatik och stil, enligt allmänna eller myndighetsspecifika skrivregler.

Om myndigheten t.ex. bestämt att ”ålderdomshem” är en avrådd term som ska bytas ut mot ”äldreboende” kan skribenten bli uppmärksammad på detta och anvisad en lämplig ersättningsterm. När en skribent kontrollerar ett dokument genererar programmet en rapport över språkliga och terminologiska avvikelser i dokumentet. Rapporterna visar vilka typer av ”fel” som skribenten gjort, och utgör i sin tur samtidigt ett underlag för vad som kan behöva justeras i termdatabasen. Rapporterna ger också vägledning till om man behöver fokusera på särskilda moment i utbildningssatsningar; gör många skribenter alltid fel på samma sak kan det vara lämpligt att ta upp detta i t.ex. internutbildningar.

Steg 4 bör också omfatta en publicering av myndighetens fastslagna terminologi i Rikstermbanken. På det sättet kan terminologin göras tillgänglig för andra myndigheter och för en intresserad allmänhet.

Slutsatser
De första genomförda Term-O-Stat-projekten visar inte bara att den interna terminologin på en myndighet är mer omfattande än man kanske trott. De visar också att det ofta föreligger en viss inkonsekvens i hur termer används. Genom Term-O-Stat är det möjligt att få en överblick över myndighetens terminologianvändning på ett sätt som det svårligen hade varit möjligt att få på enbart manuell väg. Om man ska lyckas med Term-O-Stat-projekt måste man lägga ned tid på framför allt urval av dokument, begreppsanalys, definitionsskrivning, termval och se till att resultatet kan integreras med andra verktyg som används i verksamheten. Förutom den självklara effektivisering det innebär internt att man vet vad man talar om kan myndigheters behov av att förmedla en viss information till olika målgrupper förenklas. Har man först internt slagit fast vad som avses med begreppen genom definitioner och valt lämpliga termer med eventuella synonymer blir det enklare att anpassa texter för olika målgrupper. Och därmed kan klarspråksarbetet och terminologiarbetet gå hand i hand och dra nytta av varandra.

Term-O-Stats lyckade sammansmältning av traditionella metoder och ny teknik är ett sätt att hantera de nya juridiska kraven på myndigheters terminologiarbete som förhoppningsvis kan leda till fler goda exempel och nya riktlinjer.



Referenser
Jody Foo & Magnus Merkel, 2010. Computer aided term bank creation and standardization: Building standardized term banks through automated term extraction and advanced editing tools. I Marcel Thelen & Frieda Steurs (red.), Terminology in Everyday Life, s. 163–180. John Benjamins Publishing Company. ISBN 978-90-272-2337-1.

Magnus Merkel & Henrik Nilsson. 2010, Tillgänglighet till terminologi – svenska myndigheters ansvar. I: Språkteknologi för ökad tillgänglighet: Rapport från ett nordiskt seminarium Linköping, 27–28 oktober 2010, s. 35–47. ISBN 978-91-7393-094-9.

Magnus Merkel och Henrik Nilsson: Term-O-Stat – ett fyrstegsprogram för terminologiarbete inom myndigheter. I: Nordterm 11 (under utgivning)

Henrik Nilsson, 2009. The realisation of a national term bank – how and why? I Ελληνικ? Γλ?σσα και Ορολογ?α, (s. 346–360). Ελληνικ? Εταιρε?α Ορολογ?ας (ΕΛΕΤΟ). ISBN 978-960836949-8.

Språklag (SFS 2009:600), http://www.riksdagen.se/webbnav/index.aspx?nid=3911&bet=2009:600

Språklagen i praktiken (Språkrådet, 2011), http://www.sprakradet.se/11571

Magnus Merkel
Skribenten är docent i språkteknologi vid Linköpings universitet. Sedan 2004 är han också vd för företaget Fodina Language Technology i Linköping. Merkels forskningsintressen ligger inom områdena ordlänkning, parallellkorpusar, term­extraktion och datorstött terminologiarbete.
Henrik Nilsson
Skribenten arbetar som terminolog på Terminologicentrum TNC.