Ordklassindelning används i många språkteknologiska verktyg därför att det är ett sätt att skilja mellan olika användningar av ett ord. Genom ordklasserna kan man enklare söka efter liknande ord och uttryck i stora textmängder, eller skapa en ny text med liknande form. Att automatiskt dela in orden i texter i ordklasser är därmed en av de grundläggande metoderna inom artificiell intelligens, för att få datorn att förstå mänskligt språk.
Människan har länge delat in ord i olika klasser eller kategorier, beroende på hur orden böjs, eller var i meningen orden kan förekomma, eller vad de betyder. Ungefär lika länge har människor diskuterat vilka ordklasser som finns och vilka ord som ska ingå i dem. Svenska skolgrammatikor innehåller därför olika uppsättningar med kategorier. Tillhör t ex artiklar som den och en en egen ordklass? Och hur är det med particip som bestämmande och behövd, är de en egen ordklass eller kanske adjektiv eller verb?
I dag är Svenska Akademiens Grammatik (SAG), som kom 1999, den viktigaste beskrivningen av svenska ordklasser och svensk grammatik. Den viktigaste svenska korpusen (samling av texter) som fortfarande används för att lära ett program att automatiskt märka upp ordklasser är Stockholm-Umeå corpus (SUC), som kom redan i början av 1990-talet. Korpusen innehåller ungefär 1 miljon ord, som alla har tilldelats en ordklass. För många ordklasser tillkommer också mer detaljerad morfologisk beskrivning, som t ex säger om ett substantiv står i plural och har bestämd form, eller om ett verb har presensform.
Tillämpningen av ordklasskategorier i SUC skiljer sig dock på flera punkter från beskrivningen i SAG. Dessutom saknas nyare texttyper, som t ex blogginlägg, vilket betyder att uttryck som är en naturlig del av språkanvändningen i dag, som smileys, saknar ordklasskategorisering. Tyvärr går det dock inte heller att istället tillämpa SAG:s ordklasser rakt av. Syftet med SAG är att beskriva språket, och för att kunna göra det på ett övergripande sätt avstår man från att entydigt klassificera alla varianter som förekommer i språket. I många fall säger man att ord skulle kunna tillhöra den ena eller andra kategorin utifrån olika kriterier, utan att ta ställning.
Beskrivningen av ett språk är inte alltid rätt eller fel, eftersom språk har växt fram och förändrats under lång tid, och fortsätter att förändras. Dessutom ligger det i språkens natur att delvis vara flertydiga. Beskrivningen av språket är alltså en modell av en del av språket, och kan som sådan aldrig vara heltäckande.
Ett datorprogram som ska lära sig att dela upp ord i ordklasser måste ha entydiga instruktioner, och det samma gäller för människor som ska märka upp stora mängder text för hand. Annars blir uppmärkningen inte konsekvent och därmed heller inte användbar. Det betyder att den flertydighet som ofta finns i språket måste tas bort, och att människorna som skapar uppmärkningen måste bestämma sig för hur man ska hantera alla möjliga fall.
På Språkbanken har vi utvecklat en ordklasskategorisering för svenska språket från 1900-talets andra hälft och framåt. Den utgår i stort från beskrivningen i SAG, men är mer entydig för att göra det möjligt att märka upp alla orden i en text med ordklasser. De tretton ordklasserna är del av en modell som också beskriver fraser och syntaxen för hela meningar. Vi har i dagsläget märkt upp en korpus om ungefär 100 000 ord, kallad Eukalyptus, med denna modell och texterna i korpusen har tagits från flera olika texttyper för att få med olika användning av språket. Framöver kommer de nya ordklasserna också att användas i våra korpusar i Korp, samt i analysverktygen i Sparv.
Modellen omfattar 13 övergripande ordklasser, nämligen adjektiv (AJ), adverb (AB), substantiv (NN), egennamn (EN), pronomen (PO), symboler (SY, inkluderar skiljetecken), verb (VB), interjektioner (IJ), samordnare (KO), numeral (NU), preposition (PE), underordnare (SU), samt utländskt ord (UO). Artiklar skiljs alltså inte ut som en egen ordklass, inte heller verbpartiklar, particip, ordningstal eller infinitivmärke.
En mer detaljerad beskrivning av ordklasskategoriseringen (på engelska) finns här: http://www.nejlt.ep.liu.se/2019/v6/a02/index.html
Korpusen Eukalyptus (i en tidig version med flera kända fel) finns att ladda ner här: https://spraakbanken.gu.se/resurser/eukalyptus