Svenska språket under medeltiden, fornsvenska (ca 1225-1526), finns bevarat i manuskript, brev och tidigt tryck. Dessa dokument är värdefulla för många olika forskare, såsom lingvister intresserade av svenska språkets förändring under den tiden, juridikforskare som vill undersöka medeltida lagar, teologer som studerar tidiga översättningar av bibeltexter, eller medicin-historiker som är intresserade av medeltida folkläkekonst.
I MAÞiR-projektet -- Metoder för automatisk Analys av Text i digitala Historiska Resurser -- skapar vi verktyg för automatisk lingvistisk analys av fornsvenska. Projektet är relaterat till Språkbankens satsning på historiska resurser, Diabase, och ligger inom forskningområdet datalingvistik, vetenskapen om datamaskinell språkbehandling och datorstödd språkforskning. Genom att lägga till grammatisk information i digitaliserade fornsvenska texter underlättar vi studier av detta kulturarv och möjliggör nya sätt att undersöka det.
Att utveckla verktyg för fornsvenska är en utmanande forskningsuppgift, även med de främsta datalingvistiska metoderna. Detta beror på egenskaper i de fornsvenska texterna. För det första förändrades språket under den fornsvenska tiden vad gäller till exempel ordföljd och ordböjning. För det andra fanns ingen rättstavning i dagens bemärkelse. Samma ord kunde stavas på flera olika sätt. Ordet "maþir", som betyder man eller människa, stavades till exempel även "mæþr", "mander" eller "meþer". Man kan till och med se olika stavningar för samma ord i ett enda stycke. För det tredje skiljer sig språket mycket åt mellan texterna. Det har gått 300 år mellan de äldsta och de yngsta texterna, och de kommer från olika geografiska områden och är av olika typ. För det fjärde kräver de flesta automatiska metoder antingen en mycket detaljerad datamaskinell beskrivning av ett språk, eller en större mängd text som redan har lingvistisk uppmärkning som datorn kan lära sig av. Inget av detta finns i dagsläget för fornsvenska. Kärnan i MAÞiR-projektet är att utforska sätt att hantera dessa utmaningar i det fornsvenska materialet.
Projektet finansieras 2014-2016 av Stiftelsen Marcus och Amalia Wallenbergs Minnesfond.