Språkbanken Text deltar i ett projekt om utvärdering av svenska språkmodeller

14 augusti 2020

Språkbanken Text har tillsammans med Kungliga Biblioteket, forskningsinstitutet RISE och AI Innovation of Sweden beviljats projektmedel från Vinnova för projektet "SuperLim: en svensk testmängd för språkmodeller" (2020-2021).

Projektet ska lägga grunden för en testbädd för svenska språkmodeller liknande dem som redan existerar för engelska språket: GLUE och SuperGLUE. En sådan testbädd behövs för att vi ska kunna få bättre förståelse för hur väl de språkmodeller som vi utvecklar för svenska språket fungerar.

Hur väl en språkmodell fungerar handlar inte bara om korrekthet utan även om att kartlägga vilka snedvridningar modellerna ärver av den underliggande datan de har blivit tränade på. Säg exempelvis att en språkmodell är tränad på stora mängder text där det inte är ovanligt att uttrycka sig rasistiskt. Detta skulle kunna leda till att rasistiska strukturer kodas in i språkmodellen, vilket kan ge förödande konsekvenser om modellen senare används inom stödsystem för exempelvis vem en organisation ska anställa eller för hur en myndighet ska fatta ett beslut.

Även om det förstås alltid är viktigt att förhålla sig kritisk till den datan man tränar en modell på, så räcker inte det på långa vägar för att få en förståelse för hur en specifik språkmodell fungerar. Dels för att datamängderna typiskt är så pass stora att de är omöjliga att överblicka, dels för att vad en språkmodell lär sig av datamängderna kan vara något som uttrycks ytterst subtilt i den underliggande datan. Så det finns helt enkelt ett stort behov för en väl genomarbetad testbädd för våra svenska språkmodeller, inte bara för forskningen inom språkteknologi och AI utan för hela vårt samhälle där språkmodeller alltmer börjar användas, och det här projektet syftar till att lägga en solid grund för en sådan testbädd.

Se även: Projekt om svenska språkmodeller får forskningsmedel