Meny

Koala – Korps lingvistiska annotationer

Projektet Koala -- Korps lingvistiska annotationer -- handlade om att utveckla en infrastruktur för text-baserad forskning med högkvalitativa annotationer.

Korpusinfrastrukturen Korp på Språkbanken (https://spraakbanken.gu.se) innehåller stora mängder text av olika typ och ålder, som används av forskare inom olika områden och av allmänheten. Texterna innehåller lingvistisk uppmärkning, annoteringar, som ordklasser och syntaktiska roller, vilka hjälper till att filtrera sökresultaten för användaren. De låter oss hitta "sjöng" och "sjungit" när vi söker efter "sjunga" och alla ställen där Caesar är objekt till verbet besegra utan att vi behöver titta på dem där han är subjektet, samt att vi inte behöver titta på meningar om lokaler när vi letar efter "lounge", utan kan fokusera på förekomsterna som handlar om djuret. Annoteringarnas kvalitet är avgörande för att få bra sökresultat, särskilt för forskare som annars kan behöva gå igenom tusentals irrelevanta meningar.

Målet för Koala-projektet är att förbättra annoteringarna, som har skapats automatiskt med välkända språkteknologiska metoder. Det görs genom att lägga till språklig kunskap i systemet via de många resurser som finns tillgängliga via Språkbanken, samt genom att kombinera de olika annoteringsverktygen för lexikal analys, ordklasstaggning, betydelsedisambiguering och syntaktisk analys till ett högkvalitativt system där annoteringar på ord- och meningsnivå informerar varandra och där systemet inte fattar beslut innan det har all tillgänglig information. De data och verktyg som blir resultatet kommer att göras fritt tillgängliga.

Projektet finansierades 2014-2016 av Riksbankens jubileumsfond.

Publikationer

Laddar...