Svenskt frasnät++ (SweFN++)

Paraplyprojekt

Språkbankens lexikala forskningsinfrastruktur

Bakgrund

Detta projekt finansieras av flera projekt, bland annat: VR/RFI 2011-2014 (dnr 2010-6013), med särskilda medel från Göteborgs universitet till styrkeområdet språkteknologi (2009-2015), samt med infrastrukturanslag till Språkbanken (2016-). En fullständig lista över finansiärerna finns i bidragande projekt.

Projektbeskrivning

SweFN++-projektet handlar om att skapa en central infrastrukturkomponent för svensk språkteknologi, nämligen en stor fritt tillgänglig lexikonresurs med rik lingvistisk information. Man kan säga att den planerade resursen kommer slå en bro mellan det förflutna och framtiden:

Det förflutna, därför att vi vill återanvända en rad fria lexikonresurser som har tagits fram i olika projekt vid olika tidpunkter av olika forskargrupper, men som sen har fått mindre användning än de förtjänar främst på grund av idiosynkratiska format och brist på driftsmedel för att underhålla resurserna;

Framtiden, därför att vi till de integrerade befintliga resurserna vill lägga den typ av avancerad och mycket användbar semantisk och syntaktisk information om orden som man finner i det engelska Berkeley FrameNet (BFN) och några få liknande resurser för andra språk, ett arbete som vi planerar att göra i samarbete med den forskargrupp som står bakom BFN.

Eftersom dessa befintliga lexikonresurser representerar stora insatser i möda och pengar och eftersom de i många fall innehåller högvärdig språklig information, vill vi alltså rädda så mycket som möjligt av dem från förgängelsen samt vidareutveckla dem.

Det tilltänkta slutresultatet går under arbetsnamnet Svenskt frasnät++ (Swedish FrameNet++; SweFN++), där "++" signalerar att resursen redan från början kommer att innehålla betydligt mer information och även mer varierad information än bara frasnätet. Speciellt kan nämnas att SweFN++ planeras som en diakronisk resurs, alltså att vi i den kommer att integrera lexikonresurser som beskriver flera olika historiska stadier av svenska, i första omgången Dalins stora ordbok från mitten av 1800-talet, som har digitaliserats i Språkbanken.

Följande principer är vägledande för integrationsarbetet:

Interoperabilitet: De resurser som står till vårt förfogande har kommit till vid olika tidpunkter och för olika ändamål. Först under senare år har insikten om vikten av standardisering på allvar börjat slå igenom i språkteknologiforskargemenskapen, något som avspeglas bl.a. i bildandet av en ISO-kommitté för språkresursstandardisering. Integrering innebär följaktligen för oss inte bara att de befintliga resursernas format och innehåll anpassas inbördes, utan även -- kanske viktigare -- att resultatet blir ´framtidssäkert´ så att det kan återanvändas i många olika sammanhang genom att vi använder oss av befintliga och framväxande standarder.
Öppet innehåll: Vårt mål är att SweFN++ ska bli en fri lexikonresurs för svensk språkteknologi. Med "fri" menar vi att den görs tillgänglig under en licens som gör den till öppen källkod/öppet innehåll (Open Source/Open Content). Mer specifikt kommer vi att använda en dubbel licens, nämligen GNU LGPL och Creative Commons (CC) BY-SA, som gör resursen tillgänglig både för forskning och för kommersiella ändamål.
Metodutveckling: Med begränsade ekonomiska och personella resurser är det orealistiskt att tro att vi ska kunna nå vårt mål -- att SweFN++ förutom att integrera huvuddelen av de befintliga resurserna, även ska innehålla frasnätsinformation för 50.000 lexikonenheter -- med enbart manuellt arbete. Ett uttryckligt mål i projektet är således att skapa ett arbetsflöde där automatiska metoder och befintliga språkteknologiverktyg används i största möjliga utsträckning, och manuellt arbete sätts in enbart där det är absolut oundgängligt och/eller där det ger mest utdelning för insatsen.

I samband med den sistnämnda punkten uppstår många intressanta metodologiska frågor som ska utforskas under projektets gång:

Hur kan vi använda existerande information i resurserna för att automatiskt tillföra saknad information? Kan vi använda oss av korpusverktyg, t.ex. en parser, och utifrån ords syntaktiska kontext i korpusar plus deras semantiska egenskaper hel- eller halvautomatiskt komplettera vår resurs med syntaktisk valens för ord som inte finns i det syntaktiska lexikonet?

Hur kan vi utforma en användarmiljö där flera personer kan arbeta samtidigt med olika delresurser men där vi ändå kan säkerställa att resurserna hålls synkroniserade?

Alla dessa frågor och många andra hoppas vi kunna utforska med hjälp av de tillgångar som vi har i Språkbanken i form av lexikonresurser, korpusar och verktyg för språklig uppmärkning av korpusar, för att så småningom kunna erbjuda svensk språkteknologi en högvärdig, framtidssäker och fritt tillgänglig lexikonresurs i form av SweFN++.

Paraplyprojekt

Bakgrund

Projektbeskrivning

Utvecklingsversionen

Lexikonresurser

Länkar

Projektlängd

Projektmedlemmar

Finansiering

Forskningsområden

Projekttyp