Lars Borin, Dana Dannélls, Markus Forsberg, Karin Friberg Heppin, Richard Johansson, Dimitrios Kokkinakis Leif-Jöran Olsson, Maria Toporowska Gronostaj. Jonatan Uppström. Kaarlo Voionmaa.
Följ utvecklingen via
RSS.
Detta projekt finansieras av VR/RFI 2011-2013 (dnr 2010-6013) samt med sÀrskilda medel frÄn Göteborgs universitet till styrkeomrÄdet sprÄkteknologi.
SweFN++-projektet handlar om att skapa en central infrastrukturkomponent för svensk sprÄkteknologi, nÀmligen en stor fritt tillgÀnglig lexikonresurs med rik lingvistisk information. Man kan sÀga att den planerade resursen kommer slÄ en bro mellan det förflutna och framtiden:
Det förflutna, dÀrför att vi vill ÄteranvÀnda en rad fria lexikonresurser som har tagits fram i olika projekt vid olika tidpunkter av olika forskargrupper, men som sen har fÄtt mindre anvÀndning Àn de förtjÀnar frÀmst pÄ grund av idiosynkratiska format och brist pÄ driftsmedel för att underhÄlla resurserna;
framtiden, dÀrför att vi till de integrerade befintliga resurserna vill lÀgga den typ av avancerad och mycket anvÀndbar semantisk och syntaktisk information om orden som man finner i det engelska Berkeley FrameNet (BFN) och nÄgra fÄ liknande resurser för andra sprÄk, ett arbete som vi planerar att göra i samarbete med den forskargrupp som stÄr bakom BFN.
Eftersom dessa befintliga lexikonresurser representerar stora insatser i möda och pengar och eftersom de i mÄnga fall innehÄller högvÀrdig sprÄklig information, vill vi alltsÄ rÀdda sÄ mycket som möjligt av dem frÄn förgÀngelsen samt vidareutveckla dem.
Det tilltÀnkta slutresultatet gÄr under arbetsnamnet Svenskt frasnÀt++ (Swedish FrameNet++; SweFN++), dÀr "++" signalerar att resursen redan frÄn början kommer att innehÄlla betydligt mer information och Àven mer varierad information Àn bara frasnÀtet. Speciellt kan nÀmnas att SweFN++ planeras som en diakronisk resurs, alltsÄ att vi i den kommer att integrera lexikonresurser som beskriver flera olika historiska stadier av svenska, i första omgÄngen Dalins stora ordbok frÄn mitten av 1800-talet, som har digitaliserats i SprÄkbanken.
Följande principer Àr vÀgledande för integrationsarbetet:
I samband med den sistnÀmnda punkten uppstÄr mÄnga intressanta metodologiska frÄgor som ska utforskas under projektets gÄng:
Hur kan vi anvÀnda existerande information i resurserna för att automatiskt tillföra saknad information? Kan vi anvÀnda oss av korpusverktyg, t.ex. en parser, och utifrÄn ords syntaktiska kontext i korpusar plus deras semantiska egenskaper hel- eller halvautomatiskt komplettera vÄr resurs med syntaktisk valens för ord som inte finns i det syntaktiska lexikonet?
Hur kan vi utforma en anvÀndarmiljö dÀr flera personer kan arbeta samtidigt med olika delresurser men dÀr vi ÀndÄ kan sÀkerstÀlla att resurserna hÄlls synkroniserade?
Alla dessa frÄgor och mÄnga andra hoppas vi kunna utforska med hjÀlp av de tillgÄngar som vi har i SprÄkbanken i form av lexikonresurser, korpusar och verktyg för sprÄklig uppmÀrkning av korpusar, för att sÄ smÄningom kunna erbjuda svensk sprÄkteknologi en högvÀrdig, framtidssÀker och fritt tillgÀnglig lexikonresurs i form av SweFN++.
Resursen sprids under licensen
.