swefn

Lars Borin, Dana Dannélls, Markus Forsberg, Karin Friberg Heppin, Richard Johansson, Dimitrios Kokkinakis, Leif-Jöran Olsson, Maria Toporowska Gronostaj, Jonatan Uppström.

Följ utvecklingen via RSS.

Svenskt frasnÀt++ (SweFN++)

Detta projekt finansieras av VR/RFI 2011-2013 (dnr 2010-6013) samt med sÀrskilda medel frÄn Göteborgs universitet till styrkeomrÄdet sprÄkteknologi (2009-2015).

SweFN++-projektet handlar om att skapa en central infrastrukturkomponent för svensk sprÄkteknologi, nÀmligen en stor fritt tillgÀnglig lexikonresurs med rik lingvistisk information. Man kan sÀga att den planerade resursen kommer slÄ en bro mellan det förflutna och framtiden:

Det förflutna, dÀrför att vi vill ÄteranvÀnda en rad fria lexikonresurser som har tagits fram i olika projekt vid olika tidpunkter av olika forskargrupper, men som sen har fÄtt mindre anvÀndning Àn de förtjÀnar frÀmst pÄ grund av idiosynkratiska format och brist pÄ driftsmedel för att underhÄlla resurserna;

framtiden, dÀrför att vi till de integrerade befintliga resurserna vill lÀgga den typ av avancerad och mycket anvÀndbar semantisk och syntaktisk information om orden som man finner i det engelska Berkeley FrameNet (BFN) och nÄgra fÄ liknande resurser för andra sprÄk, ett arbete som vi planerar att göra i samarbete med den forskargrupp som stÄr bakom BFN.

Eftersom dessa befintliga lexikonresurser representerar stora insatser i möda och pengar och eftersom de i mÄnga fall innehÄller högvÀrdig sprÄklig information, vill vi alltsÄ rÀdda sÄ mycket som möjligt av dem frÄn förgÀngelsen samt vidareutveckla dem.

Det tilltÀnkta slutresultatet gÄr under arbetsnamnet Svenskt frasnÀt++ (Swedish FrameNet++; SweFN++), dÀr "++" signalerar att resursen redan frÄn början kommer att innehÄlla betydligt mer information och Àven mer varierad information Àn bara frasnÀtet. Speciellt kan nÀmnas att SweFN++ planeras som en diakronisk resurs, alltsÄ att vi i den kommer att integrera lexikonresurser som beskriver flera olika historiska stadier av svenska, i första omgÄngen Dalins stora ordbok frÄn mitten av 1800-talet, som har digitaliserats i SprÄkbanken.

Följande principer Àr vÀgledande för integrationsarbetet:

  • Interoperabilitet: De resurser som stĂ„r till vĂ„rt förfogande har kommit till vid olika tidpunkter och för olika Ă€ndamĂ„l. Först under senare Ă„r har insikten om vikten av standardisering pĂ„ allvar börjat slĂ„ igenom i sprĂ„kteknologiforskargemenskapen, nĂ„got som avspeglas bl.a. i bildandet av en ISO-kommittĂ© för sprĂ„kresursstandardisering. Integrering innebĂ€r följaktligen för oss inte bara att de befintliga resursernas format och innehĂ„ll anpassas inbördes, utan Ă€ven -- kanske viktigare -- att resultatet blir ÂŽframtidssĂ€kertÂŽ sĂ„ att det kan Ă„teranvĂ€ndas i mĂ„nga olika sammanhang genom att vi anvĂ€nder oss av befintliga och framvĂ€xande standarder.
  • Öppet innehĂ„ll: VĂ„rt mĂ„l Ă€r att SweFN++ ska bli en fri lexikonresurs för svensk sprĂ„kteknologi. Med "fri" menar vi att den görs tillgĂ€nglig under en licens som gör den till öppen kĂ€llkod/öppet innehĂ„ll (Open Source/Open Content). Mer specifikt kommer vi att anvĂ€nda en dubbel licens, nĂ€mligen GNU LGPL och Creative Commons (CC) BY-SA, som gör resursen tillgĂ€nglig bĂ„de för forskning och för kommersiella Ă€ndamĂ„l.
  • Metodutveckling: Med begrĂ€nsade ekonomiska och personella resurser Ă€r det orealistiskt att tro att vi ska kunna nĂ„ vĂ„rt mĂ„l -- att SweFN++ förutom att integrera huvuddelen av de befintliga resurserna, Ă€ven ska innehĂ„lla frasnĂ€tsinformation för 50.000 lexikonenheter -- med enbart manuellt arbete. Ett uttryckligt mĂ„l i projektet Ă€r sĂ„ledes att skapa ett arbetsflöde dĂ€r automatiska metoder och befintliga sprĂ„kteknologiverktyg anvĂ€nds i största möjliga utstrĂ€ckning, och manuellt arbete sĂ€tts in enbart dĂ€r det Ă€r absolut oundgĂ€ngligt och/eller dĂ€r det ger mest utdelning för insatsen.

I samband med den sistnÀmnda punkten uppstÄr mÄnga intressanta metodologiska frÄgor som ska utforskas under projektets gÄng:

Hur kan vi anvÀnda existerande information i resurserna för att automatiskt tillföra saknad information? Kan vi anvÀnda oss av korpusverktyg, t.ex. en parser, och utifrÄn ords syntaktiska kontext i korpusar plus deras semantiska egenskaper hel- eller halvautomatiskt komplettera vÄr resurs med syntaktisk valens för ord som inte finns i det syntaktiska lexikonet?

Hur kan vi utforma en anvÀndarmiljö dÀr flera personer kan arbeta samtidigt med olika delresurser men dÀr vi ÀndÄ kan sÀkerstÀlla att resurserna hÄlls synkroniserade?

Alla dessa frÄgor och mÄnga andra hoppas vi kunna utforska med hjÀlp av de tillgÄngar som vi har i SprÄkbanken i form av lexikonresurser, korpusar och verktyg för sprÄklig uppmÀrkning av korpusar, för att sÄ smÄningom kunna erbjuda svensk sprÄkteknologi en högvÀrdig, framtidssÀker och fritt tillgÀnglig lexikonresurs i form av SweFN++.

Utvecklingsversionen

Resursen sprids under licensen
Creative Commons BY.

  • Utvecklingsversionen av det svenska frasnĂ€tet: CSV
  • ++ under utveckling: resurser
  • Arbetsrapport för svenskt frasnĂ€t (ej uppdaterad): swefn-dbdok.pdf

Lexikonresurser

LĂ€nkar

© Göteborgs universitet 2009, Box 100, 405 30 Göteborg
Tel +46 31 786 0000, Kontakt

Om webbplatsen

X
Laddar