Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

Swesaurus

Citering Information

Språkbanken Text (2017). Swesaurus (uppdaterad: 2017-09-19). [Data set]. Språkbanken Text. https://doi.org/10.23695/w5ww-x964
BibTeX Ytterligare sätt att citera datamängden.
Ett svenskt ordnät

Introduktion

Swesaurus är ett fritt svenskt ordnät, som bygger på så kallade luddiga synonymmängder (även luddiga synsets). Det återanvänder information om lexikalisk-semantiska relationer från flera fritt tillgängliga lexikala resurser för svenska.

  • SALDO - en lexikalisk-semantisk resurs för svenska
  • Synlex - en svensk synonymlista med grad av synonymi
  • SDB (Semantisk databas) - en lexikalisk databas
  • Wiktionary - ett webbaserat projekt för att kollaborativt skapa ett fritt lexikon
  • Princeton Core WordNet

Vi har utforskat två sätt att koppla synonympar från Synlex till ord i SALDO med olika betydelser. Det första handlar om det transitiva höljet. En transitiv relation betyder att om något gäller för A och B, och för B och C, så gäller det också för A och C. Om vi till exempel veta att en elefant är större än en kamel och att en kamel är större än en katt, så vet vi också automatiskt att en elefant är större än en katt. Synonymi är en transitiv relation, vilket innebär att om vi vet att A är synonymt med B och B med C, så följer med automatik att A är synonymt med C. Med andra ord, synonymparet A-C kan härledas från de explicit angivna synonymparen A-B och B-C. Den mängd objekt man får om man räknar ut alla transitivitetsrelationer för något eller några av orden kallas det transitiva höljet. I vårt fall kan man tänka på det transitiva höljet som en ’kedja’ av ordbetydelser där varje länk i kedjan ges av ett synonympar. Till exempel, det transitiva höljet för synonymparen barn-parvel, parvel-pys och pys-knatte är synonymmängden {barn, parvel, pys, knatte}. Resultatet blir en uppsättning av rimliga synonymmängder, men också en återstående ensam synonymmängd med flera tusen ordbetydelser. Vi minskade den största synonymmängden genom kravet att en synonymmängd endast får bestå av ord i samma ordklass, men antalet ordbetydelser i den kan fortfarande räknas i tusental.

Den andra metoden för att koppla ihop synonympar är klickar. En klick är en mängd ord där alla är synonymer till varandra. Beräkningen av klickar gav inga onormalt stora synonymmängder, men däremot andra problem. Till exempel förekommer ordbetydelser ibland i fler än en synonymmängd, vilket strider mot vad man i ordnätssammanhang brukar mena med ordbetydelse. Vi experimenterar med olika sätt att hantera detta. Vi kan till exempel utgå från de klickar som har en eller flera gemensamma ordbetydelser och härleda saknade synonympar som, om de existerade, skulle förena klickarna till en klick. Detta ger par av god kvalitet.

Resurser

Ladda ner utvecklingsversionen av Swesaurus

Här finns synonymmängderna från experimenten med SALDO och Synlex. Synlex kom till efter att användare av ett nätlexikon fick bedöma synonympar, där 0 betydde att de inte var synonymer, och 5 betydde att de hade samma betydelse. 60% nedan betyder att ordparen i genomsnitt fick betyget 3 eller högre, och 100% betyder att ordparen fick betyget 5 i genomsnitt. -->
Fil Storlek Modifierad Licens
swesaurus.xml
lexikon (LMF)
12.16 MB 2017-09-19 CC BY 4.0
attribution

Typ

  • Lexikon

Språk

svenska

Storlek

Ingångar: 15 010

Updaterad

2017-09-19

Kontakt

Språkbanken
sb-info@svenska.gu.se