Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

Arbetsdokument

Arbetsdokument: CONPLISIT

Fullformssökning

Vi kan göra två typer av fullformssökning i Litteraturbanken, mot SALDO eller mot Dalin. SALDO är i dagsläget mer utvecklat, men Dalin har ett annat vokabulär. En standardstrategi är att slå upp ett ord i SALDO, och får man ingen träff, så söker man istället i Dalin, men detta vill man nog låta användaren konfigurera.

Viktigast här är lemgram-identifieraren, vilket i SALDO skiljer sig från betydelseidentifierare genom att ordklassen är inkluderad i identifieraren (jämför lemgram-id:et elefant..nn.1 med betydelse-id:et elefant..1). Ett lemgram-id refererar till en grundform och en paradigmangivelse, vilket FM kompilerar till en böjningstabell (exempel: nn_3u_karbid+elefant).

Dalins lemgram-id ser något annorlunda ut, istället för ordklass, har den ett 'e', exempelvis elefant..e.1 (Dalin-FM: nn_3m_vers+elefant).

Vid fullformssökning så räcker den vanligtvis med att ange grundform+ordklass; betydelsebeskrivningen behövs inte. Se, till exempel, band i SALDO, som har sju betydelser, men två böjningstabeller, band+nn (band..nn.1) och binda+vb (binda..vb.1).

Vid fullformssökning vill man exkludera sammansättningsordklasserna som slutar på h (suffix), och xc (prefix), och flerordsordklasserna som slutar på m (det kommer vi ha i framtiden, men det kräver att det stödjs av korpusmaskineriet). Man vill även göra en viss filtrering av böjningstabellen och ta bort sammansättningsformer: ci, cm, och c.

Semantisk sökning

Dalins lemgram-identifierare har länkats till SALDOs betydelseidentifierare (en första approximation, eftersom länkning borde egentligen vara till Dalins egna betydelseidentifierare som i dagsläget inte existerar).

Dalin innehåller många sammansättningar som inte finns med i SALDO, vilket vi hanterar genom att koppla till sammansättningens huvud. Exempelvis har hund..1 länkats till andhund..e.1, bandhund..e.1, belghund..e.1, björnhund..e.1, blodhund..e.1, bondhund..e.1, bäfverhund..e.1, fasanhund..e.1, fyllhund..e.1, fågelhund..e.1, fårhund..e.1, fähund..e.1, gräfsvinshund..e.1, gårdshund..e.1, harhund..e.1, helveteshunden..e.1, hetshund..e.1, hjorthund..e.1, horhund..e.1, hund..e.1, jagthund..e.1, knähund..e.1, lapphund..e.1, lathund..e.1, lushund..e.1, rapphönshund..e.1, sjöhund..e.1, skälhund..e.1, slagtarhund..e.1, spetshund..e.1, spårhund..e.1, svetthund..e.1, svinhund..e.1, taxhund..e.1, vaktelhund..e.1, vakthund..e.1, vallhund..e.1, varghund..e.1, vattenhund..e.1, vildsvinshund..e.1, vindhund..e.1, vindthund..e.1.

Länkningen exemplifieras här med en rad från Dalins grundmaterial:

grundformmodern gfordklassparadigmgram.SALDOlemgramingångstyp
hundhundnnnn_2m_ulfm. 2.hund..1hund..e.1prm

Länkningen till SALDO ger tillgång till alla lexikala relationer inom SweFN++.

Den lexikala relation vi har valt att börja med för den semantiska sökningen är md1, vilket är en betydelses mor, far, m-syskon och m-barn. Ett annat sätt att uttrycka det är att det är betydelser på avstånd ett, på huvudsakligen morssidan, från aktuell betydelse, givet att syskon anses vara ett steg ifrån varandra.

Vid semantisk sökning blir semantisk disambiguering oundvikligt. Jämför, till exempel, md1 för band..3 med band..4. Se även md1 på Dalin-sidan: band..3 och band..4.

Det finns otaliga varianter av md1-sökningen, några är:

  • Söka i SALDO, välja betydelse, för att därefter söka efter alla ordformer i md1.
  • Söka i SALDO, välja betydelse, och låta användaren välja bland besläktade ord (md1). Här vill man nog ta bort de som inte ger några träffar.
  • Söka i SALDO, välja betydelse, och söka efter all ordformer i md1 på Dalinsidan (bortsett från Dalins ordformer, får man även sammansättningarna, som för hund..1 ovan).
  • Söka i SALDO, välja betydelse, och låta användare välja på Dalinsidan.
  • Göra allt på Dalinsidan.
  • Man kan även vilja reducera md1 till ord med samma ordklass som aktuell betydelse.

I framtiden, när vi har bättre annoteringar, så kommer sökningar göras på identifierarna, inte ordformerna.