Hoppa till huvudinnehåll

Hur fungerar Sparvs sammansättningsanalys?

Sammansättningsanalysen fungerar på det här viset:

Alla led i en sammansättning måste fylla följande krav:

  • Ett prefix (alla led förutom det sista räknas som prefix) måste finnas i saldo som sammansättningsform (c, ci eller cm) och dess ordklass får inte vara "ppa". Finns prefixet inte i saldo så måste det förekomma som ett separat ord i samma indatafil.
  • Ett suffix måste finnas i saldo som nomen/verb/adjektiv eller som suffix (ordklass slutar på "h") och saldoanalysen måste innehålla mer än bara "c", "ci", "cm" eller "sms". Dessutom måste msd-taggen av ordet vara kompatibel med saldoanalysen av suffixet. Finns suffixet inte i saldo så måste det ordet förekomma i indatafilen och vara taggat som nomen, verb eller adjektiv.
  • Ett suffix accepteras inte om det är med i undantagslistan (enstaka bokstäver och vanliga suffix som "het" etc.).

Listan med alla valida sammansättningar av ett ord rankas sedan så här:

  • Sammansättningar med färre led rankas högre.
  • Sannolikheten av en sammansättning beräknas med följande formel:   
    • p((w1, tag1), ..., (wn, tag1)) = p(w1, tag1) · ... · p(wn, tagn) · p(tag1, ...tagn)
    • t.ex. p(clown+bil) = p(clown, NN) · p(bil, NN) · p(NN,NN)
  • p(w, tag) och p(tag, tag) beräknas med hjälp av olika statistikmodeller.