Sammansättningsanalysen fungerar på det här viset:
Alla led i en sammansättning måste fylla följande krav:
- Ett prefix (alla led förutom det sista räknas som prefix) måste finnas i saldo som sammansättningsform (c, ci eller cm) och dess ordklass får inte vara "ppa". Finns prefixet inte i saldo så måste det förekomma som ett separat ord i samma indatafil.
- Ett suffix måste finnas i saldo som nomen/verb/adjektiv eller som suffix (ordklass slutar på "h") och saldoanalysen måste innehålla mer än bara "c", "ci", "cm" eller "sms". Dessutom måste msd-taggen av ordet vara kompatibel med saldoanalysen av suffixet. Finns suffixet inte i saldo så måste det ordet förekomma i indatafilen och vara taggat som nomen, verb eller adjektiv.
- Ett suffix accepteras inte om det är med i undantagslistan (enstaka bokstäver och vanliga suffix som "het" etc.).
Listan med alla valida sammansättningar av ett ord rankas sedan så här:
- Sammansättningar med färre led rankas högre.
- Sannolikheten av en sammansättning beräknas med följande formel:
- p((w1, tag1), ..., (wn, tag1)) = p(w1, tag1) · ... · p(wn, tagn) · p(tag1, ...tagn)
- t.ex. p(clown+bil) = p(clown, NN) · p(bil, NN) · p(NN,NN)
- p(w, tag) och p(tag, tag) beräknas med hjälp av olika statistikmodeller.