Token slås upp i Svenskt frasnät (SweFN, en lexikal-semantisk resurs som är baserad på teorin om ramsemantik) för att berikas med information om sina lexikala klasser. Därefter berikas dokument med information om lexikala klasser baserat på vilka klasser som är relevanta för token i dem.
SweFN-frekvensmodellen (tränad på Göteborgsposten 2008, SUC 3.0 och Bonniersromaner I (1976–77)) används som referens för att rangordna de SweFN-klasser som förekommer i varje dokument. Med hjälp av informationen om lexikala klasser på tokennivå beräknar och tilldelar modellen de mest relevanta klasserna för varje dokument. Dessa klasser filtreras och rangordnas baserat på sin frekvens och dominans jämfört med referensmaterialet.
Dominans avser i detta fallet den relativa betydelsen för en lexikal klass i ett givet dokument jämfört med ett referensmaterial. Dominansen beräknas genom att jämföra den observerade frekvensen av en lexikal klass i dokumentet med dess förväntade (relativa) frekvens i referensmaterialet.