Att Sparv ibland inte lyckas ta fram grundform/lemgram/SALDO-ID beror på att Hunpostaggaren är tränad på SUC-taggar medan SALDO har en egen taggmängd. Sparv gör först ordklasstaggningen och kollar sedan upp om det finns en match i SALDO för att ta fram en grundform, ett lemgram och ett SALDO-ID. Ibland blir det ingen match eftersom indelningen i ordklasser fungerar inte på samma sätt i SUC och SALDO. Vi skulle kunna strunta i ordklassen och ta fram alla matchande ord från SALDO, men då skulle vi övergenerera en massa. "Smulorna" skulle då t.ex. få två lemgram: "smula..nn.1" och "smula..vb.1", och det vill vi inte.
Här kommer några exempel:
- "Vintern är förbi."
- "förbi" taggas som partikel (SUC), men finns i SALDO som adjektiv och preposition.
- "Det blir många."
- "många" taggas som adjektiv men finns i SALDO som pronomen ("mången").
- "Det finns många som tycker att det är bra."
- "många" taggas som pronomen och matchar pronomen "mången..pn.1" i SALDO.
- "som" taggas som frågande/relativt pronomen (SUC), men finns i SALDO som subjunktion eller adverb.
- "Du är precis som jag."
- "som" taggas som adverb och matchar därmed adverbet "som..ab.1" i SALDO.