Hoppa till huvudinnehåll

Varför får vissa ord ingen grundform-annotation i Sparv?

Att Sparv ibland inte lyckas ta fram grundform/lemgram/SALDO-ID beror på att Hunpostaggaren är tränad på SUC-taggar medan SALDO har en egen taggmängd. Sparv gör först ordklasstaggningen och kollar sedan upp om det finns en match i SALDO för att ta fram en grundform, ett lemgram och ett SALDO-ID. Ibland blir det ingen match eftersom indelningen i ordklasser fungerar inte på samma sätt i SUC och SALDO. Vi skulle kunna strunta i ordklassen och ta fram alla matchande ord från SALDO, men då skulle vi övergenerera en massa. "Smulorna" skulle då t.ex. få två lemgram: "smula..nn.1" och "smula..vb.1", och det vill vi inte.

Här kommer några exempel:

  • "Vintern är förbi."
    • "förbi" taggas som partikel (SUC), men finns i SALDO som adjektiv och preposition.
  • "Det blir många."
    • "många" taggas som adjektiv men finns i SALDO som pronomen ("mången").
  • "Det finns många som tycker att det är bra."
    • "många" taggas som pronomen och matchar pronomen "mången..pn.1" i SALDO.
    • "som" taggas som frågande/relativt pronomen (SUC), men finns i SALDO som subjunktion eller adverb.
  • "Du är precis som jag."
    • "som" taggas som adverb och matchar därmed adverbet "som..ab.1" i SALDO.