Meny

Annotationer från Sparv

För texter som är skrivna i nusvenska kan Sparv generera följande typer av annotationer:

 • Ordklasstaggning:

  • pos: ordklasstagg (av engelskans 'part of speech')
  • msd: morfosyntaktisk tagg

  Verktyg: Hunpos
  Modell: egen modell tränad på SUC 3.0
  Taggmängd: MSD-taggar

 • SALDO-baserade analyser:

  • baseform: grundform
  • lemgram: lemgram, en formenhet som identifierar böjningstabellen (använder SALDO taggar)
  • sense: identifierar en betydelse i SALDO samt dess sannolikhet
  • (saldo: identifierar en betydelse i SALDO - kommer att tas bort snart)
  • sentiment: attitydvärde
 • Sammansättningsanalys (också baserad på SALDO):

  • complemgram: sammansatt lemgram
  • compwf: sammansatt ordform
  • (prefix: förled vid sammansättningar - kommer att tas bort snart)
  • (suffix: efterled vid sammansättningar - kommer att tas bort snart)
 • Dependensanalys:

  • ref: ordets position i meningen
  • dephead: dependenshuvud, ref för det ord som detta ord modifierar eller är beroende av
  • deprel: dependensrelation, den relation detta ord har till sitt dependenshuvud

  Verktyg: MaltParser
  Modell: swemalt, tränad på Svensk trädbank
  Taggmängd: Mamba-Dep

 • Namnigenkänning:

  • ne.ex: namnentitet (namnuttryck, numerisk uttryck eller tidsuttryck)
  • ne.type: namnentitetstyp
  • ne.subtype: namnentitetsundertyp

  Verktyg: hfst-SweNER
  Referenser: HFST-SweNER – A New NER Resource for Swedish, Reducing the effect of name explosion

 • Läsbarhetsindex:

  • text.lix: LIX, läsbarhetsindex
  • text.ovix: OVIX, ordvariationsindex
  • text.nk: Nominalkvot
 • Lexikala klasser:

  • blingbring: lexikala klasser från Blingbring-resursen (på ordnivå)
  • swefn: ramar fråm swedish FrameNet (på ordnivå)
  • text.blingbring: lexikala klasser från Blingbring-resursen (på dokumentnivå)
  • text.swefn: ramar fråm swedish FrameNet (på dokumentnivå)

Äldre svenska texter eller texter som är skrivna på andra språk kan i vissa fall märkas upp med en delmängd av ovanstående annotationstyper.

Annotationen msd för icke-svenska språk är baserad på olika taggmängder, beroende på språket och på vilket verktyg som har använts för annotationen. Attributet innehåller information om ordklass och i många fall även morfosyntaktisk information. Annotationen pos innehåller enbart orklassinformation och använder sig av taggmängden "universal POS tags".