Meny

Annotationer från Sparv

Den här sidan ger en översikt över analyser som är tillgängliga i Sparvs korpuspipeline och i Sparv-plugins som utvecklas på Språkbanken.

annotationer är de fullständiga namnen på annotationerna som listas i korpus-configfilen i export.annotations-sektionen (läs mer om detta i Sparvs användarhandledning). Observera att annotationerna har kortare namn i korpusexporten.

annoterare är namnen på annoteringsfunktionerna (inklusive modulnamnen) som används för att producera annotationerna. Dessa kan köras för sig med kommandot sparv run-rule [annoterare] men oftast behöver detta inte göras, då annoteringsfunktionerna körs automatisk vid sparv run kommandot för alla annotationer som är listade i korpus-configfilen.

Analyser för modern svenska (nusvenska)

Dessa analyser är tillgängliga i Sparv och kan användas för korpusar i modern svenska. Av olika anledningar används inte alla analyser för korpusarna i Korp.

  • Meningssegmentering med PunktSentenceTokenizer

  • Tokenisering

    • beskrivning: Meningar delas upp i tokens.
    • modell:
    • metod: Specialbyggd tokeniserare som bygger på reguljära uttryck och listor med ord innehållande specialtecken och vanliga förkortningar. Sparvs version är anpassad för svenska, men den går även att konfigurera för andra språk.
    • annotationer:
      • segment.token: tokensegment
    • annoterare: segment.tokenize
  • Ordklasstaggning med Stanza

    • beskrivning: Meningar analyseras för att berika varje token med ordklasser och morfosyntaktisk information.
    • verktyg: Stanza
    • modell: https://spraakbanken.gu.se/resurser/stanza_morph
    • taggmängd:
    • annotationer:
      • <token>:stanza.pos: ordklasstagg
      • <token>:stanza.msd: morfosyntaktisk tagg
      • <token>:stanza.ufeats: universella morfologiska särdrag (features)
    • annoterare: stanza.msdtag
  • Översättning från SUC till UPOS

    • beskrivning: SUC-ordklasser översätts till UPOS. Används ej som standard eftersom översättningen inte är helt pålitlig.
    • modell: Metod saknar modell. En översättningstabell används.
    • taggmängd: Universal POS tags
    • annotationer:
      • <token>:misc.upos: UPOS (universella ordklasstaggar)
    • annoterare: misc.upostag
  • Ordklasstaggning med Hunpos

    • beskrivning: Meningar analyseras för att berika varje token med ordklasser och morfosyntaktisk information. Används ej längre som standard eftersom Stanzas ordklasstaggning ger bättre resultat.
    • verktyg: Hunpos
    • modell: suc3suc-tagsdefault-setting_utf8.model
    • metod: Modellen är tränad på SUC 3.0.
    • taggmängd: SUCs MSD-taggar
    • annotationer:
      • <token>:hunpos.msd: morfosyntaktisk tagg
      • <token>:hunpos.pos: ordklasstagg
    • annoterare:
      • hunpos.msdtag
      • hunpos.postag
  • Dependensparsning med Stanza

    • beskrivning: Meningar analyseras för att berika tokens med dependensinformation.
    • verktyg: Stanza
    • modell: https://spraakbanken.gu.se/resurser/stanza_synt
    • taggmängd: Mamba-Dep
    • annotationer:
      • <token>:stanza.ref: ordets position i meningen
      • <token>:stanza.dephead_ref: dependenshuvud, ref för det ord som detta ord modifierar eller är beroende av
      • <token>:stanza.deprel: dependensrelation, den relation detta ord har till sitt dependenshuvud
    • annoterare:
      • stanza.dep_parse
      • stanza.make_ref
  • Dependensparsning med MaltParser

    • beskrivning: Meningar analyseras för att berika tokens med dependensinformation. Används ej längre som standard eftersom Stanzas dependensanalys ger bättre resultat.
    • verktyg: MaltParser
    • modell: swemalt
    • metod: Modellen är tränad på Svensk trädbank.
    • taggmängd: Mamba-Dep
    • annotationer:
      • <token>:malt.ref: ordets position i meningen
      • <token>:malt.dephead_ref: dependenshuvud, ref för det ord som detta ord modifierar eller är beroende av
      • <token>:malt.deprel: dependensrelation, den relation detta ord har till sitt dependenshuvud
    • annoterare:
      • malt.annotate
      • malt.make_ref
  • Frasstrukturparsning

    • beskrivning: Mamba-Dep dependenser framtagna av dependensanalysen konverteras till frasstrukturer. Används ej i Korp på grund av inkompatibilitet med Corpus Workbench.
    • modell: Metod saknar modell.
    • annotationer:
      • phrase_structure.phrase: frassegment
      • phrase_structure.phrase:phrase_structure.name: namnet av frassegmentet
      • phrase_structure.phrase:phrase_structure.func: funktionen av frassegmentet
    • annoterare: phrase_structure.annotate
  • SALDO-baserade analyser

    • beskrivning: Tokens och deras ordklasser slås upp i SALDO-lexikonet för att få fram ytterligare egenskaper.
    • modell: SALDOs morfologi
    • taggmängd: SALDO taggar för lemgram
    • annotationer:
      • <token>:saldo.baseform: grundform
      • <token>:saldo.lemgram: lemgram, en formenhet som identifierar böjningstabellen
      • <token>:saldo.sense: identifierar en betydelse i SALDO
    • annoterare: saldo.annotate
  • Grundformanalys från Stanza

    • beskrivning: Meningar analyseras för att berika tokens med grundformer. Används ej i Korp. Grundformer annoteras istället med SALDO.
    • verktyg: Stanza
    • modell: https://spraakbanken.gu.se/resurser/stanza_synt
    • annotationer:
      • <token>:stanza.baseform: grundform
    • annoterare: stanza.annotate_swe
  • Betydelsedesambiguering

  • Sammansättningsanalys med SALDO

    • beskrivning: Tokens och deras ordklasser slås upp i SALDO-lexikonet för att få fram information om sammansättningar. Se även FAQ. Grundformer utökas i det här analyssteget.
    • modell:
    • annotationer:
      • <token>:saldo.complemgram: sammansatta lemgram samt deras jämförelsetal
      • <token>:saldo.compwf: sammansatta ordformer
      • <token>:saldo.baseform2: grundform
    • annoterare: saldo.compound
  • Sentimentanalys med SenSALDO

    • beskrivning: Tokens och deras SALDO-ID:n slås upp i SenSALDO för att berika dessa med attitydvärden.
    • modell: SenSALDO
    • annotationer:
      • <token>:sensaldo.sentiment_label: attityd
      • <token>:sensaldo.sentiment_score: attitydvärde
    • annoterare: sensaldo.annotate
  • Namnigenkänning med HFST-SweNER

    • beskrivning: Meningar analyseras och berikas med namnentiteter.
    • verktyg: hfst-SweNER
    • modell: följer med verktyget
    • referenser:
    • annotationer:
      • swener.ne: namnsegment
      • swener.ne:swener.name: texten i hela namnsegmentet
      • swener.ne:swener.ex: namnentitet (namnuttryck, numerisk uttryck eller tidsuttryck)
      • swener.ne:swener.type: namnentitetstyp
      • swener.ne:swener.subtype: namnentitetsundertyp
    • annoterare: swener.annotate
  • Läsbarhetsindex

    • beskrivning: Dokument analyseras för att berika dessa med läsbarhetsvärden.
    • modell: Metod saknar modell.
    • annotationer:
      • <text>:readability.lix: LIX, läsbarhetsindex
      • <text>:readability.ovix: OVIX, ordvariationsindex
      • <text>:readability.nk: Nominalkvot
    • annoterare:
      • readability.lix
      • readability.ovix
      • readability.nominal_ratio
  • Lexikala klasser

    • beskrivning: Tokens slås upp i Blingbring och SweFN för att berika dessa med information om deras lexikala klasser. Sedan berikas hela dokumentet med information om lexikala klasser baserad på vilka klasser dess tokens tillhör.
    • modell:
    • annotationer:
      • <token>:lexical_classes.blingbring: lexikala klasser från Blingbring-resursen per token
      • <token>:lexical_classes.swefn: ramar från Svenskt frasnät (SweFN) per token
      • <text>:lexical_classes.blingbring: lexikala klasser från Blingbring-resursen per dokument
      • <text>:lexical_classes.swefn: ramar från Svenskt frasnät (SweFN) per dokument
    • annoterare: lexical_classes.blingbring_words lexical_classes.swefn_words lexical_classes.blingbring_text lexical_classes.swefn_text
  • Geouppmärkning

    • beskrivning: Meningar (och stycken om sådana finns) berikas med orter (och geokoordinater) som förekommer inom dessa. Detta är baserat på orter som har blivit uppmärkta av namntaggaren. Geokoordinaterna slås upp i GeoNames databasen.
    • modell: GeoNames
    • annotationer:
      • <sentence>:geo.geo_context: orter och deras koordinator som förekommer i meningen
      • <paragraph>:geo.geo_context: orter och deras koordinator som förekommer i stycket
    • annoterare: geo.contextual

Analyser för 1800-talssvenska

Alla analyser för modern svenska är tillgängliga för 1800-talssvenska. Utöver dessa finns följande analyser som är specialanpassade för 1800-talssvenska:

  • Ordklasstaggning med Hunpos (anpassad för 1800-talssvenska)

  • Lexikon-baserade analyser

    • beskrivning: Tokens och deras ordklasser slås upp i olika lexikon för att få fram ytterligare egenskaper.
    • modell:
    • taggmängd: SALDO taggar (för lemgram)
    • annotationer:
      • <token>:hist.baseform: grundform
      • <token>:hist.sense: identifierar en betydelse i SALDO
      • <token>:hist.lemgram: lemgram, en formenhet som identifierar böjningstabellen
      • <token>:hist.diapivot: SALDO lemgram, härledda från the diapivot-modellen
      • <token>:hist.combined_lemgrams: SALDO lemgram, kombinerade från SALDO, Dalin, Swedberg och diapivot-modellen
    • annoterare:
      • hist.annotate_saldo
      • hist.diapivot_annotate
      • hist.combine_lemgrams

Analyser för fornsvenska

Alla analyser för modern svenska är tillgängliga för fornsvenska, men vi rekommenderar inte att använda dessa då stavningen ofta avviker för mycket för att ge bra resultat. På Språkbanken Text använder vi följande analyser för fornsvenska texter:

  • Meningssegmentering och tokenisering (på samma sätt som vi gör för modern svenska)

  • Stavningsvarianter

    • beskrivning: Tokens slås upp i en modell för att få fram stavningsvarianter.
    • modell: modell för fornsvenska stavningsvarianter
    • annotationer:
      • <token>:hist.spelling_variants: möjliga stavningsvarianter av tokenet
    • annoterare: hist.spelling_variants
  • Lexikon-baserade analyser

    • beskrivning: Tokens och deras ordklasser slås upp i olika lexikon för att få fram ytterligare egenskaper.
    • modell:
    • taggmängd: SALDO taggar för lemgram
    • annotationer:
      • <token>:hist.baseform: grundform
      • <token>:hist.lemgram: lemgram, en formenhet som identifierar böjningstabellen
      • <token>:hist.diapivot: SALDO lemgram, härledda från the diapivot-modellen
      • <token>:hist.combined_lemgrams: SALDO lemgram, kombinerade från SALDO, Dalin, Swedberg och diapivot-modellen
    • annoterare:
      • hist.annotate_saldo_fsv
      • hist.diapivot_annotate
      • hist.combine_lemgrams
  • Homografmängd

    • beskrivning: En mängd av möjliga ordklasstaggar extraheras från lemgram-annotationen.
    • modell: Metod saknar modell.
    • taggmängd: Ordklasserna ur SUCs MSD-taggar
    • annotationer:
      • <token>:hist.homograph_set: möjliga ordklasstaggar för tokenet
    • annoterare: hist.extract_pos

Analyser för andra språk än svenska

Sparv stödjer analyser för diverse andra språk. En lista över vilka språk som stöds och vilka analysverktyg som är tillgängliga finns här.

  • Analyser från TreeTagger

    • beskrivning: Tokeniserade meningar analyseras för att berika varje token med ytterligare information.
    • verktyg: TreeTagger
    • modell: Olika parameter-filer beroende på språk. Se TreeTaggers webbsida för mer info.
    • taggmängd:
    • annotationer:
      • <token>:treetagger.baseform: grundform
      • <token>:treetagger.pos: ordklasstagg, kan innehålla morfosyntaktisk information
      • <token>:treetagger.upos: universella ordklasstaggar, översätta från <token>:treetagger.pos
    • annoterare: treetagger.annotate
  • Analyser från FreeLing

    • beskrivning: Hela dokument analyseras med FreeLing för att meningssegmenteras, tokeniseras och berikas med annan information. FreeLing använder inte samma licens som övriga Sparv och kräver ett Sparv-plugin.
    • verktyg: FreeLing
    • modell: Modeller för olika språk följer med verktyget.
    • taggmängd:
    • annotationer:
      • freeling.sentence: meningssegment från FreeLing
      • freeling.token: tokensegment från FreeLing
      • freeling.token:freeling.baseform: grundform
      • freeling.token:freeling.pos: ordklasstagg, innehåller ofta även morfosyntaktisk information
      • freeling.token:freeling.upos: universella ordklasstaggar
      • freeling.token:freeling.ne_type: namnentitetstyp (inte tillgänglig för alla språk)
    • annoterare: freeling.annotate eller freeling.annotate_full (beroende på analysspråket)
  • Analyser från Stanford Parser (för engelska)

    • beskrivning: Hela dokument analyseras med Stanford Parser för att meningssegmenteras, tokeniseras och berikas med annan information.
    • verktyg: Stanford Parser
    • modell: följer med verktyget
    • taggmängd:
    • annotationer:
      • stanford.sentence: meningssegment från Stanford Parser
      • stanford.token: tokensegment från Stanford Parser
      • stanford.token:stanford.baseform: grundform
      • stanford.token:stanford.pos: ordklasstagg
      • stanford.token:stanford.upos: universella ordklasstaggar
      • stanford.token:stanford.ne_type: namnentitetstyp
      • stanford.token:stanford.ref: ordets position i meningen
      • stanford.token:stanford.dephead_ref: dependenshuvud, ref för det ord som detta ord modifierar eller är beroende av
      • stanford.token:stanford.deprel: dependensrelation, den relation detta ord har till sitt dependenshuvud
    • annoterare:
      • stanford.annotate
      • stanford.make_ref