swe-tokenization-sparv-betterword

Citering

Språkbanken Text (2021). swe-tokenization-sparv-betterword (uppdaterad: 2021-05-07). [Analysis]. Språkbanken Text.

Tokeniserar text, specialanpassad för svenska

Tokeniseringen är ursprungligen baserad på NLTKs PunktWordTokenizer (som inte längre tillhandahålls av NLTK). Sparvs version är specialanpassad för svenska och använder en ordlista samt en konfigurationsfil med reguljära uttryck, en lista över vanliga förkortningar, en lista över ord som innehåller specialtecken med mera. Det är dock möjligt att konfigurera tokeniseraren för andra språk.

Exempel

This analysis is used with Sparv. Check out Sparv's quick start guide to get started!

To use this analysis, add the following line under export.annotations in the Sparv corpus configuration file:

- segment.token  # Token segments

For more info on how to use Sparv, check out the Sparv documentation.

Example output:

<token>Det</token>
<token>här</token>
<token>är</token>
<token>en</token>
<token>korpus</token>
<token>.</token>

swe-tokenization-sparv-betterword

Citering

Exempel

Del av samling

Typ

Uppgift

Enhet

Verktyg

Modell

Tränad på

Skapad

Uppdaterad

Kontakt