Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

swe-tokenization-sparv-betterword

Citering Information

Språkbanken Text (2021). swe-tokenization-sparv-betterword (uppdaterad: 2021-05-07). [Analysis]. Språkbanken Text.
Tokeniserar text, specialanpassad för svenska

Tokeniseringen är ursprungligen baserad på NLTKs PunktWordTokenizer (som inte längre tillhandahålls av NLTK). Sparvs version är specialanpassad för svenska och använder en ordlista samt en konfigurationsfil med reguljära uttryck, en lista över vanliga förkortningar, en lista över ord som innehåller specialtecken med mera. Det är dock möjligt att konfigurera tokeniseraren för andra språk.

Exempel

This analysis is used with Sparv. Check out Sparv's quick start guide to get started!

To use this analysis, add the following line under export.annotations in the Sparv corpus configuration file:

- segment.token  # Token segments

For more info on how to use Sparv, check out the Sparv documentation.

Example output:

<token>Det</token>
<token>här</token>
<token>är</token>
<token>en</token>
<token>korpus</token>
<token>.</token>

Typ

  • Analys

Uppgift

tokenization

Enhet

token

Verktyg

NLTK

Modell

Tränad på

Skapad

2010-12-15

Uppdaterad

2021-05-07

Kontakt

Språkbanken Text
sb-info@svenska.gu.se