Tokeniserar text, specialanpassad för svenska
Tokeniseringen är ursprungligen baserad på NLTKs PunktWordTokenizer (som inte längre tillhandahålls av NLTK). Sparvs version är specialanpassad för svenska och använder en ordlista samt en konfigurationsfil med reguljära uttryck, en lista över vanliga förkortningar, en lista över ord som innehåller specialtecken med mera. Det är dock möjligt att konfigurera tokeniseraren för andra språk.