För många av Språkbankens korpusar finns det nedladdningsbara meningsmängder. Meningsmängderna är samlingar av meningar från respektive korpus, med automatisk annotering av t. ex. ordklasser och syntaktisk struktur. I vissa korpusar har meningarna kastats om av upphovsrättsliga skäl. Det betyder att meningarna har en slumpmässig ordning för att originaltexterna inte ska gå att återskapa.
Ungefär såhär ser Sparvs "standard"-XML-format för meningsmängderna ut:
<text>
<paragraph>
<sentence>
<token _tail="\s">text</token>
</sentence>
</paragraph>
</text>
Observera:
- Alla korpusar har inte styckesinformation (
<paragraph>
finns alltså inte alltid). - Äldre korpusar (sådana som är annoterade med Sparv-versioner före version 4.0) har
<w>-
taggar istället för<token>
och innehåller aldrig några_tail-
attribut. _tail-
attributet inuti<token>
innehåller information om mellanrum (blanksteg "\s", tabbar "\t" eller radbrytningar "\n") som följer tokenet i källmaterialet.- Utöver taggarna och attributen i exemplet ovan kan det förekomma fler taggar och attribut i XML:en beroende på hur indatan såg ut och vilka annotationer som har lagts till av Sparv.
Se även Hur kan jag få tillgång till icke-meningsomkastade versioner av Språkbankens korpusar? och Hur får man tillgång till skyddade korpusar som till exempel ESPC?.