För många av Språkbankens korpusar finns det nedladdningsbara meningsmängder. Meningsmängderna är samlingar av meningar från respektive korpus, med automatisk annotering av t. ex. ordklasser och syntaktisk struktur. I vissa korpusar har meningarna kastats om av upphovsrättsliga skäl. Det betyder att meningarna har en slumpmässig ordning för att originaltexterna inte ska gå att återskapa.
Ungefär såhär ser Sparvs "standard"-XML-format för meningsmängderna ut:
<text>
  <paragraph>
    <sentence>
      <token _tail="\s">text</token>
    </sentence>
  </paragraph>
</text>Observera:
- Alla korpusar har inte styckesinformation (<paragraph>finns alltså inte alltid).
- Äldre korpusar (sådana som är annoterade med Sparv-versioner före version 4.0) har <w>-taggar istället för<token>och innehåller aldrig några_tail-attribut.
- _tail-attributet inuti- <token>innehåller information om mellanrum (blanksteg "\s", tabbar "\t" eller radbrytningar "\n") som följer tokenet i källmaterialet.
- Utöver taggarna och attributen i exemplet ovan kan det förekomma fler taggar och attribut i XML:en beroende på hur indatan såg ut och vilka annotationer som har lagts till av Sparv.
Se även Hur kan jag få tillgång till icke-meningsomkastade versioner av Språkbankens korpusar? och Hur får man tillgång till skyddade korpusar som till exempel ESPC?.