Hoppa till huvudinnehåll

SUCX 3.0

Stockholm-Umeå-korpus 3.0 omkastad

Stockholm-Umeå-korpus (SUC) är en samling svenska texter från 1990-talet, med totalt en miljon ord. Korpusen är balanserad, vilket betyder att den innehåller olika texttyper och texter med olika stilnivåer. Texterna har märkts upp med ordklasstaggar, morfologisk analys och lemma (allt detta kan anses som referensdata), samt viss strukturell och funktionell information.

Version 1.0 utvecklades i samarbete mellan Gunnel Källgren vid Stockholms Universitet och Eva Ejerhed vid Umeå universitet och gjordes tillgängligt 1997 av institutionen för lingvistik på Stockholms universitet.

Version 2.0 gjordes tillgänglig 2006 av Sofia Gustafsson Capkova och Britt Hartmann vid institutionen för lingvistik på Stockholms universitet. Den innehåller samma texter som SUC 1.0 men är utökad med viss annotering. Dessutom innehåller SUC 2.0 två bonusmaterial. TigerSUC är SUC 2.0 konverterad till TIGER-XML av Martin Volk. StorSUC är ytterligare SUC-material om fyra miljoner ord.

Version 3.0 finns tillgänglig sedan 2012. Den innehåller förbättrad annotering, samt oannoterade texter om sju miljoner ord. (För TigerXML-versionen, Suc2c, Suc2d och DTD:erna hänvisar vi fortfarande till version 2.0.)

Ytterligare information om sammanställning och uppmärkning av SUC finns i manualen för SUC 2.0 [PDF]

Språkbanken distribuerar SUC 2.0 och SUC 3.0 i två varianter:

  • SUC 2.0 och SUC 3.0: fritt tillgänglig för forskning; kräver individuell licens
  • SUCX 2.0 och SUCX 3.0: meningar i omkastad ordning; berikad med automatisk annotering; nedladdningsbar utan restriktioner

SUCX 3.0

SUCX går att ladda ner direkt under den öppna CC BY-SA-licensen här nedanför. Denna variant är meningsomkastad, och dessutom har extra uppmärkning lagts till automatiskt av Språkbankens textanalysverktyg. Korpusen distribueras i Språkbankens standard-XML-format.

Följande annoteringar är som i den officiella versionen:

  • ordklass (pos-attribut på ordelement)
  • morfologiska särdrag (msd-attribut)
  • grundform (lemma-attribut)
  • namngivna entiteter (endast SUC 3.0; <name>-taggar, inte <ne>-taggarna)

All annan uppmärkning, till exempel länkningen mot SALDO, dependensparsning och en alternativ uppmärkning med namngivna entiteter (<ne>-taggar), har skapats automatiskt av Sparv.

SUCX går även att utforska i Korp.

Fil Storlek Modifierad Licens
suc3.xml.bz2
this file contains a scrambled version of the corpus Information (XML)
84.15 MB 2024-03-22 CC BY-SA 4.0
attribution
stats_suc3.csv
Ordstatistik: Information (CSV)
7.7 MB 2024-03-28 CC BY 4.0
attribution

Typ

  • Korpus

Språk

svenska

Storlek

Meningar: 74 245
Token: 1 166 593

Kontakt

Språkbanken Text
sb-info@svenska.gu.se