SUC

Information

Licens other
Tokens: 1166593
Meningar: 74243

Sök

Korp

Nedladdning Format information

  • omkastad XML
  • statistik TXT

Metadata

metadata as xml metadata as json

Stockholm-UmeÄ-korpus (SUC) Àr en samling svenska texter frÄn 1990-talet, med totalt en miljon ord. Korpusen Àr balanserad, vilket betyder att den innehÄller olika text typer och texter med olika stilnivÄer. Texterna har mÀrkts upp med ordklasstaggar, morfologisk analys och lemma, samt viss strukturell och funktionell information.

Version 1.0 utvecklades i samarbete mellan Gunnel KÀllgren vid Stockholms Universitet och Eva Ejerhed vid UmeÄ universitet och gjordes tillgÀngligt 1997 av institutionen för lingvistik pÄ Stockholms universitet. Version 2.0 gjordes tillgÀnglig 2006 av Sofia Gustafson-Capkovå och Britt Hartmann vid institutionen för lingvistik pÄ Stockholms universitet. Den innehÄller samma texter som SUC 1.0 men Àr utökad med viss annotering. Dessutom innehÄller SUC 2.0 tvÄ bonusmaterial. TigerSUC Àr SUC 2.0 konverterad till TIGER-XML av Martin Volk. StorSUC Àr ytterligare SUC-material om fyra miljoner ord. Version 3.0 finns tillgÀnglig sedan 2012. Den innehÄller förbÀttrad annotering, samt oannoterade texter om sju miljoner ord. (För TigerXML-versionen, Suc2c, Suc2d och DTD:erna hÀnvisar vi fortfarande till version 2.0.)

SUC Àr fritt tillgÀnglig för forskning, men krÀver att varje anvÀndare tecknar en individuell licens med institutionen för lingvistik vid Stockholms universitet. FrÄn och med den 1/12 2008 Àr licensieringen av SUC delegerad till SprÄkbanken vid Göteborgs universitet.

SUC-licensen (i pdf-format) ska skrivas ut, skrivas under och sedan skickas till

SUC-licens
SprÄkbanken
Institutionen för svenska sprÄket
Göteborgs universitet
Box 200
405 30 Göteborg

Ytterligare information

© Göteborgs universitet 2009, Box 100, 405 30 Göteborg
Tel +46 31 786 0000, Kontakt

Om webbplatsen

X
Loading