Stockholm-UmeÄ-korpus (SUC) Àr en samling svenska texter frÄn 1990-talet, med totalt en miljon ord. Korpusen Àr balanserad, vilket betyder att den innehÄller olika text typer och texter med olika stilnivÄer. Texterna har mÀrkts upp med ordklasstaggar, morfologisk analys och lemma, samt viss strukturell och funktionell information.
Version 1.0 utvecklades i samarbete mellan Gunnel KÀllgren vid Stockholms Universitet och Eva Ejerhed vid UmeÄ universitet och gjordes tillgÀngligt 1997 av institutionen för lingvistik pÄ Stockholms universitet. Version 2.0 gjordes tillgÀnglig 2006 av Sofia Gustafson-Capkovå och Britt Hartmann vid institutionen för lingvistik pÄ Stockholms universitet. Den innehÄller samma texter som SUC 1.0 men Àr utökad med viss annotering. Dessutom innehÄller SUC 2.0 tvÄ bonusmaterial. TigerSUC Àr SUC 2.0 konverterad till TIGER-XML av Martin Volk. StorSUC Àr ytterligare SUC-material om fyra miljoner ord. Version 3.0 finns tillgÀnglig sedan 2012. Den innehÄller förbÀttrad annotering, samt oannoterade texter om sju miljoner ord. (För TigerXML-versionen, Suc2c, Suc2d och DTD:erna hÀnvisar vi fortfarande till version 2.0.)
SUC Àr fritt tillgÀnglig för forskning, men krÀver att varje anvÀndare tecknar en individuell licens med institutionen för lingvistik vid Stockholms universitet. FrÄn och med den 1/12 2008 Àr licensieringen av SUC delegerad till SprÄkbanken vid Göteborgs universitet.
SUC-licensen (i pdf-format) ska skrivas ut, skrivas under och sedan skickas till
SUC-licens
SprÄkbanken
Institutionen för svenska sprÄket
Göteborgs universitet
Box 200
405 30 Göteborg
Ytterligare information