Nedladdningsbara material för forskningsändamål

Nedanstående material är endast tillgängliga för personer med anknytning till universitet eller högskolor. Materialen är endast tillgängliga under de villkor som beskrivs i bifogade licenser. All tidsbegränsning i respektive materials licensvillkor är fr.o.m 4 november 2004 ogiltig, licensen är fr.o.m. detta datum permanent. Denna förändring gäller materialen som sådana och alltså såväl tidigare som kommande nedladdningar av materialen.

För tekniska frågor kontakta Torgny Rasmark. Övriga frågor besvaras av kontaktpersonerna för de enskilda materialen (se nedan).

Trädbank: SynTag

SynTag är en s.k. trädbank, innehållande syntaktiskt märkt text från 158 artiklar ur Press-65, omfattande drygt 100 000 löpande ord. Märkningen avser endast konstituenternas och ordens relationer till varandra (t.ex. som subjekt eller annat argument till ett finit verb) och omfattar upp till 12 analysnivåer. Dessutom finns en enkel ordklassmärkning. Vissa fel kvarstår och kommer småningom att rättas.

Ladda ner Syntag
Storlek: C:a 100 000 graford
Format: Textfil/internt format
Dokumentation: Endast papperskopior
Kontaktperson: Jerker Järborg (031 - 773 41 28)

Lexikon: Svenska ord (LEXIN)

Svenska ord har tidigare publicerats i bokform av Skolverket, inom ramen för LEXIN-serien (Lexikon för invandrare). Ordboken har utarbetats i första hand för att tjäna som svenskt underlag för tvåspråkiga lexikon med svenska som utgångspunkt. Därutöver tjänar den i praktiken som en enspråkig svensk ordbok.

Svenska ord har i allt väsentligt utarbetats vid Institutionen för svenska språket, närmare bestämt vid Språkdata som bl.a. sysslar med lexikologi och lexikografi. Närmare detaljer kring tillkomsten av ordboken ges i nedanstående kommentarer kring första och andra upplagan. En tredje upplaga har senare publicerats av Skolverket i bokform, dock utan de ursprungliga författarnas medverkan.

Institutionen har sedan 1995 inget samarbete inom LEXIN-projektet med Skolverket. För kommentarer kring ordbokstexten (särskilt Inledning som beskriver ordurval, källor, ordbokskategorier m.m.), se den tryckta versionen av Svenska ord, andra upplagan.

Ladda ner Svenska ord/LEXIN
Storlek: C:a 20 000 uppslagsord
Format: XML
Dokumentation: se webbversionen av LEXIN - Svenska ord. (Endast tillgänglig för domäner inom universitet och högskolor.)
Kontaktperson: Martin Gellerstam (031 - 773 45 44)

Ordklasstaggad korpus: PAROLE-korpusen

Det textmaterial som här går under namnet Parole är insamlat inom ramen för EU-projektet PAROLE (avslutat 1997 och inriktat på att bygga upp ett europeiskt nätverk av språkliga resurser). Textmaterialet är morfosyntaktiskt annoterat och omfattar ca 19 till 19,4 miljoner löpande ord (beroende på vad man räknar som ord) .
Ladda ner PAROLE-korpusen
Storlek: C:a 19 milj. graford
Format: Tabulerad textfil
Dokumentation: se webbversionen av PAROLE-korpusen
Kontaktperson: Torgny.Rasmark (031 - 773 45 43)


Språkbankens ledningsgrupp, 22 mars 2002

Yvonne Cederholm (tf föreståndare) Jerker Järborg, Torgny Rasmark och Karin Warmenius