Om Språkbanken

En resurs för Sveriges språk

1 december 2008 | Lars Borin

I Språkbanken finns svenska och andra språkresurser för språkvetenskaplig och språkteknologisk forskning.

Här finns c:a 200 miljoner ord svenska korpusar, som tidsmässigt spänner över hela det svenska skriftspråkets historia med undantag för den äldsta perioden (runsvenska), och som genremässigt omfattar både publicerade och andra typer av skriftspråk. Det finns stora mängder modern dagstidningstext och skönlitteratur, men även uppsatser skrivna av både infödda och inlärare.

Här finns flera svenska lexikonresurser. Även dessa täcker tidsmässigt perioden från medeltiden (Söderwalls och Schlyters lexikon) över 1800-talet (Dalins lexikon) fram till våra dagar (SALDO och Svenska ord). Dessutom finns speciallexikon, t.ex. med medicinska termer (Medlex).

Talbanken, en korpus med svenskt skriftspråk och transkriberat talspråk från 1970-talet, som är försedd med manuellt utförda syntaktiska analyser enligt en traditionell nordistisk tradition (en slags utvidgad fältanalys à la Diderichsen)
SUC (Stockholm Umeå Corpus), en morfosyntaktiskt analyserad (försedd med ordklassetiketter och grundformer på alla korpusens ord) balanserad korpus över publicerat svenskt skriftspråk från 1990-talet

I korthet har harmoniseringen gått till så att Talbanken försetts med SUC:s ordklassetiketter i en halvautomatisk process, och både Talbanken och SUC har försetts med en frasstrukturversion av Talbankens syntaktiska annotation. Den senare processen har varit helautomatisk, vilket innebär att man kan förvänta sig felaktigheter i den syntaktiska annotationen, särskilt i SUC-korpusen. En preliminär utvärdering av annotationen presenterad vid en workshop i samband med SLTC 2008 visar att den syntaktiska annotationen ändå är till mycket god hjälp vid korpuslingvistiska undersökningar.

Mer information (endast på engelska) »

Andra avsnittsrubriken

1 december 2008 | Lars Borin

Format

Den svenska trädbanken distribueras i ett format som kallas TIGER-XML, så att den ska kunna användas med det fritt tillgängliga sökverktyget TIGERSearch, som kan laddas ner från Institut für Maschinelle Sprachverarbeitung vid universitetet i Stuttgart.

Mer information (endast på engelska) »

Licens

Trädbanksdelen - d.v.s. de nytillagda syntaktiska annotationerna - av den svenska trädbanken är helt fri, med en öppen källkodslicens.

Talbanken är fritt tillgänglig för forskning och undervisning.

SUC kräver att varje användare tecknar en individuell licens med Institutionen för lingvistik vid Stockholms universitet. Från och med den 1/12 2008 är licensieringen av SUC delegerad till Språkbanken vid Göteborgs universitet. SUC-licenstexten kan laddas ner i pdf-format här.

Distribution

Den svenska trädbanken distribueras av Språkbanken.

Den som redan har skrivit på en SUC-licens får direkt nedladdningsadress och lösenord från oss. Övriga behöver först skriva på en licens för SUC (se ovan).