corpus | Språkbanken Text

Prao på Språkbanken Text

Read more about Prao på Språkbanken Text

Vi heter Elinor och Astrid och går för närvarande i åttonde klass på Montessoriskolan Floda Säteri. I den här bloggen berättar vi om vår praktiska arbetslivsorientering (prao) under vecka 41 (7-11/10) på Språkbanken Text.

Jubileumsarkivet: En ny datasamling om Göteborgsutställningen

Read more about Jubileumsarkivet: En ny datasamling om Göteborgsutställningen

I helgen drog Göteborgs 400-årsjubileum igång. Vi tar härmed tillfället i akt och gratulerar Göteborg genom att gå ett hundra år tillbaka i tiden för att lära oss mer om staden och tiden då 300-årsjubileum firades med en storslagen Jubileumsutställning.

Cassandra: a toolset for analyzing and visualizing language change

Read more about Cassandra: a toolset for analyzing and visualizing language change

Within the Cassandra project we are using Korp to analyze numerous instances of language change: not one, not two, but dozens (and in the future, potentially hundreds). At this scale, it is impossible to perform searches (and process their results) manually. Fortunately, Korp has an API that makes an automatization of this process possible.

Flerordingar: ord som består av flera delar

Read more about Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): 'huset', 'superstor', 'bloggade'. De flesta skulle nog säga att 'idag' är ett ord, men hur är det om vi skriver det (också rättstavat) 'i dag' då? 'Mont Blanc-tunneln'? 'Röda blodkroppar'? I det här blogginlägget tänkte jag prata om ord som innehåller mellanrum och flerordsuttryck, och hur man kan analysera dem i en korpus.

En syntaktisk beskrivningsmodell för modern svensk text

Read more about En syntaktisk beskrivningsmodell för modern svensk text

Sverige har en relativt lång tradition av att skapa en typ av korpus som brukar kallas trädbank. En trädbank är en samling texter som har annoterats (märkts upp) med ordklasser och syntaktisk struktur. Den syntaktiska strukturen för en mening kan ritas upp så att den liknar ett träd. Trädbanken Talbanken skapades redan på 70-talet (Teleman, 1974) och texterna (och delar av annoteringen) har återanvänts i flera trädbanker sedan dess.

Om ordklasser för svenska språket

Read more about Om ordklasser för svenska språket

Ordklassindelning används i många språkteknologiska verktyg därför att det är ett sätt att skilja mellan olika användningar av ett ord. Genom ordklasserna kan man enklare söka efter liknande ord och uttryck i stora textmängder, eller skapa en ny text med liknande form. Att automatiskt dela in orden i texter i ordklasser är därmed en av de grundläggande metoderna inom artificiell intelligens, för att få datorn att förstå mänskligt språk.

Using Språkbanken corpora in NLTK

Read more about Using Språkbanken corpora in NLTK

At Språkbanken we collect resources, mainly lexica and corpora, most of them in Swedish. So far we have collected Swedish corpora totalling 13 billions of words, in all kinds of genres and from all time periods.

The Kubhist corpus of Swedish newspapers

Read more about The Kubhist corpus of Swedish newspapers

Among the flurry of Språkbanken’s historical resources we find the Kubhist corpus – a diachronic collection of historical newspaper texts – in two versions: Kubhist 1 spanning the time period of 1750–1950, and Kubhist 2 spanning the time period of 1645–1926. Historical corpora of this kind, especially when available in searchable format, are valuable sources of information for learning about our history, language and culture.

Subscribe to corpus