Hoppa till huvudinnehåll

Språkresurser

Här kan du leta och filtrera bland våra korpusar och lexikon. Du kan klicka på en rad för att få fram nedladdningsbara filer. Genom att klicka på Korp- eller Karp-ikonen kommer du direkt till gränssnittet där du kan utforska resursen.
Resurs Antal tokens Sortera stigande Språk Åtkomst
Somaliska: Sheekooyin Carruureed
26 003 somali
Fornsvenska textbankens material: Nysvenska lagar
22 701 svenska
Somaliska: Afka Hooyo 2010–19 Iswiidhan
21 542 somali
Folkekorpus
Uppteckningar från Isofs arkiv
20 699 svenska
Äldre finlandssvenska: Fredrikshamns Tidning 1888–1908
Tidning som utkom i Fredrikshamn 1884–1910
20 484 svenska
Äldre finlandssvenska: Wiborgs Tidning 1867–1877
Tidning som utkom i Viborg åren 1864–1881
19 086 svenska
Sibirientyska kvinnor
Samtal med fyra kvinnor födda mellan 1927 och 1937 i sovjetiska Volgarepubliken
16 208 svenska
Kubhist 2: Posttidningar 1660-talet
Del av samlingen Kubhist 2
15 912 svenska
Somaliska: Maaddooyinka Kale 1972–79
14 908 somali
Somaliska: Sheekooyin Carruureed (Turjuman)
13 865 somali
SIC2 - Stockholm Internet Corpus
Korpusen Stockholm Internet Corpus (SIC2) innehåller svenska bloggar som är annoterade med ordklasstaggar, morfologiska särdrag och namnentiteter.
13 562 svenska
Somaliska: Caafimaad 1972–79
13 550 somali
Äldre finlandssvenska: Uleåborgs Tidning 1877–1887
Tidning som utkom i Uleåborg 1877–1891
13 474 svenska
Äldre finlandssvenska: Typografiskt minnesblad 1891
Utkom 1642–1892
10 234 svenska
Kubhist 2: Posttidningar 1650-talet
Del av samlingen Kubhist 2
9 994 svenska
Af Soomaali 1993-94
9 247 somali
Somaliska: Suugaan (Turjuman)
8 796 somali
Äldre finlandssvenska: Tidningar Utgifne af et Sällskap i Åbo 1771–1783
Finlands första tidning. Starkt knuten till Aurorasällskapet och Henrik Gabriel Porthan. Utkom i Åbo åren 1771–1778 och 1782–1785.
6 532 svenska
Kubhist 2: Posttidningar 1670-talet
Del av samlingen Kubhist 2
5 575 svenska
Äldre finlandssvenska: Borgåbladet 1885
Tidning som utkommer i Borgå
3 020 svenska
Kubhist 2: Götheborgs Weckolista 1740-talet
Del av samlingen Kubhist 2
2 272 svenska
Kubhist: Götheborgs weckolista 1740-talet
Del av samlingen Kubhist
1 778 svenska
Caafimaad 1983
1 521 somali
IVIP demo
Interaktion och variation i pluricentriska språk – Kommunikativa mönster i sverigesvenska och finlandssvenska.
572 svenska
SweWiC 2.0
En svensk ord-i-sammanhang datamängd
svenska
Samling
Läkartidningen
Korpus för vårdens och omsorgens fackspråk
svenska
Samling
Tvåkammarriksdagen
Samling av textdokument från Tvåkammarriksdagen
svenska
Samling
Kubhist 2
Diakronisk samling av historisk tidsskriftstext på svenska från perioden 1645–1926. Kubhist 2 är en uppdaterad version av Kubhist med förbättrad OCR och mer material.
svenska
Ordstatistik för korpusar
Ackumulerad ordstatistik från många av våra moderna svenska korpusar
Samling
Kubord 2
Ordrelationer från moderna tidningstexter från Kungliga biblioteket
svenska
SweWinogender 2.0
En svensk datamängd för koreferens och könsbias
svenska
Samling
Press
Svensk press
svenska
Samling
Kubhist
Diakronisk samling av historisk tidsskriftstext på svenska från perioden 1749–1926
svenska
DaLAJ-GED-Superlim 2.0
Dataset for Linguistic Acceptability Judgments (and more), v.2.0
svenska
SweWinograd 2.0
En svensk datamängd för pronomentolkning
svenska
Samling
Medeltidsbrev
Svenskt Diplomatariums huvudkartotek över medeltidsbreven (SDHK)
latin, tyska, norska, svenska
Samling
Riksdagens öppna data
Data från data.riksdagen.se
svenska
ScandiSent
Sentimentkorpus för svenska, norska, danska, finska och engelska, insamlad från trustpilot.
svenska, bokmål, danska, engelska, finska
Samling
Somaliska korpusar
En samling av korpusar på somaliska
somali
Samling
SVT nyheter
Nyhetstexter från svt.se
svenska
Samling
Webbnyheter
Nyheter från svenska dagstidningars webbplatser
svenska
Samling
Finlandssvenska
Del av finlandssvensk språkbank över svenskan i Finland i dag och i går
svenska
Svensk ABSAbank-Imm 1.1
Svensk annoterad korpus för aspektbaserad attitydanalys (en version av Absabank)
svenska
Svensk analogi 2.0
Svensk semantisk och syntaktisk likhet
svenska
Samling
Fornsvenska textbankens material
En samling fornsvenska texter från Fornsvenska textbanken
svenska
Samling
Äldre finlandssvenska
Del av finlandssvensk språkbank över svenskan i Finland i dag och i går
svenska
Samling
SuperLim 2
A standardized suite for evaluation and analysis of Swedish natural language understanding systems.
svenska
SuperSim (paketterat för Superlim) 2.0
En datamängd för betydelsemässig likhet och koppling mellan svenska ord.
svenska
SweDiagnostics
Svenska versionen av (Super)GLUE diagnostik
svenska
SweDN 1.0
A Swedish text summarization corpus
svenska
Argumentation sentences 1.0
A translated corpus for classifying sentence stance in relation to a topic.
svenska
Samling
Familjeliv
Material från diskussionsforumet Familjeliv
svenska
SweFAQ 2.0
Vanliga frågor från svenska myndigheters webbsidor med svar i randomiserad ordning
svenska
Svensk EAT: frågeklassifikation
En översättning av QAQC datamängden för klassificering av typer av det förväntade svaret
svenska
Samling
Bloggmix
Material från ett urval av svenska bloggar. Uppdateras regelbundet.
svenska
Svensk trädbank
En svensk trädbank med återanvändning av existerande resurser
svenska
SweLL-gold
Uppsatser svrivna av vuxenstuderande i svenska, manuellt pseudonymiserade och annoterade med felkategorier. Korpusen innehåller både originaltexten och en normaliserad version av varje uppsats. Insamlingperiod 2017-2020.
svenska
SweNLI 1.0
A Swedish NLI dataset
svenska
Detektiva avdelningen
Data från Detektiva avdelningen vid Göteborgs poliskammare, från slutet av 1800-talet till början av 1900-talet.
svenska
Samling
Flashback
Material från diskussionsforumet Flashback
svenska
Samling
SweLL-pilot
Uppsatser svrivna av vuxenstuderande i svenska, manuellt anonymiserade och annoterade med felkategorier. Korpusen innehåller både originaltexten och en normaliserad version av varje uppsats. Insamlingperiod 2006-2015.
svenska
Samling
ASPAC
The Amsterdam Slavic Parallel Aligned Corpus
svenska, vitryska, bulgariska, tjeckiska, tyska, lågsorbiska, modern greek (1453-), engelska, spanska, franska, kroatiska, högsorbiska, latin, makedonska, nederländska, polska, portugisiska, rumänska, ryska, kele (papua new guinea), slovakiska, slovenska, serbiska, slavomolisano, turkmeniska, ukrainska
Samling
Göteborgsposten
En korpus med texter från Göteborgs-Posten
svenska
SveParafras 2.0
Referensdatan för semantisk textjämförelse (STS Benchmark)
svenska
Samling
Europarl
European Parliament Proceedings Parallel Corpus
svenska, danska, tyska, modern greek (1453-), engelska, spanska, finska, franska, italienska, nederländska, portugisiska
Samling
Kubord 1
Ordfrekvenser från moderna tidningstexter från Kungliga biblioteket
svenska
Samling
Kvinnotidningar
Material från äldre svenska kvinnotidskrifter
svenska