Hoppa till huvudinnehåll

Språkresurser

Här kan du leta och filtrera bland våra korpusar och lexikon. Du kan klicka på en rad för att få fram nedladdningsbara filer. Genom att klicka på Korp- eller Karp-ikonen kommer du direkt till gränssnittet där du kan utforska resursen.
Resurs Sortera stigande Antal tokens Språk Åtkomst
WordReference
En stor korpus av skriftligt tal av modersmåls- och icke-modersmålstalare i fyra språk.
170 000 000 engelska, spanska, franska, italienska
Wexjöbladet 1820-talet
Del av samlingen Kubhist2
1 338 559 svenska
Webbnyheter 2013
Nyheter från svenska dagstidningars webbplatser
22 648 638 svenska
Webbnyheter 2012
Nyheter från svenska dagstidningars webbplatser
25 132 041 svenska
Webbnyheter 2011
Nyheter från svenska dagstidningars webbplatser
26 268 603 svenska
Webbnyheter 2010
Nyheter från svenska dagstidningars webbplatser
23 803 577 svenska
Webbnyheter 2009
Nyheter från svenska dagstidningars webbplatser
25 888 779 svenska
Webbnyheter 2008
Nyheter från svenska dagstidningars webbplatser
27 561 804 svenska
Webbnyheter 2007
Nyheter från svenska dagstidningars webbplatser
24 630 443 svenska
Webbnyheter 2006
Nyheter från svenska dagstidningars webbplatser
22 563 792 svenska
Webbnyheter 2005
Nyheter från svenska dagstidningars webbplatser
29 503 647 svenska
Webbnyheter 2004
Nyheter från svenska dagstidningars webbplatser
13 806 323 svenska
Webbnyheter 2003
Nyheter från svenska dagstidningars webbplatser
12 217 288 svenska
Webbnyheter 2002
Nyheter från svenska dagstidningars webbplatser
17 426 173 svenska
Webbnyheter 2001
Nyheter från svenska dagstidningars webbplatser
614 151 svenska
Samling
Webbnyheter
Nyheter från svenska dagstidningars webbplatser
svenska
Ur Dagens Krönika
Åtta årgångar av kulturtidskriften Ur Dagens Krönika, 1881–1890
1 995 149 svenska
Twittermix
Material från ett urval av svenska Twitteranvändare. Uppdateras regelbundet.
499 986 353 svenska
Twitter: Partiledardebatt oktober 2013
Material från Twitter, insamlat under partiledardebatten 6 oktober 2013 samt några dagar före och efter
25 736 586 svenska
Twitter: Partiledardebatt maj 2014
Material från Twitter, insamlat under partiledardebatten 4 maj 2014 samt några dagar före och efter
34 228 521 svenska
Twitter: Partiledardebatt juni 2013
Material från Twitter, insamlat under partiledardebatten 12 juni 2013 samt några dagar före och efter
38 959 102 svenska
Tvåkammarriksdagen: Utredningar, EU-förslag, betänkande, statens offentliga utredningar
Del av Tvåkammarriksdagen
59 266 835 svenska
Tvåkammarriksdagen: Riksdagsskrivelser
Del av Tvåkammarriksdagen
29 775 566 svenska
Tvåkammarriksdagen: Riksdagens författningssamling RFS
Del av Tvåkammarriksdagen
83 964 svenska
Tvåkammarriksdagen: Reglementen, svensk författningssamling
Del av Tvåkammarriksdagen
2 628 009 svenska
Tvåkammarriksdagen: Register
Del av Tvåkammarriksdagen
23 323 395 svenska
Tvåkammarriksdagen: Protokoll
Del av Tvåkammarriksdagen
327 554 657 svenska
Tvåkammarriksdagen: Propositioner, skrivelser
Del av Tvåkammarriksdagen
319 201 218 svenska
Tvåkammarriksdagen: Motioner
Del av Tvåkammarriksdagen
73 189 180 svenska
Tvåkammarriksdagen: Betänkanden, memorial, utlåtanden
Del av Tvåkammarriksdagen
195 467 124 svenska
Tvåkammarriksdagen: Berättelser, redogörelser, framställningar
Del av Tvåkammarriksdagen
61 348 401 svenska
Samling
Tvåkammarriksdagen
Samling av textdokument från Tvåkammarriksdagen
svenska
TISUS-texter
Essays written by L2 Swedish learners as part of a TISUS exam
59 639 svenska
Tiden
30 årgångar av den socialistiska tidskriften Tiden, 1909–1940
7 106 662 svenska
The Swedish Culturomics Gigaword Corpus
En miljard ord ur svenska korpusar från 1950 och framåt. Kod för att extrahera data från korpusen, samt användningsinstruktioner, kan laddas ner från https://svn.spraakdata.gu.se/sb-arkiv/tools/gigaword/
1 015 635 151 svenska
The English-Swedish Parallel Corpus (ESPC)
ESPC är en kombinerad jämförbar och parallell korpus lämplig för tvärspråkig forskning för olika typer.
1 518 759 svenska, engelska
TalbankenSTB
Talbanken är en svensk trädbank.
96 346 svenska
TalbankenSBX
Talbanken är en svensk trädbank. Detta är Språkbanken Texts version av Talbanken.
96 346 svenska
Sæmundaredda
Forntida isländsk poesi även känd som The King's Book
46 726 fornisländska
Syntag trädbank
En svensk trädbank med syntaktisk analys av 158 artiklar ur Press-65.
101 329 svenska
SweWinograd 2.0
En svensk datamängd för pronomentolkning
svenska
SweWinogender 2.0
En svensk datamängd för koreferens och könsbias
svenska
SweWiC 2.0
En svensk ord-i-sammanhang datamängd
svenska
SweNLI 1.0
A Swedish NLI dataset
svenska
Samling
SweLL-pilot
Uppsatser svrivna av vuxenstuderande i svenska, manuellt anonymiserade och annoterade med felkategorier. Korpusen innehåller både originaltexten och en normaliserad version av varje uppsats. Insamlingperiod 2006-2015.
svenska
SweLL-gold
Uppsatser svrivna av vuxenstuderande i svenska, manuellt pseudonymiserade och annoterade med felkategorier. Korpusen innehåller både originaltexten och en normaliserad version av varje uppsats. Insamlingperiod 2017-2020.
svenska
SweFAQ 2.0
Vanliga frågor från svenska myndigheters webbsidor med svar i randomiserad ordning
svenska
SweDN 1.0
A Swedish text summarization corpus
svenska
SweDiagnostics
Svenska versionen av (Super)GLUE diagnostik
svenska
Swe-NERC
En resurs för träning och utvärdering av igenkänning av namngiven entitet för svenska.
140 914 svenska
SW1203-uppsatser
Essays written by L2 Swedish language learners, university courses
51 972 svenska
SVT nyheter okänt datum
Nyhetstexter från svt.se
36 783 svenska
SVT nyheter 2023
Nyhetstexter från svt.se
7 501 502 svenska
SVT nyheter 2022
Nyhetstexter från svt.se
13 996 419 svenska
SVT nyheter 2021
Nyhetstexter från svt.se
14 978 995 svenska
SVT nyheter 2020
Nyhetstexter från svt.se
16 025 766 svenska
SVT nyheter 2019
Nyhetstexter från svt.se
18 274 785 svenska
SVT nyheter 2018
Nyhetstexter från svt.se
18 817 638 svenska
SVT nyheter 2017
Nyhetstexter från svt.se
21 184 642 svenska
SVT nyheter 2016
Nyhetstexter från svt.se
21 729 542 svenska
SVT nyheter 2015
Nyhetstexter från svt.se
19 205 040 svenska
SVT nyheter 2014
Nyhetstexter från svt.se
16 077 222 svenska
SVT nyheter 2013
Nyhetstexter från svt.se
13 961 829 svenska
SVT nyheter 2012
Nyhetstexter från svt.se
9 544 671 svenska
SVT nyheter 2011
Nyhetstexter från svt.se
9 327 078 svenska
SVT nyheter 2010
Nyhetstexter från svt.se
9 873 332 svenska
SVT nyheter 2009
Nyhetstexter från svt.se
8 860 985 svenska
SVT nyheter 2008
Nyhetstexter från svt.se
7 693 570 svenska
SVT nyheter 2007
Nyhetstexter från svt.se
5 533 682 svenska
SVT nyheter 2006
Nyhetstexter från svt.se
4 172 111 svenska
SVT nyheter 2005
Nyhetstexter från svt.se
3 300 646 svenska
SVT nyheter 2004
Nyhetstexter från svt.se
447 189 svenska
Samling
SVT nyheter
Nyhetstexter från svt.se
svenska
SveParafras 2.0
Referensdatan för semantisk textjämförelse (STS Benchmark)
svenska
Svenskt frasnät (SweFN)
En lexikalisk-semantisk resurs baserad på samma principer som engelska Berkeley FrameNet. Denna del av resursen innehåller korpusexemplen, automatiskt annoterade med språklig information.
137 770 svenska
Svenska Wikipedia
Korpus av svenskspråkiga Wikipedia
190 149 497 svenska
Svenska tidningar 1871-1906
Ett urval av svenska tidningar tryckta mellan 1871 och 1906 från samlingarna på Kungliga biblioteket (KB). För OCR analys.
337 635 svenska
Svenska tidningar 1818-1870
Ett urval av svenska tidningar tryckta mellan 1818 och 1870 från samlingarna på Kungliga biblioteket (KB). För OCR analys.
186 013 svenska
Svenska partiprogram och valmanifest
De svenska partiernas partiprogram och valmanifest 1887–2022
2 099 602 svenska
Svensk Twitter 2017
Material från ett urval av svenskspråkiga Twitteranvändare från 2017
505 017 012 svenska
Svensk Twitter 2016
Material från ett urval av svenskspråkiga Twitteranvändare från 2016
694 515 420 svenska
Svensk Twitter 2015
Material från ett urval av svenskspråkiga Twitteranvändare från 2015
412 663 140 svenska
Svensk trädbank
En svensk trädbank med återanvändning av existerande resurser
svenska
Svensk Tidskrift
27 årgångar av den konservativa idétidskriften Svensk Tidskrift, mellan 1891 och 1940
7 202 567 svenska
Svensk prosafiktion 1800–1900
All svensk skönlitteratur som trycktes första gången åren 1800, 1820, 1840, 1860, 1880 och 1900
16 275 130 svenska
Svensk fraktur 1626-1816
Ett urval av svensk fraktur texter tryckta mellan 1626 och 1816 från samlingarna på Universitetsbiblioteket vid Göteborgs universitet (UB). För OCR analys.
47 924 svenska
Svensk författningssamling
Svensk författningssamling 1880-01-01 – 2012-08-16
8 058 400 svenska
Svensk EAT: frågeklassifikation
En översättning av QAQC datamängden för klassificering av typer av det förväntade svaret
svenska
Svensk analogi 2.0
Svensk semantisk och syntaktisk likhet
svenska
Svensk ABSAbank-Imm 1.1
Svensk annoterad korpus för aspektbaserad attitydanalys (en version av Absabank)
svenska
Svensk ABSAbank
Svensk annoterad korpus för aspektbaserad attitydanalys
1 574 226 svenska
sv-COVID-19
Blandade artiklar relaterade till coronaviruspandemin
8 130 201 svenska
SuperSim (paketterat för Superlim) 2.0
En datamängd för betydelsemässig likhet och koppling mellan svenska ord.
svenska
Samling
SuperLim 2
A standardized suite for evaluation and analysis of Swedish natural language understanding systems.
svenska
SUCX 3.0
Stockholm-Umeå-korpus 3.0 omkastad
1 166 593 svenska
SUCX 2.0
Stockholm-Umeå-korpus 2.0 omkastad
1 166 593 svenska
SUC-romaner (StorSUC)
Stockholm-Umeå-korpus
4 651 200 svenska
SUC 3.0
Stockholm-Umeå-korpus 3.0
1 166 593 svenska
SUC 2.0
Stockholm-Umeå-korpus 2.0
1 166 593 svenska
Stockholms stads tänkeböcker
Protokoll och minnesanteckningar från Stockholms rådhusrätt, år 1626.
121 366 svenska