Hoppa till huvudinnehåll

Datamängder

Här kan du leta och filtrera bland våra datamängder. Du kan klicka på en rad för att få fram nedladdningsbara filer. Genom att klicka på verktygsikonen kommer du direkt till gränssnittet där du kan utforska datamängden. Du kan göra avancerade sökningar i vår metadata hos Datacite.
Resurs Antal tokens Språk Åtkomst
Segregationstexter: Riksdagens öppna data: Övrigt
Dokumentserierna Riksrevisionens granskningsrapporter, Utredningar från Riksdagsförvaltningen och Rapporter från riksdagen samt planeringsdokument, bilagor till dokument och uttag ur riksdagens databaser och de gamla dokumentserierna Utredningar från riksdag
1 854 388 svenska
SemEval2020 Task 1
Svensk testdata för SemEval 2020 Task 1: Unsupervised Lexical Semantic Change Detection (utdrag ur Kubhist v2)
182 000 000 svenska
Sibirientyska
Sibirientyska är nedtecknad talad tyska som talas idag av c:a 36 000 människor i regionen Krasnojarsk i Sibirien (Ryssland).
34 205 svenska
Sibirientyska kvinnor
Samtal med fyra kvinnor födda mellan 1927 och 1937 i sovjetiska Volgarepubliken
16 208 svenska
SIC2 - Stockholm Internet Corpus
Korpusen Stockholm Internet Corpus (SIC2) innehåller svenska bloggar som är annoterade med ordklasstaggar, morfologiska särdrag och namnentiteter.
13 562 svenska
Smittskydd
Smittskyddsinstitutets tidskrift Smittskydd, årgångarna 2002–2010
691 716 svenska
SNP 1978–79
Riksdagens snabbprotokoll 1978–1979
4 865 138 svenska
SpIn
44 996 svenska
SpIn v1
256 essays collected from Language Introduction course (mid-term exams) for newly arrived refugees. Some of the students are recurrent.
46 911 svenska
Språkprov SO 2009
De drygt 94 000 språkexemplen är hämtade ur Svensk ordbok utgiven av Svenska Akademien (2009). Exemplens uppgift är att stödja ordboksdefinitionerna och att ge information om uppslagsordens fraseologi.
541 568 svenska
Stockholms stads tänkeböcker
Protokoll och minnesanteckningar från Stockholms rådhusrätt, år 1626.
121 366 svenska
Samling
Ståndsriksdagen
Samling av textdokument från Ståndsriksdagen
svenska
Ståndsriksdagen: Adelsståndet
Del av Ståndsriksdagen
64 915 391 svenska
Ståndsriksdagen: Bihang m.m.
Del av Ståndsriksdagen
66 201 274 svenska
Ståndsriksdagen: Bondeståndet
Del av Ståndsriksdagen
32 884 985 svenska
Ståndsriksdagen: Borgarståndet
Del av Ståndsriksdagen
35 604 839 svenska
Ståndsriksdagen: Prästeståndet
Del av Ståndsriksdagen
30 653 241 svenska
Ståndsriksdagen: Riksdagsbeslut
Del av Ståndsriksdagen
355 722 svenska
SUC 2.0
Stockholm-Umeå-korpus 2.0
1 166 593 svenska
SUC 3.0
Stockholm-Umeå-korpus 3.0
1 166 593 svenska
SUC-romaner (StorSUC)
Stockholm-Umeå-korpus
4 651 200 svenska
SUCX 2.0
Stockholm-Umeå-korpus 2.0 omkastad
1 166 593 svenska
SUCX 3.0
Stockholm-Umeå-korpus 3.0 omkastad
1 166 593 svenska
Samling
SuperLim 2
A standardized suite for evaluation and analysis of Swedish natural language understanding systems.
svenska
SuperSim (paketerat för Superlim) 2.0
En datamängd för betydelsemässig likhet och koppling mellan svenska ord.
svenska
sv-COVID-19
Blandade artiklar relaterade till coronaviruspandemin
8 130 201 svenska
Svensk ABSAbank
Svensk annoterad korpus för aspektbaserad attitydanalys
1 574 226 svenska
Svensk ABSAbank-Imm 1.1
Svensk annoterad korpus för aspektbaserad attitydanalys (en version av Absabank)
svenska
Svensk analogi 2.0
Svensk semantisk och syntaktisk likhet
svenska
Svensk Dramadialog
Svensk dramadialog är en korpus av svensk dramadialog från perioden 1730-1950, bestående av 34 hela dramer.
687 629 svenska
Svensk EAT: frågeklassifikation
En översättning av QAQC datamängden för klassificering av typer av det förväntade svaret
svenska
Svensk fraktur 1626-1816
Ett urval av svensk fraktur texter tryckta mellan 1626 och 1816 från samlingarna på Universitetsbiblioteket vid Göteborgs universitet (UB). För OCR analys.
47 924 svenska
Svensk författningssamling
Svensk författningssamling 1880-01-01 – 2023-12-15
19 748 312 svenska
Svensk prosafiktion 1800–1900
All svensk skönlitteratur som trycktes första gången åren 1800, 1820, 1840, 1860, 1880 och 1900
16 275 130 svenska
Svensk Tidskrift
27 årgångar av den konservativa idétidskriften Svensk Tidskrift, mellan 1891 och 1940
7 202 567 svenska
Svensk trädbank
En svensk trädbank med återanvändning av existerande resurser
svenska
Svensk Twitter 2015
Material från ett urval av svenskspråkiga Twitteranvändare från 2015
412 663 140 svenska
Svensk Twitter 2016
Material från ett urval av svenskspråkiga Twitteranvändare från 2016
694 515 420 svenska
Svensk Twitter 2017
Material från ett urval av svenskspråkiga Twitteranvändare från 2017
505 017 012 svenska
Svenska bokrecensioner
Tidnings- och tidskriftstexter med manuellt uppmärkta bokrecensioner.
svenska
Svenska kognitiva tester (syntetiska data)
Svenska kognitiva tester är en samling neuropsykologiska test som används för att bedöma kognitiva funktioner, särskilt språk och exekutiva funktioner.
svenska
Svenska partiprogram och valmanifest
De svenska partiernas partiprogram och valmanifest 1887–2024
2 234 400 svenska
Svenska tidningar 1818-1870
Ett urval av svenska tidningar tryckta mellan 1818 och 1870 från samlingarna på Kungliga biblioteket (KB). För OCR analys.
186 013 svenska
Svenska tidningar 1871-1906
Ett urval av svenska tidningar tryckta mellan 1871 och 1906 från samlingarna på Kungliga biblioteket (KB). För OCR analys.
337 635 svenska
Svenska Wikipedia
Korpus av svenskspråkiga Wikipedia
190 149 497 svenska
Svenskt frasnät (SweFN)
En lexikalisk-semantisk resurs baserad på samma principer som engelska Berkeley FrameNet. Denna del av resursen innehåller korpusexemplen, automatiskt annoterade med språklig information.
137 770 svenska
SveParafras 2.0
Referensdatan för semantisk textjämförelse (STS Benchmark)
svenska
Samling
SVT nyheter
Nyhetstexter från svt.se
svenska
SVT nyheter 2004
Nyhetstexter från svt.se
447 189 svenska
SVT nyheter 2005
Nyhetstexter från svt.se
3 300 646 svenska
SVT nyheter 2006
Nyhetstexter från svt.se
4 172 111 svenska
SVT nyheter 2007
Nyhetstexter från svt.se
5 533 682 svenska
SVT nyheter 2008
Nyhetstexter från svt.se
7 693 570 svenska
SVT nyheter 2009
Nyhetstexter från svt.se
8 860 985 svenska
SVT nyheter 2010
Nyhetstexter från svt.se
9 873 332 svenska
SVT nyheter 2011
Nyhetstexter från svt.se
9 327 078 svenska
SVT nyheter 2012
Nyhetstexter från svt.se
9 544 671 svenska
SVT nyheter 2013
Nyhetstexter från svt.se
13 961 829 svenska
SVT nyheter 2014
Nyhetstexter från svt.se
16 077 222 svenska
SVT nyheter 2015
Nyhetstexter från svt.se
19 205 040 svenska
SVT nyheter 2016
Nyhetstexter från svt.se
21 729 542 svenska
SVT nyheter 2017
Nyhetstexter från svt.se
21 184 642 svenska
SVT nyheter 2018
Nyhetstexter från svt.se
18 817 638 svenska
SVT nyheter 2019
Nyhetstexter från svt.se
18 274 785 svenska
SVT nyheter 2020
Nyhetstexter från svt.se
16 025 766 svenska
SVT nyheter 2021
Nyhetstexter från svt.se
14 978 995 svenska
SVT nyheter 2022
Nyhetstexter från svt.se
13 996 419 svenska
SVT nyheter 2023
Nyhetstexter från svt.se
7 501 502 svenska
SVT nyheter okänt datum
Nyhetstexter från svt.se
36 783 svenska
SW1203 v1
52 518 svenska
SW1203-uppsatser
Essays written by L2 Swedish language learners, university courses
51 972 svenska
SW1203-uppsatser version 2
51 956 svenska
Swe-NERC
En resurs för träning och utvärdering av igenkänning av namngiven entitet för svenska.
140 914 svenska
SweDiagnostics
Svenska versionen av (Super)GLUE diagnostik
svenska
SweDN 1.0
A Swedish text summarization corpus
svenska
SweFAQ 2.0
Vanliga frågor från svenska myndigheters webbsidor med svar i randomiserad ordning
svenska
SweFraCas 1.0
Textual inference/entailment problem set
svenska
Samling
SweLL
SweLL -- Swedish Learner Language -- är en samling av SweLL korpusar och derivata resurser med ursprung i dessa korpusar. SweLL korpusar består av elevtexter som skrevs av elever med andra modersmål än svenska (andraspråkskorpusar). Alla texter samlades inom provsituationer (ej hemuppgifter).
svenska, flera språk
SweLL-gold
Uppsatser skrivna av vuxenstuderande i svenska, manuellt pseudonymiserade och annoterade med felkategorier. Korpusen innehåller både originaltexten och en normaliserad version av varje uppsats. Insamlingperiod 2017-2020.
svenska
Samling
SweLL-pilot
Uppsatser skrivna av vuxenstuderande i svenska, annoterade med CEFR nivåerna (en Europeisk skala med färdighetsnivåer inom språkinlärningen). Uppsatserna samlades under perioden 2006-2015.
svenska
SweNLI 1.0
A Swedish NLI dataset
svenska
SweWiC 2.0
En svensk ord-i-sammanhang datamängd
svenska
SweWinogender 2.0
En svensk datamängd för koreferens och könsbias
svenska
SweWinograd 2.0
En svensk datamängd för pronomentolkning
svenska
Syntag trädbank
En svensk trädbank med syntaktisk analys av 158 artiklar ur Press-65.
101 329 svenska
TalbankenSBX
Talbanken är en svensk trädbank. Detta är Språkbanken Texts version av Talbanken.
96 346 svenska
TalbankenSTB
Talbanken är en svensk trädbank.
96 346 svenska
The English-Swedish Parallel Corpus (ESPC)
ESPC är en kombinerad jämförbar och parallell korpus lämplig för tvärspråkig forskning för olika typer.
1 518 759 svenska, engelska
The Swedish Culturomics Gigaword Corpus
En miljard ord ur svenska korpusar från 1950 och framåt. Kod för att extrahera data från korpusen, samt användningsinstruktioner, kan laddas ner från https://svn.spraakbanken.gu.se/sb-arkiv/tools/gigaword/
1 015 635 151 svenska
Tiden
30 årgångar av den socialistiska tidskriften Tiden, 1909–1940
7 106 662 svenska
TISUS v1
60 632 svenska
TISUS-texter
Essays written by L2 Swedish learners as part of a TISUS exam
59 639 svenska
TISUS-texter v2
60 036 svenska
Samling
Tvåkammarriksdagen
Samling av textdokument från Tvåkammarriksdagen
svenska
Tvåkammarriksdagen: Berättelser, redogörelser, framställningar
Del av Tvåkammarriksdagen
61 348 401 svenska
Tvåkammarriksdagen: Betänkanden, memorial, utlåtanden
Del av Tvåkammarriksdagen
195 467 124 svenska
Tvåkammarriksdagen: Motioner
Del av Tvåkammarriksdagen
73 189 180 svenska
Tvåkammarriksdagen: Propositioner, skrivelser
Del av Tvåkammarriksdagen
319 201 218 svenska
Tvåkammarriksdagen: Protokoll
Del av Tvåkammarriksdagen
327 554 657 svenska
Tvåkammarriksdagen: Register
Del av Tvåkammarriksdagen
23 323 395 svenska
BibTeX list