Meny
Aktuellt
Open submenu
Forskning
Open submenu
Data
Analyser
Plattformar
Open submenu
Om oss
Open submenu
Kontakt
Open submenu
FAQ
Close submenu
Aktuellt
Nyheter
Konferenser och workshopar
Open submenu
Blogg
Kalender
Open submenu
Close submenu
Konferenser och workshopar
CLT retreat 2020
AI Trust workshop
CDLC workshop
CLT workshop Spring 2023
EACL 2014
Höstworkshop
Open submenu
Korpworkshop
Open submenu
NoDaLiDa 2017
RESOURCEFUL
SLTC 2020
Open submenu
Sustainable language representations
Open submenu
Workshop on Profiling second language vocabulary and grammar - 2023
Close submenu
Höstworkshop
Höstworkshop 2025
Höstworkshop 2024
Höstworkshop 2023
Höstworkshop 2022
Höstworkshop 2021
Höstworkshop 2020
Höstworkshop 2011 och Korp-släpp
Höstworkshop 2012
Höstworkshop 2013
Höstworkshop 2014
Höstworkshop 2015
Höstworkshop 2016
Höstworkshop 2017
Höstworkshop 2018
Höstworkshop 2019
Språkbanken 40 år
Close submenu
Korpworkshop
Korpworkshop 2014
Korpworkshop 2018
Close submenu
SLTC 2020
Programme
Instructions
People
Support
Call for papers
Close submenu
Sustainable language representations
Position statements
Close submenu
Kalender
Tidigare händelser
Close submenu
Forskning
Publikationer
Doktorandutbildning
Open submenu
Close submenu
Doktorandutbildning
For PhD students and supervisors
Close submenu
Plattformar
Korp
Open submenu
Karp
Open submenu
Sparv
Open submenu
Mink
Open submenu
Lärka
Övriga verktyg
Open submenu
Close submenu
Korp
Användarhandledning
Webb-API
Distribution och utveckling
Korpusstatistik
Nedladdningsbara meningsmängder
Close submenu
Karp
Webb-API
Close submenu
Sparv
Sparvs korpuspipeline
Sparvs användarhandledning
Annotationer från Sparv
Webb-API
Web Sparv
Close submenu
Mink
User manual
Övningsexempel
Video: överblick
Web API
Privacy and data policy
Close submenu
Övriga verktyg
Catta
IT-baserad grammatikinlärning
Close submenu
Om oss
Personal
Organisation
Språkbanken Text i världen
Språkbanken 50 år
Open submenu
En kortfattad historik
Doktorandutbildning
Undervisning
Referera till oss
Alumner
Möten och workshoppar
Open submenu
Kakor
Internt
Close submenu
Språkbanken 50 år
Jubileumsfirande
Close submenu
Möten och workshoppar
Workshoppar
Open submenu
Forskningsmöten
Gruppmöten
SBX Retreat
Open submenu
Close submenu
Workshoppar
End of the year workshop 2024
End of the year workshop 2023
Semester workshop 2022
Semester workshop H2021
Semester workshop V2021
Semester workshop H2020
Semester workshop V2020
Close submenu
SBX Retreat
SBX Retreat 2024
SBX Retreat 2023
SBX Retreat 2022
Close submenu
Kontakt
Rådgivning
Hoppa till huvudinnehåll
Svenska
English
Språkbanken Text är en avdelning inom
Språkbanken
.
Aktuellt
Forskning
Data
Analyser
Plattformar
Om oss
Kontakt
FAQ
Meny
Länkstig
Hem
Datamängder
Datamängder
Här kan du leta och filtrera bland våra datamängder. Du kan klicka på en rad för att få fram nedladdningsbara filer. Genom att klicka på verktygsikonen kommer du direkt till gränssnittet där du kan utforska datamängden.
Alla (1328)
Samlingar (31)
Korpusar (1199)
Lexikon (66)
Tränings- och utvärderingsdata (15)
Modeller (48)
Namn eller beskrivning
Språk
- Alla -
svenska
albanska
blissymboler
bokmål
bosniska
bulgariska
danska
engelska
estniska
finlandssvenska
finska
flera språk
fornengelska (ca 450-1100)
fornhögtyska (ca 750-1050)
fornisländska
fornsaxiska
franska
färöiska
högsorbiska
iranian persian
isländska
italienska
kele (papua new guinea)
kroatiska
kurdiska
latin
lettiska
lågsorbiska
makedonska
modern greek (1453-)
moliseslaviska
nederländska
norska
polska
portugisiska
rumänska
ryska
serbiska
slovakiska
slovenska
somali
spanska
tjeckiska
turkiska
turkmeniska
tyska
ukrainska
vitryska
xhosa
Resurs
Typ
Språk
Åtkomst
SweLL-gold
Uppsatser skrivna av vuxenstuderande i svenska, manuellt pseudonymiserade och annoterade med felkategorier. Korpusen innehåller både originaltexten och en normaliserad version av varje uppsats. Insamlingperiod 2017-2020.
Korpus
svenska
Ordstatistik:
stats_SWELLV1-ORIGINAL.txt
2021-08-15 – 760.53 KB – CC BY 4.0
Ordstatistik:
stats_SWELLV1-TARGET.txt
2021-08-15 – 675.14 KB – CC BY 4.0
Utforska i:
Samling
SweLL-pilot
Uppsatser skrivna av vuxenstuderande i svenska, annoterade med CEFR nivåerna (en Europeisk skala med färdighetsnivåer inom språkinlärningen). Uppsatserna samlades under perioden 2006-2015.
Korpus
svenska
Se 3 delresurser
Utforska i:
SweLLex
SweLLex är en ordlista med produktivt ordförråd för elever med svenska som andraspråk
Lexikon
svenska
Datamängd:
SweLLex_v1_xlsx.tar.bz2
2025-01-24 – 3.21 MB – CC BY 4.0
Datamängd:
SweLLex_v1_tsv.tar.bz2
2025-01-24 – 213.59 KB – CC BY 4.0
Utforska i:
SweNLI 1.0
A Swedish NLI dataset
Korpus
svenska
Datamängd:
swenli.zip
2023-03-30 – 55.13 MB – CC BY 4.0
SweSAT Högskoleprovet ordförståelse 1.1
Högskoleprovet ordförståelse
Lexikon
svenska
Datamängd:
swesat-synonyms.zip
2023-03-30 – 37.73 KB – CC BY 4.0
Swesaurus
Ett svenskt ordnät
Lexikon
svenska
Datamängd:
swesaurus.xml
2017-09-19 – 12.16 MB – CC BY 4.0
Utforska i:
SweWiC 2.0
En svensk ord-i-sammanhang datamängd
Korpus
svenska
Datamängd:
swewic.zip
2023-03-30 – 587.65 KB – CC BY 4.0
SweWinogender 2.0
En svensk datamängd för koreferens och könsbias
Korpus
svenska
Datamängd:
swewinogender.zip
2023-03-30 – 28.3 KB – CC BY 4.0
SweWinograd 2.0
En svensk datamängd för pronomentolkning
Korpus
svenska
Datamängd:
swewinograd.zip
2023-03-30 – 33.41 KB – CC BY 4.0
Syntag trädbank
En svensk trädbank med syntaktisk analys av 158 artiklar ur Press-65.
Korpus
svenska
Datamängd:
syntag.txt
2010-02-08 – 4.45 MB – CC BY 4.0
Datamängd:
syntag.html
2010-05-24 – 10.15 MB – CC BY 4.0
Sæmundaredda
Forntida isländsk poesi även känd som The King's Book
Korpus
fornisländska
Datamängd:
eddan.xml.bz2
2015-01-21 – 87.55 KB – CC BY 4.0
Ordstatistik:
stats_EDDAN.txt
2015-01-25 – 172.88 KB – CC BY 4.0
Utforska i:
TalbankenSBX
Talbanken är en svensk trädbank. Detta är Språkbanken Texts version av Talbanken.
Korpus
svenska
Datamängd:
talbanken.xml.bz2
2017-06-07 – 1.54 MB – CC BY 4.0
Ordstatistik:
stats_TALBANKEN.txt
2016-03-13 – 1.06 MB – CC BY 4.0
Datamängd:
changelog.txt
2020-06-11 – 316 byte – CC BY 4.0
Datamängd:
TalbankenSBX_morphsplit20200610.zip
2020-06-11 – 3.64 MB – CC BY 4.0
Datamängd:
TalbankenSBX_syntsplit20200610.zip
2020-06-11 – 807.09 KB – CC BY 4.0
Utforska i:
TalbankenSTB
Talbanken är en svensk trädbank.
Korpus
svenska
Datamängd:
TalbankenSTB.zip
2020-08-11 – 2.6 MB – CC BY 4.0
Datamängd:
TalbankenSTB_README.txt
2020-08-11 – 1.05 KB – CC BY 4.0
Datamängd:
TalbankenSTB_documentation.zip
2020-08-11 – 62.23 KB – CC BY 4.0
Datamängd:
TalbankenSTB_datasplit.zip
2020-08-11 – 2.6 MB – CC BY 4.0
Datamängd:
TalbankenSTB_original_parts.zip
2020-08-11 – 2.95 MB – CC BY 4.0
The English-Swedish Parallel Corpus (ESPC)
ESPC är en kombinerad jämförbar och parallell korpus lämplig för tvärspråkig forskning för olika typer.
Korpus
svenska, engelska
Utforska i:
The Swedish Culturomics Gigaword Corpus
En miljard ord ur svenska korpusar från 1950 och framåt. Kod för att extrahera data från korpusen, samt användningsinstruktioner, kan laddas ner från https://svn.spraakbanken.gu.se/sb-arkiv/tools/gigaword/
Korpus
svenska
Datamängd:
gigaword-1950-59.tar
2016-06-07 – 92.69 MB – CC BY 4.0
Datamängd:
gigaword-1960-69.tar
2016-06-07 – 107.78 MB – CC BY 4.0
Datamängd:
gigaword-1970-79.tar
2016-06-07 – 175.03 MB – CC BY 4.0
Datamängd:
gigaword-1980-89.tar
2016-06-07 – 217.9 MB – CC BY 4.0
Datamängd:
gigaword-1990-99.tar
2016-06-07 – 1.05 GB – CC BY 4.0
Datamängd:
gigaword-2000-09.tar
2016-06-07 – 5.48 GB – CC BY 4.0
Datamängd:
gigaword-2010-15.tar
2016-06-07 – 4.32 GB – CC BY 4.0
The Swedish PoliGraph
En utvidgbar kunskapsgraf med information om Riksdagens ledamöter
Lexikon
svenska
Datamängd:
poligraph.tar.bz2
2020-01-14 – 2.29 MB – GNU GPLv3 or later
Utforska i:
Tiden
30 årgångar av den socialistiska tidskriften Tiden, 1909–1940
Korpus
svenska
Datamängd:
runeberg-tiden.xml.bz2
2014-12-08 – 89.33 MB – CC BY 4.0
Ordstatistik:
stats_RUNEBERG-TIDEN.txt
2015-06-25 – 21.59 MB – CC BY 4.0
Utforska i:
TISUS v1
Korpus
svenska
Ordstatistik:
stats_TISUSV1.txt
2021-07-04 – 407.41 KB – CC BY 4.0
Utforska i:
TISUS-texter
Essays written by L2 Swedish learners as part of a TISUS exam
Korpus
svenska
Utforska i:
TISUS-texter v2
Korpus
svenska
Ordstatistik:
stats_TISUSV2.txt
2020-11-29 – 403.74 KB – CC BY 4.0
Utforska i:
Samling
Tvåkammarriksdagen
Samling av textdokument från Tvåkammarriksdagen
Korpus
svenska
Se 10 delresurser
Utforska i:
Tvåkammarriksdagen: Berättelser, redogörelser, framställningar
Del av Tvåkammarriksdagen
Korpus
svenska
Datamängd:
tkr-berattelser-redogorelser-frsrdg.xml.bz2
2023-12-12 – 1 GB – CC BY 4.0
Ordstatistik:
stats_tkr-berattelser-redogorelser-frsrdg.csv
2023-12-13 – 332.03 MB – CC BY 4.0
Utforska i:
Tvåkammarriksdagen: Betänkanden, memorial, utlåtanden
Del av Tvåkammarriksdagen
Korpus
svenska
Datamängd:
tkr-bet-mem-utl.xml.bz2
2023-12-11 – 3.59 GB – CC BY 4.0
Ordstatistik:
stats_tkr-bet-mem-utl.csv
2023-12-12 – 615.55 MB – CC BY 4.0
Utforska i:
Tvåkammarriksdagen: Motioner
Del av Tvåkammarriksdagen
Korpus
svenska
Datamängd:
tkr-motioner.xml.bz2
2023-12-11 – 1.42 GB – CC BY 4.0
Ordstatistik:
stats_tkr-motioner.csv
2023-12-12 – 391.82 MB – CC BY 4.0
Utforska i:
Tvåkammarriksdagen: Propositioner, skrivelser
Del av Tvåkammarriksdagen
Korpus
svenska
Datamängd:
tkr-propositioner-skrivelser.xml.bz2
2023-12-12 – 5.94 GB – CC BY 4.0
Ordstatistik:
stats_tkr-propositioner-skrivelser.csv
2023-12-13 – 839.16 MB – CC BY 4.0
Utforska i:
Tvåkammarriksdagen: Protokoll
Del av Tvåkammarriksdagen
Korpus
svenska
Datamängd:
tkr-protokoll.xml.bz2
2023-12-12 – 6.08 GB – CC BY 4.0
Ordstatistik:
stats_tkr-protokoll.csv
2023-12-13 – 765.82 MB – CC BY 4.0
Utforska i:
Tvåkammarriksdagen: Register
Del av Tvåkammarriksdagen
Korpus
svenska
Datamängd:
tkr-register.xml.bz2
2023-12-11 – 285.18 MB – CC BY 4.0
Ordstatistik:
stats_tkr-register.csv
2023-12-12 – 100.33 MB – CC BY 4.0
Utforska i:
Tvåkammarriksdagen: Reglementen, svensk författningssamling
Del av Tvåkammarriksdagen
Korpus
svenska
Datamängd:
tkr-reglementen-sfs.xml.bz2
2023-12-11 – 43.12 MB – CC BY 4.0
Ordstatistik:
stats_tkr-reglementen-sfs.csv
2023-12-12 – 28.6 MB – CC BY 4.0
Utforska i:
Tvåkammarriksdagen: Riksdagens författningssamling RFS
Del av Tvåkammarriksdagen
Korpus
svenska
Datamängd:
tkr-riksdagens-forfattningssamling-rfs.xml.bz2
2023-12-11 – 1.56 MB – CC BY 4.0
Ordstatistik:
stats_tkr-riksdagens-forfattningssamling-rfs.csv
2023-11-28 – 954.85 KB – CC BY 4.0
Utforska i:
Tvåkammarriksdagen: Riksdagsakter
Del av Ståndsriksdagen
Korpus
svenska
Datamängd:
standsriksdagen-riksdagsakter.xml.bz2
2024-06-17 – 44.69 MB – CC BY 4.0
Ordstatistik:
stats_standsriksdagen-riksdagsakter.csv
2024-08-05 – 12.27 MB – CC BY 4.0
Utforska i:
Tvåkammarriksdagen: Riksdagsskrivelser
Del av Tvåkammarriksdagen
Korpus
svenska
Datamängd:
tkr-rskr.xml.bz2
2023-12-11 – 476.4 MB – CC BY 4.0
Ordstatistik:
stats_tkr-rskr.csv
2023-12-12 – 133.13 MB – CC BY 4.0
Utforska i:
Tvåkammarriksdagen: Utredningar, EU-förslag, betänkande, statens offentliga utredningar
Del av Tvåkammarriksdagen
Korpus
svenska
Datamängd:
tkr-utredningar-kombet-sou.xml.bz2
2023-12-12 – 986.58 MB – CC BY 4.0
Ordstatistik:
stats_tkr-utredningar-kombet-sou.csv
2023-12-13 – 223.48 MB – CC BY 4.0
Utforska i:
Twitter: Partiledardebatt juni 2013
Material från Twitter, insamlat under partiledardebatten 12 juni 2013 samt några dagar före och efter
Korpus
svenska
Ordstatistik:
stats_TWITTER-PLDEBATT-130612.txt
2017-05-21 – 77.03 MB – CC BY 4.0
Utforska i:
Twitter: Partiledardebatt maj 2014
Material från Twitter, insamlat under partiledardebatten 4 maj 2014 samt några dagar före och efter
Korpus
svenska
Ordstatistik:
stats_TWITTER-PLDEBATT-140504.txt
2017-05-21 – 60.7 MB – CC BY 4.0
Utforska i:
Twitter: Partiledardebatt oktober 2013
Material från Twitter, insamlat under partiledardebatten 6 oktober 2013 samt några dagar före och efter
Korpus
svenska
Ordstatistik:
stats_TWITTER-PLDEBATT-131006.txt
2017-05-21 – 51.9 MB – CC BY 4.0
Utforska i:
Twittermix
Material från ett urval av svenska Twitteranvändare. Uppdateras regelbundet.
Korpus
svenska
Ordstatistik:
stats_twitter.csv
2022-11-09 – 799.05 MB – CC BY 4.0
Utforska i:
UNSC-Graph
En utvidgbar kunskapsgraf för UNSC-korpusen med detaljer om deltagare och debatter från FN:s säkerhetsråd 1995-2020
Lexikon
engelska
Datamängd:
unsc-graph-1.0.tar.gz
2023-08-31 – 4.8 MB – GNU GPLv3 or later
Ur Dagens Krönika
Åtta årgångar av kulturtidskriften Ur Dagens Krönika, 1881–1890
Korpus
svenska
Datamängd:
runeberg-urdagkron.xml.bz2
2014-12-08 – 24.43 MB – CC BY 4.0
Ordstatistik:
stats_RUNEBERG-URDAGKRON.txt
2015-06-25 – 10.48 MB – CC BY 4.0
Utforska i:
Samling
Webbnyheter
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Se 13 delresurser
Utforska i:
Webbnyheter 2001
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2001.xml.bz2
2024-01-04 – 17.13 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2001.csv
2024-01-05 – 4.82 MB – CC BY 4.0
Utforska i:
Webbnyheter 2002
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2002.xml.bz2
2022-11-30 – 506.49 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2002.csv
2022-12-01 – 33.03 MB – CC BY 4.0
Utforska i:
Webbnyheter 2003
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2003.xml.bz2
2022-11-30 – 357.9 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2003.csv
2022-12-01 – 25.69 MB – CC BY 4.0
Utforska i:
Webbnyheter 2004
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2004.xml.bz2
2022-11-30 – 403.31 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2004.csv
2022-12-01 – 26.62 MB – CC BY 4.0
Utforska i:
Webbnyheter 2005
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2005.xml.bz2
2024-01-05 – 849.81 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2005.csv
2024-01-06 – 40.67 MB – CC BY 4.0
Utforska i:
Webbnyheter 2006
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2006.xml.bz2
2022-12-01 – 654.61 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2006.csv
2022-12-02 – 39.04 MB – CC BY 4.0
Utforska i:
Webbnyheter 2007
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2007.xml.bz2
2022-12-01 – 715.52 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2007.csv
2022-12-02 – 40.8 MB – CC BY 4.0
Utforska i:
Webbnyheter 2008
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2008.xml.bz2
2022-12-01 – 796.9 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2008.csv
2022-12-02 – 44.26 MB – CC BY 4.0
Utforska i:
Webbnyheter 2009
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2009.xml.bz2
2024-01-05 – 747.74 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2009.csv
2024-01-06 – 40.43 MB – CC BY 4.0
Utforska i:
Webbnyheter 2010
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2010.xml.bz2
2022-12-02 – 691.09 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2010.csv
2022-12-02 – 36.94 MB – CC BY 4.0
Utforska i:
Webbnyheter 2011
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2011.xml.bz2
2022-12-02 – 764.57 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2011.csv
2022-12-03 – 40.69 MB – CC BY 4.0
Utforska i:
Webbnyheter 2012
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2012.xml.bz2
2022-12-02 – 729.32 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2012.csv
2022-12-03 – 39.72 MB – CC BY 4.0
Utforska i:
Webbnyheter 2013
Nyheter från svenska dagstidningars webbplatser
Korpus
svenska
Datamängd:
webbnyheter2013.xml.bz2
2024-01-05 – 652.09 MB – CC BY 4.0
Ordstatistik:
stats_webbnyheter2013.csv
2024-01-06 – 36.02 MB – CC BY 4.0
Utforska i:
Wexjöbladet 1820-talet
Del av samlingen Kubhist2
Korpus
svenska
Datamängd:
kubhist2-wexjobladet-1820.xml.bz2
2024-01-16 – 36.76 MB – CC BY 4.0
Ordstatistik:
stats_kubhist2-wexjobladet-1820.csv
2024-01-17 – 8.97 MB – CC BY 4.0
Utforska i:
WordNet-SALDO
En länkning mellan SALDO och Core WordNet
Lexikon
svenska, engelska
Datamängd:
wordnet-saldo.xml
2017-09-19 – 5.71 MB – CC BY 4.0
Utforska i:
WordReference
En stor korpus av skriftligt tal av modersmåls- och icke-modersmålstalare i fyra språk.
Korpus
engelska, spanska, franska, italienska
Datamängd:
wordreference.zip
2020-11-10 – 365.51 MB – CC BY 4.0
Yrkesbeteckningar
En lista över yrkesbeteckningar på svenska
Lexikon
svenska
Datamängd:
vocationTerms150120.utf.txt.gz
2024-01-25 – 67.12 KB – CC BY 4.0
Paginering
Första sidan
« Första
Föregående sida
‹ Föregående
Sida
1
Sida
2
Sida
3
Sida
4
Sida
5
Sida
6
Sida
7
Sida
8
Sida
9
Sida
10
Sida
11
Sida
12
Sida
13
Close menu