Hoppa till huvudinnehåll
Svenska
English
Språkbanken Text är en avdelning inom
Språkbanken
.
Aktuellt
Forskning
Verktyg
Data
Frågelåda
Om oss
Kontakt
Meny
Länkstig
Hem
Datamängder
Datamängder
Datamängder
Här kan du leta och filtrera bland våra datamängder. Du kan klicka på en rad för att få fram nedladdningsbara filer. Genom att klicka på verktygsikonen kommer du direkt till gränssnittet där du kan utforska datamängden.
Alla (1323)
Samlingar (30)
Korpusar (1198)
Lexikon (62)
Tränings- och utvärderingsdata (15)
Modeller (48)
Namn eller beskrivning
Språk
- Alla -
svenska
albanska
blissymboler
bokmål
bosniska
bulgariska
danska
engelska
estniska
finlandssvenska
finska
flera språk
fornengelska (ca 450-1100)
fornhögtyska (ca 750-1050)
fornisländska
fornsaxiska
franska
färöiska
högsorbiska
iranian persian
isländska
italienska
kele (papua new guinea)
kroatiska
kurdiska
latin
lettiska
lågsorbiska
makedonska
modern greek (1453-)
moliseslaviska
nederländska
norska
polska
portugisiska
rumänska
ryska
serbiska
slovakiska
slovenska
somali
spanska
tjeckiska
turkiska
turkmeniska
tyska
ukrainska
vitryska
xhosa
Resurs
Typ
Språk
Åtkomst
Argumentation sentences 1.0
A translated corpus for classifying sentence stance in relation to a topic.
Korpus
svenska
Datamängd:
argumentation-sentences.zip
2023-03-30 – 827.04 KB – CC BY 4.0
CoDeRooMor, v.01
Dataset för morfologistudier (ordbildningsmorfologi), Svenska L2 profil-projektet
Lexikon
svenska
Datamängd:
CodeRoomor_v01_lemgramView.csv
2021-04-13 – 1.96 MB – CC BY 4.0
Datamängd:
CodeRoomor_v01_morphemeView.csv
2021-04-13 – 856.29 KB – CC BY 4.0
Datamängd:
CodeRoomor_v01_lemgramView.xlsx
2021-04-13 – 1.72 MB – CC BY 4.0
Datamängd:
CodeRoomor_v01_morphemeView.xlsx
2021-04-13 – 699.46 KB – CC BY 4.0
Utforska i:
DaLAJ-GED-Superlim 2.0
Dataset for Linguistic Acceptability Judgments (and more), v.2.0
Korpus
svenska
Datamängd:
dalaj-ged-superlim.zip
2023-04-03 – 1.41 MB – CC BY 4.0
Datamängd:
dalaj-ged-tsv.zip
2023-05-20 – 1.15 MB – CC BY 4.0
Datamängd:
liuep197-11.pdf
2024-01-25 – 463.74 KB – CC BY 4.0
Dalin: Then Swänska Argus 1732-1734
Manuell transkription av Then Swänska Argus av Olof von Dalin, Stockholm, 1732–1734. För OCR analys.
Korpus
svenska
Datamängd:
dalin-then-swaanska-argus-1732-1734.tar.gz
2020-06-12 – 80.21 MB – CC BY 4.0
Eukalyptus skriven svenska
En trädbank som innnehåller skriven svenska, uppmärkt med ordklasser, syntax i stil med TIGER-trädbanken, flerordsenheter och ordbetydelser
Korpus
svenska
Datamängd:
Eukalyptus-1.0.0.zip
2024-01-25 – 4.58 MB – CC BY-SA 4.0
Datamängd:
Eukalyptus-0.1.0.zip
2024-01-25 – 3.66 MB – Mixed
Datamängd:
Eukalyptus-0.1.1.zip
2024-01-25 – 3.8 MB – Mixed
Datamängd:
Eukalyptus-0.2.0.zip
2024-01-25 – 4.19 MB – Mixed
MuClaGED
MuClaGED är en datamängd för multi-class Grammatical Error Detection för svenska. Den är baserad på SweLL-gold korpusen.
Korpus
svenska
Utforska i:
MultiGEC
MultiGEC är en datamängd för Grammatical Error Correction (uppgift inom NLP) och innehåller parallel data för 12 språk och 17 delkorpusar. Varje delkorpus består av två eller fler varianter av samma texter (oftast uppsatser som skrivs av språkinlärare), där en version (orig) har skrivits av en författare (elev, student, etc.) och de andra versionerna (ref1, ref2, ...) är korrigerade versioner av samma text. Språk som ingår: tjeckiska, engelska, estniska, tyska, grekiska, isländska, italienska, lettiska, ryska, slovenska, svenska och ukrainska (engelska och ryska kan fås på begäran). Texter kommer från olika ursprungskorpusar, men har genomgått omformattering för att ha en gemensam format.
Korpus
tjeckiska, tyska, modern greek (1453-), engelska, estniska, isländska, italienska, lettiska, ryska, slovenska, svenska, ukrainska
Utforska i:
MultiGED
MultiGED är en datamängd för Grammatical Error Detection (uppgift inom NLP) och innehåller data för 5 språk (tjeckiska, engelska, tyska, italienska och svenska).
Korpus
tjeckiska, tyska, engelska, italienska, svenska
Datamängd:
multiged-2023.tar.bz2
2025-01-22 – 3.82 MB
Utforska i:
SemEval2020 Task 1
Svensk testdata för SemEval 2020 Task 1: Unsupervised Lexical Semantic Change Detection (utdrag ur Kubhist v2)
Korpus
svenska
Datamängd:
semeval2020_ulscd_swe.zip
2024-01-25 – 956.05 MB – CC BY 4.0
SIC2 - Stockholm Internet Corpus
Korpusen Stockholm Internet Corpus (SIC2) innehåller svenska bloggar som är annoterade med ordklasstaggar, morfologiska särdrag och namnentiteter.
Korpus
svenska
Datamängd:
sic2.xml.bz2
2020-11-25 – 262.36 KB – CC BY 4.0
Ordstatistik:
stats_sic2.csv
2021-08-12 – 177.44 KB – CC BY 4.0
Datamängd:
sic2.zip
CC BY 4.0
Datamängd:
readme.txt
2020-11-17 – 2.18 KB – CC BY 4.0
Utforska i:
SUC 2.0
Stockholm-Umeå-korpus 2.0
Korpus
svenska
Ordstatistik:
stats_SUC2.txt
2017-05-21 – 6.65 MB – CC BY 4.0
SUC 3.0
Stockholm-Umeå-korpus 3.0
Korpus
svenska
Datamängd:
suc3.xml.bz2
2024-06-03 – 84.44 MB – CC BY 4.0
Ordstatistik:
stats_suc3.csv
2024-03-28 – 7.7 MB – CC BY 4.0
Utforska i:
Samling
SuperLim 2
A standardized suite for evaluation and analysis of Swedish natural language understanding systems.
Korpus
svenska
Datamängd:
SuperLim-2-2.0.4.zip
2024-01-25 – 156.63 MB – CC BY 4.0
Datamängd:
SuperLim_maintenance.odt
2024-01-25 – 16.96 KB
SuperSim (paketerat för Superlim) 2.0
En datamängd för betydelsemässig likhet och koppling mellan svenska ord.
Korpus
svenska
Datamängd:
supersim-superlim.zip
2023-03-30 – 70.45 KB – CC BY 4.0
Svensk ABSAbank
Svensk annoterad korpus för aspektbaserad attitydanalys
Korpus
svenska
Datamängd:
swe-absa-bank.zip
2020-03-04 – 128.55 MB – CC BY 4.0
Datamängd:
absabankimm-combined.zip
2023-02-20 – 15.87 MB – CC BY 4.0
Svensk ABSAbank-Imm 1.1
Svensk annoterad korpus för aspektbaserad attitydanalys (en version av Absabank)
Korpus
svenska
Datamängd:
absabank-imm.zip
2023-03-30 – 1.03 MB – CC BY 4.0
Svensk analogi 2.0
Svensk semantisk och syntaktisk likhet
Korpus
svenska
Datamängd:
sweanalogy.zip
2023-03-30 – 178.63 KB – CC BY 4.0
Svensk EAT: frågeklassifikation
En översättning av QAQC datamängden för klassificering av typer av det förväntade svaret
Korpus
svenska
Datamängd:
swe_qaqc_train.csv
2023-06-08 – 361.34 KB – CC BY 4.0
Datamängd:
Swedish_EAT_v1.0.tsv
2023-06-08 – 2.05 KB – CC BY 4.0
Svensk fraktur 1626-1816
Ett urval av svensk fraktur texter tryckta mellan 1626 och 1816 från samlingarna på Universitetsbiblioteket vid Göteborgs universitet (UB). För OCR analys.
Korpus
svenska
Datamängd:
svensk-fraktur-1626-1816.tar.gz
2021-11-26 – 757.73 MB – CC BY 4.0
Svensk trädbank
En svensk trädbank med återanvändning av existerande resurser
Korpus
svenska
Svenska tidningar 1818-1870
Ett urval av svenska tidningar tryckta mellan 1818 och 1870 från samlingarna på Kungliga biblioteket (KB). För OCR analys.
Korpus
svenska
Datamängd:
svenska-tidningar-1818-1870.tar.gz
2020-05-26 – 458.22 MB – CC BY 4.0
Svenska tidningar 1871-1906
Ett urval av svenska tidningar tryckta mellan 1871 och 1906 från samlingarna på Kungliga biblioteket (KB). För OCR analys.
Korpus
svenska
Datamängd:
svenska-tidningar-1871-1906.tar.gz
2022-05-03 – 831.74 MB – CC BY 4.0
SveParafras 2.0
Referensdatan för semantisk textjämförelse (STS Benchmark)
Korpus
svenska
Datamängd:
sweparaphrase.zip
2023-03-30 – 750.9 KB – CC BY 4.0
Swe-NERC
En resurs för träning och utvärdering av igenkänning av namngiven entitet för svenska.
Korpus
svenska
Datamängd:
Swe-NERC-v1.0.tar.gz
2024-03-05 – 5.74 MB – CC BY 4.0
SweDiagnostics
Svenska versionen av (Super)GLUE diagnostik
Korpus
svenska
Datamängd:
swediagnostics.zip
2023-04-04 – 72.89 KB – CC BY 4.0
SweDN 1.0
A Swedish text summarization corpus
Korpus
svenska
Datamängd:
swedn.zip
2023-03-30 – 89.6 MB – CC BY 4.0
SweFAQ 2.0
Vanliga frågor från svenska myndigheters webbsidor med svar i randomiserad ordning
Korpus
svenska
Datamängd:
swefaq.zip
2023-03-30 – 89.81 MB – CC BY 4.0
SweFraCas 1.0
Textual inference/entailment problem set
Korpus
svenska
Datamängd:
swefracas.tsv
2021-06-10 – 100.92 KB – CC BY 4.0
Datamängd:
swefracas_documentation_sheet.tsv
2021-06-15 – 4.23 KB – CC BY 4.0
SweNLI 1.0
A Swedish NLI dataset
Korpus
svenska
Datamängd:
swenli.zip
2023-03-30 – 55.13 MB – CC BY 4.0
SweSAT Högskoleprovet ordförståelse 1.1
Högskoleprovet ordförståelse
Lexikon
svenska
Datamängd:
swesat-synonyms.zip
2023-03-30 – 37.73 KB – CC BY 4.0
SweWiC 2.0
En svensk ord-i-sammanhang datamängd
Korpus
svenska
Datamängd:
swewic.zip
2023-03-30 – 587.65 KB – CC BY 4.0
SweWinogender 2.0
En svensk datamängd för koreferens och könsbias
Korpus
svenska
Datamängd:
swewinogender.zip
2023-03-30 – 28.3 KB – CC BY 4.0
SweWinograd 2.0
En svensk datamängd för pronomentolkning
Korpus
svenska
Datamängd:
swewinograd.zip
2023-03-30 – 33.41 KB – CC BY 4.0
Syntag trädbank
En svensk trädbank med syntaktisk analys av 158 artiklar ur Press-65.
Korpus
svenska
Datamängd:
syntag.txt
2010-02-08 – 4.45 MB – CC BY 4.0
Datamängd:
syntag.html
2010-05-24 – 10.15 MB – CC BY 4.0
TalbankenSBX
Talbanken är en svensk trädbank. Detta är Språkbanken Texts version av Talbanken.
Korpus
svenska
Datamängd:
talbanken.xml.bz2
2017-06-07 – 1.54 MB – CC BY 4.0
Ordstatistik:
stats_TALBANKEN.txt
2016-03-13 – 1.06 MB – CC BY 4.0
Datamängd:
changelog.txt
2020-06-11 – 316 byte – CC BY 4.0
Datamängd:
TalbankenSBX_morphsplit20200610.zip
2020-06-11 – 3.64 MB – CC BY 4.0
Datamängd:
TalbankenSBX_syntsplit20200610.zip
2020-06-11 – 807.09 KB – CC BY 4.0
Utforska i:
TalbankenSTB
Talbanken är en svensk trädbank.
Korpus
svenska
Datamängd:
TalbankenSTB.zip
2020-08-11 – 2.6 MB – CC BY 4.0
Datamängd:
TalbankenSTB_README.txt
2020-08-11 – 1.05 KB – CC BY 4.0
Datamängd:
TalbankenSTB_documentation.zip
2020-08-11 – 62.23 KB – CC BY 4.0
Datamängd:
TalbankenSTB_datasplit.zip
2020-08-11 – 2.6 MB – CC BY 4.0
Datamängd:
TalbankenSTB_original_parts.zip
2020-08-11 – 2.95 MB – CC BY 4.0
Aktuellt
Nyheter
Konferenser och workshopar
CLT retreat 2020
AI Trust workshop
CDLC workshop
CLT workshop Spring 2023
EACL 2014
Höstworkshop
Höstworkshop 2025
Höstworkshop 2024
Höstworkshop 2023
Höstworkshop 2022
Höstworkshop 2021
Höstworkshop 2020
Höstworkshop 2011 och Korp-släpp
Höstworkshop 2012
Höstworkshop 2013
Höstworkshop 2014
Höstworkshop 2015
Höstworkshop 2016
Höstworkshop 2017
Höstworkshop 2018
Höstworkshop 2019
Språkbanken 40 år
Korpworkshop
Korpworkshop 2014
Korpworkshop 2018
NoDaLiDa 2017
RESOURCEFUL
SLTC 2020
Programme
Instructions
People
Support
Call for papers
Sustainable language representations
Position statements
Workshop on Profiling second language vocabulary and grammar - 2023
Blogg
Kalender
Tidigare händelser
Forskning
Publikationer
Doktorandutbildning
For PhD students and supervisors
Verktyg
Korp
Användarhandledning
Webb-API
Distribution och utveckling
Korpusstatistik
Nedladdningsbara meningsmängder
Karp
Webb-API
Sparv
Sparvs korpuspipeline
Sparvs användarhandledning
Annotationer från Sparv
Webb-API
Web Sparv
Mink
User manual
Övningsexempel
Web API
Privacy and data policy
Lärka
Övriga verktyg
Catta
IT-baserad grammatikinlärning
Data
Frågelåda
Om oss
Personal
Organisation
Språkbanken Text i världen
Språkbanken 50 år
Jubileumsfirande
En kortfattad historik
Doktorandutbildning
Undervisning
Referera till oss
Alumner
Möten och workshoppar
Workshoppar
End of the year workshop 2024
End of the year workshop 2023
Semester workshop 2022
Semester workshop H2021
Semester workshop V2021
Semester workshop H2020
Semester workshop V2020
Forskningsmöten
Gruppmöten
SBX Retreat
SBX Retreat 2024
SBX Retreat 2023
SBX Retreat 2022
Kakor
Internt
Kontakt
Rådgivning