Datamängder

Här kan du leta och filtrera bland våra datamängder. Du kan klicka på en rad för att få fram nedladdningsbara filer. Genom att klicka på verktygsikonen kommer du direkt till gränssnittet där du kan utforska datamängden. Du kan göra avancerade sökningar i vår metadata hos Datacite.

Alla (1329) Samlingar (33) Korpusar (1221) Lexikon (80) Tränings- och utvärderingsdata (39) Modeller (28)

Antal träffar: 39

Resurs	Typ	Språk	Åtkomst
Argumentation sentences 1.0 A translated corpus for classifying sentence stance in relation to a topic.	Korpus	svenska	Datamängd: argumentation-sentences.zip 2023-03-30 – 827.04 KB – CC-BY-4.0
CoDeRooMor, v.01 Dataset för morfologistudier (ordbildningsmorfologi), Svenska L2 profil-projektet	Lexikon	svenska	Datamängd: CodeRoomor_v01_lemgramView.csv 2021-04-13 – 1.96 MB – CC-BY-4.0 Datamängd: CodeRoomor_v01_morphemeView.csv 2021-04-13 – 856.29 KB – CC-BY-4.0 Datamängd: CodeRoomor_v01_lemgramView.xlsx 2021-04-13 – 1.72 MB – CC-BY-4.0 Datamängd: CodeRoomor_v01_morphemeView.xlsx 2021-04-13 – 699.46 KB – CC-BY-4.0 Utforska i:
DaLAJ-GED-Superlim 2.0 Dataset for Linguistic Acceptability Judgments (and more), v.2.0	Korpus	svenska	Datamängd: dalaj-ged-superlim.zip 2023-04-03 – 1.41 MB – CC-BY-4.0 Datamängd: dalaj-ged-tsv.zip 2023-05-20 – 1.15 MB – CC-BY-4.0 Datamängd: liuep197-11.pdf 2024-01-25 – 463.74 KB – CC-BY-4.0
Dalin: Then Swänska Argus 1732-1734 Manuell transkription av Then Swänska Argus av Olof von Dalin, Stockholm, 1732–1734. För OCR analys.	Korpus	svenska	Datamängd: dalin-then-swaanska-argus-1732-1734.tar.gz 2020-06-12 – 80.21 MB – CC-BY-4.0
Eukalyptus skriven svenska En trädbank som innnehåller skriven svenska, uppmärkt med ordklasser, syntax i stil med TIGER-trädbanken, flerordsenheter och ordbetydelser	Korpus	svenska	Datamängd: Eukalyptus-1.0.0.zip 2024-01-25 – 4.58 MB – CC-BY-SA-4.0 Datamängd: Eukalyptus-0.1.0.zip 2024-01-25 – 3.66 MB – Other Datamängd: Eukalyptus-0.1.1.zip 2024-01-25 – 3.8 MB – Other Datamängd: Eukalyptus-0.2.0.zip 2024-01-25 – 4.19 MB – Other
MuClaGED MuClaGED är en datamängd för multi-class Grammatical Error Detection för svenska. Den är baserad på SweLL-gold korpusen.	Korpus	svenska	Utforska i:
MultiGEC MultiGEC är en datamängd för Grammatical Error Correction (uppgift inom NLP) och innehåller parallel data för 12 språk och 17 delkorpusar. Varje delkorpus består av två eller fler varianter av samma texter (oftast uppsatser som skrivs av språkinlärare), där en version (orig) har skrivits av en författare (elev, student, etc.) och de andra versionerna (ref1, ref2, ...) är korrigerade versioner av samma text. Språk som ingår: tjeckiska, engelska, estniska, tyska, grekiska, isländska, italienska, lettiska, ryska, slovenska, svenska och ukrainska (engelska och ryska kan fås på begäran). Texter kommer från olika ursprungskorpusar, men har genomgått omformattering för att ha en gemensam format.	Korpus	tjeckiska, tyska, modern greek (1453-), engelska, estniska, isländska, italienska, lettiska, ryska, slovenska, svenska, ukrainska	Utforska i:
MultiGED MultiGED är en datamängd för Grammatical Error Detection (uppgift inom NLP) och innehåller data för 5 språk (tjeckiska, engelska, tyska, italienska och svenska).	Korpus	tjeckiska, tyska, engelska, italienska, svenska	Datamängd: multiged-2023.tar.bz2 2025-01-22 – 3.82 MB – Other Utforska i:
PGV-PII En liten samling av 10 par parallella texter på svenska och engelska, annoterade med kategorier på personliga uppgifter.	Korpus	svenska, engelska	Datamängd: gv-pii.bz2 2026-02-27 – 49.75 KB – CC-BY-4.0
SemEval2020 Task 1 Svensk testdata för SemEval 2020 Task 1: Unsupervised Lexical Semantic Change Detection (utdrag ur Kubhist v2)	Korpus	svenska	Datamängd: semeval2020_ulscd_swe.zip 2024-01-25 – 956.05 MB – CC-BY-4.0
SIC2 - Stockholm Internet Corpus Korpusen Stockholm Internet Corpus (SIC2) innehåller svenska bloggar som är annoterade med ordklasstaggar, morfologiska särdrag och namnentiteter.	Korpus	svenska	Datamängd: sic2.xml.bz2 2020-11-25 – 262.36 KB – CC-BY-4.0 Ordstatistik: stats_sic2.csv.zip 2025-04-22 – 44.79 KB – CC-BY-4.0 Datamängd: sic2.zip 2020-11-11 – 83.63 KB – CC-BY-4.0 Datamängd: readme.txt 2020-11-17 – 2.18 KB – CC-BY-4.0 Utforska i:
SUC 2.0 Stockholm-Umeå-korpus 2.0	Korpus	svenska	Ordstatistik: stats_SUC2.txt.zip 2025-04-22 – 1.34 MB – CC-BY-4.0
SUC 3.0 Stockholm-Umeå-korpus 3.0	Korpus	svenska	Datamängd: suc3.xml.bz2 2024-06-03 – 84.44 MB – CC-BY-4.0 Ordstatistik: stats_suc3.csv.zip 2025-04-22 – 1.43 MB – CC-BY-4.0 Utforska i:
Samling SuperLim 2 A standardized suite for evaluation and analysis of Swedish natural language understanding systems.	Korpus	svenska	Datamängd: SuperLim-2.0.5.zip 2025-12-12 – 62.75 MB – CC-BY-4.0 Datamängd: SuperLim_maintenance.odt 2025-12-12 – 8.01 KB
SuperSim (paketerat för Superlim) 2.0 En datamängd för betydelsemässig likhet och koppling mellan svenska ord.	Korpus	svenska	Datamängd: supersim-superlim.zip 2023-03-30 – 70.45 KB – CC-BY-4.0
Svensk ABSAbank Svensk annoterad korpus för aspektbaserad attitydanalys	Korpus	svenska	Datamängd: swe-absa-bank.zip 2020-03-04 – 128.55 MB – CC-BY-4.0 Datamängd: absabankimm-combined.zip 2023-02-20 – 15.87 MB – CC-BY-4.0
Svensk ABSAbank-Imm 1.1 Svensk annoterad korpus för aspektbaserad attitydanalys (en version av Absabank)	Korpus	svenska	Datamängd: absabank-imm.zip 2023-03-30 – 1.03 MB – CC-BY-4.0
Svensk analogi 2.0 Svensk semantisk och syntaktisk likhet	Korpus	svenska	Datamängd: sweanalogy.zip 2023-03-30 – 178.63 KB – CC-BY-4.0
Svensk EAT: frågeklassifikation En översättning av QAQC datamängden för klassificering av typer av det förväntade svaret	Korpus	svenska	Datamängd: swe_qaqc_train.csv 2023-06-08 – 361.34 KB – CC-BY-4.0 Datamängd: Swedish_EAT_v1.0.tsv 2023-06-08 – 2.05 KB – CC-BY-4.0
Svensk fraktur 1626-1816 Ett urval av svensk fraktur texter tryckta mellan 1626 och 1816 från samlingarna på Universitetsbiblioteket vid Göteborgs universitet (UB). För OCR analys.	Korpus	svenska	Datamängd: svensk-fraktur-1626-1816.tar.gz 2021-11-26 – 757.73 MB – CC-BY-4.0
Svensk trädbank En svensk trädbank med återanvändning av existerande resurser	Korpus	svenska
Svenska bokrecensioner Tidnings- och tidskriftstexter med manuellt uppmärkta bokrecensioner.	Korpus	svenska	Datamängd: kno-dagny.zip 2025-12-15 – 13.74 MB – CC-BY-4.0 Datamängd: kno-oob.zip 2025-12-15 – 70.13 MB – CC-BY-4.0
Svenska kognitiva tester (syntetiska data) Svenska kognitiva tester är en samling neuropsykologiska tester som används för att bedöma kognitiva funktioner, särskilt språk och exekutiva funktioner.	Korpus	svenska	Datamängd: sweBNT-syntheticData_v3.xlsx 2026-03-27 – 29.4 KB – CC-BY-4.0 Datamängd: sweSVF-syntheticData_v3.xlsx 2026-03-27 – 20.14 KB – CC-BY-4.0 Datamängd: sweFAS-syntheticData_v3.xlsx 2026-03-27 – 23.35 KB – CC-BY-4.0 Datamängd: sweTripToStockholm-1-syntheticData_v1.txt 2026-03-26 – 1.89 KB – CC-BY-4.0 Datamängd: sweTripToStockholm-2-syntheticData_v1.txt 2026-03-26 – 2.36 KB – CC-BY-4.0 Datamängd: sweCookieTheft-syntheticData_v1.txt 2026-03-26 – 3 KB – CC-BY-4.0
Svenska tidningar 1818-1870 Ett urval av svenska tidningar tryckta mellan 1818 och 1870 från samlingarna på Kungliga biblioteket (KB). För OCR analys.	Korpus	svenska	Datamängd: svenska-tidningar-1818-1870.tar.gz 2020-05-26 – 458.22 MB – CC-BY-4.0
Svenska tidningar 1871-1906 Ett urval av svenska tidningar tryckta mellan 1871 och 1906 från samlingarna på Kungliga biblioteket (KB). För OCR analys.	Korpus	svenska	Datamängd: svenska-tidningar-1871-1906.tar.gz 2022-05-03 – 831.74 MB – CC-BY-4.0
SveParafras 2.0 Referensdatan för semantisk textjämförelse (STS Benchmark)	Korpus	svenska	Datamängd: sweparaphrase.zip 2023-03-30 – 750.9 KB – CC-BY-4.0
Swe-NERC En resurs för träning och utvärdering av igenkänning av namngiven entitet för svenska.	Korpus	svenska
SweDiagnostics Svenska versionen av (Super)GLUE diagnostik	Korpus	svenska	Datamängd: swediagnostics.zip 2023-04-04 – 72.89 KB – CC-BY-4.0
SweDN 1.0 A Swedish text summarization corpus	Korpus	svenska
SweFAQ 2.0 Vanliga frågor från svenska myndigheters webbsidor med svar i randomiserad ordning	Korpus	svenska	Datamängd: swefaq.zip 2023-03-30 – 89.81 MB – CC-BY-4.0
SweFraCas 1.0 Textual inference/entailment problem set	Korpus	svenska	Datamängd: swefracas.tsv 2021-06-10 – 100.92 KB – CC-BY-4.0 Datamängd: swefracas_documentation_sheet.tsv 2021-06-15 – 4.23 KB – CC-BY-4.0
SweNLI 1.0 A Swedish NLI dataset	Korpus	svenska	Datamängd: swenli.zip 2023-03-30 – 55.13 MB – CC-BY-4.0
SweSAT Högskoleprovet ordförståelse 1.1 Högskoleprovet ordförståelse	Lexikon	svenska	Datamängd: swesat-synonyms.zip 2023-03-30 – 37.73 KB – CC-BY-4.0
SweWiC 2.0 En svensk ord-i-sammanhang datamängd	Korpus	svenska	Datamängd: swewic.zip 2023-03-30 – 587.65 KB – CC-BY-4.0
SweWinogender 2.0 En svensk datamängd för koreferens och könsbias	Korpus	svenska	Datamängd: swewinogender.zip 2023-03-30 – 28.3 KB – CC-BY-4.0
SweWinograd 2.0 En svensk datamängd för pronomentolkning	Korpus	svenska	Datamängd: swewinograd.zip 2023-03-30 – 33.41 KB – CC-BY-4.0
Syntag trädbank En svensk trädbank med syntaktisk analys av 158 artiklar ur Press-65.	Korpus	svenska	Datamängd: syntag.txt 2010-02-08 – 4.45 MB – CC-BY-4.0 Datamängd: syntag.html 2010-05-24 – 10.15 MB – CC-BY-4.0
TalbankenSBX Talbanken är en svensk trädbank. Detta är Språkbanken Texts version av Talbanken.	Korpus	svenska	Datamängd: talbanken.xml.bz2 2017-06-07 – 1.54 MB – CC-BY-4.0 Ordstatistik: stats_TALBANKEN.txt.zip 2025-04-22 – 206.82 KB – CC-BY-4.0 Datamängd: changelog.txt 2020-06-11 – 316 byte – CC-BY-4.0 Datamängd: TalbankenSBX_morphsplit20200610.zip 2020-06-11 – 3.64 MB – CC-BY-4.0 Datamängd: TalbankenSBX_syntsplit20200610.zip 2020-06-11 – 807.09 KB – CC-BY-4.0 Utforska i:
TalbankenSTB Talbanken är en svensk trädbank.	Korpus	svenska	Datamängd: TalbankenSTB.zip 2020-08-11 – 2.6 MB – CC-BY-4.0 Datamängd: TalbankenSTB_README.txt 2020-08-11 – 1.05 KB – CC-BY-4.0 Datamängd: TalbankenSTB_documentation.zip 2020-08-11 – 62.23 KB – CC-BY-4.0 Datamängd: TalbankenSTB_datasplit.zip 2020-08-11 – 2.6 MB – CC-BY-4.0 Datamängd: TalbankenSTB_original_parts.zip 2020-08-11 – 2.95 MB – CC-BY-4.0

Sidansvarig: sb-webb