Hoppa till huvudinnehåll
Svenska
English
Språkbanken Text är en avdelning inom
Språkbanken
.
Aktuellt
Forskning
Data
Analyser
Plattformar
Frågor och svar
Om oss
Kontakt
Meny
Länkstig
Hem
Datamängder
Datamängder
Här kan du leta och filtrera bland våra datamängder. Du kan klicka på en rad för att få fram nedladdningsbara filer. Genom att klicka på verktygsikonen kommer du direkt till gränssnittet där du kan utforska datamängden.
Alla (1356)
Samlingar (31)
Korpusar (1220)
Lexikon (67)
Tränings- och utvärderingsdata (21)
Modeller (48)
Titel
Fri sökning
Språk
- Alla -
svenska
albanska
blissymboler
bokmål
bosniska
bulgariska
danska
engelska
estniska
finlandssvenska
finska
flera språk
fornengelska (ca 450-1100)
fornhögtyska (ca 750-1050)
fornisländska
fornsaxiska
franska
färöiska
högsorbiska
iranian persian
isländska
italienska
kele (papua new guinea)
kroatiska
kurdiska
latin
lettiska
lågsorbiska
makedonska
modern greek (1453-)
moliseslaviska
nederländska
norska
polska
portugisiska
rumänska
ryska
serbiska
slovakiska
slovenska
somali
spanska
tjeckiska
turkiska
turkmeniska
tyska
ukrainska
vitryska
xhosa
Resurs
Typ
Språk
Åtkomst
Kubord 2: Ordrelationer Svenska Dagbladet
2023
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-svd-2023.csv.zip
2025-04-30 – 202.05 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Svenska Dagbladet 2024
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-svd-2024.csv.zip
2025-05-15 – 199.27 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2013
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2013.csv.zip
2025-04-22 – 400.01 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2014
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2014.csv.zip
2025-04-22 – 502.42 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2015
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2015.csv.zip
2025-04-22 – 512.83 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2016
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2016.csv.zip
2025-04-22 – 525.66 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2017
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2017.csv.zip
2025-04-22 – 509.49 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2018
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2018.csv.zip
2025-04-22 – 509.45 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2019
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2019.csv.zip
2025-04-22 – 490.49 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2020
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2020.csv.zip
2025-04-22 – 439.53 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2021
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2021.csv.zip
2025-04-22 – 458.65 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2022
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2022.csv.zip
2025-04-22 – 250.69 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan
2023
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2023.csv.zip
2025-04-30 – 224.55 MB – CC BY 4.0
Utforska i:
Kubord 2: Ordrelationer Sydsvenskan 2024
Del av samlingen Kubord 2
Korpus
svenska
Ordstatistik:
stats_kubord2-ss-2024.csv.zip
2025-05-15 – 225.42 MB – CC BY 4.0
Utforska i:
Samling
Kubord-fasttext
En samling fasttext-modeller tränade på moderna tidningstexter från Kungliga biblioteket
Modell
svenska
Se 6 delresurser
Kubord-fasttext - Aftonbladet 2010–2022 - lemma
Fasttext-modell tränad på Aftonbladet 2010–2022
Modell
svenska
Datamängd:
kubord-fasttext-afb-2010-2022-lemma.zip
2024-08-05 – 2.94 GB – CC BY 4.0
Kubord-fasttext - Aftonbladet 2010–2022 - token
Fasttext-modell tränad på Aftonbladet 2010–2022
Modell
svenska
Datamängd:
kubord-fasttext-afb-2010-2022-token.zip
2024-06-11 – 3.18 GB – CC BY 4.0
Kubord-fasttext - Dagens Nyheter 2010–2022 - lemma
Fasttext-modell tränad på Dagens Nyheter 2010–2022
Modell
svenska
Datamängd:
kubord-fasttext-dn-2010-2022-lemma.zip
2024-08-05 – 2.81 GB – CC BY 4.0
Kubord-fasttext - Dagens Nyheter 2010–2022 - token
Fasttext-modell tränad på Dagens Nyheter 2010–2022
Modell
svenska
Datamängd:
kubord-fasttext-dn-2010-2022-token.zip
2024-06-11 – 3.1 GB – CC BY 4.0
Kubord-fasttext - Göteborgsposten 2013–2022 - lemma
Fasttext-modell tränad på Göteborgsposten 2013–2022
Modell
svenska
Datamängd:
kubord-fasttext-gp-2013-2022-lemma.zip
2024-08-05 – 2.69 GB – CC BY 4.0
Kubord-fasttext - Göteborgsposten 2013–2022 - token
Fasttext-modell tränad på Göteborgsposten 2013–2022
Modell
svenska
Datamängd:
kubord-fasttext-gp-2013-2022-token.zip
2024-06-11 – 2.84 GB – CC BY 4.0
KVAH
Kungl. Vetenskapsakademiens Handlingar
Korpus
svenska
Datamängd:
kvah.xml.bz2
2024-01-05 – 1.29 MB – CC BY 4.0
Ordstatistik:
stats_kvah.csv.zip
2025-04-22 – 154.5 KB – CC BY 4.0
Utforska i:
Samling
Kvinnotidningar
Material från äldre svenska kvinnotidskrifter
Korpus
svenska
Se 7 delresurser
Utforska i:
Kvinnotidningar: Dagny
En korpus med texter från kvinnotidningen Dagny, tidskrift för sociala och literära intressen - utgiven av Frederika-Bremer-Förbundet
Korpus
svenska
Datamängd:
ub-kvt-dagny.xml.bz2
2015-04-01 – 81.93 MB – CC BY 4.0
Ordstatistik:
stats_UB-KVT-DAGNY.txt.zip
2025-04-22 – 7.17 MB – CC BY 4.0
Utforska i:
Kvinnotidningar: Hertha
En korpus med texter från kvinnotidningen Hertha, tidskrift för den svenska kvinnorörelsen - utgiven av Fredrika-Bremer-Förbundet
Korpus
svenska
Datamängd:
ub-kvt-hertha.xml.bz2
2015-04-01 – 40.16 MB – CC BY 4.0
Ordstatistik:
stats_UB-KVT-HERTHA.txt.zip
2025-04-22 – 3.61 MB – CC BY 4.0
Utforska i:
Kvinnotidningar: Idun
En korpus med texter från kvinnotidningen Idun, praktisk veckotidning för kvinnan och hemmet
Korpus
svenska
Datamängd:
ub-kvt-idun.xml.bz2
2015-04-01 – 417.65 MB – CC BY 4.0
Ordstatistik:
stats_UB-KVT-IDUN.txt.zip
2025-04-22 – 10.34 MB – CC BY 4.0
Utforska i:
Kvinnotidningar: Kvinnornas Tidning
En korpus med texter från Kvinnornas Tidning
Korpus
svenska
Datamängd:
ub-kvt-kvt.xml.bz2
2015-04-01 – 65.01 MB – CC BY 4.0
Ordstatistik:
stats_UB-KVT-KVT.txt.zip
2025-04-22 – 2.08 MB – CC BY 4.0
Utforska i:
Kvinnotidningar: Morgonbris
En korpus med texter från kvinnotidningen Morgonbris, arbeterskornas tidning - utgiven av kvinnornas fackförbund
Korpus
svenska
Datamängd:
ub-kvt-morgonbris.xml.bz2
2015-04-01 – 36.72 MB – CC BY 4.0
Ordstatistik:
stats_UB-KVT-MORGONBRIS.txt.zip
2025-04-22 – 3.67 MB – CC BY 4.0
Utforska i:
Kvinnotidningar: Rösträtt för Kvinnor
En korpus med texter från kvinnotidningen Rösträtt för Kvinnor, tidning utgiven av landsföreningen för kvinnans politiska rösträtt
Korpus
svenska
Datamängd:
ub-kvt-rostratt.xml.bz2
2015-04-01 – 24.16 MB – CC BY 4.0
Ordstatistik:
stats_UB-KVT-ROSTRATT.txt.zip
2025-04-22 – 1.9 MB – CC BY 4.0
Utforska i:
Kvinnotidningar: Tidevarvet
En korpus med texter från kvinnotidningen Tidevarvet
Korpus
svenska
Datamängd:
ub-kvt-tidevarvet.xml.bz2
2015-04-01 – 81.49 MB – CC BY 4.0
Ordstatistik:
stats_UB-KVT-TIDEVARVET.txt.zip
2025-04-22 – 3.65 MB – CC BY 4.0
Utforska i:
Samling
L2 profiles
L2 profiler är en samling av språkresurser som beskriver inlärarspråket (svenska som andraspråk, L2 svenska). Dessa resurser genererades inom projektet "Utveckling av lexikala och grammatiska kompetenser i invandrarsvenska" (https://spraakbanken.gu.se/swe/forskning/l2profiling), med finansiering från Riksbankens Jubileumsfond.
Korpus
svenska
Se 7 delresurser
L2Lex-Adj
L2Lex-Adj är en disambiguerad ordlista med svenska adjektiv för elever med svenska som andraspråk, inkl. frekvenserna från uppsatser (produktivt ordförråd, baserat på SweLL-piloten) och kursböcker (receptivt ordförråd, baserat på COCTAILL). För varje adjektiv, anges dess böjningsparadigm
Lexikon
svenska
Datamängd:
l2lex-adj.xlsx
2025-02-20 – 85 byte – CC BY 4.0
Datamängd:
l2lex-adj.csv
2025-02-20 – 504.11 KB – CC BY-NC-SA 4.0
Utforska i:
L2Lex-AdjAdv
L2Lex-AdjAdv är en disambiguerad ordlista med svenska adjektiv och adverb för elever med svenska som andraspråk, inkl. frekvenserna från uppsatser (produktivt ordförråd, baserat på SweLL-piloten) och kursböcker (receptivt ordförråd, baserat på COCTAILL). För varje ingång i listan, anges det dess mekanism för att bygga komparativa former (t.ex. perifratisk, morfologisk, osv.).
Lexikon
svenska
Datamängd:
l2lex-adjadv.xlsx
2025-02-20 – 85 byte – CC BY 4.0
Datamängd:
l2lex-adjadv.csv
2025-02-20 – 675.07 KB – CC BY 4.0
Utforska i:
Lagar från 1800-talet
Regeringsformen 1809 med ändringar 1809-1974
Korpus
svenska
Datamängd:
lag1800.xml.bz2
2015-05-20 – 3.97 MB – CC BY 4.0
Ordstatistik:
stats_LAG1800.txt.zip
2025-04-22 – 467.96 KB – CC BY 4.0
Utforska i:
Samling
Läkartidningen
Korpus för vårdens och omsorgens fackspråk
Korpus
svenska
Se 11 delresurser
Utforska i:
Läkartidningen 1996
Läkartidningens publicerade artiklar under 1996.
Korpus
svenska
Datamängd:
lt1996.xml.bz2
2017-04-05 – 38.78 MB – CC BY 4.0
Ordstatistik:
stats_LT1996.txt.zip
2025-04-22 – 1.5 MB – CC BY 4.0
Utforska i:
Läkartidningen 1997
Läkartidningens publicerade artiklar under 1997.
Korpus
svenska
Datamängd:
lt1997.xml.bz2
2017-03-30 – 37.88 MB – CC BY 4.0
Ordstatistik:
stats_LT1997.txt.zip
2025-04-22 – 1.48 MB – CC BY 4.0
Utforska i:
Läkartidningen 1998
Läkartidningens publicerade artiklar under 1998.
Korpus
svenska
Datamängd:
lt1998.xml.bz2
2017-03-30 – 41.76 MB – CC BY 4.0
Ordstatistik:
stats_LT1998.txt.zip
2025-04-22 – 1.61 MB – CC BY 4.0
Utforska i:
Läkartidningen 1999
Läkartidningens publicerade artiklar under 1999.
Korpus
svenska
Datamängd:
lt1999.xml.bz2
2017-03-30 – 39.43 MB – CC BY 4.0
Ordstatistik:
stats_LT1999.txt.zip
2025-04-22 – 1.53 MB – CC BY 4.0
Utforska i:
Läkartidningen 2000
Läkartidningens publicerade artiklar under 2000.
Korpus
svenska
Datamängd:
lt2000.xml.bz2
2017-03-30 – 37.98 MB – CC BY 4.0
Ordstatistik:
stats_LT2000.txt.zip
2025-04-22 – 1.47 MB – CC BY 4.0
Utforska i:
Läkartidningen 2001
Läkartidningens publicerade artiklar under 2001.
Korpus
svenska
Datamängd:
lt2001.xml.bz2
2017-03-30 – 39.76 MB – CC BY 4.0
Ordstatistik:
stats_LT2001.txt.zip
2025-04-22 – 1.5 MB – CC BY 4.0
Utforska i:
Läkartidningen 2002
Läkartidningens publicerade artiklar under 2002.
Korpus
svenska
Datamängd:
lt2002.xml.bz2
2017-03-30 – 38.19 MB – CC BY 4.0
Ordstatistik:
stats_LT2002.txt.zip
2025-04-22 – 1.41 MB – CC BY 4.0
Utforska i:
Läkartidningen 2003
Läkartidningens publicerade artiklar under 2003.
Korpus
svenska
Datamängd:
lt2003.xml.bz2
2017-03-30 – 33.5 MB – CC BY 4.0
Ordstatistik:
stats_LT2003.txt.zip
2025-04-22 – 1.29 MB – CC BY 4.0
Utforska i:
Läkartidningen 2004
Läkartidningens publicerade artiklar under 2004.
Korpus
svenska
Datamängd:
lt2004.xml.bz2
2017-03-30 – 34.7 MB – CC BY 4.0
Ordstatistik:
stats_LT2004.txt.zip
2025-04-22 – 1.38 MB – CC BY 4.0
Utforska i:
Läkartidningen 2005
Läkartidningens publicerade artiklar under 2005.
Korpus
svenska
Datamängd:
lt2005.xml.bz2
2017-03-30 – 28.5 MB – CC BY 4.0
Ordstatistik:
stats_LT2005.txt.zip
2025-04-22 – 1.2 MB – CC BY 4.0
Utforska i:
Läkartidningen 2006
Läkartidningens publicerade artiklar under 2006.
Korpus
svenska
Datamängd:
lt2006.xml.bz2
2017-04-03 – 29.75 MB – CC BY 4.0
Ordstatistik:
stats_LT2006.txt.zip
2025-04-22 – 1.23 MB – CC BY 4.0
Utforska i:
LäSBarT
Lättläst svenska och barnbokstext
Korpus
svenska
Datamängd:
lasbart.xml.bz2
2017-03-30 – 16.74 MB – CC BY 4.0
Ordstatistik:
stats_LASBART.txt.zip
2025-04-22 – 597.31 KB – CC BY 4.0
Utforska i:
Lawline
Frågor och svar kring juridisk rådgivning från lawline.
Korpus
svenska
Ordstatistik:
stats_LAWLINE.txt.zip
2025-04-22 – 2.04 MB – CC BY 4.0
Utforska i:
Samling
Learner Language
Learner Language är en samling av korpusar och lexikala resurser som beskriver inlärarspråket. Korpusar inkluderar både texter/audio som produceras av de som lär sig språket, och texter/språket som de utsätts för (läser eller hör, t.ex. kursböcker). Även en del derivata resurser utifrån dessa korpusar är med i denna samling.
Korpus
svenska, flera språk
Se 21 delresurser
Lemmatiseringsmodell: Stanza
Förtränad modell för lemmatisering.
Modell
svenska
Datamängd:
lem_stanza.zip
2020-11-19 – 3.74 MB – CC BY 4.0
LingFN
Ett domänspecifikt frasnät med lingvistiska termer
Lexikon
svenska
Utforska i:
LingFN-thesis
Ett domänspecifikt frasnät med lingvistiska termer
Lexikon
svenska
LingFN-V2
Ett domänspecifikt frasnät med lingvistiska termer
Lexikon
svenska
Utforska i:
Linguistic Survey of India (LSI)
Korpus
engelska
Datamängd:
lsi.xml.bz2
2020-08-25 – 6.23 MB – CC BY 4.0
Utforska i:
Litteraturbanken: fria verk
E-texter och sökbara faksimiler från Litteraturbanken (litteraturbanken.se)
Korpus
svenska
Datamängd:
lb-open.xml.bz2
2023-11-13 – 5.75 GB – CC BY 4.0
Ordstatistik:
stats_lb-open.csv.zip
2025-04-22 – 43.69 MB – CC BY 4.0
Utforska i:
Litteraturbanken: skyddade verk
E-texter och sökbara faksimiler från Litteraturbanken (litteraturbanken.se)
Korpus
svenska
Datamängd:
lb-restricted.xml.bz2
2023-10-28 – 2.25 GB – CC BY 4.0
Ordstatistik:
stats_lb-restricted.csv.zip
2025-04-22 – 26.24 MB – CC BY 4.0
Utforska i:
lsilex
Ett lexikon framtaget inom LSI-projektet
Lexikon
svenska
Utforska i:
LWT
Lånordstypologi
Lexikon
svenska, engelska
Datamängd:
lwt.xml
2017-09-19 – 665.94 KB – CC BY 4.0
Utforska i:
LWT-PWN
LWT-PWN är IDS/LWT-begreppslistan med länkar till ordbetydelseidentifierare i Princeton WordNet 3.0.
Lexikon
svenska
Datamängd:
lwt-pwn.txt
2015-03-31 – 204.14 KB – CC BY 4.0
MAÞiR Ord
Fornsvensk lexikal resurs baserad på Söderwalls ordbok, lämpligt för bl a konstruktion av lemmatiseringsmodeller.
Lexikon
svenska
Datamängd:
mathir_words_v1.0.tgz
2024-01-25 – 306.42 KB – CC BY 4.0
MAÞiR Träd
En fornsvensk trädbank, med lemmata, ordklasser och syntax i stil med PROIEL-korpusarna.
Korpus
svenska
Datamängd:
mathir_trees_v0.1.tgz
2024-04-17 – 5.49 MB – CC BY-NC 4.0
Samling
Medeltidsbrev
Svenskt Diplomatariums huvudkartotek över medeltidsbreven (SDHK)
Korpus
latin, tyska, norska, svenska
Se 5 delresurser
Utforska i:
Medeltidsbrev: Latin
Brev på latin, ur Svenskt Diplomatariums huvudkartotek (SDHK)
Korpus
latin
Datamängd:
sdhk-latin.xml.bz2
2015-05-20 – 4.71 MB – CC BY 4.0
Ordstatistik:
stats_SDHK-LATIN.txt.zip
2025-04-22 – 699.58 KB – CC BY 4.0
Utforska i:
Medeltidsbrev: Norska
Brev på norska, ur Svenskt Diplomatariums huvudkartotek (SDHK)
Korpus
norska
Datamängd:
sdhk-norska.xml.bz2
2015-05-20 – 58.95 KB – CC BY 4.0
Ordstatistik:
stats_SDHK-NORSKA.txt.zip
2025-04-22 – 36.4 KB – CC BY 4.0
Utforska i:
Medeltidsbrev: Övriga språk
Brev på övriga språk, ur Svenskt Diplomatariums huvudkartotek (SDHK)
Korpus
svenska
Datamängd:
sdhk-ovrigt.xml.bz2
2015-05-20 – 91.05 KB – CC BY 4.0
Ordstatistik:
stats_SDHK-OVRIGT.txt.zip
2025-04-22 – 60.19 KB – CC BY 4.0
Utforska i:
Medeltidsbrev: Svenska
Brev på svenska, ur Svenskt Diplomatariums huvudkartotek (SDHK)
Korpus
svenska
Datamängd:
sdhk-svenska.xml.bz2
2014-12-09 – 1.77 MB – CC BY 4.0
Ordstatistik:
stats_SDHK-SVENSKA.txt.zip
2025-04-22 – 495.31 KB – CC BY 4.0
Utforska i:
Medeltidsbrev: Tyska
Brev på tyska, ur Svenskt Diplomatariums huvudkartotek (SDHK)
Korpus
tyska
Datamängd:
sdhk-tyska.xml.bz2
2015-05-20 – 335.84 KB – CC BY 4.0
Ordstatistik:
stats_SDHK-TYSKA.txt.zip
2025-04-22 – 97.14 KB – CC BY 4.0
Utforska i:
MEPAC bloggar
Korpus
svenska
Ordstatistik:
stats_MEPAC.txt.zip
2025-04-22 – 1.25 MB – CC BY 4.0
Utforska i:
MEPAC intervjuer
Korpus
svenska
Ordstatistik:
stats_MEPAC-I.txt.zip
2025-04-22 – 169.61 KB – CC BY 4.0
Utforska i:
MuClaGED
MuClaGED är en datamängd för multi-class Grammatical Error Detection för svenska. Den är baserad på SweLL-gold korpusen.
Korpus
svenska
Utforska i:
MultiGEC
MultiGEC är en datamängd för Grammatical Error Correction (uppgift inom NLP) och innehåller parallel data för 12 språk och 17 delkorpusar. Varje delkorpus består av två eller fler varianter av samma texter (oftast uppsatser som skrivs av språkinlärare), där en version (orig) har skrivits av en författare (elev, student, etc.) och de andra versionerna (ref1, ref2, ...) är korrigerade versioner av samma text. Språk som ingår: tjeckiska, engelska, estniska, tyska, grekiska, isländska, italienska, lettiska, ryska, slovenska, svenska och ukrainska (engelska och ryska kan fås på begäran). Texter kommer från olika ursprungskorpusar, men har genomgått omformattering för att ha en gemensam format.
Korpus
tjeckiska, tyska, modern greek (1453-), engelska, estniska, isländska, italienska, lettiska, ryska, slovenska, svenska, ukrainska
Utforska i:
MultiGED
MultiGED är en datamängd för Grammatical Error Detection (uppgift inom NLP) och innehåller data för 5 språk (tjeckiska, engelska, tyska, italienska och svenska).
Korpus
tjeckiska, tyska, engelska, italienska, svenska
Datamängd:
multiged-2023.tar.bz2
2025-01-22 – 3.82 MB – varies
Utforska i:
Nils Matsson Kiöpings resor
Reseskildringar från 1674 och 1743
Korpus
svenska
Datamängd:
kioping.xml.bz2
2015-05-20 – 761.93 KB – CC BY 4.0
Ordstatistik:
stats_KIOPING.txt.zip
2025-04-22 – 157.78 KB – CC BY 4.0
Utforska i:
NordiCon
NordiCon är en databas som samlar medeltida nordgermanska personnamn från källor utanför Skandinavien.
Lexikon
engelska
Utforska i:
Norstedtsromaner (1999)
En samling med 23 romaner utgivna 1999 på Norstedts förlag
Korpus
svenska
Datamängd:
rom99.xml.bz2
2017-03-17 – 40.83 MB – CC BY 4.0
Ordstatistik:
stats_ROM99.txt.zip
2025-04-22 – 1.48 MB – CC BY 4.0
Utforska i:
Samling
NPEGL
En databas över nominalfraser i äldre germanska språk.
Lexikon
fornengelska (ca 450-1100), fornhögtyska (ca 750-1050), fornisländska, fornsaxiska
Se 5 delresurser
Utforska i:
NPEGL: Old English
Korpus
engelska
Ordstatistik:
stats_NPEGL-ENG.txt.zip
2025-04-22 – 563.11 KB – CC BY 4.0
Utforska i:
NPEGL: Old High German
Korpus
tyska
Ordstatistik:
stats_NPEGL-GER.txt.zip
2025-04-22 – 20.41 KB – CC BY 4.0
Utforska i:
NPEGL: Old Icelandic
Korpus
isländska
Ordstatistik:
stats_NPEGL-ICE.txt.zip
2025-04-22 – 144.75 KB – CC BY 4.0
Utforska i:
NPEGL: Old Saxon
Korpus
Ordstatistik:
stats_NPEGL-SAX.txt.zip
2025-04-22 – 43.95 KB – CC BY 4.0
Utforska i:
NPEGL: Old Swedish
Korpus
svenska
Ordstatistik:
stats_NPEGL-SWE.txt.zip
2025-04-22 – 33.25 KB – CC BY 4.0
Utforska i:
NyLLex v2
En lexikal resurs baserad på böcker utgivna av det svenska förlaget som publicerar flest lätt-att-läsa texter. Ingångar är annoterade med frekvenser fördelade över sex läsnivåer.
Lexikon
svenska
Datamängd:
nyllex_v2.csv
2023-06-09 – 1.46 MB – CC BY 4.0
OpenEDGeS
En delmängd av korpusen EDGeS Diachronic Bible Corpus, som tillhandahålls under en publik licens. EDGeS är en diakron och synkron parallelkorpus med
BIBEL
översättningar från 1300-talet till nutid.
Korpus
svenska, engelska, tyska, nederländska
Datamängd:
OpenEDGeS_v1.01.zip
2024-01-25 – 121.17 MB – CC BY-NC-SA 4.0
Datamängd:
OpenEDGeS_v1.0.0.zip
2024-01-25 – 72.89 MB – For license details of the previous versions, see the 'Read me.txt' file in the download.
ORDAT
Svenska Dagbladets årsbok 1923–1958
Korpus
svenska
Datamängd:
ordat.xml.bz2
2017-05-16 – 28.07 MB – CC BY 4.0
Ordstatistik:
stats_ORDAT.txt.zip
2025-04-22 – 1.43 MB – CC BY 4.0
Utforska i:
Ordklasstaggningsmodell: Flair
Förtränade modeller för ordklasstaggning.
Modell
svenska
Datamängd:
flair_eval.zip
2020-06-18 – 1.37 GB – CC BY 4.0
Datamängd:
flair_full.zip
2020-06-18 – 1.37 GB – CC BY 4.0
Ordklasstaggningsmodell: Marmot
Förtränade modeller för ordklasstaggning.
Modell
svenska
Datamängd:
marmot_eval.marmot
2020-06-29 – 108.59 MB – CC BY 4.0
Datamängd:
marmot_full.marmot
2020-06-29 – 113.41 MB – CC BY 4.0
Datamängd:
saldo_marmot.txt
2020-06-29 – 46.33 MB – CC BY 4.0
Ordklasstaggningsmodell: Stanza
Förtränade modeller för ordklasstaggning.
Modell
svenska
Datamängd:
morph_stanza_eval.zip
2020-12-09 – 19.94 MB – CC BY 4.0
Datamängd:
morph_stanza_full2.zip
2020-12-09 – 20.19 MB – CC BY 4.0
Datamängd:
stanza_pretrain.zip
2025-02-20 – 91.7 MB – CC BY 4.0
Ordstatistik för korpusar
Ackumulerad ordstatistik från många av våra moderna svenska korpusar
Korpus
Ordstatistik:
stats_all.txt.zip
2025-04-22 – 763.87 MB – CC BY 4.0
OSA (SAOB)
Svenska Akademiens ordbok på nätet
Lexikon
svenska
Östgötalagen
Korpus
svenska
Ordstatistik:
stats_OGL.txt.zip
2025-04-22 – 21.13 KB – CC BY 4.0
Utforska i:
PAROLE
En korpus annoterad med morfologisk och syntaktisk information
Korpus
svenska
Datamängd:
parole.xml.bz2
2017-05-17 – 425.19 MB – CC BY 4.0
Datamängd:
parole.zip
2024-01-25 – 67.62 MB – CC BY 4.0
Ordstatistik:
stats_PAROLE.txt.zip
2025-04-22 – 8.11 MB – CC BY 4.0
Utforska i:
Parole
Svenskt PAROLE lexikon - En språkteknologisk resurs med syntaktisk information
Lexikon
svenska
Datamängd:
PAROLE_usyn_descr.txt
2012-03-27 – 913.17 KB – CC BY 4.0
Parole+
Svenskt PAROLE lexikon - En språkteknologisk resurs med syntaktisk information, partiellt länkad till betydelser i SALDO
Lexikon
svenska
Datamängd:
parolelexplus.xml
2017-09-19 – 13.93 MB – CC BY 4.0
Utforska i:
Podiet
Artiklar från Konsertmagasinet Podiet
Korpus
svenska
Datamängd:
podiet.xml.bz2
2025-05-08 – 18.29 MB – CC BY 4.0
Ordstatistik:
stats_podiet.csv.zip
2025-04-22 – 1.4 MB – CC BY 4.0
Utforska i:
Poeter.se
Poesi från Poeter.se
Korpus
svenska
Datamängd:
poeter.xml.bz2
2017-04-20 – 1.65 GB – CC BY 4.0
Ordstatistik:
stats_POETER.txt.zip
2025-04-22 – 14.94 MB – CC BY 4.0
Utforska i:
Samling
Press
Svensk press
Korpus
svenska
Se 6 delresurser
Utforska i:
Press 65
Svensk press 1965
Korpus
svenska
Datamängd:
press65.xml.bz2
2017-03-14 – 20.88 MB – CC BY 4.0
Ordstatistik:
stats_PRESS65.txt.zip
2025-04-22 – 1.34 MB – CC BY 4.0
Utforska i:
Press 76
Svensk press 1976
Korpus
svenska
Datamängd:
press76.xml.bz2
2017-03-17 – 24.45 MB – CC BY 4.0
Ordstatistik:
stats_PRESS76.txt.zip
2025-04-22 – 1.51 MB – CC BY 4.0
Utforska i:
Press 95
Svensk press 1995
Korpus
svenska
Datamängd:
press95.xml.bz2
2017-03-15 – 139.65 MB – CC BY 4.0
Ordstatistik:
stats_PRESS95.txt.zip
2025-04-22 – 4.03 MB – CC BY 4.0
Utforska i:
Press 96
Svensk press 1996
Korpus
svenska
Datamängd:
press96.xml.bz2
2017-03-15 – 117.54 MB – CC BY 4.0
Ordstatistik:
stats_PRESS96.txt.zip
2025-04-22 – 3.82 MB – CC BY 4.0
Utforska i:
Paginering
Första sidan
« Första
Föregående sida
‹ Föregående
Sida
1
Sida
2
Sida
3
Sida
4
Sida
5
Sida
6
Sida
7
Sida
8
Sida
9
Sida
10
Sida
11
Sida
12
Sida
13
Nästa sida
Nästa ›
Sista sidan
Sista »
Aktuellt
Nyheter
Konferenser och workshopar
CLT retreat 2020
AI Trust workshop
CDLC workshop
CLT workshop Spring 2023
EACL 2014
Höstworkshop
Höstworkshop 2025
Höstworkshop 2024
Höstworkshop 2023
Höstworkshop 2022
Höstworkshop 2021
Höstworkshop 2020
Höstworkshop 2011 och Korp-släpp
Höstworkshop 2012
Höstworkshop 2013
Höstworkshop 2014
Höstworkshop 2015
Höstworkshop 2016
Höstworkshop 2017
Höstworkshop 2018
Höstworkshop 2019
Språkbanken 40 år
Korpworkshop
Korpworkshop 2014
Korpworkshop 2018
NoDaLiDa 2017
RESOURCEFUL
SLTC 2020
Programme
Instructions
People
Support
Call for papers
Sustainable language representations
Position statements
Workshop on Profiling second language vocabulary and grammar - 2023
Blogg
Kalender
Tidigare händelser
Forskning
Publikationer
Doktorandutbildning
For PhD students and supervisors
Data
Analyser
Plattformar
Korp
Användarhandledning
Webb-API
Distribution och utveckling
Korpusstatistik
Nedladdningsbara meningsmängder
Karp
Webb-API
Sparv
Webb-Sparv - användarhandledning
Webb-API
Web Sparv - Technical Documentation
Mink
User manual
Övningsexempel
Video: överblick
Web API
Privacy and data policy
Strix
Lärka
Övriga verktyg
Catta
IT-baserad grammatikinlärning
Frågor och svar
Om oss
Personal
Organisation
Språkbanken Text i världen
Språkbanken 50 år
Jubileumsfirande
En kortfattad historik
Studera språkteknologi
Doktorandutbildning
Undervisning
Referera till oss
Alumner
Möten och workshoppar
Workshoppar
End of the year workshop 2024
End of the year workshop 2023
Semester workshop 2022
Semester workshop H2021
Semester workshop V2021
Semester workshop H2020
Semester workshop V2020
Forskningsmöten
Gruppmöten
SBX Retreat
SBX Retreat 2024
SBX Retreat 2023
SBX Retreat 2022
Kakor
Internt
Kontakt
Rådgivning