Hoppa till huvudinnehåll
Svenska
English
Språkbanken Text är en avdelning inom
Språkbanken
.
Aktuellt
Forskning
Data
Analyser
Plattformar
Frågor och svar
Om oss
Kontakt
Meny
Länkstig
Hem
Datamängder
Datamängder
Datamängder
Här kan du leta och filtrera bland våra datamängder. Du kan klicka på en rad för att få fram nedladdningsbara filer. Genom att klicka på verktygsikonen kommer du direkt till gränssnittet där du kan utforska datamängden.
Alla (1362)
Samlingar (31)
Korpusar (1220)
Lexikon (67)
Tränings- och utvärderingsdata (27)
Modeller (48)
Titel
Fri sökning
Språk
- Alla -
svenska
albanska
blissymboler
bokmål
bosniska
bulgariska
danska
engelska
estniska
finlandssvenska
finska
flera språk
fornengelska (ca 450-1100)
fornhögtyska (ca 750-1050)
fornisländska
fornsaxiska
franska
färöiska
högsorbiska
iranian persian
isländska
italienska
kele (papua new guinea)
kroatiska
kurdiska
latin
lettiska
lågsorbiska
makedonska
modern greek (1453-)
moliseslaviska
nederländska
norska
polska
portugisiska
rumänska
ryska
serbiska
slovakiska
slovenska
somali
spanska
tjeckiska
turkiska
turkmeniska
tyska
ukrainska
vitryska
xhosa
Resurs
Typ
Språk
Åtkomst
Dependensparsningsmodell: Stanza
Förtränade modeller för dependensparsning.
Modell
svenska
Datamängd:
synt_stanza_eval.zip
2020-12-09 – 99.05 MB – CC BY 4.0
Datamängd:
synt_stanza_full2.zip
2020-12-09 – 99.17 MB – CC BY 4.0
Datamängd:
stanza_pretrain.zip
2025-02-20 – 91.7 MB – CC BY 4.0
Engelska inbäddningar (word embeddings)
Förtränade inbäddningar (word embeddings) för engelska wikipedia
Modell
engelska
Datamängd:
wiki_300_5_word2vec.model
2024-01-25 – 112.01 MB – CC BY 4.0
Datamängd:
wiki_300_5_word2vec.model.syn1neg.npy
2024-01-25 – 3.75 GB – CC BY 4.0
Datamängd:
wiki_300_5_word2vec.model.wv.vectors.npy
2024-01-25 – 3.75 GB – CC BY 4.0
Datamängd:
wiki_300_50_word2vec.model
2024-01-25 – 28.04 MB – CC BY 4.0
Datamängd:
wiki_300_50_word2vec.model.syn1neg.npy
2024-01-25 – 949.26 MB – CC BY 4.0
Datamängd:
wiki_300_50_word2vec.model.wv.vectors.npy
2024-01-25 – 949.26 MB – CC BY 4.0
Förtränade inbäddningar
En lista över förtränade inbäddningar för svenska
Modell
svenska
Samling
KUBORD
-fasttext
En samling fasttext-modeller tränade på moderna tidningstexter från Kungliga biblioteket
Modell
svenska
Se 12 delresurser
KUBORD
-fasttext - Aftonbladet 2010–2022 - lemma
Fasttext-modell tränad på Aftonbladet 2010–2022
Modell
svenska
Datamängd:
kubord-fasttext-afb-2010-2022-lemma.zip
2024-08-05 – 2.94 GB – CC BY 4.0
KUBORD
-fasttext - Aftonbladet 2010–2022 - token
Fasttext-modell tränad på Aftonbladet 2010–2022
Modell
svenska
Datamängd:
kubord-fasttext-afb-2010-2022-token.zip
2024-06-11 – 3.18 GB – CC BY 4.0
KUBORD
-fasttext - Aftonbladet 2010–2024 - lemma
Fasttext-modell tränad på Aftonbladet 2010–2024
Modell
svenska
Datamängd:
kubord-fasttext-afb-2010-2024-lemma.zip
2025-06-18 – 3 GB – CC BY 4.0
KUBORD
-fasttext - Aftonbladet 2010–2024 - token
Fasttext-modell tränad på Aftonbladet 2010–2024
Modell
svenska
Datamängd:
kubord-fasttext-afb-2010-2024-token.zip
2025-06-18 – 3.17 GB – CC BY 4.0
KUBORD
-fasttext - Dagens Nyheter 2010–2022 - lemma
Fasttext-modell tränad på Dagens Nyheter 2010–2022
Modell
svenska
Datamängd:
kubord-fasttext-dn-2010-2022-lemma.zip
2024-08-05 – 2.81 GB – CC BY 4.0
KUBORD
-fasttext - Dagens Nyheter 2010–2022 - token
Fasttext-modell tränad på Dagens Nyheter 2010–2022
Modell
svenska
Datamängd:
kubord-fasttext-dn-2010-2022-token.zip
2024-06-11 – 3.1 GB – CC BY 4.0
KUBORD
-fasttext - Dagens Nyheter 2010–2024 - lemma
Fasttext-modell tränad på Dagens Nyheter 2010–2024
Modell
svenska
Datamängd:
kubord-fasttext-dn-2010-2024-lemma.zip
2025-06-18 – 2.9 GB – CC BY 4.0
KUBORD
-fasttext - Dagens Nyheter 2010–2024 - token
Fasttext-modell tränad på Dagens Nyheter 2010–2024
Modell
svenska
Datamängd:
kubord-fasttext-dn-2010-2024-token.zip
2025-06-18 – 3.1 GB – CC BY 4.0
KUBORD
-fasttext - Göteborgsposten 2013–2022 - lemma
Fasttext-modell tränad på Göteborgsposten 2013–2022
Modell
svenska
Datamängd:
kubord-fasttext-gp-2013-2022-lemma.zip
2024-08-05 – 2.69 GB – CC BY 4.0
KUBORD
-fasttext - Göteborgsposten 2013–2022 - token
Fasttext-modell tränad på Göteborgsposten 2013–2022
Modell
svenska
Datamängd:
kubord-fasttext-gp-2013-2022-token.zip
2024-06-11 – 2.84 GB – CC BY 4.0
KUBORD
-fasttext - Göteborgsposten 2013–2024 - lemma
Fasttext-modell tränad på Göteborgsposten 2013–2024
Modell
svenska
Datamängd:
kubord-fasttext-gp-2013-2024-lemma.zip
2025-06-18 – 2.74 GB – CC BY 4.0
KUBORD
-fasttext - Göteborgsposten 2013–2024 - token
Fasttext-modell tränad på Göteborgsposten 2013–2024
Modell
svenska
Datamängd:
kubord-fasttext-gp-2013-2024-token.zip
2025-06-18 – 2.89 GB – CC BY 4.0
Lemmatiseringsmodell: Stanza
Förtränad modell för lemmatisering.
Modell
svenska
Datamängd:
lem_stanza.zip
2020-11-19 – 3.74 MB – CC BY 4.0
Ordklasstaggningsmodell: Flair
Förtränade modeller för ordklasstaggning.
Modell
svenska
Datamängd:
flair_eval.zip
2020-06-18 – 1.37 GB – CC BY 4.0
Datamängd:
flair_full.zip
2020-06-18 – 1.37 GB – CC BY 4.0
Ordklasstaggningsmodell: Marmot
Förtränade modeller för ordklasstaggning.
Modell
svenska
Datamängd:
marmot_eval.marmot
2020-06-29 – 108.59 MB – CC BY 4.0
Datamängd:
marmot_full.marmot
2020-06-29 – 113.41 MB – CC BY 4.0
Datamängd:
saldo_marmot.txt
2020-06-29 – 46.33 MB – CC BY 4.0
Ordklasstaggningsmodell: Stanza
Förtränade modeller för ordklasstaggning.
Modell
svenska
Datamängd:
morph_stanza_eval.zip
2020-12-09 – 19.94 MB – CC BY 4.0
Datamängd:
morph_stanza_full2.zip
2020-12-09 – 20.19 MB – CC BY 4.0
Datamängd:
stanza_pretrain.zip
2025-02-20 – 91.7 MB – CC BY 4.0
sbx/KB-bert-base-swedish-cased_PI-detection-basic
A model based on KB/bert-base-swedish-cased trained to detect personal information.
Modell
svenska
Datamängd:
KB-bert-base-swedish-cased_PI-detection-basic
98.28 KB – GPL-3.0
sbx/KB-bert-base-swedish-cased_PI-detection-basic-iob
A model based on KB/bert-base-swedish-cased trained to detect personal information.
Modell
svenska
Datamängd:
KB-bert-base-swedish-cased_PI-detection-basic-iob
108.51 KB – GPL-3.0
sbx/KB-bert-base-swedish-cased_PI-detection-detailed
A model based on KB/bert-base-swedish-cased trained to detect personal information.
Modell
svenska
Datamängd:
KB-bert-base-swedish-cased_PI-detection-detailed
108.81 KB – GPL-3.0
sbx/KB-bert-base-swedish-cased_PI-detection-detailed-iob
A model based on KB/bert-base-swedish-cased trained to detect personal information.
Modell
svenska
Datamängd:
KB-bert-base-swedish-cased_PI-detection-detailed-iob
109.01 KB – GPL-3.0
sbx/KB-bert-base-swedish-cased_PI-detection-general
A model based on KB/bert-base-swedish-cased trained to detect personal information.
Modell
svenska
Datamängd:
KB-bert-base-swedish-cased_PI-detection-general
108.49 KB – GPL-3.0
sbx/KB-bert-base-swedish-cased_PI-detection-general-iob
A model based on KB/bert-base-swedish-cased trained to detect personal information.
Modell
svenska
Datamängd:
KB-bert-base-swedish-cased_PI-detection-general-iob
108.66 KB – GPL-3.0
Svenska historiska inbäddningar (word embeddings)
Förtränade inbäddningar (word embeddings) för historisk svenska
Modell
svenska
Datamängd:
HENGCHEN-TAHMASEBI_-_2020_-_Kubhist2_diachronic_embeddings.zip
2024-01-25 – 15.13 GB – CC BY 4.0
Aktuellt
Nyheter
Konferenser och workshopar
CLT retreat 2020
AI Trust workshop
CDLC workshop
CLT workshop Spring 2023
EACL 2014
Höstworkshop
Höstworkshop 2025
Höstworkshop 2024
Höstworkshop 2023
Höstworkshop 2022
Höstworkshop 2021
Höstworkshop 2020
Höstworkshop 2011 och Korp-släpp
Höstworkshop 2012
Höstworkshop 2013
Höstworkshop 2014
Höstworkshop 2015
Höstworkshop 2016
Höstworkshop 2017
Höstworkshop 2018
Höstworkshop 2019
Språkbanken 40 år
Korpworkshop
Korpworkshop 2014
Korpworkshop 2018
NoDaLiDa 2017
RESOURCEFUL
SLTC 2020
Programme
Instructions
People
Support
Call for papers
Sustainable language representations
Position statements
Workshop on Profiling second language vocabulary and grammar - 2023
Blogg
Kalender
Tidigare händelser
Forskning
Publikationer
Doktorandutbildning
For PhD students and supervisors
Data
Analyser
Plattformar
Korp
Användarhandledning
Webb-API
Distribution och utveckling
Korpusstatistik
Nedladdningsbara meningsmängder
Karp
Webb-API
Sparv
Webb-Sparv - användarhandledning
Webb-API
Web Sparv - Technical Documentation
Mink
User manual
Övningsexempel
Video: överblick
Web API
Privacy and data policy
Strix
Lärka
Övriga verktyg
Catta
IT-baserad grammatikinlärning
Frågor och svar
Om oss
Personal
Organisation
Språkbanken Text i världen
Språkbanken 50 år
Jubileumsfirande
En kortfattad historik
Studera språkteknologi
Doktorandutbildning
Undervisning
Referera till oss
Alumner
Möten och workshoppar
Workshoppar
End of the year workshop 2024
End of the year workshop 2023
Semester workshop 2022
Semester workshop H2021
Semester workshop V2021
Semester workshop H2020
Semester workshop V2020
Forskningsmöten
Gruppmöten
SBX Retreat
SBX Retreat 2024
SBX Retreat 2023
SBX Retreat 2022
Kakor
Internt
Kontakt
Rådgivning