Language resources

On this page you can browse and search our datasets. Click on a row name to see what files are available for download. You can go directly to the search interface by clicking on the tool logo.

All (1329) Collections (33) Corpora (1221) Lexicons (80) Training and evaluation data (39) Models (28)

Number of hits: 28

Resurs	Typ	Språk	Åtkomst
Dependency parsing model: Stanza Pretrained models for dependency parsing.	Model	Swedish	Dataset: synt_stanza_eval.zip 2020-12-09 – 99.05 MB – CC-BY-4.0 Dataset: synt_stanza_full2.zip 2020-12-09 – 99.17 MB – CC-BY-4.0 Dataset: stanza_pretrain.zip 2025-02-20 – 91.7 MB – CC-BY-4.0
Collection Kubord-fasttext A collection of fasttext models trained on modern newspaper texts from the National Library of Sweden	Model	Swedish	See 12 collected resources
Kubord-fasttext - Aftonbladet 2010–2022 - lemma Fasttext model trained on Aftonbladet 2010–2022	Model	Swedish	Dataset: kubord-fasttext-afb-2010-2022-lemma.zip 2024-08-05 – 2.94 GB – CC-BY-4.0
Kubord-fasttext - Aftonbladet 2010–2022 - token Fasttext model trained on Aftonbladet 2010–2022	Model	Swedish	Dataset: kubord-fasttext-afb-2010-2022-token.zip 2024-06-11 – 3.18 GB – CC-BY-4.0
Kubord-fasttext - Aftonbladet 2010–2024 - lemma Fasttext model trained on Aftonbladet 2010–2024	Model	Swedish	Dataset: kubord-fasttext-afb-2010-2024-lemma.zip 2025-06-18 – 3 GB – CC-BY-4.0
Kubord-fasttext - Aftonbladet 2010–2024 - token Fasttext model trained on Aftonbladet 2010–2024	Model	Swedish	Dataset: kubord-fasttext-afb-2010-2024-token.zip 2025-06-18 – 3.17 GB – CC-BY-4.0
Kubord-fasttext - Dagens Nyheter 2010–2022 - lemma Fasttext model trained on Dagens Nyheter 2010–2022	Model	Swedish	Dataset: kubord-fasttext-dn-2010-2022-lemma.zip 2024-08-05 – 2.81 GB – CC-BY-4.0
Kubord-fasttext - Dagens Nyheter 2010–2022 - token Fasttext model trained on Dagens Nyheter 2010–2022	Model	Swedish	Dataset: kubord-fasttext-dn-2010-2022-token.zip 2024-06-11 – 3.1 GB – CC-BY-4.0
Kubord-fasttext - Dagens Nyheter 2010–2024 - lemma Fasttext model trained on Dagens Nyheter 2010–2024	Model	Swedish	Dataset: kubord-fasttext-dn-2010-2024-lemma.zip 2025-06-18 – 2.9 GB – CC-BY-4.0
Kubord-fasttext - Dagens Nyheter 2010–2024 - token Fasttext model trained on Dagens Nyheter 2010–2024	Model	Swedish	Dataset: kubord-fasttext-dn-2010-2024-token.zip 2025-06-18 – 3.1 GB – CC-BY-4.0
Kubord-fasttext - Göteborgsposten 2013–2022 - lemma Fasttext model trained on Göteborgsposten 2013–2022	Model	Swedish	Dataset: kubord-fasttext-gp-2013-2022-lemma.zip 2024-08-05 – 2.69 GB – CC-BY-4.0
Kubord-fasttext - Göteborgsposten 2013–2022 - token Fasttext model trained on Göteborgsposten 2013–2022	Model	Swedish	Dataset: kubord-fasttext-gp-2013-2022-token.zip 2024-06-11 – 2.84 GB – CC-BY-4.0
Kubord-fasttext - Göteborgsposten 2013–2024 - lemma Fasttext model trained on Göteborgsposten 2013–2024	Model	Swedish	Dataset: kubord-fasttext-gp-2013-2024-lemma.zip 2025-06-18 – 2.74 GB – CC-BY-4.0
Kubord-fasttext - Göteborgsposten 2013–2024 - token Fasttext model trained on Göteborgsposten 2013–2024	Model	Swedish	Dataset: kubord-fasttext-gp-2013-2024-token.zip 2025-06-18 – 2.89 GB – CC-BY-4.0
Lemmatization model: Stanza Pretrained model for lemmatization.	Model	Swedish	Dataset: lem_stanza.zip 2020-11-19 – 3.74 MB – CC-BY-4.0
POS-tagging model: Flair Pretrained models for POS-tagging.	Model	Swedish	Dataset: flair_eval.zip 2020-06-18 – 1.37 GB – CC-BY-4.0 Dataset: flair_full.zip 2020-06-18 – 1.37 GB – CC-BY-4.0
POS-tagging model: Marmot Pretrained models for POS-tagging.	Model	Swedish	Dataset: marmot_eval.marmot 2020-06-29 – 108.59 MB – CC-BY-4.0 Dataset: marmot_full.marmot 2020-06-29 – 113.41 MB – CC-BY-4.0 Dataset: saldo_marmot.txt 2020-06-29 – 46.33 MB – CC-BY-4.0
POS-tagging model: Stanza Pretrained models for POS-tagging.	Model	Swedish	Dataset: morph_stanza_eval.zip 2020-12-09 – 19.94 MB – CC-BY-4.0 Dataset: morph_stanza_full2.zip 2020-12-09 – 20.19 MB – CC-BY-4.0 Dataset: stanza_pretrain.zip 2025-02-20 – 91.7 MB – CC-BY-4.0
Pretrained embeddings A list of pretrained embeddings for Swedish	Model	Swedish
sbx/KB-bert-swedish_CEFR-classification A model based on KB/bert-base-swedish-cased trained for CEFR level classification of learner essays.	Model	Swedish	Dataset: KB-bert-swedish_CEFR-classification 125.66 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-basic En modell baserad på KB/bert-base-swedish-cased tränad med syfte att upptäcka personliga uppgifter, särskilt i studentuppsatser.	Model	Swedish	Dataset: KB-bert-swedish_PI-detection-basic 148.74 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-basic-iob En modell baserad på KB/bert-base-swedish-cased tränad med syfte att upptäcka personliga uppgifter, särskilt i studentuppsatser.	Model	Swedish	Dataset: KB-bert-swedish_PI-detection-basic-iob 148.85 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-detailed En modell baserad på KB/bert-base-swedish-cased tränad med syfte att upptäcka personliga uppgifter, särskilt i studentuppsatser.	Model	Swedish	Dataset: KB-bert-swedish_PI-detection-detailed 149.17 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-detailed-iob En modell baserad på KB/bert-base-swedish-cased tränad med syfte att upptäcka personliga uppgifter, särskilt i studentuppsatser.	Model	Swedish	Dataset: KB-bert-swedish_PI-detection-detailed-iob 149.44 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-general En modell baserad på KB/bert-base-swedish-cased tränad med syfte att upptäcka personliga uppgifter, särskilt i studentuppsatser.	Model	Swedish	Dataset: KB-bert-swedish_PI-detection-general 148.84 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-general-iob En modell baserad på KB/bert-base-swedish-cased tränad med syfte att upptäcka personliga uppgifter, särskilt i studentuppsatser.	Model	Swedish	Dataset: KB-bert-swedish_PI-detection-general-iob 149.12 KB – GPL-3.0
Swedish Diachronic Word Embeddings Swedish Diachronic Word Embedding Models Trained on Historical Newspaper Data	Model	Swedish	Dataset: HENGCHEN-TAHMASEBI_-_2020_-_Kubhist2_diachronic_embeddings.zip 2024-01-25 – 15.13 GB – CC-BY-4.0
Word Embeddings trained on English Wikipedia Word Embeddings trained on English Wikipedia	Model	English	Dataset: wiki_300_5_word2vec.model 2024-01-25 – 112.01 MB – CC-BY-4.0 Dataset: wiki_300_5_word2vec.model.syn1neg.npy 2024-01-25 – 3.75 GB – CC-BY-4.0 Dataset: wiki_300_5_word2vec.model.wv.vectors.npy 2024-01-25 – 3.75 GB – CC-BY-4.0 Dataset: wiki_300_50_word2vec.model 2024-01-25 – 28.04 MB – CC-BY-4.0 Dataset: wiki_300_50_word2vec.model.syn1neg.npy 2024-01-25 – 949.26 MB – CC-BY-4.0 Dataset: wiki_300_50_word2vec.model.wv.vectors.npy 2024-01-25 – 949.26 MB – CC-BY-4.0

Page manager: sb-webb