Datamängder

Här kan du leta och filtrera bland våra datamängder. Du kan klicka på en rad för att få fram nedladdningsbara filer. Genom att klicka på verktygsikonen kommer du direkt till gränssnittet där du kan utforska datamängden. Du kan göra avancerade sökningar i vår metadata hos Datacite.

Alla (1329) Samlingar (33) Korpusar (1221) Lexikon (80) Tränings- och utvärderingsdata (39) Modeller (28)

Antal träffar: 28

Resurs	Typ	Språk	Åtkomst
Dependensparsningsmodell: Stanza Förtränade modeller för dependensparsning.	Modell	svenska	Datamängd: synt_stanza_eval.zip 2020-12-09 – 99.05 MB – CC-BY-4.0 Datamängd: synt_stanza_full2.zip 2020-12-09 – 99.17 MB – CC-BY-4.0 Datamängd: stanza_pretrain.zip 2025-02-20 – 91.7 MB – CC-BY-4.0
Engelska inbäddningar (word embeddings) Förtränade inbäddningar (word embeddings) för engelska wikipedia	Modell	engelska	Datamängd: wiki_300_5_word2vec.model 2024-01-25 – 112.01 MB – CC-BY-4.0 Datamängd: wiki_300_5_word2vec.model.syn1neg.npy 2024-01-25 – 3.75 GB – CC-BY-4.0 Datamängd: wiki_300_5_word2vec.model.wv.vectors.npy 2024-01-25 – 3.75 GB – CC-BY-4.0 Datamängd: wiki_300_50_word2vec.model 2024-01-25 – 28.04 MB – CC-BY-4.0 Datamängd: wiki_300_50_word2vec.model.syn1neg.npy 2024-01-25 – 949.26 MB – CC-BY-4.0 Datamängd: wiki_300_50_word2vec.model.wv.vectors.npy 2024-01-25 – 949.26 MB – CC-BY-4.0
Förtränade inbäddningar En lista över förtränade inbäddningar för svenska	Modell	svenska
Samling Kubord-fasttext En samling fasttext-modeller tränade på moderna tidningstexter från Kungliga biblioteket	Modell	svenska	Se 12 delresurser
Kubord-fasttext - Aftonbladet 2010–2022 - lemma Fasttext-modell tränad på Aftonbladet 2010–2022	Modell	svenska	Datamängd: kubord-fasttext-afb-2010-2022-lemma.zip 2024-08-05 – 2.94 GB – CC-BY-4.0
Kubord-fasttext - Aftonbladet 2010–2022 - token Fasttext-modell tränad på Aftonbladet 2010–2022	Modell	svenska	Datamängd: kubord-fasttext-afb-2010-2022-token.zip 2024-06-11 – 3.18 GB – CC-BY-4.0
Kubord-fasttext - Aftonbladet 2010–2024 - lemma Fasttext-modell tränad på Aftonbladet 2010–2024	Modell	svenska	Datamängd: kubord-fasttext-afb-2010-2024-lemma.zip 2025-06-18 – 3 GB – CC-BY-4.0
Kubord-fasttext - Aftonbladet 2010–2024 - token Fasttext-modell tränad på Aftonbladet 2010–2024	Modell	svenska	Datamängd: kubord-fasttext-afb-2010-2024-token.zip 2025-06-18 – 3.17 GB – CC-BY-4.0
Kubord-fasttext - Dagens Nyheter 2010–2022 - lemma Fasttext-modell tränad på Dagens Nyheter 2010–2022	Modell	svenska	Datamängd: kubord-fasttext-dn-2010-2022-lemma.zip 2024-08-05 – 2.81 GB – CC-BY-4.0
Kubord-fasttext - Dagens Nyheter 2010–2022 - token Fasttext-modell tränad på Dagens Nyheter 2010–2022	Modell	svenska	Datamängd: kubord-fasttext-dn-2010-2022-token.zip 2024-06-11 – 3.1 GB – CC-BY-4.0
Kubord-fasttext - Dagens Nyheter 2010–2024 - lemma Fasttext-modell tränad på Dagens Nyheter 2010–2024	Modell	svenska	Datamängd: kubord-fasttext-dn-2010-2024-lemma.zip 2025-06-18 – 2.9 GB – CC-BY-4.0
Kubord-fasttext - Dagens Nyheter 2010–2024 - token Fasttext-modell tränad på Dagens Nyheter 2010–2024	Modell	svenska	Datamängd: kubord-fasttext-dn-2010-2024-token.zip 2025-06-18 – 3.1 GB – CC-BY-4.0
Kubord-fasttext - Göteborgsposten 2013–2022 - lemma Fasttext-modell tränad på Göteborgsposten 2013–2022	Modell	svenska	Datamängd: kubord-fasttext-gp-2013-2022-lemma.zip 2024-08-05 – 2.69 GB – CC-BY-4.0
Kubord-fasttext - Göteborgsposten 2013–2022 - token Fasttext-modell tränad på Göteborgsposten 2013–2022	Modell	svenska	Datamängd: kubord-fasttext-gp-2013-2022-token.zip 2024-06-11 – 2.84 GB – CC-BY-4.0
Kubord-fasttext - Göteborgsposten 2013–2024 - lemma Fasttext-modell tränad på Göteborgsposten 2013–2024	Modell	svenska	Datamängd: kubord-fasttext-gp-2013-2024-lemma.zip 2025-06-18 – 2.74 GB – CC-BY-4.0
Kubord-fasttext - Göteborgsposten 2013–2024 - token Fasttext-modell tränad på Göteborgsposten 2013–2024	Modell	svenska	Datamängd: kubord-fasttext-gp-2013-2024-token.zip 2025-06-18 – 2.89 GB – CC-BY-4.0
Lemmatiseringsmodell: Stanza Förtränad modell för lemmatisering.	Modell	svenska	Datamängd: lem_stanza.zip 2020-11-19 – 3.74 MB – CC-BY-4.0
Ordklasstaggningsmodell: Flair Förtränade modeller för ordklasstaggning.	Modell	svenska	Datamängd: flair_eval.zip 2020-06-18 – 1.37 GB – CC-BY-4.0 Datamängd: flair_full.zip 2020-06-18 – 1.37 GB – CC-BY-4.0
Ordklasstaggningsmodell: Marmot Förtränade modeller för ordklasstaggning.	Modell	svenska	Datamängd: marmot_eval.marmot 2020-06-29 – 108.59 MB – CC-BY-4.0 Datamängd: marmot_full.marmot 2020-06-29 – 113.41 MB – CC-BY-4.0 Datamängd: saldo_marmot.txt 2020-06-29 – 46.33 MB – CC-BY-4.0
Ordklasstaggningsmodell: Stanza Förtränade modeller för ordklasstaggning.	Modell	svenska	Datamängd: morph_stanza_eval.zip 2020-12-09 – 19.94 MB – CC-BY-4.0 Datamängd: morph_stanza_full2.zip 2020-12-09 – 20.19 MB – CC-BY-4.0 Datamängd: stanza_pretrain.zip 2025-02-20 – 91.7 MB – CC-BY-4.0
sbx/KB-bert-swedish_CEFR-classification A model based on KB/bert-base-swedish-cased trained for CEFR level classification of learner essays.	Modell	svenska	Datamängd: KB-bert-swedish_CEFR-classification 125.66 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-basic A model based on KB/bert-base-swedish-cased trained to detect personal information.	Modell	svenska	Datamängd: KB-bert-swedish_PI-detection-basic 148.74 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-basic-iob A model based on KB/bert-base-swedish-cased trained to detect personal information.	Modell	svenska	Datamängd: KB-bert-swedish_PI-detection-basic-iob 148.85 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-detailed A model based on KB/bert-base-swedish-cased trained to detect personal information.	Modell	svenska	Datamängd: KB-bert-swedish_PI-detection-detailed 149.17 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-detailed-iob A model based on KB/bert-base-swedish-cased trained to detect personal information.	Modell	svenska	Datamängd: KB-bert-swedish_PI-detection-detailed-iob 149.44 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-general A model based on KB/bert-base-swedish-cased trained to detect personal information.	Modell	svenska	Datamängd: KB-bert-swedish_PI-detection-general 148.84 KB – GPL-3.0
sbx/KB-bert-swedish_PI-detection-general-iob A model based on KB/bert-base-swedish-cased trained to detect personal information.	Modell	svenska	Datamängd: KB-bert-swedish_PI-detection-general-iob 149.13 KB – GPL-3.0
Svenska historiska inbäddningar (word embeddings) Förtränade inbäddningar (word embeddings) för historisk svenska	Modell	svenska	Datamängd: HENGCHEN-TAHMASEBI_-_2020_-_Kubhist2_diachronic_embeddings.zip 2024-01-25 – 15.13 GB – CC-BY-4.0

Sidansvarig: sb-webb