Hoppa till huvudinnehåll

Språkresurser

Här kan du leta och filtrera bland våra korpusar och lexikon. Du kan klicka på en rad för att få fram nedladdningsbara filer. Genom att klicka på Korp- eller Karp-ikonen kommer du direkt till gränssnittet där du kan utforska resursen.
Resurs Antal tokens Sortera fallande Språk Åtkomst
Samling
Äldre finlandssvenska
Del av finlandssvensk språkbank över svenskan i Finland i dag och i går
svenska
Samling
SuperLim 2
A standardized suite for evaluation and analysis of Swedish natural language understanding systems.
svenska
SuperSim (paketterat för Superlim) 2.0
En datamängd för betydelsemässig likhet och koppling mellan svenska ord.
svenska
SweDiagnostics
Svenska versionen av (Super)GLUE diagnostik
svenska
SweDN 1.0
A Swedish text summarization corpus
svenska
Argumentation sentences 1.0
A translated corpus for classifying sentence stance in relation to a topic.
svenska
Samling
Familjeliv
Material från diskussionsforumet Familjeliv
svenska
SweFAQ 2.0
Vanliga frågor från svenska myndigheters webbsidor med svar i randomiserad ordning
svenska
Svensk EAT: frågeklassifikation
En översättning av QAQC datamängden för klassificering av typer av det förväntade svaret
svenska
Samling
Bloggmix
Material från ett urval av svenska bloggar. Uppdateras regelbundet.
svenska
Svensk trädbank
En svensk trädbank med återanvändning av existerande resurser
svenska
SweLL-gold
Uppsatser svrivna av vuxenstuderande i svenska, manuellt pseudonymiserade och annoterade med felkategorier. Korpusen innehåller både originaltexten och en normaliserad version av varje uppsats. Insamlingperiod 2017-2020.
svenska
SweNLI 1.0
A Swedish NLI dataset
svenska
Detektiva avdelningen
Data från Detektiva avdelningen vid Göteborgs poliskammare, från slutet av 1800-talet till början av 1900-talet.
svenska
Samling
Flashback
Material från diskussionsforumet Flashback
svenska
Samling
SweLL-pilot
Uppsatser svrivna av vuxenstuderande i svenska, manuellt anonymiserade och annoterade med felkategorier. Korpusen innehåller både originaltexten och en normaliserad version av varje uppsats. Insamlingperiod 2006-2015.
svenska
Samling
ASPAC
The Amsterdam Slavic Parallel Aligned Corpus
svenska, vitryska, bulgariska, tjeckiska, tyska, lågsorbiska, modern greek (1453-), engelska, spanska, franska, kroatiska, högsorbiska, latin, makedonska, nederländska, polska, portugisiska, rumänska, ryska, kele (papua new guinea), slovakiska, slovenska, serbiska, slavomolisano, turkmeniska, ukrainska
Samling
Göteborgsposten
En korpus med texter från Göteborgs-Posten
svenska
SveParafras 2.0
Referensdatan för semantisk textjämförelse (STS Benchmark)
svenska
Samling
Europarl
European Parliament Proceedings Parallel Corpus
svenska, danska, tyska, modern greek (1453-), engelska, spanska, finska, franska, italienska, nederländska, portugisiska
Samling
Kubord 1
Ordfrekvenser från moderna tidningstexter från Kungliga biblioteket
svenska
Samling
Kvinnotidningar
Material från äldre svenska kvinnotidskrifter
svenska
SweWiC 2.0
En svensk ord-i-sammanhang datamängd
svenska
Samling
Läkartidningen
Korpus för vårdens och omsorgens fackspråk
svenska
Samling
Tvåkammarriksdagen
Samling av textdokument från Tvåkammarriksdagen
svenska
Samling
Kubhist 2
Diakronisk samling av historisk tidsskriftstext på svenska från perioden 1645–1926. Kubhist 2 är en uppdaterad version av Kubhist med förbättrad OCR och mer material.
svenska
Ordstatistik för korpusar
Ackumulerad ordstatistik från många av våra moderna svenska korpusar
Samling
Kubord 2
Ordrelationer från moderna tidningstexter från Kungliga biblioteket
svenska
SweWinogender 2.0
En svensk datamängd för koreferens och könsbias
svenska
Samling
Press
Svensk press
svenska
Samling
Kubhist
Diakronisk samling av historisk tidsskriftstext på svenska från perioden 1749–1926
svenska
DaLAJ-GED-Superlim 2.0
Dataset for Linguistic Acceptability Judgments (and more), v.2.0
svenska
SweWinograd 2.0
En svensk datamängd för pronomentolkning
svenska
Samling
Medeltidsbrev
Svenskt Diplomatariums huvudkartotek över medeltidsbreven (SDHK)
latin, tyska, norska, svenska
Samling
Riksdagens öppna data
Data från data.riksdagen.se
svenska
ScandiSent
Sentimentkorpus för svenska, norska, danska, finska och engelska, insamlad från trustpilot.
svenska, bokmål, danska, engelska, finska
Samling
Somaliska korpusar
En samling av korpusar på somaliska
somali
Samling
SVT nyheter
Nyhetstexter från svt.se
svenska
Samling
Webbnyheter
Nyheter från svenska dagstidningars webbplatser
svenska
Samling
Finlandssvenska
Del av finlandssvensk språkbank över svenskan i Finland i dag och i går
svenska
Svensk ABSAbank-Imm 1.1
Svensk annoterad korpus för aspektbaserad attitydanalys (en version av Absabank)
svenska
Svensk analogi 2.0
Svensk semantisk och syntaktisk likhet
svenska
Samling
Fornsvenska textbankens material
En samling fornsvenska texter från Fornsvenska textbanken
svenska
IVIP demo
Interaktion och variation i pluricentriska språk – Kommunikativa mönster i sverigesvenska och finlandssvenska.
572 svenska
Caafimaad 1983
1 521 somali
Kubhist: Götheborgs weckolista 1740-talet
Del av samlingen Kubhist
1 778 svenska
Kubhist 2: Götheborgs Weckolista 1740-talet
Del av samlingen Kubhist 2
2 272 svenska
Äldre finlandssvenska: Borgåbladet 1885
Tidning som utkommer i Borgå
3 020 svenska
Kubhist 2: Posttidningar 1670-talet
Del av samlingen Kubhist 2
5 575 svenska
Äldre finlandssvenska: Tidningar Utgifne af et Sällskap i Åbo 1771–1783
Finlands första tidning. Starkt knuten till Aurorasällskapet och Henrik Gabriel Porthan. Utkom i Åbo åren 1771–1778 och 1782–1785.
6 532 svenska
Somaliska: Suugaan (Turjuman)
8 796 somali
Af Soomaali 1993-94
9 247 somali
Kubhist 2: Posttidningar 1650-talet
Del av samlingen Kubhist 2
9 994 svenska
Äldre finlandssvenska: Typografiskt minnesblad 1891
Utkom 1642–1892
10 234 svenska
Äldre finlandssvenska: Uleåborgs Tidning 1877–1887
Tidning som utkom i Uleåborg 1877–1891
13 474 svenska
Somaliska: Caafimaad 1972–79
13 550 somali
SIC2 - Stockholm Internet Corpus
Korpusen Stockholm Internet Corpus (SIC2) innehåller svenska bloggar som är annoterade med ordklasstaggar, morfologiska särdrag och namnentiteter.
13 562 svenska
Somaliska: Sheekooyin Carruureed (Turjuman)
13 865 somali
Somaliska: Maaddooyinka Kale 1972–79
14 908 somali
Kubhist 2: Posttidningar 1660-talet
Del av samlingen Kubhist 2
15 912 svenska
Sibirientyska kvinnor
Samtal med fyra kvinnor födda mellan 1927 och 1937 i sovjetiska Volgarepubliken
16 208 svenska
Äldre finlandssvenska: Wiborgs Tidning 1867–1877
Tidning som utkom i Viborg åren 1864–1881
19 086 svenska
Äldre finlandssvenska: Fredrikshamns Tidning 1888–1908
Tidning som utkom i Fredrikshamn 1884–1910
20 484 svenska
Folkekorpus
Uppteckningar från Isofs arkiv
20 699 svenska
Somaliska: Afka Hooyo 2010–19 Iswiidhan
21 542 somali
Fornsvenska textbankens material: Nysvenska lagar
22 701 svenska
Somaliska: Sheekooyin Carruureed
26 003 somali
Ansökningar
Anonymiserade jobbansökningar. Korpusen är skyddad, kontakta Lena Rogström (lena.rogstroem@svenska.gu.se) för mer information och åtkomst.
26 228 svenska
Medeltidsbrev: Norska
Brev på norska, ur Svenskt Diplomatariums huvudkartotek (SDHK)
27 718 norska
Bloggmix 1998
Material från ett urval av svenska bloggar. Uppdateras regelbundet.
30 939 svenska
ASPAC: svenska-turkmeniska
Del av The Amsterdam Slavic Parallel Aligned Corpus
31 397 svenska, turkmeniska
Finlandssvenska: Österbottens tidning 2011
Regional svenskspråkig dagstidning i Österbotten
32 950 finlandssvenska
Somaliska: Saynis 1980–89
33 034 somali
MAÞiR Träd
En fornsvensk trädbank, med lemmata, ordklasser och syntax i stil med PROIEL-korpusarna.
33 721 svenska
Äldre finlandssvenska: Björneborgs Tidning 1897–1907
Tidning som utkom i Björneborg mellan åren 1860 och 1965, med vissa avbrott
34 057 svenska
Sibirientyska
Sibirientyska är nedtecknad talad tyska som talas idag av c:a 36 000 människor i regionen Krasnojarsk i Sibirien (Ryssland).
34 205 svenska
Somaliska: Af-Soomaali 2001 Somaliland
35 043 somali
ASPAC: svenska-moliseslaviska
Del av The Amsterdam Slavic Parallel Aligned Corpus
35 279 slavomolisano, svenska
Somaliska: Taariikh iyo Dhaqan (Turjuman)
35 479 somali
ASPAC: svenska-logsorbiska
Del av The Amsterdam Slavic Parallel Aligned Corpus
36 551 svenska, lågsorbiska
SVT nyheter okänt datum
Nyhetstexter från svt.se
36 783 svenska
Äldre finlandssvenska: Åland 1891–1911
Grundades 1891 av Julius Sundblom. Utkommer på Åland.
38 288 svenska
Medeltidsbrev: Övriga språk
Brev på övriga språk, ur Svenskt Diplomatariums huvudkartotek (SDHK)
39 430 svenska
Finlandssvenska: Syd-Österbotten 2013
Regional svenskspråkig dagstidning i Österbotten
40 030 finlandssvenska
Betänkande ang. läroböcker (1882)
Göteborgs universitetsbiblioteks OCR-lästa men ej korrekturlästa digitalisering av ett betänkande från 1882
41 521 svenska
Somaliska: Xisaab 2016 Somaliland
41 922 somali
Äldre finlandssvenska: Spanska Flugan 1839–1841
Spanska Flugan var en polemisk tidskrift, vars redaktör var J.V. Snellman.
41 935 svenska
Fornsvenska textbankens material: Nysvenska bibelböcker
44 990 svenska
Sæmundaredda
Forntida isländsk poesi även känd som The King's Book
46 726 fornisländska
SpIn v1
256 essays collected from Language Introduction course (mid-term exams) for newly arrived refugees. Some of the students are recurrent.
46 911 svenska
Äldre finlandssvenska: Frågebrevsvar 1900–1949
Privatkorrespondens, dagböcker, resejournaler och andra icke skönlitterära texter såsom meddelanden och uppsatser
47 922 svenska
Svensk fraktur 1626-1816
Ett urval av svensk fraktur texter tryckta mellan 1626 och 1816 från samlingarna på Universitetsbiblioteket vid Göteborgs universitet (UB). För OCR analys.
47 924 svenska
Somaliska: Cilmiga Bulshada 2001-03 Soomaaliya
48 234 somali
Förhör
Korpusen är skyddad, kontakta Ylva Burman (ylva.byrman@svenska.gu.se) för mer information och åtkomst.
49 299 svenska
Somaliska: Xisaab 2001 Soomaaliya
50 361 somali
Somaliska: Af Soomaali 1971-79
50 794 somali
InterFra svenska
To promote research in the field of French L2 second language acquisition in a developmental, interactional and variationist perspective. The HLP (High Level Proficiency in Second language use) project also investigates learners of other L2s such as Swedish, Spanish, English and Italian.
50 993 svenska
Af-Soomaali 2016 Somaliland
51 236 somali
Förvaltningsmyndigheters texter
51 366 svenska
SW1203-uppsatser
Essays written by L2 Swedish language learners, university courses
51 972 svenska