Meny

The Swedish Culturomics Gigaword Corpus

En miljard ord ur svenska korpusar från 1950 och framåt. Kod för att extrahera data från korpusen, samt användningsinstruktioner, kan laddas ner från https://svn.spraakdata.gu.se/sb-arkiv/tools/gigaword/

En miljard ord ur svenska korpusar från 1950 och framåt.

Vänligen använd följande artikel som referens för datasetet:
Stian Rødven Eide, Nina Tahmasebi, Lars Borin. 2016. The Swedish Culturomics Gigaword Corpus: A One Billion Word Swedish Reference Dataset for NLP

Kod för att extrahera data från korpusen, samt användningsinstruktioner, kan laddas ner från https://svn.spraakdata.gu.se/sb-arkiv/tools/gigaword/

Sentences per year for each genre
fictiongovernmentnewssciencesocialmedia
1950-420 413---
1960-424 920---
1965--53 624--
1970-459 867---
1976--89 175--
1977499 030----
1980-534 194---
1981307 597----
198797 398-364 226--
1990-551 988---
1991330 127----
1992---44 538-
1994-391 8821 538 748--
1995--514 797--
1996--449 148118 542-
1997--980 230125 096-
1998--804 178121 8951 638
1999194 699--113 56840 099
2000---109 28912 945
2001--1 393 257115 01220 006
2002-41 0662 610 740110 830191 234
2003--2 095 70096 77816 382
2004--2 094 251103 881487 447
2005--3 013 78785 023985 094
2006-50 6842 634 386-408 425
2007--2 530 808523 1021 638 311
2008--2 607 657-754 801
2009--2 795 855-605 194
2010--2 635 687-790 148
2011--2 973 928-957 017
2012--2 681 277673 8201 589 999
2013--2 501 426-594 982
2014----590 146
2015---12 293 254187 253