Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

En kortfattad historik

En redogörelse för Språkbanken Texts historia måste börja med Sture Alléns (1928–2022) banbrytande insats. Han var en föregångare i att introducera korpuslingvistik i Sverige för svenska språket. Hans doktorsavhandling från 1965 publicerades i två delar, en där han beskrev den datorstödda metod som han hade använt – efter att först ha lärt sig programmera den själv i maskinkod – för att undersöka en textkorpus av 1600-talsbrev, den andra en vetenskaplig utgåva av dessa brev.

Efter att ha försvarat sin avhandling initierade Allén ett projekt som syftade till att bana väg för korpusbaserad lexikografi för svenska. Det mest omedelbara resultatet av detta projekt var en textkorpus med en miljon ord svenska nyhetstexter, som tillhandahöll råmaterialet för en rad svenska ordböcker.

Som professor och vetenskaplig ledare för Enheten för datorlingvistik, som etablerades 1972 vid Göteborgs universitet, tog Allén initiativ till ett grundutbildningsprogram i datorlingvistik som startade vid universitetet 1984. Hans eget huvudfokus förblev dock utvecklingen av korpusar och korpusverktyg till stöd för svensk lexikografi, och han initierade ett systematiskt arbete för att bygga en datorstödd forskningsinfrastruktur som kunde främja detta mål.

Planerna för Språkbanken drogs upp i en debattartikel skriven av Allén för den svenska dagstidningen Dagens Nyheter i september 1970. År 1973 lämnade Enheten för datorlingvistik in en formell anhållan till Utbildningsdepartementet, där de begärde öronmärkta medel för det som skulle bli Språkbanken. Två år senare blev denna forskningsinfrastruktur verklighet, när Logoteket (som den kallades i början) etablerades med nationell finansiering 1975.

Fokus för Språkbanken förändrades märkbart runt sekelskiftet, när de lexikografiska och språkteknologiska aktiviteterna av olika skäl skildes åt organisatoriskt. De förra kom att bedrivas vid Lexikaliska institutet som etablerades i samband med detta, medan Språkbanken utvidgade sin språkteknologiska verksamhet långt bortom det lexikografiska.

Sedan dess har Språkbanken Text vuxit till en nationellt och internationellt erkänd forsknings- och utvecklingsenhet för svensk språkteknologi och språkresurser. Den koordinerade de svenska aktiviteterna inom den europeiska forskningsinfrastrukturen CLARIN ERIC 2014–2024, och är den koordinerande noden för den nationella forskningsinfrastrukturen Språkbanken. Språkbanken Text är en av dess fyra nationellt distribuerade avdelningar, där de andra tre är: talteknologiavdelningen (Språkbanken Tal) vid Kungliga Tekniska högskolan (KTH) i Stockholm, avdelningen för kulturarv och språkpolitik (Språkbanken Sam) vid Institutet för språk och folkminnen i Uppsala, Stockholm och Göteborg, och avdelningen som koordinerar de svenska CLARIN-aktiviteterna (Språkbanken CLARIN) vid Uppsala universitet.

Som forskningsinfrastruktur är Språkbanken relativt unik då många av forskningsresultaten som kommer ut ur den forskning den stödjer i stor utsträckning bidrar till den fortsatta utvecklingen av infrastrukturen själv. Språkbanken stödjer forskning inom språkteknologi (text, tal och tecken) med en infrastruktur som i sig själv är byggd på språkteknologi (text, tal och tecken), mycket likt den antika mytologins Ouroborosorm.

Ouroborosorm, en orm som slukar sin egen svans.

Lars Borin