Meny

Nyheter

Sida 1
Under oktober och november 2020 arrangerar Språkbanken Sam flera webbinarier om crowdsourcing och maskintranskribering.

Läs mer på språkbanken.se

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’? I det här blogginlägget tänkte jag prata om ord som innehåller mellanrum och flerordsuttryck, och hur man kan analysera dem i en korpus. Om vi ska annotera en text, alltså märka upp den med …  Fortsätt läsa ”Flerordingar: ord som består av flera delar”

Till Språkbanksbloggen
Språkbanken Text är ett CLARIN (auktoriserat) B-center och därför även en viktig komponent i den europeiska forskningsinfrastrukturen CLARIN ERIC. Förra veckan gick den årliga CLARIN-konferensen av stapeln virtuellt, vilket möjliggjorde att flera av oss på Språkbanken Text kunde delta.

Läs mer om evenemanget här>>

I förra veckan gav Nina Tahmasebi, docent i språkteknologi vid Språkbanken Text, en keynote om storskalig textanalys för litteraturvetenskap som appliceras likaväl till alla storskaliga texter inom digital humaniora och samhällsvetenskap.

Video till föreläsningen
A new blogpost is out.

(This blog is based on a joint research and publication in collaboration with David Alfter, Therese Lindström Tiedemann, Maisa Laurialla and Daniela Piipponen) At our department, and outside, we are used to search Korp corpora using the linguistic categories available there. Some of us know that these linguistic categories come as a result of automatic annotation by the Sparv-pipeline. The pipeline automatically splits raw text into tokens, sentences, finds a base form to each of the running (inflected) words, assigns word classes, … 

To Språkbanksbloggen
Höstworkshop 2020 bild
Fredagen den 16 oktober arrangerar Nationella språkbanken sin årliga höstworkshop. Värdskapet cirkulerar och i år är det Språkbanken Text på Göteborgs universitet som står som arrangör. Workshoppen, som har arrangerats sedan 2011, är vid det här laget en väletablerad företeelse och det kommer bli en heldag med språkteknologisk och språkvetenskaplig forskning i fokus.

– Den första höstworkshoppen gick av stapeln 17 oktober 2011 i Göteborg, då Språkbanken gjorde en offentlig lansering av den första versionen av forskningsverktyget Korp. Sedan dess har vi arrangerat en höstworkshop i oktober månad varje år, säger Markus Forsberg, föreståndare på Språkbanken Text.

Nationella språkbanken arbetar för att möjliggöra och/eller stödja forskning på språklig data. Tanken bakom den årliga workshoppen är därför att informera om nyheter från verksamheten och samtidigt nå ut till forskare som skulle kunna ha nytta av Nationella språkbankens arbete.

– I år riktar vi oss särskilt till språkteknologiska och språkvetenskapliga forskare, men alla intresserade är förstås varmt välkomna, fortsätter Markus.
Programmet för workshoppen är redan klart. Bland annat kommer det att handla om crowdsourcing för transkribering av dialekter och folkminnen, om textens roll i talteknologin och om en svensk diakronisk korpus. Det kommer dessutom finnas möjlighet att få en förhandsvisning av Språkbanken Texts importkedja för korpusannotering – Sparv 4.

markus
Markus Forsberg, föreståndare för Språkbanken Text.

Helt digital workshop

Som så många andra tillställningar det här året så kommer årets version av höstworkshoppen att hållas helt digitalt. Markus ser både fördelar och nackdelar med formatet.

– De personliga mötena, som varit ett viktigt inslag i våra höstworkshoppar, kommer tyvärr inte kunna ske i samma utsträckning. Men samtidigt är en digital workshop mer lättillgänglig för någon som inte bor i staden där workshoppen hålls, så det finns både fördelar och nackdelar.
Värdskapet för workshoppen cirkulerar numera mellan Språkbanken Text, Språkbanken Tal och Språkbanken Sam, som tillsammans bildar Nationella språkbanken. 
 

Läs hela programmet och anmäl dig på Nationella språkbankens webbplats.
I förra veckan gav Nina Tahmasebi, docent i språkteknologi vid Språkbanken Text, en workshop i digitala metoder och digital text inom ramen för forskarkursen i Digital Literacy för humaniora och samhällsvetenskap.

Videoinspelningar från de två sessionerna finns här:

Workshop on Digital Literacy, 2020 (på engelska):
https://play.gu.se/media/Tahmasebi-Digital-Literacy-part1/0_6zp88zs4
https://play.gu.se/media/Tahmasebi-Digital-Literacy-part2/0_ewa05dxa
 

Kontakt: Nina Tahmasebi

I slutet av augusti arrangerade Isof med hjälp av Språkbanken Sam en digital heldag med föreläsningar om språkteknologi och dess betydelse för de små språkens bevarande och utveckling. Lars Borin, föreståndare för Nationella språkbanken och professor vid Institutionen för svenska språket vid Göteborgs universitet, berättade om sitt arbete med korpusar och vilken betydelse de har för den språkteknologiska utvecklingen.

Läs mer på Nationella språkbankens webbsida.
Språkbanken Text har tillsammans med Kungliga Biblioteket, forskningsinstitutet RISE och AI Innovation of Sweden beviljats projektmedel från Vinnova för projektet "SuperLim: en svensk testmängd för språkmodeller" (2020-2021).

Projektet ska lägga grunden för en testbädd för svenska språkmodeller liknande dem som redan existerar för engelska språket: GLUE och SuperGLUE. En sådan testbädd behövs för att vi ska kunna få bättre förståelse för hur väl de språkmodeller som vi utvecklar för svenska språket fungerar.

Hur väl en språkmodell fungerar handlar inte bara om korrekthet utan även om att kartlägga vilka snedvridningar modellerna ärver av den underliggande datan de har blivit tränade på. Säg exempelvis att en språkmodell är tränad på stora mängder text där det inte är ovanligt att uttrycka sig rasistiskt. Detta skulle kunna leda till att rasistiska strukturer kodas in i språkmodellen, vilket kan ge förödande konsekvenser om modellen senare används inom stödsystem för exempelvis vem en organisation ska anställa eller för hur en myndighet ska fatta ett beslut. 

Även om det förstås alltid är viktigt att förhålla sig kritisk till den datan man tränar en modell på, så räcker inte det på långa vägar för att få en förståelse för hur en specifik språkmodell fungerar. Dels för att datamängderna typiskt är så pass stora att de är omöjliga att överblicka, dels för att vad en språkmodell lär sig av datamängderna kan vara något som uttrycks ytterst subtilt i den underliggande datan. Så det finns helt enkelt ett stort behov för en väl genomarbetad testbädd för våra svenska språkmodeller, inte bara för forskningen inom språkteknologi och AI utan för hela vårt samhälle där språkmodeller alltmer börjar användas, och det här projektet syftar till att lägga en solid grund för en sådan testbädd.

Se även: Projekt om svenska språkmodeller får forskningsmedel
 

Sida 1