Hoppa till huvudinnehåll

Alla nyheter

Höjdpunkter på NoDaLiDa

I maj ägde konferensen NoDaLiDa rum på på Färöarna. Felix Morger, doktorand på Språkbanken Text, deltog på konferensen och var med och organiserade workshopen RESOURCEFUL-2023.

Vad är NoDaLiDa?
– NoDaLiDa är en konferens om nordisk språkteknologi som i år ägde rum i Tórshavn på Färöarna. Årets konferens bestod av en huvudkonferens samt workshops om constraint grammar, datorstödd språkinlärning samt hur man kan lösa språkteknologiska uppgifter utan eller med liten tillgång till språkresurser. 

Vad handlade ditt föredrag om?
– Arbetet jag presenterade handlade om hur överförbar språkdata på engelska är för att identifiera logiska relationer (natural language inference) mellan satser på svenska och om det finns några specifika lingvistiska kategorier som är mer överförbara än andra. Resultatet visade att överförbarheten från engelska till svenska är stor bland alla kategorier och att en svensk modell som förlitar sig på överföring av information från engelska presterar lika bra på svenska som en modell som endast har tränats och utvärderats på engelska.

Språkmodeller fungerar bra på mycket data. Modellen bakom ChatGTP till exempel, har tränats på en ofantligt stor mängd där en stor del kommer från Internet. Den workshop jag deltog i handlade om att använda sig av befintliga språkteknologiska resurser och smarta modeller för att kunna använda sig av mindre data. Hur kan man uppnå samma standard för svenska som för engelska som har mycket mer resurser? I förlängningen är det särskilt intressant för minoritetsspråk.

Flera kollegor från Språkbanken Text bidrog med presentationer. Aleksanders Berdicevskis till exempel talade om hur personer som interagerar med varandra i sociala medier börjar tala på liknande sätt ju mer de svarar på varandras inlägg. Elena Volodina och Samir Yousuf presenterade DaLAJ-GED, ett dataset för grammatisk felsökning som kan användas för att utveckla verktyg för personer som vill lära sig svenska.

Nämn några höjdpunkter!
– Jag har själv arbetat med projektet SuperLim 2.0, en datasamling som kan användas för att testa och utvärdera svenska språkmodeller. En intressant diskussion var därför frågan om hur man ska utvärdera stora språkmodeller. Vilken typ av lingvistisk kunskap ska de lära sig?

Ett annat intressant föredrag handlade om fenomenet translationese, som innebär att en engelsk text som översätts till svenska bär med sig engelska artefakter, till exempel konstruktioner på engelska. Det är en intressant utmaning i SuperLim eftersom många data är översatta från engelska till svenska.

Det var också intressant att höra om två nya datasamlingar, NorBench med norskt material och ScandEval med material på svenska, norska och danska. Jag blev inspirerad av hur automatiserade många av processerna för utvärdering är. Det kommer jag kanske att ta vidare i arbetet med en framtida iteration av SuperLim.

Läs mer om Nodalida >>

Läs mer om RESOURCEFUL-2023>>

Läs mer om NLP4CALL>>

Läs mer om SuperLim>>

Välkommen på Höstworkshop 23 oktober!

Måndagen den 23 oktober är det dags för Nationella språkbankens årliga höstworkshop. Årets tema är språklig variation.

Under dagen får du bland annat ta del av ett antal presentationer som visar hur Nationella språkbanken möjliggör den forskning som har språklig variation, i vid bemärkelse, som ett centralt inslag.

I år äger workshopen rum i Göteborg.
Tid: Måndag den 23 oktober kl. 13–17 med efterföljande mingel.
Plats: Göteborgs universitet, Humanisten, Renströmsgatan 6, Göteborg, Lilla Hörsalen C350.

Mer information och fullständigt program kommer i augusti. Läs mer och anmäl dig här >>

Lövet

Jubileumsarkivet: En ny datasamling om Göteborgsutställningen

Den här helgen firar Göteborg sitt 400-årsjubileum.
Vi tar härmed tillfället i akt att gratulera Göteborg genom att gå ett hundra år tillbaka i tiden för lära oss mer om staden och tiden då 300-årsjubileum firades med en storslagen Jubileumsutställning. Jubileumsutställningen hade sin invigning den 23 maj 1923 och varade över fem månader. Den var den största utställningen i Europa efter världskriget och var därför ett frekvent inslag i dåtidens svenska dagstidningar under utställningens gång. Dagstidningarna arkiverades på Göteborgs universitetsbibliotek i hundra … Fortsätt läsa ”Jubileumsarkivet: En ny datasamling om Göteborgsutställningen”

NoDaLiDa 2023

Den 22-24 maj är det dags för den 24:e nordiska konferensen om datorlingvistik som i år äger rum i Tórshavn, Färöarna.

Nationella språkbanken sponsrar konferensen och flera medarbetare deltar i programmet. 

Läs mer om Nodalida>>

Nyfiken på EUROCALL?

Den årliga konferensen EUROCALL hålls i år i Reykjavik 15–18 augusti. Årets tema är minoritetsspråk.

Fokus för årets konferens är inkludering av alla språk, vilket också återspeglas i huvudtemat för konferensen "CALL for all languages”. Temat betonar vikten av att bygga en global gemenskap för att bevara och revitalisera hotade och mindre vanligt talade språk med hjälp av språkteknologi. Språkbanken Sam, en del av Nationella språkbanken, kommer att presentera sitt arbete med språkteknologi för minoritetsspråk.

Läs mer om EUROCALL>>