Skip to main content

News archive

Nyfiken på CLARIN-konferensen?

Den årliga CLARIN-konferensen 2022 gick av stapeln i Prag 10-12 oktober. i Nu kan du se konferensen i efterhand.

CLARIN-konferensen samlar forskare och utvecklare runt om i Europa för att utbyta perspektiv, tankar och erfarenheter kring språkbaserad e-vetenskap och arbete med infrastruktur.

Från konferensens tredje dag visas tre presentationer med fokus på språkteknologi i Sverige. Lars Ahrenberg talar om hur användningen av termer relaterade till design och arkitektur har förändrats, och hur detta kan studeras med hjälp av resurser från Swe-Clarin. Maria Skeppstedt berättar om projektet Manuell och automatisk annotering av klimatförändringstexter med hjälp av verktyg från Språkbanken Sam och Magnus P. Ängsal presenterar pågående arbete inom forskningsprojektet SweTerror.

Se presentationer från Sverige >>

Se alla presentationer >>

Läs mer om CLARIN-konferensen >>

 

Workshop on Profiling second language vocabulary and grammar

Språkbanken Text and HumInfra are organizing a workshop on tools and resources aimed at research on profiling second language vocabulary and grammar, to take place on April 20-21, 2023 in Gothenburg, Sweden.

Venue: Gothenburg, Sweden - University of Gothenburg, Humanisten
Dates: 20-21 April, 2023
Deadline for registration & abstract submission: 10 March, 2023
Participation is free. For registered onsite participants, lunches and coffee breaks will be offered free of charge.

We invite researchers and teachers working with or interested in profiling second language lexical, grammatical and other types of competencies to join our workshop. 

The idea of the workshop is to create a forum to discuss L2 profiles, practically test them, explore their possibilities for research together and exchange experiences.

Read more on the workshop web page >>

 

Verktyg i fokus: Korp

Språkbanken Text, en del av Nationella språkbanken, erbjuder en rad verktyg som förenklar vardagen för dig som forskar på språkliga data. Korp är vårt korpusverktyg.

När ska jag använda Korp?
Korp passar för alla språkliga frågor där orden är i fokus. I vilket sammanhang används ett ord? Hur vanligt är det? Hur har ordet förändrats över tid?

Det går även bra att använda Korp för informationssökning, eftersom verktyget bland annat innehåller äldre tidningstexter som inte finns någon annanstans. Forskare är huvudmålgruppen, men Korp är också öppet för alla som är intresserade av språk.

Vad innehåller Korp?
I Korp finns det flera olika samlingar av korpusar, d.v.s. samlingar av texter, som ofta behöver vara meningsomkastade av upphovsrättsliga skäl. Den största är den moderna, med nyhetstexter, myndighetstexter, skönlitteratur, sociala medier och poesi efter 1900-talets språkreform och framåt. Vissa korpusar, som Wikipedia, är omfattande, andra är små som till exempel svenska partiprogram och valmanifest.

Det finns även samlingar med historisk svenska, fornsvenska och andra mindre språk, till exempel somaliska och sibirientyska, där data lagts till från olika projekt.

Alla texter är berikade med språkteknologiska analyser med hjälp av Språkbanken Texts analysverktyg Sparv. Korp fokuserar på skriven text men innehåller även ett antal talspråkskorpusar.

Vilka är fördelarna med Korp?
En stor fördel är att det går att söka i stora mängder material samtidigt. En annan viktig funktion är ordbilden. Här visas det sökta ordet tillsammans med ord som det har olika syntaktiska relationer till i materialet. För ett verb visas till exempel de subjekt och objekt som hänger ihop med just det verbet, och för ett substantiv visas vanliga adjektiv och verb.

Hur använder jag Korp?
Det enklaste sättet är att skriva ett ord i sökrutan och trycka på sökknappen. Det är också möjligt att formulera avancerade sökfrågor baserade på de språkteknologiska analyserna utifrån ett specifikt material eller tidsspann.

Korp är fritt att ladda hem och sätta upp på sin egen server, vilket gör det möjligt att lägga in sina egna data. För avancerade användare som bygger sin egen programvara finns webb-API så att man själv kan bygga vidare.

Språkbanken Text håller just nu på att utveckla ett nytt verktyg, Mink, vilket man kommer att kunna använda för att ladda upp sina egna texter i Korp.

Vem/vilka ligger bakom Korp?
Korp är resultatet av ett lagarbete vid Språkbanken Text. Just nu är Martin Hammarstedt och Maria Öhrman tekniskt ansvariga för Korp.

Läs mer om Korp >>
Utforska Korp >>

Mink released for testing

The new platform brings Språkbanken Text's research infrastructure into the hands of the user.

Mink, Språkbanken Text's new platform for creating language resources, is now being released for testing.

Using Mink, a researcher can upload their own text data, apply automated language technology analysis and use the Korp and Strix tools to explore the data.

The testing phase is planned for spring and summer. During this time, a limited but growing amount of users are being welcomed to use the platform. The Mink team will regularly be collecting feedback and conducting user testing in order to improve the application. If you are interested in participating, please contact Språkbanken Text.

A full public release is scheduled for September, 2023.

Inbjudan till MultiGED-2023 shared task

Arbetsgruppen för Computational SLA bjuder in till en gemensam uppgift (shared task) om flerspråkig grammatisk feldetektering, MultiGED-2023.

Syftet är att upptäcka ord i behov av korrigering på fem olika språk, tjeckiska, engelska, tyska, italienska och svenska och märka dem som korrekta eller felaktiga. Du kan arbeta på ett av språken eller med en valfri kombination av språk.

Resultaten presenteras den 22 maj vid workshopen NLP4CALL, Natural Language Processing for Computer-Assisted Language Learning, som äger rum tillsammans med NoDaLiDa, Nordic Conference on Computational Linguistics på Färöarna.

Läs mer om MultiGED-2023 >>

Månadens profil: Magnus Ahltorp

Magnus Ahltorp är språkteknolog och lingvist på Isof. Han är ansvarig för Språkrådets digitala lexikon, till exempel ordboken Lexin som snart lanseras i en ny version. Han utvecklar dessutom språkteknologiska verktyg för olika typer av språkligt material.

Läs intervjun med Magnus Ahltorp på språkbanken.se

Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.

Swe-Clarin på turné: Heldag om AI och forskning på historiska arkivtexter

Vilka möjligheter ger AI och språkteknologi för forskning på historiska arkivtexter? Onsdag 1 februari bjuder Swe-Clarin in till en heldag om detta i Uppsala.

Automatisk handskriftsigenkänning baserad på AI och tillämpning av språkteknologi på de digitaliserade texterna förändrar idag drastiskt förutsättningarna för forskning på historiska arkivtexter.

1 februari bjuder Swe-Clarin in till en heldag där forskare och experter ger en fördjupad inblick i de digitala verktygens möjligheter. Evenemanget riktar sig till forskare inom alla discipliner som använder sig av handskrivna eller historiska texter som forskningsdata.

Swe-Clarin är den svenska noden i CLARIN ERIC, som bygger upp en europeisk forskningsinfrastruktur baserad på språkteknologi. Dagen arrangeras i samarbete med Datorlingvistikgruppen vid Institutionen för lingvistik och filologi vid Uppsala universitet och CDHU, Centrum för digital humaniora vid Uppsala universitet.

Plats: Universitetshuset i Uppsala, Biskopsgatan 3, sal IV. Tid: Onsdag den 1 februari kl 9.30-16.30 med efterföljande mingel. Evenemanget är kostnadsfritt och lunch ingår, men vänligen anmäl dig senast 27 januari. Har du frågor? Hör av dig till eva.pettersson@lingfil.uu.se

Anmäl dig här >>

 

Program
09.30 Lars Borin (Göteborgs universitet/Swe-Clarin): Introduktion: Swe-Clarin

10.00 Ekta Vats (CDHU): Handwritten text recognition: recent advances and future trends

10.45 Paus

11.00 Hanna Willdal (Isof): Automatiserad handskriftstolkning av folkminnesuppteckningar – pågående arbete och erfarenheter

11.45 Lunch

13.00 Karl-Magnus Johansson (Riksarkivet): Machine learning and local knowledge - combining HTR and citizen humanities

13.45 Erik Lenas (Riksarkivet): Digitalisering av historisk text: svårigheter och möjligheter

14.30 Fika

15.00 Beáta Megyesi (Uppsala universitet/Swe-Clarin): Lost in transcription of historical ciphers: AI models and user perspective

15.45 Korp/Strix-demo (Göteborgs universitet/Språkbanken Text)

16.30 Mingel med förfriskningar

Månadens profil: Elena Volodina

Elena Volodina är forskare inom lingvistik, språkteknologi och språkvetenskaplig databehandling vid Språkbanken Text. Just nu är hon aktuell med projektet ”Mormor Karl är 27 år”, som fått 18 miljoner kr i forskningsbidrag från Vetenskapsrådet.

Läs intervjun med Elena Volodina på språkbanken.se

Läs mer om projektet

Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.

Cassandra: a toolset for analyzing and visualizing language change

Within the Cassandra project we are using Korp to analyze numerous instances of language change: not one, not two, but dozens (and in the future, potentially hundreds).
At this scale, it is impossible to perform searches (and process their results) manually. Fortunately, Korp has an API that makes automatization of this process possible. We have created a set of scripts (v1.0.0) that can be easily used to generate tables and plots like the ones in Figure 1 with a few simple commands. … Fortsätt läsa ”Cassandra: a toolset for analyzing and visualizing language change”