Hoppa till huvudinnehåll

Nyheter

Välkommen till RESOURCEFUL-2023

Hur kan datadrivna maskininlärningsmodeller som BERT och ChatGTP anpassas till språk som är underrepresenterade i digitala sammanhang? Det är en av frågorna på den andra workshopen om resurser och representationer för underrepresenterade språk och domäner, RESOURCEFUL-2023, som äger rum 22 maj på Färöarna.

Datadrivna maskininlärningsmodeller som BERT och ChatGPT har uppnått bra prestanda på engelska och andra språk som har stora mängder data att träna på. Men frågan kvarstår hur dessa modeller kan anpassas till språk och domäner som inte är lika resursstarka.

RESOURCEFUL-2023 riktar sig till forskare och doktorander inom lingvistik, psykologi, datorlingvistik, datorvetenskap och maskininlärning och syftar till att initiera diskussioner kring bland annat följande frågeställningar:

  • Vilken relevant lingvistisk kunskap bör modeller lära sig, och hur kan detta utvärderas?
  • Vilken typ av lingvistisk kunskap är relevant för en modell givet att den ska lösa en specifik uppgift i ett eller flera språk/domäner?
  • Vilken typ av annoterad data kan användas för datadrivna metoder?

Läs mer om RESOURCEFUL-2023 >>

Verktyg i fokus: Sparv

Språkbanken Text, en del av Nationella språkbanken, erbjuder en rad verktyg som förenklar vardagen för dig som forskare. Sparv är vårat textanalysverktyg.

När ska jag använda Sparv?
Sparv är ett analysverktyg för språkliga data. Med Sparv kan du automatiskt berika texter med lingvistisk information, till exempel ordklasser, grammatiska strukturer, namntaggar och attitydinformation. Du kan även göra en lexikal analys som ger ordens grundform, böjningsmönster, sammansättningsled och betydelse.

Exempel på smarta funktioner?
Sparv har ett flexibelt plugin-system som gör det möjligt för användare att utöka dess funktionalitet med exempelvis nya analyser eller stöd för fler indataformat. Med andra ord är Sparv en öppen teknisk plattform för språkteknologiska analyser. Vidare kan du ladda ner nästan allt material som gått igenom Sparv från Språkbanken Texts webbsida.

Funkar Sparv på andra språk?
Sparv är utvecklat främst för svenska texter, men du kan även analysera texter på 20 andra språk liksom texter på 1800-talssvenska och fornsvenska.

Hur använder jag Sparv?
Sparv är ett kommandoradsverktyg som kan installeras med hjälp av Pythons paketinstallerare pip och som du sedan kör på din egen dator. Det är enklast att komma igång med hjälp av vår quick-start-guideLänk till annan webbplats. som innehåller instruktioner för hur man installerar Sparv och gör några enkla analyser.

Vem/vilka ligger bakom Sparv?
Sparv är resultatet av en laginsats. De som jobbar mest aktivt med Sparv idag är Anne Schumacher och Martin Hammarstedt vid Språkbanken Text.

Utforska Sparv >>

Månadens profil: Dimitrios Kokkinakis

Dimitrios Kokkinakis är forskare inom språkteknologi vid Språkbanken Text på Göteborgs universitet. I sitt arbete fokuserar han särskilt på hur språkteknologi kan användas för att ge ny kunskap. Till exempel förståelse för hur rykten om vaccin sprids, eller nya metoder för att diagnosticera demens.

Läs intervjun med Dimitrios Kokkinakis på språkbanken.se

Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.

Nyfiken på CLARIN-konferensen?

Den årliga CLARIN-konferensen 2022 gick av stapeln i Prag 10-12 oktober. i Nu kan du se konferensen i efterhand.

CLARIN-konferensen samlar forskare och utvecklare runt om i Europa för att utbyta perspektiv, tankar och erfarenheter kring språkbaserad e-vetenskap och arbete med infrastruktur.

Från konferensens tredje dag visas tre presentationer med fokus på språkteknologi i Sverige. Lars Ahrenberg talar om hur användningen av termer relaterade till design och arkitektur har förändrats, och hur detta kan studeras med hjälp av resurser från Swe-Clarin. Maria Skeppstedt berättar om projektet Manuell och automatisk annotering av klimatförändringstexter med hjälp av verktyg från Språkbanken Sam och Magnus P. Ängsal presenterar pågående arbete inom forskningsprojektet SweTerror.

Se presentationer från Sverige >>

Se alla presentationer >>

Läs mer om CLARIN-konferensen >>

 

Workshop on Profiling second language vocabulary and grammar

Språkbanken Text and HumInfra are organizing a workshop on tools and resources aimed at research on profiling second language vocabulary and grammar, to take place on April 20-21, 2023 in Gothenburg, Sweden.

Venue: Gothenburg, Sweden - University of Gothenburg, Humanisten
Dates: 20-21 April, 2023
Deadline for registration & abstract submission: 10 March, 2023
Participation is free. For registered onsite participants, lunches and coffee breaks will be offered free of charge.

We invite researchers and teachers working with or interested in profiling second language lexical, grammatical and other types of competencies to join our workshop. 

The idea of the workshop is to create a forum to discuss L2 profiles, practically test them, explore their possibilities for research together and exchange experiences.

Read more on the workshop web page >>

 

Verktyg i fokus: Korp

Språkbanken Text, en del av Nationella språkbanken, erbjuder en rad verktyg som förenklar vardagen för dig som forskar på språkliga data. Korp är vårt korpusverktyg.

När ska jag använda Korp?
Korp passar för alla språkliga frågor där orden är i fokus. I vilket sammanhang används ett ord? Hur vanligt är det? Hur har ordet förändrats över tid?

Det går även bra att använda Korp för informationssökning, eftersom verktyget bland annat innehåller äldre tidningstexter som inte finns någon annanstans. Forskare är huvudmålgruppen, men Korp är också öppet för alla som är intresserade av språk.

Vad innehåller Korp?
I Korp finns det flera olika samlingar av korpusar, d.v.s. samlingar av texter, som ofta behöver vara meningsomkastade av upphovsrättsliga skäl. Den största är den moderna, med nyhetstexter, myndighetstexter, skönlitteratur, sociala medier och poesi efter 1900-talets språkreform och framåt. Vissa korpusar, som Wikipedia, är omfattande, andra är små som till exempel svenska partiprogram och valmanifest.

Det finns även samlingar med historisk svenska, fornsvenska och andra mindre språk, till exempel somaliska och sibirientyska, där data lagts till från olika projekt.

Alla texter är berikade med språkteknologiska analyser med hjälp av Språkbanken Texts analysverktyg Sparv. Korp fokuserar på skriven text men innehåller även ett antal talspråkskorpusar.

Vilka är fördelarna med Korp?
En stor fördel är att det går att söka i stora mängder material samtidigt. En annan viktig funktion är ordbilden. Här visas det sökta ordet tillsammans med ord som det har olika syntaktiska relationer till i materialet. För ett verb visas till exempel de subjekt och objekt som hänger ihop med just det verbet, och för ett substantiv visas vanliga adjektiv och verb.

Hur använder jag Korp?
Det enklaste sättet är att skriva ett ord i sökrutan och trycka på sökknappen. Det är också möjligt att formulera avancerade sökfrågor baserade på de språkteknologiska analyserna utifrån ett specifikt material eller tidsspann.

Korp är fritt att ladda hem och sätta upp på sin egen server, vilket gör det möjligt att lägga in sina egna data. För avancerade användare som bygger sin egen programvara finns webb-API så att man själv kan bygga vidare.

Språkbanken Text håller just nu på att utveckla ett nytt verktyg, Mink, vilket man kommer att kunna använda för att ladda upp sina egna texter i Korp.

Vem/vilka ligger bakom Korp?
Korp är resultatet av ett lagarbete vid Språkbanken Text. Just nu är Martin Hammarstedt och Maria Öhrman tekniskt ansvariga för Korp.

Läs mer om Korp >>
Utforska Korp >>

Mink released for testing

The new platform brings Språkbanken Text's research infrastructure into the hands of the user.

Mink, Språkbanken Text's new platform for creating language resources, is now being released for testing.

Using Mink, a researcher can upload their own text data, apply automated language technology analysis and use the Korp and Strix tools to explore the data.

The testing phase is planned for spring and summer. During this time, a limited but growing amount of users are being welcomed to use the platform. The Mink team will regularly be collecting feedback and conducting user testing in order to improve the application. If you are interested in participating, please contact Språkbanken Text.

A full public release is scheduled for September, 2023.

Inbjudan till MultiGED-2023 shared task

Arbetsgruppen för Computational SLA bjuder in till en gemensam uppgift (shared task) om flerspråkig grammatisk feldetektering, MultiGED-2023.

Syftet är att upptäcka ord i behov av korrigering på fem olika språk, tjeckiska, engelska, tyska, italienska och svenska och märka dem som korrekta eller felaktiga. Du kan arbeta på ett av språken eller med en valfri kombination av språk.

Resultaten presenteras den 22 maj vid workshopen NLP4CALL, Natural Language Processing for Computer-Assisted Language Learning, som äger rum tillsammans med NoDaLiDa, Nordic Conference on Computational Linguistics på Färöarna.

Läs mer om MultiGED-2023 >>

Månadens profil: Magnus Ahltorp

Magnus Ahltorp är språkteknolog och lingvist på Isof. Han är ansvarig för Språkrådets digitala lexikon, till exempel ordboken Lexin som snart lanseras i en ny version. Han utvecklar dessutom språkteknologiska verktyg för olika typer av språkligt material.

Läs intervjun med Magnus Ahltorp på språkbanken.se

Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.

Cassandra: a toolset for analyzing and visualizing language change

Within the Cassandra project we are using Korp to analyze numerous instances of language change: not one, not two, but dozens (and in the future, potentially hundreds).
At this scale, it is impossible to perform searches (and process their results) manually. Fortunately, Korp has an API that makes automatization of this process possible. We have created a set of scripts (v1.0.0) that can be easily used to generate tables and plots like the ones in Figure 1 with a few simple commands. … Fortsätt läsa ”Cassandra: a toolset for analyzing and visualizing language change”