Hoppa till huvudinnehåll

Nyheter

Skapa dina egna språkresurser med den fria dataplattformen Mink

Efter en halvårslång testperiod släpper nu Språkbanken Text en ny version av Mink – fri för alla att använda. Mink kan ses som ett användargränssnitt mot Sparv, Språkbanken Texts plattform för automatisk språkanalys.

– Med Mink tar vi ytterligare ett steg i vårt arbete med att sätta vår infrastruktur direkt i händerna på forskarna, säger forskningsingenjör Arild Matsson.

– Du kan använda våra språkteknologiska metoder på dina egna texter, för att sedan ladda ner resultatet eller utforska det i våra andra forskningsverktyg så som Korp och Strix. Där kan du göra sökningar och statistiska analyser.

Idag publicerar Språkbanken Text en stor mängd språkdata på sin hemsida, från lexikon till annoterade historiska texter. Den nya versionen är ett steg på vägen för forskare att skapa och publicera sina egna resurser.

– De ursprungliga texterna och resultaten är i nuläget privata, men i framtida versioner kommer det finnas möjlighet att dela språkdata med en sluten grupp eller publicera dem offentligt, säger forskningsingenjör Anne Schumacher.

Bild: Martin Hammarstedt, Anne Schumacher, Arild Matsson och Samir Mohammed visar upp den nya versionen av dataplattformen Mink.

Huminfra Conference 2024

On January, 10-11, 2024, Huminfra is organizing its first conference with the aim to showcase the variety of infrastructural tools, resources and initiatives aimed at supporting digital and experimental research in the Humanities.

Venue: Gothenburg, Sweden - University of Gothenburg, Humanisten.
Visiting address: Renströmsgatan 6, Gothenburg (Room J222, Floor 2)
Dates: 10-11 January, 2024
Deadline for submissions: 9 November, 2023
Deadline for registrations: preliminary 15 December, 2023
Participation is free.

For further details, see the conference webpage: https://spraakbanken.gu.se/hic-2024

Huminfra is a Swedish national infrastructure supporting digital and experimental research in the Humanities by providing users with a single entry point for finding existing Swedish materials and research tools, as well as developing national method courses.

Nu är programmet klart för årets Höstworkshop!

Hur möjliggör vi forskning på språklig variation? Välkommen på höstworkshop.

Skönlitteratur i språkhistorien, minoritetsspråk och nya digitala textforskningsverktyg. Årets Höstworkshop 23 oktober i Göteborg har temat forskning om språklig variation. Halvdagen avslutas med mingel.
Varmt välkommen!

Tid: Måndag den 23 oktober 2023 kl. 13–17 med efterföljande mingel.
Plats: Göteborgs universitet, Humanisten, Renströmsgatan 6, Göteborg, Lilla Hörsalen C350.

Lövet

 

Upptäck nya ord med Kubord

Språkbanken Text och KB-labb har tillsammans utvecklat 75 fritt tillgängliga datasets för att stödja forskning inom, men inte begränsat till, lexikografi. Dessa datasets, som kallas Kubord 2, erbjuder spännande material för humanistisk forskning. I KB-labbs blogginlägg kan du läsa om vad datamängderna har att erbjuda och var du hittar dem.

Länk till bloggen: The KBLab Blog: Words unboxed: discovering new words with Kubord (kb-labb.github.io)

 

Höjdpunkter på NoDaLiDa

I maj ägde konferensen NoDaLiDa rum på på Färöarna. Felix Morger, doktorand på Språkbanken Text, deltog på konferensen och var med och organiserade workshopen RESOURCEFUL-2023.

Vad är NoDaLiDa?
– NoDaLiDa är en konferens om nordisk språkteknologi som i år ägde rum i Tórshavn på Färöarna. Årets konferens bestod av en huvudkonferens samt workshops om constraint grammar, datorstödd språkinlärning samt hur man kan lösa språkteknologiska uppgifter utan eller med liten tillgång till språkresurser. 

Vad handlade ditt föredrag om?
– Arbetet jag presenterade handlade om hur överförbar språkdata på engelska är för att identifiera logiska relationer (natural language inference) mellan satser på svenska och om det finns några specifika lingvistiska kategorier som är mer överförbara än andra. Resultatet visade att överförbarheten från engelska till svenska är stor bland alla kategorier och att en svensk modell som förlitar sig på överföring av information från engelska presterar lika bra på svenska som en modell som endast har tränats och utvärderats på engelska.

Språkmodeller fungerar bra på mycket data. Modellen bakom ChatGTP till exempel, har tränats på en ofantligt stor mängd där en stor del kommer från Internet. Den workshop jag deltog i handlade om att använda sig av befintliga språkteknologiska resurser och smarta modeller för att kunna använda sig av mindre data. Hur kan man uppnå samma standard för svenska som för engelska som har mycket mer resurser? I förlängningen är det särskilt intressant för minoritetsspråk.

Flera kollegor från Språkbanken Text bidrog med presentationer. Aleksanders Berdicevskis till exempel talade om hur personer som interagerar med varandra i sociala medier börjar tala på liknande sätt ju mer de svarar på varandras inlägg. Elena Volodina och Samir Yousuf presenterade DaLAJ-GED, ett dataset för grammatisk felsökning som kan användas för att utveckla verktyg för personer som vill lära sig svenska.

Nämn några höjdpunkter!
– Jag har själv arbetat med projektet SuperLim 2.0, en datasamling som kan användas för att testa och utvärdera svenska språkmodeller. En intressant diskussion var därför frågan om hur man ska utvärdera stora språkmodeller. Vilken typ av lingvistisk kunskap ska de lära sig?

Ett annat intressant föredrag handlade om fenomenet translationese, som innebär att en engelsk text som översätts till svenska bär med sig engelska artefakter, till exempel konstruktioner på engelska. Det är en intressant utmaning i SuperLim eftersom många data är översatta från engelska till svenska.

Det var också intressant att höra om två nya datasamlingar, NorBench med norskt material och ScandEval med material på svenska, norska och danska. Jag blev inspirerad av hur automatiserade många av processerna för utvärdering är. Det kommer jag kanske att ta vidare i arbetet med en framtida iteration av SuperLim.

Läs mer om Nodalida >>

Läs mer om RESOURCEFUL-2023>>

Läs mer om NLP4CALL>>

Läs mer om SuperLim>>

Välkommen på Höstworkshop 23 oktober!

Måndagen den 23 oktober är det dags för Nationella språkbankens årliga höstworkshop. Årets tema är språklig variation.

Under dagen får du bland annat ta del av ett antal presentationer som visar hur Nationella språkbanken möjliggör den forskning som har språklig variation, i vid bemärkelse, som ett centralt inslag.

I år äger workshopen rum i Göteborg.
Tid: Måndag den 23 oktober kl. 13–17 med efterföljande mingel.
Plats: Göteborgs universitet, Humanisten, Renströmsgatan 6, Göteborg, Lilla Hörsalen C350.

Mer information och fullständigt program kommer i augusti. Läs mer och anmäl dig här >>

Lövet

Jubileumsarkivet: En ny datasamling om Göteborgsutställningen

Den här helgen firar Göteborg sitt 400-årsjubileum.
Vi tar härmed tillfället i akt att gratulera Göteborg genom att gå ett hundra år tillbaka i tiden för lära oss mer om staden och tiden då 300-årsjubileum firades med en storslagen Jubileumsutställning. Jubileumsutställningen hade sin invigning den 23 maj 1923 och varade över fem månader. Den var den största utställningen i Europa efter världskriget och var därför ett frekvent inslag i dåtidens svenska dagstidningar under utställningens gång. Dagstidningarna arkiverades på Göteborgs universitetsbibliotek i hundra … Fortsätt läsa ”Jubileumsarkivet: En ny datasamling om Göteborgsutställningen”