Efter en halvårslång testperiod släpper nu Språkbanken Text en ny version av Mink – fri för alla att använda. Mink kan ses som ett användargränssnitt mot Sparv, Språkbanken Texts plattform för automatisk språkanalys.
– Med Mink tar vi ytterligare ett steg i vårt arbete med att sätta vår infrastruktur direkt i händerna på forskarna, säger forskningsingenjör Arild Matsson.
– Du kan använda våra språkteknologiska metoder på dina egna texter, för att sedan ladda ner resultatet eller utforska det i våra andra forskningsverktyg så som Korp och Strix. Där kan du göra sökningar och statistiska analyser.
Idag publicerar Språkbanken Text en stor mängd språkdata på sin hemsida, från lexikon till annoterade historiska texter. Den nya versionen är ett steg på vägen för forskare att skapa och publicera sina egna resurser.
– De ursprungliga texterna och resultaten är i nuläget privata, men i framtida versioner kommer det finnas möjlighet att dela språkdata med en sluten grupp eller publicera dem offentligt, säger forskningsingenjör Anne Schumacher.
Bild: Martin Hammarstedt, Anne Schumacher, Arild Matsson och Samir Mohammed visar upp den nya versionen av dataplattformen Mink.
Venue: Gothenburg, Sweden - University of Gothenburg, Humanisten.
Visiting address: Renströmsgatan 6, Gothenburg (Room J222, Floor 2)
Dates: 10-11 January, 2024
Deadline for submissions: 9 November, 2023
Deadline for registrations: preliminary 15 December, 2023
Participation is free.
For further details, see the conference webpage: https://spraakbanken.gu.se/hic-2024
Huminfra is a Swedish national infrastructure supporting digital and experimental research in the Humanities by providing users with a single entry point for finding existing Swedish materials and research tools, as well as developing national method courses.
Skönlitteratur i språkhistorien, minoritetsspråk och nya digitala textforskningsverktyg. Årets Höstworkshop 23 oktober i Göteborg har temat forskning om språklig variation. Halvdagen avslutas med mingel.
Varmt välkommen!
Tid: Måndag den 23 oktober 2023 kl. 13–17 med efterföljande mingel.
Plats: Göteborgs universitet, Humanisten, Renströmsgatan 6, Göteborg, Lilla Hörsalen C350.
Länk till bloggen: The KBLab Blog: Words unboxed: discovering new words with Kubord (kb-labb.github.io)
Läs intervjun med Trond Trosterud på språkbanken.se
Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.
Vad är NoDaLiDa?
– NoDaLiDa är en konferens om nordisk språkteknologi som i år ägde rum i Tórshavn på Färöarna. Årets konferens bestod av en huvudkonferens samt workshops om constraint grammar, datorstödd språkinlärning samt hur man kan lösa språkteknologiska uppgifter utan eller med liten tillgång till språkresurser.
Vad handlade ditt föredrag om?
– Arbetet jag presenterade handlade om hur överförbar språkdata på engelska är för att identifiera logiska relationer (natural language inference) mellan satser på svenska och om det finns några specifika lingvistiska kategorier som är mer överförbara än andra. Resultatet visade att överförbarheten från engelska till svenska är stor bland alla kategorier och att en svensk modell som förlitar sig på överföring av information från engelska presterar lika bra på svenska som en modell som endast har tränats och utvärderats på engelska.
Språkmodeller fungerar bra på mycket data. Modellen bakom ChatGTP till exempel, har tränats på en ofantligt stor mängd där en stor del kommer från Internet. Den workshop jag deltog i handlade om att använda sig av befintliga språkteknologiska resurser och smarta modeller för att kunna använda sig av mindre data. Hur kan man uppnå samma standard för svenska som för engelska som har mycket mer resurser? I förlängningen är det särskilt intressant för minoritetsspråk.
Flera kollegor från Språkbanken Text bidrog med presentationer. Aleksanders Berdicevskis till exempel talade om hur personer som interagerar med varandra i sociala medier börjar tala på liknande sätt ju mer de svarar på varandras inlägg. Elena Volodina och Samir Yousuf presenterade DaLAJ-GED, ett dataset för grammatisk felsökning som kan användas för att utveckla verktyg för personer som vill lära sig svenska.
Nämn några höjdpunkter!
– Jag har själv arbetat med projektet SuperLim 2.0, en datasamling som kan användas för att testa och utvärdera svenska språkmodeller. En intressant diskussion var därför frågan om hur man ska utvärdera stora språkmodeller. Vilken typ av lingvistisk kunskap ska de lära sig?
Ett annat intressant föredrag handlade om fenomenet translationese, som innebär att en engelsk text som översätts till svenska bär med sig engelska artefakter, till exempel konstruktioner på engelska. Det är en intressant utmaning i SuperLim eftersom många data är översatta från engelska till svenska.
Det var också intressant att höra om två nya datasamlingar, NorBench med norskt material och ScandEval med material på svenska, norska och danska. Jag blev inspirerad av hur automatiserade många av processerna för utvärdering är. Det kommer jag kanske att ta vidare i arbetet med en framtida iteration av SuperLim.
Läs rapporten från lexikografi-konferens i på Nationella språkbankens webbplats >>
Under dagen får du bland annat ta del av ett antal presentationer som visar hur Nationella språkbanken möjliggör den forskning som har språklig variation, i vid bemärkelse, som ett centralt inslag.
I år äger workshopen rum i Göteborg.
Tid: Måndag den 23 oktober kl. 13–17 med efterföljande mingel.
Plats: Göteborgs universitet, Humanisten, Renströmsgatan 6, Göteborg, Lilla Hörsalen C350.
Mer information och fullständigt program kommer i augusti. Läs mer och anmäl dig här >>