Jubileumsarkivet: En ny datasamling om Göteborgsutställningen

I helgen drog Göteborgs 400-årsjubileum igång. Vi tar härmed tillfället i akt och gratulerar Göteborg genom att gå ett hundra år tillbaka i tiden för att lära oss mer om staden och tiden då 300-årsjubileum firades med en storslagen Jubileumsutställning. Jubileumsutställningen hade sin invigning den 23 maj 1923 och varade över fem månader. Den var den största utställningen i Europa efter världskriget och var därför ett frekvent inslag i dåtidens svenska dagstidningar under utställningens gång. Dagstidningarna arkiverades på Göteborgs universitetsbibliotek i hundra …

Allmänspråk och fackspråk i en ordbok över allmänspråket

Blogginlägget är skrivet av Hans Landqvist men det har diskuterats med andra medlemmar av forskargruppen som arbetar med Svenska Akademiens samtidsordböcker inom SBX. En kortare version av inlägget publiceras i GU Journalen. Det är antagligen få människor i Sverige som inte har noterat åtminstone en del av de starka reaktioner som ”snippa-domen” har väckt. Målet gäller misstänkt våldtäkt mot barn, och i domen från Hovrätten för Västra Sverige hänvisar domstolen till Svensk ordbok utgiven av Svenska Akademien – SO (2021). Detta sker när hovrätten i sina skäl för domen resonerar om vad …

Cassandra: a toolset for analyzing and visualizing language change

Within the Cassandra project we are using Korp to analyze numerous instances of language change: not one, not two, but dozens (and in the future, potentially hundreds). At this scale, it is impossible to perform searches (and process their results) manually. Fortunately, Korp has an API that makes an automatization of this process possible. We have created a set of scripts that can be easily used to generate tables and plots like the ones in Figure 1 with a few simple commands. …

Hur fångar vi upp svenskans nya ord med hjälp av Kubord? 

Krympflation, sugardejting, teckentolka och tyngdtäcke är några av alla de ord vilkas betydelser och användningar just nu analyseras av oss som ingår i forskningsprojektet Svenska Akademiens samtidsordböcker vid Språkbanken Text. Analyserna ska ligga till grund för innehållet i framtida ordboksartiklar i de två samtidsordböckerna Svenska Akademiens ordlista (SAOL) och Svensk ordbok utgiven av Svenska Akademien (SO). På senare tid har den relativt nyskapade datamängden Kubord, som finns tillgänglig via Språkbanken Texts samlingar och via forskningsverktyget Korps Kubordläge, kommit att spela en mycket …

Känslor om vaccination…

”Vaccin är ett fult o lömskt ord för att kunna lura friska människor till att injicera sjukdomar och död.” Vaccinskepsis Redan år 2019 listade Världshälsoorganisationen vaccintvekan som ett av de tio största hoten mot global hälsa. Trots att vaccinationer bevisligen är en av de viktigaste insatserna för folkhälsan, skapar vaccintvekan och vaccinmotstånd allvarliga bekymmer för en betydande del av befolkningen i många länder, inklusive Sverige. Vaccinoro, såsom den kommer till uttryck i sociala medier – där vacciners bristande säkerhet och effektivitet, samt …

A Swedish COVID-19 (sv-COVID-19) corpus and its exploration … smorgasbord

As the COVID-19 virus became a pandemic in March 2020, the amount of (time-stamped written) data, such as news/newspaper reports, scientific articles, social media posts (e.g. blogs and twitter), surveys and other information about the virus and its symptoms, prevention, management and transmission became massively available. Such data contained both valid and reliable information, and relevant facts from trusted sources and also rumors, conspiracy theories and misinformation from unofficial ones. However, it was not only the amount of (written) data and information …

The SwedishGLUE project

Artificial intelligence system dealing with (human) natural language rely on language models, predictions of which words occur together. To better understand how such models work — and where they fail — when applied to Swedish texts we need Swedish test data. A collection of test data addressing various aspects of understanding and generating text allows us to evaluate and compare models. During the autumn of 2020 we have started working on developing evaluation data for Swedish language models at Språkbanken Text. This …

How native and non-native speakers talk to each other

We at Språkbanken Text have just released a new corpus of native (L1) and non-native (L2) speech in four languages: English, Spanish, French and Italian. The corpus contains more than 170 million words produced by more than 97 thousand speakers (size varies a lot across the four languages, though). The corpus has been created by scraping WordReference forums, where users discuss various questions about languages. Importantly, every user has to provide their native language, and this information, alongside with the nickname, is …

Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’? I det här blogginlägget tänkte jag prata om ord som innehåller mellanrum och flerordsuttryck, och hur man kan analysera dem i en korpus. Om vi ska annotera en text, alltså märka upp den med …