Hur fångar vi upp svenskans nya ord med hjälp av Kubord? 

Krympflation, sugardejting, teckentolka och tyngdtäcke är några av alla de ord vilkas betydelser och användningar just nu analyseras av oss som ingår i forskningsprojektet Svenska Akademiens samtidsordböcker vid Språkbanken Text. Analyserna ska ligga till grund för innehållet i framtida ordboksartiklar i de två samtidsordböckerna Svenska Akademiens ordlista (SAOL) och Svensk ordbok utgiven av Svenska Akademien (SO). På senare tid har den relativt nyskapade datamängden Kubord, som finns tillgänglig via Språkbanken Texts samlingar och via forskningsverktyget Korps Kubordläge, kommit att spela en mycket …

Valmanifest 2022 – En språkteknologisk snabbanalys

En dryg vecka innan valet var äntligen alla riksdagspartiernas valmanifest på plats. Vi tänkte det vore intressant att göra några enkla analyser av texten och se vad vi kan ta reda på med språkteknologiska verktyg. Det första vi gjorde var att köra dokumenten genom Språkbankens annotationsverktyg Sparv. Detta gav oss bland annat läsbarhetsvärden och attitydanalys. Genomsnittslängden på manifesten är ca 6.000 ord, men varierar en hel del, från Kristdemokraternas 1.623 ord till Moderaternas 11.139. Antal ord LIX NK OVIX POS NEG C …

Känslor om vaccination…

”Vaccin är ett fult o lömskt ord för att kunna lura friska människor till att injicera sjukdomar och död.” Vaccinskepsis Redan år 2019 listade Världshälsoorganisationen vaccintvekan som ett av de tio största hoten mot global hälsa. Trots att vaccinationer bevisligen är en av de viktigaste insatserna för folkhälsan, skapar vaccintvekan och vaccinmotstånd allvarliga bekymmer för en betydande del av befolkningen i många länder, inklusive Sverige. Vaccinoro, såsom den kommer till uttryck i sociala medier – där vacciners bristande säkerhet och effektivitet, samt …

Change is key! 6-year RJ Program funded!

In the RJ-funded program Change is Key!, we will develop tools to turn text into a story of our language, our societies, and our cultures, and how these have changed over time. The program spans six years (2022-2027) and has 11 participating researchers. Read more here!

A Swedish COVID-19 (sv-COVID-19) corpus and its exploration … smorgasbord

As the COVID-19 virus became a pandemic in March 2020, the amount of (time-stamped written) data, such as news/newspaper reports, scientific articles, social media posts (e.g. blogs and twitter), surveys and other information about the virus and its symptoms, prevention, management and transmission became massively available. Such data contained both valid and reliable information, and relevant facts from trusted sources and also rumors, conspiracy theories and misinformation from unofficial ones. However, it was not only the amount of (written) data and information …

How native and non-native speakers talk to each other

We at Språkbanken Text have just released a new corpus of native (L1) and non-native (L2) speech in four languages: English, Spanish, French and Italian. The corpus contains more than 170 million words produced by more than 97 thousand speakers (size varies a lot across the four languages, though). The corpus has been created by scraping WordReference forums, where users discuss various questions about languages. Importantly, every user has to provide their native language, and this information, alongside with the nickname, is …

Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’? I det här blogginlägget tänkte jag prata om ord som innehåller mellanrum och flerordsuttryck, och hur man kan analysera dem i en korpus. Om vi ska annotera en text, alltså märka upp den med …

Grierson’s “Linguistic Survey of India” as open-access digital data resource for studying languages of South Asia

Lars Borin, Anju Saxena, Shafqat Mumtaz Virk, Bernard Comrie South Asia – comprising the seven countries Pakistan, India, Nepal, Bhutan, Bangladesh, Sri Lanka, and the Maldives, as well as immediately adjacent areas of neighboring countries (parts of Afghanistan, China, and Myanmar) – is the home of hundreds of languages belonging to several unrelated language families. The region has a long history of far-ranging multilingualism and close linguistic and cultural contacts, the details of which are still far from completely understood. Today, the …

En syntaktisk beskrivningsmodell för modern svensk text

Sverige har en relativt lång tradition av att skapa en typ av korpus som brukar kallas trädbank. En trädbank är en samling texter som har annoterats (märkts upp) med ordklasser och syntaktisk struktur. Den syntaktiska strukturen för en mening kan ritas upp så att den liknar ett träd. Trädbanken Talbanken skapades redan på 70-talet (Teleman, 1974) och texterna (och delar av annoteringen) har återanvänts i flera trädbanker sedan dess. Trädbankerna kan sedan t ex användas för att studera grammatiska frågor, för att …

Om ordklasser för svenska språket

Ordklassindelning används i många språkteknologiska verktyg därför att det är ett sätt att skilja mellan olika användningar av ett ord. Genom ordklasserna kan man enklare söka efter liknande ord och uttryck i stora textmängder, eller skapa en ny text med liknande form. Att automatiskt dela in orden i texter i ordklasser är därmed en av de grundläggande metoderna inom artificiell intelligens, för att få datorn att förstå mänskligt språk. Människan har länge delat in ord i olika klasser eller kategorier, beroende på …