Menu

News

Page 1
Searching for subjunctions in SIC2
SIC2, a small corpus of blogs with gold part-of-speech, morphosyntactic and named-entity tags, as well as basic info about the authors, has been added to Korp.

Any corpus is a welcome addition to Korp, but gold corpora (those where the annotation quality has been manually controlled) are particularly valuable. We have now added SIC2, a slightly modified version of the Stockholm Internet Corpus, originally created by Robert Östling et al. SIC2 is a small corpus of blogs, but it has gold part-of-speech, morphosyntactic and named-entity tags (SUC-style). In addition, basic information about the authors is also available. The corpus is downloadable.

The integration of SIC2 into Korp served also as a test drive for the new version of our annotation pipeline Sparv, to be released very soon.

SLTC 2020

2020-11-23
Den svenska språkteknologiska konferensen (SLTC) äger rum den 25–27 november med fyra workshopar onsdagen den 25 november och huvudkonferensen torsdag–fredag den 26–27 november. Det är den åttonde konferensen i raden och den hålls vartannat år. I år är det ett helt digitalt arrangemang med mer än 200 registrerade deltagare från hela världen.

Ta del av innehåll och program här: https://spraakbanken.gu.se/en/sltc2020

Organisatörer:

  • CLASP - Centrum för språkteori och sannolikhetsstudier (the Centre for Linguistic Theory and Studies in Probability) vid Institutionen för filosofi, lingvistik och vetenskapsteori,
  • Språkbanken Text vid Institutionen för svenska språket, och
  • Institutionen för data- och informationsteknik.
Lemmatizing SUC3 by Stanza

We have added a pretrained model for lemmatization of Swedish text to our model collection. The model was trained and tested on SUC3 using the Stanza package and achieves a very high accuracy of 99.18.

The drawback of this model is that SUC3 lemmatization and part-of-speech annotation does not exactly match that in Saldo, which is used by Sparv to annotate the resources available via Korp. The advantage, however, is that the model always produces a guess (and usually a correct one), while the current version of Sparv sometimes cannot do that. The new version of Sparv (coming soon) will probably combine the two approaches.

Using the model does not require deep knowledge of natural language processing or advanced programming skills.

More to come.

Lemmatization model
Det tvärvetenskapliga projektet SweTerror tilldelas drygt 22 miljoner kronor i årets utlysning av Digitalisering och kulturarv (DIGARV). Projektet förenar talteknologisk och humanistisk analys och är ett samarbete mellan Språkbanken Tal vid Kungliga tekniska högskolan (KTH), Centrum för digital humaniora (CDH) och Språkbanken Text vid Göteborgs universitet.

Läs hela nyheten på Nationella språkbankens webbplats.

Språkbanken Text, and the project Towards Computational Lexical Semantic Change Detection are organizing a second LChange workshop on Computational Approaches to Historical Language Change in August, 2021.

The workshop builds upon its first iteration in 2019, where we received over 50 submissions and had over 65 attendees. Just like the first one, the second LChange workshop will be co-located with ACL (2021).

The call for papers will be similar to last time: all aspects around computational approaches to historical language change with the focus on digital text corpora.  Deadlines will be published on the webpage as soon as they are announced by ACL2021.

Like LChange'19, this edition will host two keynotes, one computationally oriented and one either application or theory oriented.

We are looking forward to your submission and participation!

More information on: https://languagechange.org/events/2021-acl-lchange/

Den 12 november 2020 arrangerar Isof och Språkbanken Sam ett digitalt seminarium om maskinöversättning och om behovet av att identifiera och samla in språkresurser från svenska myndigheter.

Läs mer på språkbanken.se

This blog is based on joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring Access to language data is an obvious prerequisite for research in digital humanities in general, and for the development of NLP-based tools in particular.

However, accessible data becomes a challenging target where personal data is involved. This is very true of language learner data where tasks are often phrased so that they, directly or indirectly, elicit explicit personal information, e.g.”Describe your school” or …
Fortsätt läsa ”Pseudonymization of learner essays as a way to meet GDPR requirements”

Till Språkbanksbloggen
Under oktober och november 2020 arrangerar Språkbanken Sam flera webbinarier om crowdsourcing och maskintranskribering.

Läs mer på språkbanken.se

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’? I det här blogginlägget tänkte jag prata om ord som innehåller mellanrum och flerordsuttryck, och hur man kan analysera dem i en korpus. Om vi ska annotera en text, alltså märka upp den med …  Fortsätt läsa ”Flerordingar: ord som består av flera delar”

Till Språkbanksbloggen
Språkbanken Text är ett CLARIN (auktoriserat) B-center och därför även en viktig komponent i den europeiska forskningsinfrastrukturen CLARIN ERIC. Förra veckan gick den årliga CLARIN-konferensen av stapeln virtuellt, vilket möjliggjorde att flera av oss på Språkbanken Text kunde delta.

Läs mer om evenemanget här>>

Page 1