Meny

Nyheter

Sida 1
Searching for subjunctions in SIC2
SIC2, a small corpus of blogs with gold part-of-speech, morphosyntactic and named-entity tags, as well as basic info about the authors, has been added to Korp.

Any corpus is a welcome addition to Korp, but gold corpora (those where the annotation quality has been manually controlled) are particularly valuable. We have now added SIC2, a slightly modified version of the Stockholm Internet Corpus, originally created by Robert Östling et al. SIC2 is a small corpus of blogs, but it has gold part-of-speech, morphosyntactic and named-entity tags (SUC-style). In addition, basic information about the authors is also available. The corpus is downloadable.

The integration of SIC2 into Korp served also as a test drive for the new version of our annotation pipeline Sparv, to be released very soon.

SLTC 2020

2020-11-23
Den svenska språkteknologiska konferensen (SLTC) äger rum den 25–27 november med fyra workshopar onsdagen den 25 november och huvudkonferensen torsdag–fredag den 26–27 november. Det är den åttonde konferensen i raden och den hålls vartannat år. I år är det ett helt digitalt arrangemang med mer än 200 registrerade deltagare från hela världen.

Ta del av innehåll och program här: https://spraakbanken.gu.se/en/sltc2020

Organisatörer:

  • CLASP - Centrum för språkteori och sannolikhetsstudier (the Centre for Linguistic Theory and Studies in Probability) vid Institutionen för filosofi, lingvistik och vetenskapsteori,
  • Språkbanken Text vid Institutionen för svenska språket, och
  • Institutionen för data- och informationsteknik.
Lemmatizing SUC3 by Stanza

We have added a pretrained model for lemmatization of Swedish text to our model collection. The model was trained and tested on SUC3 using the Stanza package and achieves a very high accuracy of 99.18.

The drawback of this model is that SUC3 lemmatization and part-of-speech annotation does not exactly match that in Saldo, which is used by Sparv to annotate the resources available via Korp. The advantage, however, is that the model always produces a guess (and usually a correct one), while the current version of Sparv sometimes cannot do that. The new version of Sparv (coming soon) will probably combine the two approaches.

Using the model does not require deep knowledge of natural language processing or advanced programming skills.

More to come.

Lemmatization model
Det tvärvetenskapliga projektet SweTerror tilldelas drygt 22 miljoner kronor i årets utlysning av Digitalisering och kulturarv (DIGARV). Projektet förenar talteknologisk och humanistisk analys och är ett samarbete mellan Språkbanken Tal vid Kungliga tekniska högskolan (KTH), Centrum för digital humaniora (CDH) och Språkbanken Text vid Göteborgs universitet.

Läs hela nyheten på Nationella språkbankens webbplats.

Språkbanken Text, and projektet Towards Computational Lexical Semantic Change Detection organiserar en andra workshop inom LChange-serien om beräkningsmodeller för historiska språkförändringar som är planerad till augusti 2021.

Workshopen bygger på den första LChange workshopen  som vill höll i 2019 i samband med ACL. Den var en överväldigande succé och lockade över 50 inskickade bidrag och 65 deltagare. Även LChange'21 organiseras i samband med ACL2021.

Vårt tema kommer att vara ungefär samma som förra gången: alla aspekter kring maskinella metoder och modeller för språkliga förändringar där textkorpusar används för utvinning. Deadline för bidrag kommer att annonseras inom kort på vår webbsida: https://languagechange.org/events/2021-acl-lchange/

LChange'21 kommer att ha två plenärtalare, en med fokus på beräkningsmodeller och en med fokus på applikationer eller teori kring språkliga förändringar. Goda förslag tas tacksamt emot!

Vi ser fram emot bidrag och deltagande, sprid gärna nyheten vidare!

Den 12 november 2020 arrangerar Isof och Språkbanken Sam ett digitalt seminarium om maskinöversättning och om behovet av att identifiera och samla in språkresurser från svenska myndigheter.

Läs mer på språkbanken.se

This blog is based on joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring Access to language data is an obvious prerequisite for research in digital humanities in general, and for the development of NLP-based tools in particular.

However, accessible data becomes a challenging target where personal data is involved. This is very true of language learner data where tasks are often phrased so that they, directly or indirectly, elicit explicit personal information, e.g.”Describe your school” or …
Fortsätt läsa ”Pseudonymization of learner essays as a way to meet GDPR requirements”

Till Språkbanksbloggen
Under oktober och november 2020 arrangerar Språkbanken Sam flera webbinarier om crowdsourcing och maskintranskribering.

Läs mer på språkbanken.se

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’? I det här blogginlägget tänkte jag prata om ord som innehåller mellanrum och flerordsuttryck, och hur man kan analysera dem i en korpus. Om vi ska annotera en text, alltså märka upp den med …  Fortsätt läsa ”Flerordingar: ord som består av flera delar”

Till Språkbanksbloggen
Språkbanken Text är ett CLARIN (auktoriserat) B-center och därför även en viktig komponent i den europeiska forskningsinfrastrukturen CLARIN ERIC. Förra veckan gick den årliga CLARIN-konferensen av stapeln virtuellt, vilket möjliggjorde att flera av oss på Språkbanken Text kunde delta.

Läs mer om evenemanget här>>

Sida 1