Mink har en standarduppsättning analyser som körs för att berika din textdata med segmentering och annoteringar. Du kan också inkludera egen berikning i källtexterna, till exempel metadata, egen tokenisering och manuellt analyserade tokenattribut.
Nu går de flesta av oss på semester! Det betyder att många av oss på Språkbanken Text kan vara svåra att nå. Det går bra att försöka på vår gemensamma e-post men även det svaret kan dröja.
SBX was very well represented at LREC-COLING 2024, with six participants onsite and two remote. Six of our PhD students and a former SBX intern presented their work at the conference and its workshops.
På vår årliga retreat startade vi aktivt vårt arbete med att dokumentera och tillgängliggöra än fler av våra analyser. Arbetet kommer att utmynna i en ny del på vår hemsida, där vi gör analyser sök- och nedladdningsbara. Dessutom tillkommer citeringsmöjligheter och direktlänkar så att du kan använda dem direkt i våra plattformar.
I den här bloggen ägnar vi oss åt datorers förmåga att läsa analog text. Denna förmåga är nuförtiden ofta mycket god: det är inte bara tryckt text utan även handskrift som datorerna kan förmås att uttolka. Det goda resultatet kan emellertid helt utebli om inte manegen först krattas ordentligt.
A new version of the Korp frontend was released on May 27, 2024. Most notably, the frontpage now sports a couple of introductory paragraphs, along with search examples and some news.
Torsdag den 16 maj organiserade Språkbanken Text en workshop om Swedish OCR (Optical Character Recognition) och HTR (Hand Written Text Recognition). Syftet med workshopen var att