Skip to main content

News archive

Referensdata för utvärdering av OCR

Två nya resurser för utvärdering av OCR finns nu tillgängliga för nedladdning hos Språkbanken Text.

Två nya resurser för utvärdering av OCR finns nu tillgängliga för nedladdning:
(1) Svensk fraktur 1626–1816 innehåller ett urval av digitaliserade versioner av äldre frakturtryck. Materialet digitaliserades av Göteborgs universitetsbibliotek (UB) och består av 44 titlar. En lista över de tillgängliga titlarna med motsvarande libris-id och publiceringslänk finns här.
(2) Svenska tidningar 1818–1870 innehåller 106 sidor från 53 slumpmässigt valda svenska tidningar som digitaliserades av Kungliga biblioteket (KB). Tidningslistan finns här.

Resurserna kan laddas ner från resurssidan.

Sommarjobbare ska hjälpa demensforskningen

Dimitrios Kokkinakis, forskare vid Språkbanken, institutionen för svenska språket har tilldelats ett stipendium på 80 000 SEK från Demensförbundet. Stipendiet ska användas till att segmentera och transkribera flera hundra ljudinspelningar. Resultatet kommer att vara underlag för att studera hur man i språket kan upptäcka tidiga tecken på demens. Nu ska ett antal sommarjobbare rekryteras för att genomföra transkriptionerna.

https://spraakbanken.gu.se/om/personal/dimitrios

 

Språkbanken bidrar till nya sätt att tillgängliggöra KB:s samlingar

Tillsammans med Kungliga bibliotekets (KB) nystartade datalabb kommer Språkbanken Text att bidra till att tillgängliggöra delar av KB:s samlingar. – Samarbetet innebär mycket goda nyheter för digital humaniora och samhällsforskning i Sverige, säger Love Börjesson, verksamhetsledare för KB-labb.
Love Börjesson, verksamhetsledare KB-labb. Fotograf: Jann Lipka

– Våra målsättningar går hand i hand. Vi på Språkbanken Text behöver forskningsdata samtidigt som KB vill hitta sätt att göra material tillgängligt. KB har en guldgruva med material som de inte kan dela med sig av på grund av upphovsrättsliga skäl, säger Markus Forsberg, föreståndare för Språkbanken Text. 

KB-labb är Kungliga bibliotekets (KB) nystartade labb för datadriven forskning inom humaniora och samhällsvetenskap. Verksamhetsledare Love Börjesson säger att samarbetet med Språkbanken Text skapar fantastiska möjligheter att lyfta och tillgängliggöra KB:s samlingar på helt nya sätt.
- Nu kan vi implementera Språkbankens svenska NLP-tunnel Sparv, vilket ger forskare som använder KB-labb möjlighet att analysera och strukturera data på ett sätt som tidigare var omöjligt. Genom det här samarbetet får vi också en mycket högre utväxling på vår egen infrastruktur än vad som annars hade varit fallet. 

Anne Schumacher, forskningsingenjör på Språkbanken Text, var nyligen på plats på KB-labb för att installera Sparv, Språkbankens annoteringsverktyg, på deras maskiner.
– KB har texter som vi är intresserade av men som de inte kan ge till oss. Nu kan KB-labb analysera texterna med hjälp av Sparv och sen extrahera alla ord, till exempel med en viss egenskap, och ge listor till oss. På så sätt får vi ut data från samlingarna utan att göra intrång i upphovsrätten, säger hon och tillägger att Språkbanken Text i sin tur kan analysera datan och även fritt dela med sig av listorna, så att vem som helst kan använda dem.

Språkbankens Markus Forsberg säger att samarbetet hittills gått otroligt smidigt.
– Vi har precis kommit igång, men det här känns som ett samarbete som vi kan bygga vidare på, där vi kan fokusera på analysen och de kan fokusera på att göra material tillgängliga, säger han.

Love Börjesson håller med och menar att samarbetet mellan KB-labb och Språkbanken Text innebär mycket goda nyheter för digital humaniora och samhällsforskning i Sverige. Han tillägger att det dessutom skapar ett intressant intellektuellt sammanhang där de olika verksamheterna berikar varandra på flera sätt utöver det specifika verktyg de delar och utvecklar.
 

Fula ordboken i Karp

Nu finns Bengt G Dagrins "Fula ordboken" sökbar hos Språkbanken.

Nu finns Bengt G Dagrins "Fula ordboken" sökbar i Språkbankens lexikonverktyg Karp. Lexikonet finns än så länge här, i en förhandsvisning av nästa version av Karp.

"Fula Ordboken är ett försök att presentera ofta försummade och baktalade ord, sådana ord som det stått strid om, som omskrivits eller uteslutits, som stämplats som vulgära, obscena och fula och som därför få ordforskare velat befatta sig med." (fulaordboken.se)

Nytt inlägg på bloggen

Zipfs lag, uppkallad efter den amerikanske lingvisten George Kingsley Zipf, säger att ett ords frekvens är omvänt proportionellt mot dess plats i en frekvenslista. Vad innebär det?

Niklas Zechner skriver i senaste inlägget i Språkbanksbloggen under rubriken "Zipfs lag på svenska".

Till bloggen