Meny

Nyheter

Sida 1
Den svenska trädbanken Eukalyptus består av en samling av moderna svenska texter från fem olika genrer om sammanlagt nära 100 000 ord. Eukalyptus har nu släppts i en ny version.

Texterna har märkts upp med ordklasser, morfologi och betydelse, samt syntaktisk analys. I den nya versionen har vi gått igenom och rättat uppmärkningen av ordklasser och morfologi. Ytterligare en ny version planeras inom en snar framtid med uppdaterad syntaktiska uppmärkning.

Den nya versionen av Eukalyptus-korpusen finns här.

Läs mer i Språkbanksbloggen.

Temamodeller är vanliga inom digitala studier av stora textmängder och används flitigt inom digital humaniora, i detta tredje avsnitt om en data-intensiv forskningsmetodologi diskuterar vi möjligheterna och begränsningarna med denna metod som forskningsverktyg.

Till Språkbanksbloggen

Två nya resurser för utvärdering av OCR finns nu tillgängliga för nedladdning hos Språkbanken Text.

Två nya resurser för utvärdering av OCR finns nu tillgängliga för nedladdning:
(1) Svensk fraktur 1626–1816 innehåller ett urval av digitaliserade versioner av äldre frakturtryck. Materialet digitaliserades av Göteborgs universitetsbibliotek (UB) och består av 44 titlar. En lista över de tillgängliga titlarna med motsvarande libris-id och publiceringslänk finns här.
(2) Svenska tidningar 1818–1870 innehåller 106 sidor från 53 slumpmässigt valda svenska tidningar som digitaliserades av Kungliga biblioteket (KB). Tidningslistan finns här.

Resurserna kan laddas ner från resurssidan.

Nu finns det ett nytt blogginlägg om text som forskningsdata – En data-intensiv forskningsmetodologi 2. I förra avsnittet pratade vi om den data-intensiva forskningsmetodologin. I detta avsnitt fortsätter vi med att prata om stora textmängder som ligger till grund för kunskapsutvinning.

Till Språkbanksbloggen

Elena Volodina writes about the process of developing NLP-based applications for second language learning in Språkbanksbloggen.

Språkbanksbloggen

Dimitrios Kokkinakis, forskare vid Språkbanken, institutionen för svenska språket har tilldelats ett stipendium på 80 000 SEK från Demensförbundet. Stipendiet ska användas till att segmentera och transkribera flera hundra ljudinspelningar. Resultatet kommer att vara underlag för att studera hur man i språket kan upptäcka tidiga tecken på demens. Nu ska ett antal sommarjobbare rekryteras för att genomföra transkriptionerna.

https://spraakbanken.gu.se/om/personal/dimitrios

 

Läs mer på institutionen för svenska språkets hemsida.
Tillsammans med Kungliga bibliotekets (KB) nystartade datalabb kommer Språkbanken Text att bidra till att tillgängliggöra delar av KB:s samlingar. – Samarbetet innebär mycket goda nyheter för digital humaniora och samhällsforskning i Sverige, säger Love Börjesson, verksamhetsledare för KB-labb.
KB_Love_Borjesson_bild
Love Börjesson, verksamhetsledare KB-labb. Fotograf: Jann Lipka

– Våra målsättningar går hand i hand. Vi på Språkbanken Text behöver forskningsdata samtidigt som KB vill hitta sätt att göra material tillgängligt. KB har en guldgruva med material som de inte kan dela med sig av på grund av upphovsrättsliga skäl, säger Markus Forsberg, föreståndare för Språkbanken Text. 

KB-labb är Kungliga bibliotekets (KB) nystartade labb för datadriven forskning inom humaniora och samhällsvetenskap. Verksamhetsledare Love Börjesson säger att samarbetet med Språkbanken Text skapar fantastiska möjligheter att lyfta och tillgängliggöra KB:s samlingar på helt nya sätt.
- Nu kan vi implementera Språkbankens svenska NLP-tunnel Sparv, vilket ger forskare som använder KB-labb möjlighet att analysera och strukturera data på ett sätt som tidigare var omöjligt. Genom det här samarbetet får vi också en mycket högre utväxling på vår egen infrastruktur än vad som annars hade varit fallet. 

Anne Schumacher, forskningsingenjör på Språkbanken Text, var nyligen på plats på KB-labb för att installera Sparv, Språkbankens annoteringsverktyg, på deras maskiner.
– KB har texter som vi är intresserade av men som de inte kan ge till oss. Nu kan KB-labb analysera texterna med hjälp av Sparv och sen extrahera alla ord, till exempel med en viss egenskap, och ge listor till oss. På så sätt får vi ut data från samlingarna utan att göra intrång i upphovsrätten, säger hon och tillägger att Språkbanken Text i sin tur kan analysera datan och även fritt dela med sig av listorna, så att vem som helst kan använda dem.

Språkbankens Markus Forsberg säger att samarbetet hittills gått otroligt smidigt.
– Vi har precis kommit igång, men det här känns som ett samarbete som vi kan bygga vidare på, där vi kan fokusera på analysen och de kan fokusera på att göra material tillgängliga, säger han.

Love Börjesson håller med och menar att samarbetet mellan KB-labb och Språkbanken Text innebär mycket goda nyheter för digital humaniora och samhällsforskning i Sverige. Han tillägger att det dessutom skapar ett intressant intellektuellt sammanhang där de olika verksamheterna berikar varandra på flera sätt utöver det specifika verktyg de delar och utvecklar.
 

Nu finns det ett nytt inlägg på Språkbanksbloggen om data-intensiv forskningsmetodologi.

Blogginlägget är tänkt att vara första delen i en serie där olika aspekter av den data-intensiva processen tas upp och följer samma struktur som studiecirkeln i text-mining för humaniora.

Till Språkbanksbloggen

Language descriptions are documents containing valuable information on the world's natural languages and their diversity. In this blog, we report a multilingual corpus of thousands of such documents annotated with a number of meta, lexical, and syntactical attributes.

Språkbanksbloggen>>

Nu finns Bengt G Dagrins "Fula ordboken" sökbar hos Språkbanken.

Nu finns Bengt G Dagrins "Fula ordboken" sökbar i Språkbankens lexikonverktyg Karp. Lexikonet finns än så länge här, i en förhandsvisning av nästa version av Karp.

"Fula Ordboken är ett försök att presentera ofta försummade och baktalade ord, sådana ord som det stått strid om, som omskrivits eller uteslutits, som stämplats som vulgära, obscena och fula och som därför få ordforskare velat befatta sig med." (fulaordboken.se)

Fula ordboken i Karp
Sida 1