Skip to main content
Språkbanken Text is a department within Språkbanken.

Prao på Språkbanken Text

Submitted by Dana Dannélls on 2024-11-03

Vi heter Elinor och Astrid och går för närvarande i åttonde klass på Montessoriskolan Floda Säteri. I den här bloggen berättar vi om vår praktiska arbetslivsorientering (prao) under vecka 41 (7-11/10) på Språkbanken Text. 

På första prao dagen fick vi en liten rundtur på institutionen för svenska, flerspråkighet och språkteknologi och en introduktion om Språkbanken samt en introduktion för vad vi kommer att jobba med. Vi lärde oss om vad en korpus är, vilka olika korpusar det finns och hur vi kan söka i de. Vi tittade också på de olika verktygen Språkbanken utvecklar.

För att bekanta oss med Korp innan vi började med vår praktikuppgift gjorde vi några ordsökningar i Korp. Det var intressant och väldigt annorlunda sätt att undersöka ord jämfört med hur vi gör i skolan. Tiden gick snabbt, så när det väl var dags för lunch gick vi upp en våning för att äta på Restaurang Näckrosen som finns i samma byggnad. Det serverades kåldolmar med potatismos och lingonsylt. Maten var utsökt tyckte vi, i salladsbuffén fanns det nästan lika stor grönsaksvariation som i skolan.

Efter lunchen deltog vi i en masteruppsatsexamination som började med en masteruppsatspresentation given av studenten. Uppsatsen handlade om att träna och testa hur en språkmodell kan para ihop en figurativ text med figurativ bild. En figurativ text med figurativ bild kan förklaras som att texten beskriver bilden men bilden är inte en bokstavlig betydelse av texten. Vi hade svårt att hänga med på alla detaljer i presentationen, men tyckte att ämnet var spännande. Det var också intressant att ta del av diskussionen med opponenten och examinatorn som följde därefter, även observera hur en examination på en masternivå går till.

Under andra dagen jobbade vi med de olika korpusarna inom Språkbanken. Det vi fick göra med korpusarna var att söka upp de mest frekventa substantiven i olika texter, t.ex. de mest frekventa substantiven i de olika nyhetstexterna. Det vi märkte var en upprepning på ett visst ord, detta ordet var “år”.

 

Korpus genreKorpus storlekKorpus namnDe tre mest frekventa substantiven
Nyhetstexter5,00 M8 sidorsidor, människor, år
Nyhetstexter7,49 MSVT Nyheter 2023år, polisen, personer
Nyhetstexter10,74 MPress 98år, procent, kronor
Nyhetstexter16,87 MGP 2013år, dag, kronor
Nyhetstexter41,10 MHela pressår, kronor, procent
Medicinska texter1,59 MLäkartidningen 2006procent, patienter, år
Finlandssvenska texter5,31 MTidskrifterår, del, sätt
Finlandssvenska texter1,31 MWebbtexterår, gång, dag
Finlandssvenska texter191, 41 KBarnlitteratur 1988 - 2012år, gång, dag
Sociala medier1,67 MBloggmix 2017år, dag, januari
August Strindberg5,1 MAugust Strindberg romanerbarn, år, gång
L2-korp710,25 KCOCTAILLår, ar, ord
L2-korp308,21 KCOCTAILL lesson textår, barn, dag
Skönlitteratur10,88 MBonniersromaner I & IIgång, år, sätt
Skönlitteratur1,63 MSALT svenska-nederländskaår, gång, fall
Tidskrift651,15 KPodietmusik, år, symfoniker
Tidskrift743,83 KForskning & Framstegår, bild, sätt
TalbankenSBX96,35 KTalbankenSBXår, barn, del

 

På onsdagen fick vi skriva av från en skannad tidning från korpusen Jubileumsarkivet. För att sedan jämföra texten med hur en dator hade skrivit av den. Då lärde vi oss att datorer inte går att förlita sig på. Till exempel när den skulle tolka texten så läste den “fel” ordning och därför blev texten annorlunda även orden blev omskrivna.

 

Praktik på Humanisten

 

Vi satt på olika platser runt om på Humanisten. Miljön på universitetet var lugn och harmonisk. Mycket stor skillnad från arbetsron i skolan.

 

 

 

 

 

 

På torsdagen började morgonen med ett doktorandhandledningsmöte som vi fick ta del av. Efter det jobbade vi lite med bloggen och kort efter det var det dags för lunch. Efter lunchen gick vi till universitetets Team Digitisering och se vad digitaliseringsarbetet av böcker och andra läromedel innebär. Gruppen som vi bemöttes av var nämligen den gruppen som skannade in alla gamla tidningsartiklar till Jubileumsarkivet. Vår praktik där gick ut på att skanna in boken Styvmodern av Marika Stjernstedt. Vi lärde oss om hur hela digitaliseringsprocessen går till och hur de digitala versionerna ser ut. Det var lärorikt att även testa detta. På slutet av torsdagen lade vi pussel vid Språkbanken Text pusselbord, detta var ett väldigt bra sätt att ta en paus för att bättre reflektera över praktikarbetet.

 

Digitisering av Styvmodern

 

Sista dagen lärde vi oss att använda Mink. I Mink skapade vi en ny korpus, korpusen fick heta Styvmodern. Vi använde de filerna vi fick från vårt digitaliseringsarbete. 


 

Styvmodern i Mink

 

Sedan körde vi en analys av texterna igenom Sparv, vilket är Språkbankens annoteringskedja. När analysen var klar klickade vi på en Korp-installationsknapp i Mink. När vi hade klickat på denna knapp tog det bara 2 minuter innan texterna blev till en sökbar korpus. Nu var det bara att söka efter de mest frekventa substantiven i Styvmodern, precis som vi gjorde när vi började prao veckan. Då fick vi fram att de tre mest frekventa substantiven var “barnen”, “garvaren” och “år”. Det visade sig alltså att det mest frekventa substantivet i många korpusar är “år”.

Slutligen skrev vi denna praobloggen. 
 

Sammanfattningsvis var det en mycket lärorik prao och vi vill tacka Språkbanken för att de tog emot oss. Vi vill även tacka alla trevliga kollegor för bra bemötande och för att ni fick oss att känna oss välkomna. Hoppas vi träffas snart igen!

 

//Elinor och Astrid