Vi heter Elinor och Astrid och går för närvarande i åttonde klass på Montessoriskolan Floda Säteri. I den här bloggen berättar vi om vår praktiska arbetslivsorientering (prao) under vecka 41 (7-11/10) på Språkbanken Text.
På första prao dagen fick vi en liten rundtur på institutionen för svenska, flerspråkighet och språkteknologi och en introduktion om Språkbanken samt en introduktion för vad vi kommer att jobba med. Vi lärde oss om vad en korpus är, vilka olika korpusar det finns och hur vi kan söka i de. Vi tittade också på de olika verktygen Språkbanken utvecklar.
För att bekanta oss med Korp innan vi började med vår praktikuppgift gjorde vi några ordsökningar i Korp. Det var intressant och väldigt annorlunda sätt att undersöka ord jämfört med hur vi gör i skolan. Tiden gick snabbt, så när det väl var dags för lunch gick vi upp en våning för att äta på Restaurang Näckrosen som finns i samma byggnad. Det serverades kåldolmar med potatismos och lingonsylt. Maten var utsökt tyckte vi, i salladsbuffén fanns det nästan lika stor grönsaksvariation som i skolan.
Efter lunchen deltog vi i en masteruppsatsexamination som började med en masteruppsatspresentation given av studenten. Uppsatsen handlade om att träna och testa hur en språkmodell kan para ihop en figurativ text med figurativ bild. En figurativ text med figurativ bild kan förklaras som att texten beskriver bilden men bilden är inte en bokstavlig betydelse av texten. Vi hade svårt att hänga med på alla detaljer i presentationen, men tyckte att ämnet var spännande. Det var också intressant att ta del av diskussionen med opponenten och examinatorn som följde därefter, även observera hur en examination på en masternivå går till.
Under andra dagen jobbade vi med de olika korpusarna inom Språkbanken. Det vi fick göra med korpusarna var att söka upp de mest frekventa substantiven i olika texter, t.ex. de mest frekventa substantiven i de olika nyhetstexterna. Det vi märkte var en upprepning på ett visst ord, detta ordet var “år”.
Korpus genre | Korpus storlek | Korpus namn | De tre mest frekventa substantiven |
Nyhetstexter | 5,00 M | 8 sidor | sidor, människor, år |
Nyhetstexter | 7,49 M | SVT Nyheter 2023 | år, polisen, personer |
Nyhetstexter | 10,74 M | Press 98 | år, procent, kronor |
Nyhetstexter | 16,87 M | GP 2013 | år, dag, kronor |
Nyhetstexter | 41,10 M | Hela press | år, kronor, procent |
Medicinska texter | 1,59 M | Läkartidningen 2006 | procent, patienter, år |
Finlandssvenska texter | 5,31 M | Tidskrifter | år, del, sätt |
Finlandssvenska texter | 1,31 M | Webbtexter | år, gång, dag |
Finlandssvenska texter | 191, 41 K | Barnlitteratur 1988 - 2012 | år, gång, dag |
Sociala medier | 1,67 M | Bloggmix 2017 | år, dag, januari |
August Strindberg | 5,1 M | August Strindberg romaner | barn, år, gång |
L2-korp | 710,25 K | COCTAILL | år, ar, ord |
L2-korp | 308,21 K | COCTAILL lesson text | år, barn, dag |
Skönlitteratur | 10,88 M | Bonniersromaner I & II | gång, år, sätt |
Skönlitteratur | 1,63 M | SALT svenska-nederländska | år, gång, fall |
Tidskrift | 651,15 K | Podiet | musik, år, symfoniker |
Tidskrift | 743,83 K | Forskning & Framsteg | år, bild, sätt |
TalbankenSBX | 96,35 K | TalbankenSBX | år, barn, del |
På onsdagen fick vi skriva av från en skannad tidning från korpusen Jubileumsarkivet. För att sedan jämföra texten med hur en dator hade skrivit av den. Då lärde vi oss att datorer inte går att förlita sig på. Till exempel när den skulle tolka texten så läste den “fel” ordning och därför blev texten annorlunda även orden blev omskrivna.
Vi satt på olika platser runt om på Humanisten. Miljön på universitetet var lugn och harmonisk. Mycket stor skillnad från arbetsron i skolan.
På torsdagen började morgonen med ett doktorandhandledningsmöte som vi fick ta del av. Efter det jobbade vi lite med bloggen och kort efter det var det dags för lunch. Efter lunchen gick vi till universitetets Team Digitisering och se vad digitaliseringsarbetet av böcker och andra läromedel innebär. Gruppen som vi bemöttes av var nämligen den gruppen som skannade in alla gamla tidningsartiklar till Jubileumsarkivet. Vår praktik där gick ut på att skanna in boken Styvmodern av Marika Stjernstedt. Vi lärde oss om hur hela digitaliseringsprocessen går till och hur de digitala versionerna ser ut. Det var lärorikt att även testa detta. På slutet av torsdagen lade vi pussel vid Språkbanken Text pusselbord, detta var ett väldigt bra sätt att ta en paus för att bättre reflektera över praktikarbetet.
Sista dagen lärde vi oss att använda Mink. I Mink skapade vi en ny korpus, korpusen fick heta Styvmodern. Vi använde de filerna vi fick från vårt digitaliseringsarbete.
Sedan körde vi en analys av texterna igenom Sparv, vilket är Språkbankens annoteringskedja. När analysen var klar klickade vi på en Korp-installationsknapp i Mink. När vi hade klickat på denna knapp tog det bara 2 minuter innan texterna blev till en sökbar korpus. Nu var det bara att söka efter de mest frekventa substantiven i Styvmodern, precis som vi gjorde när vi började prao veckan. Då fick vi fram att de tre mest frekventa substantiven var “barnen”, “garvaren” och “år”. Det visade sig alltså att det mest frekventa substantivet i många korpusar är “år”.
Slutligen skrev vi denna praobloggen.
Sammanfattningsvis var det en mycket lärorik prao och vi vill tacka Språkbanken för att de tog emot oss. Vi vill även tacka alla trevliga kollegor för bra bemötande och för att ni fick oss att känna oss välkomna. Hoppas vi träffas snart igen!
//Elinor och Astrid