Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

GU Journalen som öppna forskningsdata i Språkbanken

Inlagt av Markus Forsberg 2025-04-03

I samband med att GU Journalen skriver en artikel om Språkbankens 50-åriga jubileum så passade vi på att skapa en korpus (textsamling) av GU Journalens samtliga nummer sedan 1997. Inklusive det nyhetsbrev som under tre år föregick tidningen hamnar innehållet på 4,64 miljoner tokens (= ord + skiljetecken + andra enheter som siffersekvenser och andra entiteter). Det resulterar i en spännande datamängd som ger en inblick i hur GUs verksamhet har beskrivits över åren!

Korpusen har nu integrerats in i Språkbankens forskningsinfrastruktur, vilket innebär att korpusen tillgängliggjorts som öppen, nedladdningsbara och språkteknologiskt förädlade forskningsdata och som en sökbar datamängd i forskningsplattformarna Korp och Strix.

Det går snabbt att se att det finns en del felaktigheter i korpusen. Det finns flera saker som kan ställa till det i konverteringen från pdf till text, exempelvis avstavning och segmentering. I en tidskrift som är strukturerad i kolumner så är texten rikligt avstavad, vilket ger tokens som är halva ord. Det senare handlar om att det rent tekniskt kan vara svårt att bestämma var en kolumn börjar och slutar, vilket ger effekten att en mening i en kolumn kan gå över i en annan mening i en annan kolumn. Detta påverkar i sin tur den automatiska analysen, som har problem med den typen av konstigheter. (Uppdatering: I samband med att vi bytte verktyg för konverteringen från pdf till text, så är segmenteringen inte längre ett påtagligt problem.)

Men med det sagt så går det att göra mycket med korpusen ändå. Några exempel följer nedan.

GU Journalen som nedladdningsbara öppna forskningsdata

https://spraakbanken.gu.se/resurser/gujournalen

När en korpus publiceras via Språkbanken så får den en resurssida med beskrivningar av materialet och hur man citerar det. Man kan även ladda ned korpusen i ett meningsomkastat format för vidare bearbetning av forskare som är tekniskt orienterade.

GU Journalen i Korp

https://spraakbanken.gu.se/korp/#?corpus=gujournalen&cqp=%5B%5D

Korp är Språkbanken plattform för ordforskning, där vi kan studera hur orden i en korpus används. Korp fokuserar därmed huvudsakligen på den språkliga formen snarare än på innehållet, så de huvudsakliga användarna av Korp är därmed språkforskare.

Så vad kan man göra med Korp? Vi kan börja med frågan om hur det ser ut med omnämnandet av Språkbanken i GU Journalen. Det gör vi med en sökning efter egennamnet Språkbanken och substantivet språkbank:

Sökning i Korp

som ger 45 träffar. Dessa presenteras i en KWIC-vy, där träffen är i mitten och omringad av sin kontext.

Vi kan gå vidare och se hur dessa träffar ter sig över tid, genom att ta fram ett trenddiagram. Här kan vi notera att Språkbanken är mest omskriven det senast decenniet.

Vad kan vi annars ta en titt på? Man kan ställa sig frågan hur Göteborgs universitets huvuduppdrag beskrivs, nämligen forskning, utbildning och samverkan. Vi gör detta med hjälp av funktionen ordbild, där vi kan undersöka nyckelordens syntaktiska kontext.

Vi börjar med forskning:

Sökning i Korp

och tar en titt på typiska attribut (som är framtagna med hjälp av ett så kallat associationsmått). Detta bekräftar säkert en del humanisters fördomar om GU Journalen, att den medicinska forskningen får störst plats. Samtidigt tror jag många humanister blir (positivt) överraskade över att man även hittar konstnärlig och humanistisk forskning i toppen, så det slår åt båda hållen.

På verbsidan hittar vi inga större överraskningar: forskningen handlar (om) och visar, och vi bedriver, stödjer och främjar forskningen.

Hur ser det ut för utbildning?

Sökning i Korp

Den är högre, konstnärlig, högskolepedagogisk och bedrivs på forskarnivå. Utbildning startas och erbjuds.

Slutligen har vi samverkan:

Sökning i Korp

Den är nära, internationell och tvärvetenskaplig och sker ofta med samhälle och med Chalmers

Till sist ska vi ta en titt på vilka ord (sammanställt på grundform) som är utmärkande för GU Journalen relativt ett annat material, SVT nyheter 2023. Vad som är utmärkande för GU Journalen är inga större överraskningar: Det är universitet, GU, institution, forskning och fakultet. Mer intressant är det på SVT nyheter 2023-sidan: Hur kommer det sig att säga utmärker sig mest? Sägs det inte en massa saker i GU Journalen också? För att svara på den frågan, så behöver man gräva ned sig i materialet ytterligare.

Vi kan även välja att sammanställa på andra analyskategorier, här med lexikala klasser från Svenskt frasnät, som ger en mer abstrakt vy av respektive ordförråd.

GU Journalen i Strix

Sökning i Strix

Strix är Språkbankens textforskningsplattform, och liknar en vanlig informationssökningstjänst, men med tre avgörande skillnader:

  1. Man vet exakt vad det är för material man söker i.
  2. De ingående texterna är språkteknologiskt förädlade med Språkbankens analyser.
  3. Materialen är typiskt rikt berikade med metadata som har samma status som de språkteknologiska analyserna, det vill säga att de är sökbara och går att sammanställa på.

Korpusen för GU Journalen är dock inte riktigt anpassad för Strix. Helst skulle en artikel bli ett självständigt dokument, men här blir hela numret ett dokument, vilket gör textsamlingen grovhuggen.

Vi kan exempelvis söka på forskning, en sökning som ger träff på alla 173 nummer. Första dokumentträffen visar även en del av dokumentet som har träffar på forskning. För varje dokument visas även de vanligaste substantiven och namnen i dokumentet, där vi för första träffen ser att det vanligaste substantivet är universitet, med 97 förekomster i den första träffen, och den vanligaste namnet är Göteborgs universitet, med 58 förekomster.

Sedan kan vi exempelvis gå in i det första dokumentet GUJ6-2008 (som inte är särskilt snyggt strukturerad i nuläget) och färgmarkera alla substantiv (eller någon annan analyskategori). Som en form av lässtöd.

Detta var bara ett smakprov på olika typer av analyser som man kan göra av GU Journalen som korpus i Språkbanken. Berätta gärna för oss på Språkbanken och GU Journalen om du hittar något intressant!

Etiketter