Text som forskningsdata – En data-intensiv forskningsmetodologi 2

Detta blogginlägg är en uppföljning av ett tidigare som inleds med en beskrivning av en data-intensiv forskningsmetodologi, börja gärna med den.

I förra avsnittet tog vi upp skillnaderna mellan data som primärdata och data som resultat. När vi pratar om stora textmängder, en korpus, eller ett dataset i detta avsnitt menas just digital text i stora mängder som primärdata: alltså den text som ligger till grund för vår kunskapsutvinning. När vi jobbar med en data-intensiv metod har vi inga krav på att dessa primärdata skall vara korpusar i lingvistisk mening. De behöver inte vara balanserade för att t.ex. täcka ett språkligt fenomen ur många olika aspekter. Väldigt ofta är våra primärdata istället opportunistiskt samlade; de består av några tidningar från en viss period, eller alla böcker av en viss författare. Vår primärdata kan vara stora, mätt i totalt antal ord, eller ordformer, men de kan också vara breda sett till det tidsspann de täcker. Många av våra vanligaste historiska korpusar har ett tidsspann på mellan ett till tre hundra år och tillåter då spännande diakrona undersökningar.

Ibland har vi forskningsfrågor som är fullständigt inkapslade i den primärdata som vi har. Vi kan t ex vilja studera skillnaderna mellan två olika författares verk sett till språklig varians, eller tematiska beskrivningar. Vi kan också vilja studera hur en enskild författares syn på olika begrepp har ändrats över tid. Frågeställningar av detta slag, ofta vanliga inom litteraturvetenskap, har mer eller mindre fullständiga svar inom en begränsad korpus.

Andra gånger är våra forskningsfrågor riktade till världen som helhet. Men, eftersom vi saknar möjligheter att studera världen på det sättet så låter vi ett urval, en korpus, vara proxy för vår fråga. Kanske vill vi veta hur isoleringen under Corona-virusets framfart har påverkat våra ungdomar. En sådan modern frågeställning kan besvaras med flera olika typer av både kvalitativa och kvantitativa primärdata. De kvantitativa kan vara berättelser och beskrivningar av den upplevda isoleringen från t ex sociala medier, bloggar, och chattar. I dagsläget kan de mycket enkelt kompletteras av väl valda högkvalitativa data för att ge oss en mer komplett bild. 1 Om vi inte samlar in högkvalitativa data med en gång, är det mycket svårare att i efterhand komplettera eftersom vi får förlita oss på folks minne och tillgänglighet, och vi får istället nöja oss med att enbart använda de texter som finns att tillgå.

Vi kan ställa frågor som kan besvaras mer eller mindre bra när vi ”bara” har tillgång till text. 2 Låt oss anta att vi har tillgång till böcker och tidningar från slutet på 1800-talet och början på 1900-talet och vi undrar hur de stora teknologiska framstegen påverkade kvinnor och mäns möjligheter i samhället. Det är tyvärr en vanlig missuppfattning att om vi ökar mängden primärdata så kan vi svara på frågan på ett, i princip, komplett sätt: ökar vi bara mängden texter från några hundratal till miljontals så får vår forskningsfråga ett tillfredsställande svar.

Det är tyvärr inte sant. Och det finns en matematisk förklaring till detta. För att de resultat som vi får genom en korpus (ett så kallat urval eller stickprov i statistiska termer) skall vara generaliserbara till populationen i sin helhet så MÅSTE urvalet vara ett randomiserat urval. Vi har dock inte ett randomiserat urval av människors upplevelser av de teknologiska framstegen. Tvärtom har vi ett bekvämlighetsurval, alla tidningar och böcker som vi kunde få tag på. Detta urval, oavsett hur stort det är, har inte en jämn beskrivning av hur människor upplevde saken helt enkelt därför att alla människor inte är representerade. Fattiga, unga, människor ur andra kulturer, m fl var sällan representerade på ett proportionerligt sätt. Därför kan vi inte använda det vi har upptäckt i vårt urval för att generalisera mot befolkningen som helhet. 3 Däremot kan vi använda oss av de resultat vi har för den primärdata vi har enligt principen: om detta är sant i denna datamängd och den är sann i många andra typer av primärdata också, så kan vi prata om att bevisen pekar i en viss riktning.

Trots att stora textmängder inte automatiskt tillåter oss att generalisera bortom de enskilda texterna så är de ändå en källa till enorm kunskap och beskrivningar av saker som tillsammans målar oväntade och fantastiska bilder.  Och många olika digitala metoder kan tillsammans hjälpa oss att bygga upp komplexa och mångfacetterade bilder.

Jag föreställer mig att stora textmängder, vare sig de kommer på en disk eller ligger i ett datamoln någonstans, har en typisk bok-doft och prasslar precis så där som det gör när man bläddrar i en bok. Och att de många, många orden som ryms på en disk sammantaget bildar ett bibliotek så enormt att det aldrig skulle få plats på en fysisk plats, ett sorts modernt Alexandria. Som med alla bibliotek ligger det magiska i alla forskningsfrågor den har potential att besvara och all den fantasi man kan förlora sig i.

Vill du veta mer om vilka aspekter av en data-intensiv forskningsmetodologi som är problematiska eller vilka styrkor den har kan du läsa mer i vår artikel: The Strengths and Pitfalls of Large-Scale Text Mining for Literary Studies . Jag som skriver detta inlägg heter Nina Tahmasebi och är docent inom Språkteknologi och en data scientist, en dataforskare, med över 12 års erfarenhet av storskalig textanalys och kunskapsutvinning.  Detta blogginlägg kommer att följas upp med ytterligare några inlägg som tar upp olika aspekter av den data-intensiva processen. Några videor från en studiecirkel på samma tema finns här.

  1. det är viktigt att tillägga att medan storskalig, kvantitativ data lätt går att samla in från nätet, kräver högkvalitativa data mycket mer ansträngning, tid och monetära resurser men är minst lika viktiga som de kvantitativa data. Exempel på kvalitativa data är frågeformulär, djupgående intervjuer mm.
  2. Att ha tillgång till texter i digital form är en lyx som vi dataforskare är otroligt glada för. Denna tillgång öppnar enorma möjligheter att ställa nya typer av frågor med större bredd och djup än tidigare möjligt. Ändå är det en begränsning att ”bara” ha tillgång till text, eftersom vi också skulle kunna ha t ex högkvalitativa data och metadata som beskrev de aspekter som vi är intresserade av.
  3. Även om de fenomen vi vill studera är språkliga fenomen, t ex användningen av ett visst grammatiskt fenomen, eller uttryck, så är vår primärdata inte ett randomiserat urval, de fattig, unga eller gamla är fortfarande under-representerade, och inte heller då kan vi generalisera.