Hoppa till huvudinnehåll

Valmanifest 2022 - En språkteknologisk snabbanalys

Inlagt av Stian Rødven-Eide 2022-09-07

En dryg vecka innan valet var äntligen alla riksdagspartiernas valmanifest på plats. Vi tänkte det vore intressant att göra några enkla analyser av texten och se vad vi kan ta reda på med språkteknologiska verktyg.

Det första vi gjorde var att köra dokumenten genom Språkbankens annotationsverktyg Sparv. Detta gav oss bland annat läsbarhetsvärden och attitydanalys. Genomsnittslängden på manifesten är ca 6.000 ord, men varierar en hel del, från Kristdemokraternas 1.623 ord till Moderaternas 11.139.

Antal ordLIXNKOVIXPOSNEG
C8.51546,091,3863,238,2%2.0%
KD1.62344,261,4574,477,3%3.3%
L7.36441,621,2767,265,9%3,0%
M11.13952,671,4068,866,0%3,8%
MP3.67742,771,4169,198,0%3.2%
S4.54544,921,3468,307,3%3,8%
SD3.33249,681,3972,036,1%4,4%
V7.82446,951,2865,456,6%3,3%
Läsbarhets- och attitydanalys av riksdagspartiernas valmanifest

LIX = läsbarhetsindex: En indikation på hur svårläst en text är utifrån meningslängd och antalet långa ord (fler än sex bokstäver). Värdet får man genom att dela antal ordantal meningar, och lägga till antal långa ord delat på totala antalet ord. LIX varierar normalt mellan 20 (lättläst) och 60 (svårläst).

NK = nominalkvot: Säger hur informationstät en text är. Ett högt värde tyder på en informationstät text, vilket också kan innebära att den är mer svårläst. För att räkna ut nominalkvot lägger man ihop antalet particip, substantiv och prepositioner och delar detta på antalet verb, adverb och pronomen.

OVIX = ordvariationsindex: Texter med ett stort antal engångsord, dvs. ord som används endast en gång, får ett högt OVIX-värde. Värdet får man genom att dela antalet unika ord på det totala antalet ord i texten.

POS: Andel ord som är positivt laddade enligt Språkbankens sentimentlexikon.

NEG: Andel ord som är negativt laddade enligt Språkbankens sentimentlexikon.

Med tanke på manifestens längd är det naturligt att vi får OVIX-värden som är lite lägre än för en tidningsartikel, vilket normalt ligger mellan 80 och 90. KD och SD har båda betydligt kortare manifest än genomsnittet, vilket förklarar varför de har högre OVIX-värden än övriga partier. Dock ser vi att M ligger precis över genomsnittet (68,60) trots att de har det klart längsta manifestet. M är samtidigt det enda partiet vars manifest har ett LIX-värde över 50, så det verkar som det är något mer svårläst än de andra. I jämförelse har en typisk skönlitterär bok för vuxna ett LIX-värde på 33, medan tidningsartiklars LIX tenderar ligga runt 40. Nominalkvoten -- och därmed informationstätheten -- är rätt hög hos alla partier. Här är genomsnittet 1,37, betydligt högre än normalvärdet för en kvällstidning som är 0,99, medan talspråk typiskt har en nominalkvot på 0,25.

Om vi tittar på antalet värdeladdade ord ser vi att Centerpartiet och Miljöpartiet uttrycker sig mer positivt än övriga partier. Detta reflekterar den optimistiska ton som de har valt att använda, med fraser som "en ljusare framtid är möjlig" och "solidaritet med kommande generationer". En ytterligare liten inblick kan vi få genom att ta fram deras fem mest använda positiva ord. För Centerpartiet är det:

('bättre', 39), ('få', 22), ('stärka', 21), ('bästa', 16), ('omsorg', 16)

medan vi hos Miljöpartiet hittar:

('stärka', 16), ('skydda', 10), ('få', 10), ('satsa', 9), ('stöd', 8) 

På den negativa sidan av sentimentanalysen är det Sverigedemokraterna som sticker ut, med M och S jämnt ett stycke bak. De negativa ord som dominerar de respektive manifesten är för SD:

('kriminella', 10), ('nej', 3), ('arbetslöshet', 3), ('krävs', 3), ('straffen', 3)

för M:

('brott', 20), ('kriminella', 12), ('våld', 12), ('krav', 11), ('fängelse', 9)

och för S:

('våld', 6), ('kriminella', 6), ('slår', 5), ('inflationen', 5), ('kriminaliteten', 4)

Här ser vi tydligt ett fokus på brott och straff, vilket ju har varit ett av de stora debattämnena detta valet.

Under undersökningens gång tog vi även fram ord som är unika för varje parti, men det blev för många ord för att enkelt kunna säga något meningsfullt om dem. Däremot kan vi se närmare på vilka ord som är unika för blocken, dvs. ord som används av alla partier i ett block, men inga av de andra partierna. Detta ger en viss indikation på vad partierna har gemensamt. Hos MP+S+V (och inga andra) hittar vi orden alliansfrihet, flykt, fred, klyftor, semester, sjukförsäkring och skolbibliotek. Om vi lägger till C till denna gruppen får vi istället klimatförändring, klimatsmart och solidaritet. Unika ord för gruppen M+L+KD+SD är å andra sidan dom, frigivning och fängelse. Här kan vi också se hur det blir när vi lägger till C, något som ger orden sexualbrott, tuff och utanförskap.

Som vi ser finns det många språkteknologiska verktyg som kan ge inblick i texter, även om både tiden och textmängden är begränsad.

Definitioner och referensvärden för läsbarhetsmåtten kommer ifrån boken Att analysera text (Melin & Lange, 2000).

.