Skip to main content

Frequently asked questions

Kan jag få fram statistik om en text jag har laddat upp i Sparv, t.ex. ordklassfördelning?

Just nu är det tyvärr inte möjligt att få fram någon statistik för eget material.

Hur får man tillgång till skyddade korpusar som till exempel ESPC?

Hantering av åtkomst av skyddade korpusar sköts av olika personer, normalt den som har skapat korpusen. Om du håller muspekaren över namnet på den skyddade korpusen i menyn i Korp får du mer information om vem du ska kontakta.

Hur kan jag få tillgång till icke-meningsomkastade versioner av Språkbankens korpusar?

En stor del av våra korpusar är meningsomkastade, och dessa kan vi av rättighetsskäl tyvärr inte göra tillgängliga i versioner där meningarna kommer i rätt följd. Men det finns också flera korpusar som inte är meningsomkastade (många av dem historiska men också flera moderna). Det gäller t. ex. följande:
 

Jag har tidigare använt fornsvensk lexikalisk databas men förstår att den inte längre uppdateras. Hur begränsar jag i Karp min sökning till bara uppslagsord (lemman)?

Välj de fornsvenska lexikonen i lexikonväljaren högst upp på sidan (tryck på "26 lexikon valda" för att öppna den). Gå till fliken "Utökad sökning", där du kan specificera vad du vill söka efter. Genom att klicka på fältet där det står "ordklass" kan du välja att söka bara på ingångsorden ("ord i grundform") eller även på böjda former ("ord i ordformer"). Om det är ett helt ord du vill söka på, tex "hus", fyller du i det i textfältet efter "är lika med". Om du vill söka med ett reguljärt uttryck (t ex om du vill utelämna början eller slutet på ett ord) väljer du "matchar reguljära uttrycket" istället för "är lika med". Notera också att Karp använder ett annat uttrycksspråk för reguljära uttryck än Fornsvensk Lexikalisk Databas. Den mest grundläggande syntaxen är:

. ett godtyckligt tecken
* föregående tecken får upprepas 0 eller fler gånger

Hur får jag tillgång till SUC-korpusen?

SUC är tillgängligt för forskning men kräver att användaren tecknar en licens, mer information finns här: https://spraakbanken.gu.se/resurser/suc3.

Licensen täcker både version 2 och 3 av SUC, samt Svensk trädbank.

När jag öppnar Korp får jag bara en tom sida, ligger verktyget nere?

Du hittar Korp på: https://spraakbanken.gu.se/korp/. Om man får en tom sida kan det bero på att man använder en äldre version av webbläsare, försök att uppdatera din webbläsare och använd gärna till exempel Chrome eller Firefox.

Vilka är de vanligaste orden i svenska språket?

Kelly-listan är en sammanställning av de 8 425 vanligaste orden i svenskan. Listan är sammanställd år 2010 av texter från webben på 114 miljoner ord.

Vilka som är de vanligaste orden beror egentligen på vilket material man tittar på. Vi har statistiktabeller för våra korpusmaterial som sammantaget kan ge en ganska god bild men i dagsläget har vi bara skriftspråkskorpusar. Våra statistiktabeller samt en förteckning över kolumnerna i de olika formaten finns här: https://spraakbanken.gu.se/verktyg/korp/korpusstatistik. Tabellen för samtliga korpusar är stor så se till att högerklicka på länken och välj 'spara som' istället för att öppna den i webbläsaren.

    Hur exporterar jag KWIC resultat i Excel?

    Längst ner till höger under träffarna syns en meny. En CSV ska sedan gå att öppna direkt med Excel.

    Hur fungerar Sparvs sammansättningsanalys?

    Sammansättningsanalysen fungerar på det här viset:

    Alla led i en sammansättning måste fylla följande krav:

    • Ett prefix (alla led förutom det sista räknas som prefix) måste finnas i saldo som sammansättningsform (c, ci eller cm) och dess ordklass får inte vara "ppa". Finns prefixet inte i saldo så måste det förekomma som ett separat ord i samma indatafil.
    • Ett suffix måste finnas i saldo som nomen/verb/adjektiv eller som suffix (ordklass slutar på "h") och saldoanalysen måste innehålla mer än bara "c", "ci", "cm" eller "sms". Dessutom måste msd-taggen av ordet vara kompatibel med saldoanalysen av suffixet. Finns suffixet inte i saldo så måste det ordet förekomma i indatafilen och vara taggat som nomen, verb eller adjektiv.
    • Ett suffix accepteras inte om det är med i undantagslistan (enstaka bokstäver och vanliga suffix som "het" etc.).

    Listan med alla valida sammansättningar av ett ord rankas sedan så här:

    • Sammansättningar med färre led rankas högre.
    • Sannolikheten av en sammansättning beräknas med följande formel:   
      • p((w1, tag1), ..., (wn, tag1)) = p(w1, tag1) · ... · p(wn, tagn) · p(tag1, ...tagn)
      • t.ex. p(clown+bil) = p(clown, NN) · p(bil, NN) · p(NN,NN)
    • p(w, tag) och p(tag, tag) beräknas med hjälp av olika statistikmodeller.

    Varför får vissa ord ingen grundform-annotation i Sparv?

    Att Sparv ibland inte lyckas ta fram grundform/lemgram/SALDO-ID beror på att Hunpostaggaren är tränad på SUC-taggar medan SALDO har en egen taggmängd. Sparv gör först ordklasstaggningen och kollar sedan upp om det finns en match i SALDO för att ta fram en grundform, ett lemgram och ett SALDO-ID. Ibland blir det ingen match eftersom indelningen i ordklasser fungerar inte på samma sätt i SUC och SALDO. Vi skulle kunna strunta i ordklassen och ta fram alla matchande ord från SALDO, men då skulle vi övergenerera en massa. "Smulorna" skulle då t.ex. få två lemgram: "smula..nn.1" och "smula..vb.1", och det vill vi inte.

    Här kommer några exempel:

    • "Vintern är förbi."
      • "förbi" taggas som partikel (SUC), men finns i SALDO som adjektiv och preposition.
    • "Det blir många."
      • "många" taggas som adjektiv men finns i SALDO som pronomen ("mången").
    • "Det finns många som tycker att det är bra."
      • "många" taggas som pronomen och matchar pronomen "mången..pn.1" i SALDO.
      • "som" taggas som frågande/relativt pronomen (SUC), men finns i SALDO som subjunktion eller adverb.
    • "Du är precis som jag."
      • "som" taggas som adverb och matchar därmed adverbet "som..ab.1" i SALDO.

    Hur refererar jag till resurser i en artikel?

    En referens till en resurs ska följa informationen i den nedladdningsbara resursen. Vi blir även glada om ni efteråt berättar för oss vad ni har använt resursen till, hur det gick, om det har resulterat i några skrifter och gärna en länk till dessa. 

    Hur får jag ut en bild av ett trenddiagram?

    I nuläget stödjer inte Korp bildexport, men du kan ta en skärmavbild/screenshot istället.

    Hur refererar jag till Korp i en artikel?

    Här är standardreferensen till Korp: Lars Borin, Markus Forsberg, Johan Roxendal (2012): Korp – the corpus infrastructure of Språkbanken, in Proceedings of LREC 2012. Istanbul: ELRA, volume Accepted, pages 474–478 BibTeX

    Hur skaffar jag ett konto i Korp/Karp/Strix?

    Konto i våra verktyg behövs enbart om man vill jobba med någon av våra skyddade resurser. Vill man ha tillgång till en skyddad resurs får man kontakta den som är ansvarig för just den resursen. I Korp hittar man kontaktinformation för skyddade korpusar när man håller muspekaren över korpusnamnet i korpusväljaren.

    Hur fungerar uppmärkningen av flerordsenheter i Sparv?

    Flerordsenheter annoteras med hjälp av lexikonet SALDO, som utöver enskilda ord även innehåller en stor mängd flerordsuttryck. Exempel på flerordsuttryck kan vara uttryck som "komma på tal", "beta av" eller "ta sig vatten över huvudet". Varje ord i flerordsenheten får samma analys som om det inte vore del av en flerordsenhet, plus analys för flerordsenheten. Så för "komma på tal" blir det:

    komma: komma|komma på tal
    på: på|komma på tal:1
    tal: tal|komma på tal:1
    

    Alla ord förutom det första i flerordsenheten får ett siffersuffix som pekar tillbaka på det första ordets ref-värde (positionen i meningen) för att visa att de hänger ihop.