Menu

Frequently asked questions

This page has not been translated into English. The content is shown in Swedish.
  1. Hur skaffar jag ett konto i Korp/Karp/Strix?
  2. Var hittar man mer information om korpusarna?
  3. Kan jag få fram statistik om en text jag har laddat upp i Sparv, t.ex. ordklassfördelning?
  4. Hur får man tillgång till skyddade korpusar som till exempel ESPC?
  5. Finns det någon möjlighet att få tillgång till icke-meningsomkastade versioner av korpusarna som Språkbanken tillhandahåller?
  6. Jag har tidigare använt fornsvensk lexikalisk databas men förstår att den inte längre uppdateras. Hur begränsar jag i Karp min sökning till bara uppslagsord (som väl kallas lemman)? Går det över huvudtaget?
  7. Hur får jag tillgång till SUC-korpusen?
  8. När jag öppnar Korp får jag bara en tom sida, ligger verktyget nere?
  9. Vilka är de vanligaste orden i svenska språket?
  10. Hur exporterar jag KWIC resultat i Excel?
  11. Hur fungerar Sparvs sammansättningsanalys?
  12. Varför får vissa ord ingen grundform-annotation i Sparv?
  13. Hur refererar jag till resurser i en artikel?
  14. Hur får jag ut en bild av ett trenddiagram?
  15. Hur refererar jag till Korp i en artikel?

1. Hur skaffar jag ett konto i Korp/Karp/Strix?

Konto i våra verktyg behövs enbart om man vill jobba med någon av våra skyddade resurser. Vill man ha tillgång till en skyddad resurs får man kontakta den som är ansvarig för just den resursen. I Korp hittar man kontaktinformation för skyddade korpusar när man håller muspekaren över korpusnamnet i korpusväljaren.

2. Var hittar man mer information om korpusarna?

Mer information om korpusarna finns här: https://spraakbanken.gu.se/resurser#corpora. Vissa korpusar saknar detaljerad information men vi jobbar på detta.

3. Kan jag få fram statistik om en text jag har laddat upp i Sparv, t.ex. ordklassfördelning?

Just nu är det tyvärr inte möjligt att få fram någon statistik för eget material.

4. Hur får man tillgång till skyddade korpusar som till exempel ESPC?

Hantering av åtkomst av skyddade korpusar sköts av olika personer, normalt den som har skapat korpusen. Om du håller muspekaren över namnet på den skyddade korpusen i menyn i Korp får du mer information om vem du ska kontakta.

5. Finns det någon möjlighet att få tillgång till icke-meningsomkastade versioner av korpusarna som Språkbanken tillhandahåller?

En stor del av våra korpusar är meningsomkastade, och dessa kan vi av rättighetsskäl tyvärr inte göra tillgängliga i versioner där meningarna kommer i rätt följd. Men det finns också flera korpusar som inte är meningsomkastade (många av dem historiska men också flera moderna). Det gäller t ex SUC (inklusive SUC-romaner), som har egen licens, och Wikipedia, Europarl, Svensk författningssamling, Statens offentliga utredningar, Talbanken och Svenska partiprogram och valmanifest (1887-2010).

6. Jag har tidigare använt fornsvensk lexikalisk databas men förstår att den inte längre uppdateras. Hur begränsar jag i Karp min sökning till bara uppslagsord (som väl kallas lemman)? Går det över huvudtaget?

Välj de fornsvenska lexikonen i lexikonväljaren högst upp på sidan (tryck på "26 lexikon valda" för att öppna den). Gå till fliken "Utökad sökning", där du kan specificera vad du vill söka efter. Genom att klicka på fältet där det står "ordklass" kan du välja att söka bara på ingångsorden ("ord i grundform") eller även på böjda former ("ord i ordformer"). Om det är ett helt ord du vill söka på, tex "hus", fyller du i det i textfältet efter "är lika med". Om du vill söka med ett reguljärt uttryck (t ex om du vill utelämna början eller slutet på ett ord) väljer du "matchar reguljära uttrycket" istället för "är lika med". Notera också att Karp använder ett annat uttrycksspråk för reguljära uttryck än Fornsvensk Lexikalisk Databas. Den mest grundläggande syntaxen är:

. ett godtyckligt tecken
* föregående tecken får upprepas 0 eller fler gånger

7. Hur får jag tillgång till SUC-korpusen?

SUC är tillgängligt för forskning men kräver att användaren tecknar en licens, mer information finns här: https://spraakbanken.gu.se/resurser/suc3.

Licensen täcker både version 2 och 3 av SUC, samt Svensk trädbank.

8. När jag öppnar Korp får jag bara en tom sida, ligger verktyget nere?

Du hittar Korp på: https://spraakbanken.gu.se/korp/. Om man får en tom sida kan det bero på att man använder en äldre version av webbläsare, försök att uppdatera din webbläsare och använd gärna till exempel Chrome eller Firefox.

9. Vilka är de vanligaste orden i svenska språket?

Vilka som är de vanligaste orden beror på vilket material man tittar på. Vi har statistiktabeller för våra korpusmaterial som sammantaget kan ge en ganska god bild men i dagsläget har vi bara skriftspråkskorpusar. Våra statistiktabeller finns här: https://spraakbanken.gu.se/verktyg/korp/korpusstatistik. Tabellen för samtliga korpusar är stor så se till att högerklicka på länken och välj 'spara som' istället för att öppna den i webbläsaren.

Kolumnerna i statistikfilerna är som följer:

  1. ordform
  2. ordklass (förteckning av taggarna finns här: http://spraakbanken.gu.se/korp/markup/msdtags.html)
  3. lemgram (vilka refererar till en viss grundform och böjningstabell)
  4. +/- som indikerar om en sammansättningsanalys har kunnat göras
  5. rå frekvens (totalt antal förekomster)
  6. relativ frekvens (antal förekomster per en miljon ord)

10. Hur exporterar jag KWIC resultat i Excel?

Längst ner till höger under träffarna syns en meny. En CSV ska sedan gå att öppna direkt med Excel.

11. Hur fungerar Sparvs sammansättningsanalys?

Sammansättningsanalysen fungerar på det här viset:

Alla led i en sammansättning måste fylla följande krav:

  • Ett prefix (alla led förutom det sista räknas som prefix) måste finnas i saldo som sammansättningsform (c, ci eller cm) och dess ordklass får inte vara "ppa". Finns prefixet inte i saldo så måste det förekomma som ett separat ord i samma indatafil.
  • Ett suffix måste finnas i saldo som nomen/verb/adjektiv eller som suffix (ordklass slutar på "h") och saldoanalysen måste innehålla mer än bara "c", "ci", "cm" eller "sms". Dessutom måste msd-taggen av ordet vara kompatibel med saldoanalysen av suffixet. Finns suffixet inte i saldo så måste det ordet förekomma i indatafilen och vara taggat som nomen, verb eller adjektiv.
  • Ett suffix accepteras inte om det är med i undantagslistan (enstaka bokstäver och vanliga suffix som "het" etc.).

Listan med alla valida sammansättningar av ett ord rankas sedan så här:

  • Sammansättningar med färre led rankas högre.
  • Sannolikheten av en sammansättning beräknas med följande formel:   
    • p((w1, tag1), ..., (wn, tag1)) = p(w1, tag1) · ... · p(wn, tagn) · p(tag1, ...tagn)
    • t.ex. p(clown+bil) = p(clown, NN) · p(bil, NN) · p(NN,NN)
  • p(w, tag) och p(tag, tag) beräknas med hjälp av olika statistikmodeller.

12. Varför får vissa ord ingen grundform-annotation i Sparv?

Att Sparv ibland inte lyckas ta fram grundform/lemgram/SALDO-ID beror på att Hunpostaggaren är tränad på SUC-taggar medan SALDO har en egen taggmängd. Sparv gör först ordklasstaggningen och kollar sedan upp om det finns en match i SALDO för att ta fram en grundform, ett lemgram och ett SALDO-ID. Ibland blir det ingen match eftersom indelningen i ordklasser fungerar inte på samma sätt i SUC och SALDO. Vi skulle kunna strunta i ordklassen och ta fram alla matchande ord från SALDO, men då skulle vi övergenerera en massa. "Smulorna" skulle då t.ex. få två lemgram: "smula..nn.1" och "smula..vb.1", och det vill vi inte.

Här kommer några exempel:

  • "Vintern är förbi."
    • "förbi" taggas som partikel (SUC), men finns i SALDO som adjektiv och preposition.
  • "Det blir många."
    • "många" taggas som adjektiv men finns i SALDO som pronomen ("mången").
  • "Det finns många som tycker att det är bra."
    • "många" taggas som pronomen och matchar pronomen "mången..pn.1" i SALDO.
    • "som" taggas som frågande/relativt pronomen (SUC), men finns i SALDO som subjunktion eller adverb.
  • "Du är precis som jag."
    • "som" taggas som adverb och matchar därmed adverbet "som..ab.1" i SALDO.

13. Hur refererar jag till resurser i en artikel?

En referens till en resurs ska följa informationen i den nedladdningsbara resursen. Vi blir även glada om ni efteråt berättar för oss vad ni har använt resursen till, hur det gick, om det har resulterat i några skrifter och gärna en länk till dessa. 

14. Hur får jag ut en bild av ett trenddiagram?

I nuläget stödjer inte Korp bildexport, men du kan ta en skärmavbild/screenshot istället.

15. Hur refererar jag till Korp i en artikel?

Här är standardreferensen till Korp:
Loading publication...