Mer information om korpusarna finns här: https://spraakbanken.gu.se/resurser#corpora. Vissa korpusar saknar detaljerad information men vi jobbar på detta.
Mer information om korpusarna finns här: https://spraakbanken.gu.se/resurser#corpora. Vissa korpusar saknar detaljerad information men vi jobbar på detta.
Just nu är det tyvärr inte möjligt att få fram någon statistik för eget material.
Hantering av åtkomst av skyddade korpusar sköts av olika personer, normalt den som har skapat korpusen. Om du håller muspekaren över namnet på den skyddade korpusen i menyn i Korp får du mer information om vem du ska kontakta.
En stor del av våra korpusar är meningsomkastade, och dessa kan vi av rättighetsskäl tyvärr inte göra tillgängliga i versioner där meningarna kommer i rätt följd. Men det finns också flera korpusar som inte är meningsomkastade (många av dem historiska men också flera moderna). Det gäller t. ex. följande:
Välj de fornsvenska lexikonen i lexikonväljaren högst upp på sidan (tryck på "26 lexikon valda" för att öppna den). Gå till fliken "Utökad sökning", där du kan specificera vad du vill söka efter. Genom att klicka på fältet där det står "ordklass" kan du välja att söka bara på ingångsorden ("ord i grundform") eller även på böjda former ("ord i ordformer"). Om det är ett helt ord du vill söka på, tex "hus", fyller du i det i textfältet efter "är lika med". Om du vill söka med ett reguljärt uttryck (t ex om du vill utelämna början eller slutet på ett ord) väljer du "matchar reguljära uttrycket" istället för "är lika med". Notera också att Karp använder ett annat uttrycksspråk för reguljära uttryck än Fornsvensk Lexikalisk Databas. Den mest grundläggande syntaxen är:
.
ett godtyckligt tecken*
föregående tecken får upprepas 0 eller fler gånger
SUC är tillgängligt för forskning men kräver att användaren tecknar en licens, mer information finns här: https://spraakbanken.gu.se/resurser/suc3.
Licensen täcker både version 2 och 3 av SUC, samt Svensk trädbank.
Du hittar Korp på: https://spraakbanken.gu.se/korp/. Om man får en tom sida kan det bero på att man använder en äldre version av webbläsare, försök att uppdatera din webbläsare och använd gärna till exempel Chrome eller Firefox.
Kelly-listan är en sammanställning av de 8 425 vanligaste orden i svenskan. Listan är sammanställd år 2010 av texter från webben på 114 miljoner ord.
Vilka som är de vanligaste orden beror egentligen på vilket material man tittar på. Vi har statistiktabeller för våra korpusmaterial som sammantaget kan ge en ganska god bild men i dagsläget har vi bara skriftspråkskorpusar. Våra statistiktabeller samt en förteckning över kolumnerna i de olika formaten finns här: https://spraakbanken.gu.se/verktyg/korp/korpusstatistik. Tabellen för samtliga korpusar är stor så se till att högerklicka på länken och välj 'spara som' istället för att öppna den i webbläsaren.
Längst ner till höger under träffarna syns en meny. En CSV ska sedan gå att öppna direkt med Excel.
Sammansättningsanalysen fungerar på det här viset:
Alla led i en sammansättning måste fylla följande krav:
Listan med alla valida sammansättningar av ett ord rankas sedan så här:
Att Sparv ibland inte lyckas ta fram grundform/lemgram/SALDO-ID beror på att Hunpostaggaren är tränad på SUC-taggar medan SALDO har en egen taggmängd. Sparv gör först ordklasstaggningen och kollar sedan upp om det finns en match i SALDO för att ta fram en grundform, ett lemgram och ett SALDO-ID. Ibland blir det ingen match eftersom indelningen i ordklasser fungerar inte på samma sätt i SUC och SALDO. Vi skulle kunna strunta i ordklassen och ta fram alla matchande ord från SALDO, men då skulle vi övergenerera en massa. "Smulorna" skulle då t.ex. få två lemgram: "smula..nn.1" och "smula..vb.1", och det vill vi inte.
Här kommer några exempel:
En referens till en resurs ska följa informationen i den nedladdningsbara resursen. Vi blir även glada om ni efteråt berättar för oss vad ni har använt resursen till, hur det gick, om det har resulterat i några skrifter och gärna en länk till dessa.
I nuläget stödjer inte Korp bildexport, men du kan ta en skärmavbild/screenshot istället.
Konto i våra verktyg behövs enbart om man vill jobba med någon av våra skyddade resurser. Vill man ha tillgång till en skyddad resurs får man kontakta den som är ansvarig för just den resursen. I Korp hittar man kontaktinformation för skyddade korpusar när man håller muspekaren över korpusnamnet i korpusväljaren.
Flerordsenheter annoteras med hjälp av lexikonet SALDO, som utöver enskilda ord även innehåller en stor mängd flerordsuttryck. Exempel på flerordsuttryck kan vara uttryck som "komma på tal", "beta av" eller "ta sig vatten över huvudet". Varje ord i flerordsenheten får samma analys som om det inte vore del av en flerordsenhet, plus analys för flerordsenheten. Så för "komma på tal" blir det:
komma: komma|komma på tal
på: på|komma på tal:1
tal: tal|komma på tal:1
Alla ord förutom det första i flerordsenheten får ett siffersuffix som pekar tillbaka på det första ordets ref-värde (positionen i meningen) för att visa att de hänger ihop.