Detta är en användarhandledning för korpussökningsverktyget Korp. Prova gärna att besöka sidan och göra ett par testsökningar innan du läser vidare, så att du får en bild av hur gränssnittet ser ut.
Det finns även ett par övningsuppgifter som du kan ladda hem här och här.
Materialet i Korp är uppdelat i ett antal olika "lägen". När du först kommer till Korp visas läget med modernt svenskt material, från 1900-talet och framåt. Överst på sidan, ovanför logotypen, finns det länkar till de andra lägena, med bland annat 1800-talsmaterial och parallellt material. Funktionaliteten mellan dessa olika lägen kan skilja något, och nedanstående beskrivning gäller främst det moderna materialet.
Till höger om Korp-logotypen finns korpusväljaren. Det är med hjälp av den man väljer vilka material man är intresserad av att söka i. Korpusarna ligger sorterade i kategorier, och man väljer eller väljer bort korpusar genom att kryssa i eller ur rutan framför varje korpusnamn. När man för muspekaren över en korpus får man även fram information om den, bland annat dess storlek i antal token och antal meningar.
Ovanför korpusarna finns det en tidslinje med staplar, som ger en överblick över materialets fördelning över tid. Markerade korpusar syns som blå staplar, medan ej markerade syns som grå. Allt material innehåller inte information om tid, och därför finns det längst till höger även en röd stapel, som representerar allt odaterat material.
Gränssnittet i Korp är uppdelat i två huvudsakliga delar: en övre del i vilken sökningar utförs, samt en nedre del där sökresultaten presenteras. Sökdelen är i sin tur uppdelad i tre olika versioner: enkel, utökad och avancerad, som var och en låter en utföra sökningar men med olika grad av komplexitet. Fliken Enkel är den simplaste, där endast enkla sökningar på ord eller fraser går att utföra, medan Utökad innehåller verktyg för att bygga ihop mer komplicerade frågor. Avancerad ger en ytterligare möjligheter men kräver att man är insatt i det frågespråk som används.
I en enkel sökning kan du söka på antingen ett ord, flera ord, eller ett lemgram. Ett lemgram är ett ords eller ett flerordsuttrycks samtliga böjningsformer, och gör det möjligt att i en och samma sökning söka efter både "katt", "katter", "katterna" och så vidare.
För att göra en vanlig ordsökning skriver man ordet eller orden i sökfältet och trycker på Sök-knappen eller Enter-tangenten på tangentbordet. Om man i stället för att direkt trycka på Sök väntar lite efter att man har skrivit ett komplett ord, så kommer det upp en lista under sökfältet över lemgram i vilka det inmatade ordet är en ordform. För att göra en lemgramsökning väljer man ett av dessa med piltangenterna på tangentbordet och trycker Enter.
Relaterade ord
När en sökning har utförts dyker det upp en blå ruta under sökfältet, i vilket relaterade ord visas. Genom att klicka på dem kan man utföra nya lemgramsökningar.
Förled och efterled
Bredvid sökknappen finns det två kryssrutor, som utökar ens sökning till att även inkludera ord där det sökta ordet eller orden förekommer som del av ett annat ord.
Vid vanlig ordsökning betyder detta helt enkelt att man söker på ord som börjar eller slutar med en viss teckensekvens. Vid lemgramsökning används i stället en sammansättningsanalys
som varje ord genomgått.
Skiftlägesoberoende sökning
Utöver kryssrutorna för förled och efterled så finns det även en kryssruta för skiftlägesoberoende sökning. Om denna är
ikryssad innebär det att om man söker på till exempel "katt", så kommer man även att få träffar som "KATT" och "Katt". Det görs
alltså ingen skillnad på stora och små bokstäver. Detta har ingen effekt vid en lemgramsökning, eftersom de alltid är skiftlägesoberoende.
Utökad-fliken låter en bygga ihop mer avancerade sökuttryck. Varje grå "låda" motsvarar en token, och för varje token kan man uppge ett eller flera kriterier. För att lägga till en till token använder man +-knappen till höger, och för att ta bort en token använder man x-knappen i övre högra hörnet på varje token (endast synlig om mer än en token finns). Man kan även byta ordning på befintliga token genom att med musen klicka och dra dem till önskad plats.
För att definiera sökkriterier för en token väljer man först det attribut man vill söka inom i listan. Som standard söker man på ord, men här går även att välja ordklass, lemgram med mera. Till höger om listan med attribut finns det en till lista, där man kan ändra från "är" till "är inte", om man vill skapa negationer. För vissa attribut är det även möjligt att här välja "börjar med", "slutar med", "innehåller", eller att man vill använda reguljära uttryck.
I textfältet under skriver man sen in önskat värde för attributet. För vissa attribut finns det i stället för ett textfält en lista över värden man kan välja mellan, och för vissa fält (grundform, lemgram och saldo) måste man välja ett värde ur en lista som kommer upp efter att man har börjat skriva i textfältet.
Till höger om varje textfält finns det en liten symbol: "Aa". Genom att klicka på den kan man stänga av eller sätta på skiftlägesberoende för just det fältet. Som standard är sökningen skiftlägesberoende, det vill säga att man gör skillnad på stora och små bokstäver. En sak att tänka på är att skiftlägesoberoende sökning går betydligt långsammare.
Om man har valt "ord" men lämnar textfältet tomt, så motsvarar det Vilket ord som helst, vilket alltså matchar godtycklig token.
För varje token är det möjligt att uppge flera kriterier, på formen (A eller B eller C) och (E eller F) och .... Den ljusa rutan inom den grå representerar en grupp med eller-kriterier, och för att lägga till ett nytt trycker man på "eller" nere i högra hörnet. För att lägga till ett och samt en ny eller-grupp trycker man på plus-knappen i nedre vänstra hörnet.
Upprepning, meningsbörjan och meningsslut
Längst ner i högra hörnet på varje token finns det en knapp med ett kugghjul. Klickar man på denna får man upp en liten meny
med ytterligare kriterier. Det första av dessa, Upprepa, låter en uppge att aktuell token får upprepas ett visst antal gånger.
En token med till exempel Vilket ord som helst och 1 till 3 gånger tillåter en "lucka" i ens sökuttryck på minst ett och max tre token.
De två andra kriterierna är Meningsbörjan och Meningsslut, som anger att aktuell token ska vara antingen först eller sist
i meningen.
Sök över meningsgränser
Som standard utförs alla sökningar inom meningsgränserna, vilket betyder att du aldrig kommer att få en
träff som sträcker sig utanför en mening. För vissa korpusar finns det dock möjlighet att i stället tillåta träffar som spänner
över en större mängd text, till exempel ett stycke, vilket gör det möjligt att söka över meningsgränser.
Alternativet för att aktivera detta hittar du precis till höger om Sök-knappen vid Utökad sökning. Om den eller de korpusar man har valt inte stöder utökad kontext, så kommer det här inte gå att välja något annat än "mening". Har man däremot valt minst en korpus som tillåter utökad kontext så kommer man kunna välja det i listan. Om bara en del av de valda korpusarna har detta stöd så kommer det stå något i stil med "upp till stycke". Detta innebär att sökningen kommer ske inom styckesgränsen för de korpusar som stöder det, och största möjliga kontext som är mindre än ett stycke, för de som inte stöder det, vilket i de flesta fall kommer vara en mening.
Parallellsökning
Vissa av korpusarna i Korp är så kallade parallellkorpusar, som består av två versioner av samma text som är länkade sinsemellan
på meningsnivå. Oftast rör det sig om texter på två olika språk. Sökresultatet från en sådan korpus kommer bestå av
par av meningar, en för varje version av texten. För att kunna utföra parallellsökningar måste man först växla till det
parallella läget i Korp, via länken "Parallella" högst upp på sidan.
Parallellsökning går enbart att utföra med Utökad sökning. Detta fungerar till största del som en vanlig sökning, med skillnaden att man nu har möjlighet att välja vilken eller vilka av språkversionerna man vill söka i. Detta görs i en språkmeny ovanför första tokenrutan. Det går även att söka parallellt i båda språken genom att trycka på knappen "Fler språk" nere vid Sök-knappen. Detta lägger till en extra rad med token, i vilken du kan ange sökkriterier för det andra språket. En sökning gjord på detta vis betyder att dina sökkriterier måste uppfyllas av båda språken i varje meningspar för att en träff ska hittas. Du kan till exempel med en svensk-engelsk översättningskorpus söka efter länkade par där "älg" på svenska har översatts till "elk" på engelska, snarare än "moose".
Oavsett om man använder Enkel eller Utökad sökning så omvandlas ens fråga till ett uttryck i frågespråket CQP Query Language. På fliken Avancerad kan man både se hur det skapade uttrycket ser ut, och redigera detta om man vill konstruera mer avancerade frågor än vad som är möjligt i en Utökad-sökning. Observera att ändringar man gör på Avancerat-fliken inte kommer överföras till Utökad.
För att läsa mer om CQP Query Language, kan du läsa här.
Oavsett vilken version av sökgränssnittet man använder så finns det en rad med visningsalternativ, placerade längst ner i en rand under sökfälten. Här kan man ställa in olika visningsalternativ för sökresultatet. För KWIC:en kan man välja antalet träffar per sida, samt sorteringsordning. Sorteringen kan ske antingen efter höger- eller vänsterkontext, eller på själva träffen i sig. Sorteringen sker enbart inom varje korpus. För statistiken går det att välja vilket attribut statistiken ska sammanställas på.
Resultatvyn, som visas först efter att en sökning har utförts, är även den uppdelad i tre olika avdelningar: KWIC, Statistik samt Ordbild.
KWIC, som står för "keyword in context", visar det sökta ordet eller orden i sin kontext, vanligtvis en mening. Sökresultaten, om de är många, är uppdelade på ett antal sidor, och för att bläddra mellan sidorna använder man Föregående- och Nästa-knapparna, alternativt tangenterna f respektive n på tangentbordet.
Förutsatt att man har sökt i mer än en korpus kommer det till höger om texten som anger hur många träffar sökningen gav finns det en färgad remsa. Denna visar med alternerande färger storleksförhållandet mellan träffmängden i de olika korpusarna, och genom att föra musen över dem ser man vilken korpus varje bit representerar. För att snabbt komma till den träffsida där träffarna från en viss korpus börjar, klickar man på önskad korpus i denna remsa.
Sökträffarna är grupperade efter korpus, och vilken korpus de efterföljande träffarna kommer från står skrivet med liten text ovanför.
Större kontext
I vissa korpusar är det möjligt att få se en större kontext än bara en mening. Vanligtvis rör det sig om hela stycken. För att visa eventuell större
kontext, klicka på länken "Via kontextläge" till höger om sidbläddraren. Detta växlar till en alternativ träffsida, där större kontext visas i de fall
det är möjligt, och varje träffrad dessutom är radbruten för enklare läsning. I övrigt fungerar kontextläget precis som det vanliga KWIC-läget.
Sidopanelen
Genom att klicka på token i KWICen kan man markera ord, och när ett ord har markerats visas till höger en sidopanel. Denna sidopanel
innehåller både information om det markerade ordet (under rubriken Ordattribut), och eventuellt också den mening eller större text som ordet ingår i (Textattribut).
Ordattributen är information som ordklass, grundform, sammansättningsanalys med mera, medan textattributen kan vara författare, utgivninsår och liknande.
Vissa attribut är klickbara. Klickar man på attributet lemgram, så utförs en ny sökning på det lemgrammet. Klickar man på saldoattributet öppnas en ny flik i webbläsaren som tar en till Karp, Språkbankens sökgränssnitt för lexikala resurser.
När ett ord är markerat markeras även dess syntaktiska huvud i samma mening, med en ljusröd bakgrund.
Statistik-fliken visar en tabell där varje kolumn motsvarar en korpus, och raderna utgörs av de olika värden som sökningen matchat. Som standard sammanställs statistiken på ordformer, och vid en enkel sökning på endast ett ord kommer det därför bara finnas en rad, medan en sökning på ett lemgram i stället ger en rad per ordform som förekommer i materialet. Bland visningsalternativen kan man välja att sammanställa statistiken på andra attribut än ordform, till exempel ordklass eller något textattribut, samt om sammanställningen ska vara skiftlägesberoende eller ej.
Genom att klicka på textsträngen för varje rad, söker man fram de meningar där just den strängen eller attributet förekommer.
Tabellens celler visar antalet förekomster i varje korpus, både i absoluta och relativa tal. De relativa visar antal träffar per miljoner token. Genom att klicka på kolumnernas rubriker kan man sortera tabellen i stigande eller fallande ordning efter vald kolumn.
Om träffar förekommer i mer än en korpus finns det längst till vänster en liten ikon, som öppnar ett cirkeldiagram där man kan se fördelningen av träffarna i de olika korpusarna. Här kan man också växla mellan att visa diagram för absoluta eller relativa tal.
Längst ner på sidan, under tabellen, finns möjligheten att exportera statistiktabellen i olika format för nerladdning.
Ordbildsfliken är endast aktiv då man från Enkel sökning har sökt på ett ensamt ord eller ett lemgram. Här visas det sökta ordet tillsammans med ord som det har olika syntaktiska relationer till i materialet, grupperat efter relation. För ett verb visas till exempel vanliga subjekt och objekt, och för ett substantiv visas vanliga attribut, och vanliga verb som substantivet är subjekt och objekt till.
Endast 15 ord visas för varje relation, och siffran intill varje ord uppger hur många gånger just den relationen finns i det valda materialet. Listorna är ordnade efter ett Lexicographer's Mutual Information-värde.
Genom att klicka på den lilla ikonen intill varje ord kan man få fram en ny KWIC-flik med alla de meningar i vilka vald relation förekommer.