Det är möjligt att köra eget material genom Språkbankens korpusimportkedja, och att få det annoterat med alla de annoteringar som används för korpusarna i Korp. Resultatet får du i antingen ett tabbseparerat format eller XML.
Följande krav ställs på ditt textmaterial:
<text> ... </text>.Logga in på kark, och börja med att sätta följande miljövariabler:
export PATH=$PATH:/export/res/lb/korpus/tools/annotate/bin
export PYTHONPATH=$PYTHONPATH:/export/res/lb/korpus/tools/annotate/python
export SB_MODELS=/export/res/lb/korpus/tools/annotate/models
Förslagsvis skapar du sen en katalog under din hemkatalog, i vilken alla arbetsfiler kommer ligga. Navigera till denna katalog, och hämta sedan hem följande exempel-Makefile ur Subversion:
svn export https://svn.spraakdata.gu.se/sb-arkiv/material/Makefile.example Makefile
Därefter skapar du en underkatalog i vilken du lägger de XML-filer som utgör ditt textmaterial.
Det sista du måste göra är att redigera filen Makefile för att anpassa den efter ditt
material. I oredigerat tillstånd utgår den från att XML-filerna ligger i en
katalog med namnet "original", och att all text i dessa filer är omsluten av
<text> ... </text>. Detta ändras lätt genom att ändra värdena för "original_dir"
respektive "xml_elements" i makefilen.
För en beskrivning av alla inställningsmöjligheter som finns kan du hämta hem
följande version av makefilen, innehållande kommentarer till varje rad:
svn export https://svn.spraakdata.gu.se/sb-arkiv/material/Makefile.template
När du redigerat din Makefile är det färdigt för att köras. För att exportera till XML-format kör du kommandot
make export
vilket i slutändan leder till att du har det färdiga materialet i katalogen "export" (som skapas automatiskt). Vill du hellre använda det tabbseparerade formatet så kör du i stället
make vrt
och dessa vrt-filer hamnar då i katalogen "annotations" tillsammans med alla andra arbetsfiler.
Om du lägger till eller tar bort källfiler efter en körning och vill köra om, så måste du rensa bort de tidigare arbetsfilerna. Detta gör du med kommandot
make distclean