En fri molntjänst för OCR

Bakgrund

Projektet En fri molntjänst för OCR dnr 51-KB709-2012, finansieras av Kungliga Biblioteket från 1 september 2013 till 31augusti 2014. Det är ett samarbete mellan Universitetsbiblioteket och Språkbanken. Inom projektet vill vi ta ett första steg emot att skapa en nationell resurs för OCR (optisk teckentolkning) tolkning av tryckta texter, med tyngdpunkten på äldre tryck, särskilt fraktur som bygger på fria OCR program.

Projektbeskrivning

Syftet med projektet är lägga grunden för att bygga upp en tjänst för en öppen molnbaserad OCR-tjänst. Tjänsten ska kunna utnyttjas av svenska minnesinstitutioner för att ladda upp stora mängder med äldre texter, där det är svårt att få bra OCR-resultat med kommersiella lösningar, och få tillbaka bra OCR-lästa textfiler.

Vi har utvärderat två fria OCR-motorer som bygger på öppen källkod: OCRopus and Tesseract och har vidareutvecklat en av de, nämligen OCRopus. Baserad på OCRopus har vi tillgängliggjort en öppen webbtjänst för OCR-tolkning av svensk fraktur och antikva tryck. OCR-tjänsten och webb API:et är tillgängliga här. Mjukvaran som utvecklas i projektet och alla träningsdata för OCR-programmen är tillgängliga för nedladdning under öppna licensen CC-BY.

Instituter/organisationer

Språkbanken

Universitetsbliblioteket

Data resurser, modeller och verktyg

Material

Evalueringsskript

align.py

OCRopus tillägg

Blandade typsnitt modell

Tränade OCRopus teckenmodeller för svenska

Tränade Tesseract teckenmodeller för svenska

Post-processing

Publikationer

2016

Lars Borin, Gerlof Bouma, Dana Dannélls (2016): A free cloud service for OCR / En fri molntjänst för OCR