Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

OpenEDGeS

Citering Information

Coussé, Evie, Dijkstra, Trude, & van der Sijs, Nicoline (2024). OpenEDGeS (uppdaterad: 2024-01-25). [Data set]. Språkbanken Text. https://doi.org/10.23695/fhat-dd64
BibTeX Ytterligare sätt att citera datamängden.
En delmängd av korpusen EDGeS Diachronic Bible Corpus, som tillhandahålls under en publik licens. EDGeS är en diakron och synkron parallelkorpus med bibelöversättningar från 1300-talet till nutid.

EDGeS Diachronic Bible Corpus är en korpus med parallelltexter i den diakrona såväl som den synkrona dimensionen. EDGeS innehåller bibelöversättningar på engelska, nederländska, svenska och tyska, från 1300-talet till idag. De 36 biblar som samlades valdes ut enligt följande önskelista: a) de ska vara första upplagor av kompletta översättningar och inte moderniserade upplagor, och b) de ska vara översättningar i snäv bemärkelse, inte parafraser, harmonier, osv. Dessutom c) måste de har lämnat avtryck, till exempel genom stor spridning. Till slut d) måste texterna finnas i elektronisk form, och länken till (det tryckta) originalet måste gå att följa. Dokumentationen och publikationen som beskriver EDGeS ger mer information om i vilken mån vi har lyckas uppnå dessa ideal för de valda bibelöversättningarna.

För alla biblar i korpusen finns iallafall Nya testamentet med, och för de flesta finns också Gamla testamentet. En mindre mängd biblar kommer med apokryfer.

Parallelltexterna har delats upp i bok-kapittel-vers enheter, och linjerats automatiskt på versnivå, där den nutida nederländska översättningen Nieuwe Bijbelvertaling fungerar som mellantext (pivå).

OpenEDGeS är den öppna delmängden av EDGeS som distribueras med en publik licens. OpenEDGeS omfattar 31 historiska bibelöversättningar.

Annotation

The parallel texts are supplied in two formats: a) as text files that contain a complete bible each, one verse per line, without headings or verse numbers, and b) as a collection of TSV files, one file per Bible book, which include headings and book-chapter-verse (BCV) identifiers. Alignment information is supplied in TSV files, with each line listing aligned BCV identifiers. To solve the problem of different Bibles organising the text in different ways, we created a number of virtual Bible books for a subset of the Bibles, before aligning verses. These virtual books reorganize individual books to follow the divisions of the pivot Nieuwe Bijbelvertaling. These virtual books are an additional annotation and the link to the original division is completely transparent. They are supplied in the archive to facilitate future alignment endeavours, and are formatted as TSV files.

Referenser

  • Gerlof Bouma, Evie Coussé, Trude Dijkstra, Nicoline van der Sijs (2020): The EDGeS Diachronic Bible Corpus, in Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), May 11-16, 2020, Marseille, France BibTeX

Ladda ned

Fil Storlek Modifierad Licens
OpenEDGeS_v1.01.zip
OpenEDGeS_v1.01.zip (zip)
121.17 MB 2024-01-25 CC BY-NC-SA 4.0
attribution, non-commercial, share-alike
72.89 MB 2024-01-25 For license details of the previous versions, see the 'Read me.txt' file in the download.

Typ

  • Korpus

Språk

svenska
engelska
tyska
nederländska

Storlek

Token: 19 399 149

Nyckelord

  • Bible text
  • parallel
  • historical
  • English
  • Swedish
  • Dutch
  • German

Skapad av

  • Coussé, Evie
  • Dijkstra, Trude
  • van der Sijs, Nicoline

Updaterad

2024-01-25

Kontakt

Språkbanken
sb-info@svenska.gu.se