The Making of the Royal Society Corpus

Jörg Knappen
Sprachwissenschaft und Sprachtechnologie, Universität des Saarlandes, Germany

Stefan Fischer
Sprachwissenschaft und Sprachtechnologie, Universität des Saarlandes, Germany

Hannah Kermes
Sprachwissenschaft und Sprachtechnologie, Universität des Saarlandes, Germany

Elke Teich
Sprachwissenschaft und Sprachtechnologie, Universität des Saarlandes, Germany

Peter Fankhauser
Institut für Deutsche Sprache (IDS), Germany

Ingår i: Proceedings of the NoDaLiDa 2017 Workshop on Processing Historical Language

Linköping Electronic Conference Proceedings 133:3, s. 7-11

NEALT Proceedings Series 32:3, s. 7-11

Publicerad: 2017-05-10

ISBN: 978-91-7685-503-4

ISSN: 1650-3686 (tryckt), 1650-3740 (online)


The Royal Society Corpus is a corpus of Early and Late modern English built in an agile process covering publications of the Royal Society of London from 1665 to 1869 (Kermes et al., 2016) with a size of approximately 30 million words. In this paper we will provide details on two aspects of the building process namely the mining of patterns for OCR correction and the improvement and evaluation of part-of-speech tagging.


