Bibliotheken und Archive im Verbund mit der Forschung: Digitalisierung der sogenannten "Alten Folgen" der "Statistik des Deutschen Reichs" aus den Jahren 1873 - 1883 und Realisierung eines Downloads zur Weiterverarbeitung der dort enthaltenen statistischen Tabellen in Tabellenkalkulations- und Statistikprogrammen

Subject Area Statistics and Econometrics
Economic and Social History

Term from 2010 to 2014

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 161674477

Final Report Year 2013

Final Report Abstract

Die „Digitale Aufbereitung der Statistik des Deutschen Reichs (1873-1883)“ verfolgte das Ziel, bislang nur in gedruckter Form vorliegendes statistisches Material nach den Prinzipien des Open Access im Internet anzubieten. Dabei sollten die Statistiken sowohl als Bilddateien als auch in einer für Tabellenkalkulationsprogramme verarbeitbaren Form nutzbar sein. Ein hierfür geeignetes Verfahren wurde anhand der sogenannten „Alten Folge“ der „Statistik des Deutschen Reichs“ prototypisch entwickelt und in der Praxis erprobt. Prototypisch ist insbesondere, dass jede in der „Reichsstatistik“ enthaltene Tabelle, deren Umfang größer als eine halbe Druckseite ist, von den Nutzerinnen und Nutzern komfortabel heruntergeladen und für eigene Berechnungen genutzt werden kann. Durch das Projekt wurde darüber hinaus die Zugänglichkeit der Statistik des Deutschen Reichs wesentlich vereinfacht, indem Recherchen in den Inhaltsverzeichnissen ermöglicht und die Inhalte zusätzlich über ein thematisch geordnetes Register erschlossen wurden. Für tabellarische Quellen mit der bei der „Reichsstatistik“ gegebenen Komplexität ist geeignete OCR-Technologie leider nicht verfügbar. Um aus den gescannten Bildern bzw. den in der „Reichsstatistik“ enthaltenen Tabellen digitale/elektronische Tabellen erstellen zu können, mussten daher die Tabellen zunächst durch doppelt-manuelle Erfassung und Aufbereitung in eine für Maschinen lesbare Form gebracht und dann automatisiert in die Zielformate HTML und XLS (MS-Excel) überführt werden. Die doppelte manuelle Erfassung und XML-Kodierung der „Statistik des Deutschen Reichs“ sowie die Entwicklung von TEI- Stylesheets für die o.g. Zielformate wurden dabei vom Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften an der Universität Trier durchgeführt. Mit Hilfe der entwickelten bzw. adaptierten TEI-Stylesheets konnten die TEI-kodierten Tabellen mittels XSL-Transformation in die Formate HTML und EXCEL überführt werden. Die Projektergebnisse sind über die Projekthomepage frei zugänglich. Auf der Grundlage der Open Source Software VuFind, eines von der Villanova University’s Falvey Memorial Library entwickelten Discovery Systems, wurde eine Such- und Präsentationsumgebung geschaffen, die sowohl einen Zugriff auf die Bände der „Reichsstatistik“ als auch ein komfortables Download einzelner Tabellen aus der „Reichsstatistik“ erlaubt. Damit erfüllen die Projektergebnisse alle Anforderungen der sozial- und wirtschaftshistorischen Forschung, indem sowohl die ursprüngliche Gestaltung der Tabellen präsentiert als auch die einfache Nutzung der statistischen Daten ermöglicht wurde. Das Projekt hat gezeigt, dass retrospektiv digitalisierte historische Statistiken mit vorhandenen Technologien in einer Art und Weise aufbereitet werden können, die eine einfache Weiterverarbeitung von Tabellen in der jeweiligen Arbeitsumgebung der Nutzerinnen und Nutzer ermöglicht. Durch die Volltexterfassung und TEI-Auszeichnung der digitalisierten Tabellen können mittels XSLT und entsprechenden TEI-Stylesheets Dateien in Formaten erzeugt werden, die für Tabellenkalkulations- bzw. Statistikprogramme verarbeitbar sind. Exemplarisch gezeigt wurde dies anhand der Zielformate HTML und MS-Excel. Bei entsprechender Entwicklung weiterer TEI-Stylesheets könnten mit derselben Methode auch andere Zielformate, z. B. für Statistikprogramme wie STATA, R oder SPSS, bedient werden. Die Anwendung dieser Methode in größerem Rahmen auf Statistiken ähnlicher Komplexität wie die der „Reichsstatistik“ ist allerdings aus Kostengründen aktuell nicht realistisch. Wesentliche Kostentreiber sind die doppelt-manuelle Erfassung sowie die TEI-Auszeichnung der Tabellen. Aufgrund der teilweise sehr komplexen Tabellenstrukturen historischer Statistiken kann die Volltexterfassung zurzeit nicht automatisch mittels OCR erfolgen.

Publications

„Von der Sammlung gedruckter Statistiken zum Datenrepository – Wie sich das Forschungsdatenmanagement in der ZBW verändert und welche Rolle die Wissenschaft dabei spielt“, RatSWD Working Paper Series Nr. 172
Olaf Siegert und Ralf Toepfer
“Turning historical statistics into research data – a case study from Germany“. LIBER 2011
Ralf Toepfer
„Von der Sammlung gedruckter Statistiken zum Datenrepository“. Bibliothekartag 2011
Ralf Toepfer
“Digitale Aufbereitung der Statistik des Deutschen Reichs”, Bibliothekartag 22-25. Mai 2012, Hamburg
Ralf Toepfer

Servicenavigation

Hauptnavigation

Final Report Abstract

Publications

Additional Information

Servicenavigation

Hauptnavigation

Final Report Abstract

Publications

Additional Information

Textvergrößerung und Kontrastanpassung