Detailseite
Projekt Druckansicht

Sanskrit Lexical Sources, Digital Synthesis and Revision

Antragsteller Dr. Thomas Malten
Fachliche Zuordnung Angewandte Sprachwissenschaften, Computerlinguistik
Förderung Förderung von 2010 bis 2014
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 173047245
 
Erstellungsjahr 2015

Zusammenfassung der Projektergebnisse

In Zusammenarbeit mit dem amerikanischen Projekt-Partner, Peter Scharf, Universität Brown/MUMRI entsteht durch Volltextdigitalisierung aller bisher gedruckten Sanskritwörterbücher eine Datenbank, die die seit Beginn der zweisprachigen Sanskrit-Lexikographie im frühen 19. Jahrhundert verzeichneten Wörter aufnimmt, zudem die unterschiedlichen Wörterbuchformate vereinheitlicht und damit erst eine kontrollierte, dezentrale Erweiterung des Wortbestandes ermöglicht. Der Gesamtumfang des digitalisierten Wörterbuchmaterials kann auf etwa 320-350 Megabyte geschätzt werden. Davon wurden von 1995 bis 2010 ca. 100 MB an Digitalisaten produziert, unter anderem in Projekten, die vom Rektorat der Universität und der EU (ECCP) gefördert wurden. Wichtig war dabei immer die Integration der Bild- und Textdateien, um so einen Zugriff auf die Originalwerke zu gewährleisten. Ziel des Projekts ist die Integration aller Sanskrit-Wörterbücher, die Entwicklung von Bearbeitungswerkzeugen und Automatisierungstechniken als Vorarbeit zur Verknüpfung des so entstandenen Gesamtlexikons mit dem Textkorpus. Aufgabe des deutschen Projektpartners war: 1. Produktion und Organisation der Bilddateien aller aufgenommenen Wörterbuchseiten als integraler Bestandteil der Datenbank. 2. Eingabe der vollständigen Wörterbuchtexte: Die Eingabe der Daten erfolgte nach Vorgaben und Methoden, die im Laufe vorangegangener Wörterbuch-Projekte seit 1995 für die Volltextdigitalisierung von gedruckten Sanskritwerken entwickelt wurden. Eingabe und Überprüfung der Daten sowie Auszeichnung des Formats, die eine direkte Überführung der Textdateien in validierte XML-Dateien ermöglichen, sind Hauptbestandteil des Kölner Teilprojekts im Rahmen des Gesamtprojektes. 3. Langfristige Sicherung und Verfügbarkeit der Daten: Nach der Umwandlung in eine XML-Datei wurden diese in MySQL-Datenbanken des Servers der Universität Köln eingelesen, womit unter anderem eine Wörterbuchabfrage ermöglicht wird; dazu werden die Dateien auch als download bereitgestellt. Damit stehen alle Wörterbücher, einschließlich der Bilddateien, in verschiedenen Formaten zur freien Verfügung. Notwendige Abweichungen von der ursprünglichenProjektplanung gab es im Bereich der für die Digitalisierung ausgewählten Werke. Die gesamten Daten stehen auf www.sanskrit-lexicon.uni-koeln.de langfristig zur Verfügung.

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung