Transkribus

Maschinelles Lernen erfordert die vergleichende Analyse von Daten in möglichst großer Menge und hoher Qualität.
Die automatische Erkennung gedruckter Texte (OCR) hat sich auf dieser Grundlage in den letzten Jahren deutlich verbessert. Das maschinelle Lesen von Handschriften (HCR) steckt allerdings noch in den Kinderschuhen. Es mangelt an Trainingsdaten in Form von korrekten Transkriptionen mit dazugehörigen Bildausschnitten einzelner Zeilen und Begriffe.
Im Rahmen von Quelleneditionen und Erschließungsprojekten werden größere Textkorpora transkribiert. Heterogene handschriftliche Dokumente sind u.a. Gegenstand von Paläographie-Kursen oder individueller lokal- und familiengeschichtlicher Studien. Die Plattform Transkribus soll solche für die Weiterentwicklung der HCR benötigten Dateien und Daten sammeln und daraus Texterkennungs-Modelle für einzelne Sprachen und vergleichbare Schreibstile generieren.
Darüber hinaus bietet die Plattform viele nützliche Funktionen für das Lesen und Bearbeiten verschiedenster Dokumente. Unsere Fotostrecke stellt einige davon vor.