Digitalisierte Drucke auf e-rara werden seit Jahren mit OCR bearbeitet. Dabei gehen wir chronologisch immer weiter zurück und stossen mit der bisherigen Lösung an technische Grenzen. Das im Frühjahr beschaffte Modul Textlab ermöglicht es nun, unterschiedliche OCR-Tools zu verwenden und damit für fast jeden Druck eine passende Volltext-Lösung zu finden.
Hochwertige Volltexte bilden die Basis für den zweiten Anwendungsbereich von Textlab: Named Entity Recognition (NER) und Named Entity Linking (NEL). Oliver Ammann (ASD) erläutert, wie Textlab für e-rara eingesetzt wird, zeigt Beispiele und gibt einen Ausblick auf mögliche Projekte.
Bibliothek aktuell findet am Dienstag, 1. Oktober 2024 von 13.00 bis 13.30 Uhr in hybrider Form statt.
Vor Ort: Sitzungszimmer HG J 31.5
oder
per Zoom:https://ethz.zoom.us/j/63596464297
Alle Mitarbeitenden sind herzlich eingeladen, an der Vortragsreihe teilzunehmen. Die Aufzeichnung steht ca. 10 Tage nach der Durchführung wie gewohnt unter „Aufzeichnungen“ zur Verfügung.
Bibliothek aktuell – die Veranstaltungsreihe für Mitarbeitende von Mitarbeitenden
Schreibe einen Kommentar