Das ETH Data Archive ist das Langzeitgedächtnis der ETH Zürich, welches nie vergisst. Unser Ziel ist es, für die Zukunft relevante Daten der ETH in diesem digitalen Langzeitarchiv zu erhalten. Das Spektrum reicht von Daten von Forschungsgruppen über digitalisierte Bibliotheksbestände bis hin zu Archivalien des Hochschularchivs. Entsprechend vielfältig und umfangreich sind die Dateien und Dateiformate, mit denen wir uns beschäftigen. Ganze 22,6 Millionen Objekte oder rund 280 Terabyte sind bereits durch unsere digitalen Hände gegangen.
Facts zum ETH Data Archive
- bestehend seit 2012
- neun Mitarbeitende aus der Sektion Forschungsdienstleistungen (FDL) und der Gruppe Digital Business Solutions (DBS) – im Umfang von etwa fünf Vollzeitstellen
- über 20 Datenquellen
- gut 280 TB an Daten
- rund 22,6 Millionen Dateien
Um die Herausforderung des nachhaltigen Datenerhalts in dieser Grössenordnung zu meistern, braucht es die vereinten Kräfte der Teams Forschungsdatenmanagement und Datenerhalt (FDD) und Data Science and Research Support (DSR). Unterstützt werden wir zudem von den Informatikdiensten der ETH Zürich und weiteren Mitarbeitenden aus der ETH-Bibliothek, die uns mit ihrem Spezialwissen und ihrem Engagement wertvolle Hilfe leisten. So können wir gewährleisten, dass alle Daten sicher und nachhaltig ihren Platz finden, bis sie künftigen Forschenden einen Einblick in vergangene Zeiten geben können.
Nun aber genug über uns. Damit Ihr einen tieferen Einblick ins Data Archive erhaltet, haben wir einen unserer Schützlinge – eine TIFF-Datei aus e-rara – um einen Reisebericht gebeten.
Meine Reise ins ETH Data Archive
Hallo! Ich darf mich kurz vorstellen. Ich bin eine frisch erstellte TIFF-Datei und mein Abbild soll möglichst lange erhalten bleiben. Mein Ziel ist das ETH Data Archive und meine Reise beginnt in Visual Library, dem System, auf dem e-rara basiert. Damit meine Reise problemlos verläuft, haben mir meine Ersteller und die Leute aus dem Team Data Science & Research Support (DSR) einen sicheren Weg bereitgestellt. Um mich herum sehe ich aber noch ein gutes Dutzend weiterer Wege, die ins Data Archive führen würden, von gemütlichen Strassen mit wenigen Dateien bis zum vielbefahrenen und vollautomatisierten Highway, auf dem ich mich befinde. Die Highways werden von selbst entwickelten Applikationen unterhalten, die aus zehntausenden Zeilen Programmcode bestehen und wöchentlich Gigabytes an Daten verarbeiten. Eine eigens dafür angelegte Datenbank protokolliert jeden meiner Stopps und jede Abzweigung, die ich nehme. Um sicher zu gehen, dass ich nicht in einen Datenstau gerate, wird der Datenverkehr stetig überwacht.
Auf meinem Weg erfolgt der erste Stopp bei der Applikation Source Triage, welche meinen Namen auf Gültigkeit prüft, um Probleme auf dem restlichen Weg zu vermeiden. Ausserdem erstellt die Applikation eine exakte Kopie von mir, welche zur Absicherung über einen anderen Weg auf ein Bandlaufwerk gespeichert wird. Mein nächster Stopp ist bei der Applikation Submission VL, von welcher ich genau unter die Lupe genommen werde. Sie prüft die Unversehrtheit meines Koffers – der Metadaten. Dann bereitet sie mich auf den letzten Teil der Reise vor, in dem ich in ein sogenanntes Submission Information Package (SIP) verpackt werde. In dieser Form werde ich schliesslich von der Ingest App ins ETH Data Archive übertragen, wo ich auf Herz und Nieren überprüft werde.
Der Gesundheitscheck
Damit ich möglichst lange erhalten bleibe, muss ich in Topform sein. Dazu müssen die Leute aus dem Team Forschungsdatenmanagement und Datenerhalt (FDD) mich gründlich untersuchen, ähnlich einem Gesundheitscheck. Sie setzen Instrumente aus dem Baukasten Rosetta ein, dem Langzeitarchivsystem von Ex Libris. Wenn ich ins Archivsystem komme, prüfen sie meine Identität und ob ich von einem Virus befallen bin. Dann bestimmt ein Instrument mein Format, also ob ich ein PDF, ein TIFF oder eine sonstige Datei bin. Als nächstes werden formatspezifische Informationen über mich gesammelt und ein anderes Tool untersucht, ob ich einsatzfähig bin. Das geschieht durch die Formatvalidierung. So wird sichergestellt, dass alle meine Bestandteile gemäss Formatspezifikation vorhanden sind. All diese Informationen speichert das Team dann in Rosetta ab, damit sie mich über die Zeit genau beobachten können. Mir wurde gesagt, dass meine Art dereinst aussterben könnte, weswegen diese Informationen wichtig sind, um mich eines Tages in eine andere Dateiform umwandeln zu können. Formatmigration nennt man diesen Vorgang. Aber zum Glück ist meine Art weitherum bekannt, denn als TIFF ist mein Bauplan offen zugänglich. Ausserdem wurde ich nicht komprimiert abgespeichert und meine Informationen weisen die bestmögliche Qualität auf. So werde ich im ETH Data Archive willkommen geheissen.
Am Ende meiner Reise gibt es von mir mindestens drei Kopien. Während ich im Zentrum die Stellung halte, befindet sich einer meiner Doppelgänger auf dem Hönggerberg. Zusammen erwarten wir die Menschen der Zukunft, um sie mit dem Wissen vergangener Zeiten zu bereichern.
Ihr wollt erfahren, wie auch Eure Dateien im ETH Data Archive für die Nachwelt erhalten bleiben und welche Anforderungen Ihr dafür erfüllen müsst? Besucht unseren Vortrag zum ETH Data Archive bei Bibliothek Aktuell am 01. und 03. November 2022.