"Was du ererbt von deinen Vätern hast,
erwirb es, um es zu besitzen."
"Was du ererbt von deinen Vätern" - Deutschlands kulturelles Gedächtnis auf dem Weg ins digitale Zeitalter. Ein Feature von Michael Gessat.
"Wir haben hier den Cruiser-Auflichtscanner, das ist ein großer Apparat, wie Sie sehen. Mit einem Auflagetisch und Glasplatte, auf den wir Objekte drauflegen können."
Der Scanner steht in einem Kellergewölbe des Pergamonmuseums in Berlin. Tageslicht gibt es hier nicht, die Luft ist ausgesprochen warm und ausgesprochen trocken – ideale klimatische Bedingungen also für die Objekte, die Fabian Reiter auf dem Auflagetisch platziert hat – sie stammen aus Ägypten und sind über 2000 Jahre alt.
"Die werden von zwei Lichtquellen, die so aussehen wie Neonröhren beleuchtet. Und das Objektiv ist oben drüber, aufgehängt an einem Pfahl, und es bewegen sich also die Objekte unter der Kamera, unter dem Objektiv hindurch."
Und zwar beim eigentlichen Feinscan im Schneckentempo, Millimeter für Millimeter – nur im Vorschaumodus macht der Apparat etwas mehr Tempo. Praktischerweise sind die uralten und kostbaren Objekte auf dem Auflagetisch für eine Ablichtung schon quasi ideal vorbereitet:
"Papyri werden grundsätzlich verglast, seit über 100 Jahren, seit wir Papyri haben, die ersten Papyri wurden in den 20er-Jahren des 19.Jahrhunderts angeschafft ... "
... das war nämlich die Geburtsstunde der Papyrussammlung der Staatlichen Museen zu Berlin. Mit ihrem Bestand von mittlerweile mehreren zehntausend beschrifteten Papyri, Pergamenten, Papieren und Tonscherben, den sogenannten Ostraka, gehört die Sammlung zu den fünf größten und bedeutendsten weltweit. Bisher musste nach Berlin kommen, wer einen Blick etwa auf die Komödie "Die Perser" des griechischen Dichters Timotheus werfen wollte, aufgezeichnet in einer Buchrolle aus dem 4. Jahrhundert vor Chr. – demnächst geht das vom heimischen PC aus. Fabian Reiter leitet ein von der Deutschen Forschungsgemeinschaft DFG gefördertes Projekt, das einem bedeutenden Teil der Papyrussammlung den Weg in die Welt der Bits und Bytes bereiten soll:
"Im Rahmen des Projektes haben wir uns vorgenommen, innerhalb von drei Jahren 6000 Stücke zu digitalisieren, und im Internet zu präsentieren, also die Bilder und die Metadaten. Dahinter steckt ja zum einen der technische Aufwand, das Scannen und die Bildbearbeitung, zum anderen die wissenschaftliche Bearbeitung, die Feststellung des Inhalts. Herkunft, Datierung, diese Daten werden eingetragen in unsere Filemaker-Datenbank und im Internet zur Verfügung gestellt. Und wir verlinken die Datenbank mit anderen Datenbanken und Portalen, sodass man nachher ein Netz hat, mit dem man arbeitet, und die Berliner Sammlung wird ein Teil davon sein."
Mittlerweile ist die von Reiter und seinen Kollegen erstellte Website online und für jedermann unter der Adresse "http://smb.museum/berlpap" zugänglich – "BerlPap" steht für "Berliner Papyrusdatenbank". Der interessierte Laie kann einfach herumstöbern, aber vor allem dient die Datenbank natürlich der wissenschaftlichen Kooperation.
Digitalisierung und Internet machen den wissenschaftlichen Diskurs erheblich einfacher und ergiebiger – die Berliner Papyrologen hoffen denn auch auf eine Verlängerung der DFG-Projektförderung, um noch mehr Exponate für die Datenbank erschließen zu können - oder um vielleicht gar einmal einige der Bleikisten aufzumachen, die seit einem Jahrhundert quasi unberührt im Depot stehen:
"Da sind also unbearbeitete, sowohl restauratorisch als auch wissenschaftlich, Papyri drin. Das sind die Originalfundkisten aus den Grabungsorten, wo die Berliner Museumsangehörigen, die Papyrologen auch gegraben haben Anfang des Jahrhunderts; Otto Rubensohn und Friedrich Zucker zum Beispiel, so wie sie hierher gekommen sind. Und die werden jetzt sukzessive in säurefreie Kartons gepackt, und dann sicher gelagert im neuen Depot, und harren dann der restauratorischen und wissenschaftlichen Bearbeitung."
Wie lange, das steht noch völlig in den Sternen. Zur Zeit gibt es für die riesige Papyrussammlung nur noch eine einzige Restauratorin, die sich auf Anfrage von Kollegen gezielt um einzelne Stücke kümmert und ansonsten mit der Vorbereitung von Ausstellungen ausgelastet ist. Ohne zusätzliche finanzielle Mittel, bedauert Fabian Reiter, bleibe halt nicht viel Raum für größere Projekte.
Was Du ererbt von deinen Vätern, erwirb es, um es zu besitzen.
Was man nicht nützt ist eine schwere Last ...
Auch in vielen anderen deutschen Museen, Bibliotheken und Archiven schlummern Schätze, schlummert Kulturerbe vor sich hin. Das gilt gar nicht einmal nur für die Bestände, die aus Platzgründen in Depots ausgelagert sind. Sondern eigentlich für alle Kunstgegenstände, Bücher oder Urkunden, die zwar in internen Katalogen verzeichnet, aber der Öffentlichkeit im Grunde gar nicht präsent sind. Was hängt da eigentlich alles an den Wänden, was steht da alles in den Regalen, wo sind die historischen Beziehungen, die inhaltlichen Zusammenhänge?
Am 26. Januar 2012 beschließt der Deutsche Bundestag mit den Stimmen von CDU/CSU und FDP eine "Digitalisierungsoffensive für das kulturelle Erbe".
Genauer gesagt: Eine "Digitalisierungsoffensive für unser kulturelles Erbe zu beginnen". Keine Mehrheit nämlich finden die Alternativanträge aus den Reihen der Oppositionsparteien - in denen zum Beispiel gefordert wird, die "Digitalisierung von Kulturgütern zu beschleunigen" bzw. die "Digitalisierung des kulturellen Erbes als gesamtstaatliche Aufgabe umzusetzen". Die Geister scheiden sich an einer nicht ganz unwesentlichen Frage – wieviel soll, wieviel darf die ganze Sache denn kosten? Und vor allem, wer soll die Zeche bezahlen – der Staat allein, oder ist vielleicht eine Kooperation mit privaten Unternehmen möglich und wünschenswert?
Zumindest aber über den Motor, den Dreh- und Angelpunkt der Digitalisierungsoffensive besteht parteiübergreifend Einigkeit: Finanziert von Bund, Ländern und Kommunen soll die "Deutsche Digitale Bibliothek", kurz "DDB", den kulturellen Schatz heben und die verstreuten Informationen aus sämtlichen deutschen Bibliotheken, Museen und Archiven sammeln und im Internet abrufbar machen. Oder vielmehr: Nutzbar machen für die Generation der Gegenwart und für die Generationen der Zukunft.
Online gehen soll die DDB im Laufe des Jahres 2012 zunächst in einer Art Beta-Version, mit einem ersten Datenbestand von etwa 6 Millionen Objekten. Und zwar nicht nur als Riesenkatalog, als rein quantitative Zusammenfassung, sondern mit dem Anspruch, einen Mehrwert zu generieren, Sinnzusammenhänge deutlich machen – das Zauberwort lautet hier: Semantik; die Verknüpfung von Worten mit ihrer Bedeutung. Monika Hagedorn-Saupe, die stellvertretende Leiterin des Instituts für Museumsforschung der Staatlichen Museen zu Berlin:
"Sie sollen mehrere Möglichkeiten haben: zum einen die einfache Suche, dass man also stichwortmäßig etwas findet. Es soll aber auch die Möglichkeit gegeben werden, dass man über Facetten oder über browsen sich in bestimmte Themen hineinzoomen kann, im Prinzip, dass man auch entdecken kann. Es geht nicht nur darum, dass man schon wissen muss, was man sucht, sondern man soll auch etwas finden können, was zu der Thematik gehört, mit der man sich beschäftigt."
Nur einfach digitalisieren, nur einfach immer mehr Daten ansammeln bringt nicht automatisch einen Erkenntnisgewinn. Ob beim Recherchieren im Web oder in einer großen Datenbank - bei einer normalen, lexikalischen Suche kapituliert man notgedrungen vor der schieren Menge von Suchtreffern, deren Relevanz man nicht mehr einschätzen oder durchprobieren kann. Und wahrscheinlich noch gravierender: Man bekommt die Dinge gar nicht erst zu Gesicht, die haarscharf neben dem eingegebenen Suchbegriff liegen.
"Den Zugang zu Informationen vereinfachen, Daten zu neuem Wissen vernetzen und die Grundlage für die Entwicklung neuer Dienstleistungen im Internet schaffen" – so lautete die Zielsetzung für das IT-Forschungsprojekt "Theseus", das nach fünf Jahren Laufzeit in diesen Wochen ausläuft - 200 Millionen Euro wurden investiert, je zur Hälfte aufgebracht vom Bundeswirtschaftsministerium und den beteiligten Partnern aus Forschung und Industrie.
Speziell um Konzepte für die Erschließung der Bestände von Bibliotheken, Museen und Archiven – und damit um die Bedürfnisse der Deutschen Digitalen Bibliothek – ging es beim Theseus-Anwendungsszenario "Contentus". Einer der hier beteiligten Partner ist das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme in St. Augustin, kurz IAIS. Gerhard Paaß versucht hier, dem Computer in der vermeintlich leichtesten Disziplin zur im Institutsnamen beschworenen Intelligenz zu verhelfen – nämlich beim Umgang mit Text über eine rein lexikalische Verschlagwortung herauszukommen.
"Das Wichtige bei einer sogenannten semantischen Erschließung, also einer bedeutungsmäßigen Erschließung ist, dass man über die Wortreihenfolge in den Texten hinausgeht und jedem Wort eine Bedeutung zuordnen möchte, diese Bedeutung kann man sich verdeutlichen bei dem Begriff "Bank", der kann einerseits eine Finanzinstitution sein, andererseits ein Möbelstück."
Um was es vermutlich geht, das kann der Computer durch die statistische Analyse des Kontexts herausbekommen – je nach dem, ob dort mehr von Kredit, Konto und Eurokrise oder von Holz, Garten oder "sitzen" die Rede ist. Auch wenn in einem Text Eigennamen auftauchen, die noch nirgendwo lexikalisch verzeichnet sind, hilft die Methode weiter:
"Weil zum Beispiel Personen nur im Zusammenhang mit gewissen Verben auftauchen, zum Beispiel "sagen", während ein Ort im Zusammenhang mit anderen Begriffen auftaucht, zum Beispiel "Straße" oder "hinfahren" und ähnlichem. Insofern kann man mithilfe der Umgebung von Begriffen herausfinden, um welche Kategorie von Begriffen es sich hier handelt."
Voraussetzung dafür ist allerdings, dass dem Rechner ein formales Modell von Begrifflichkeiten und von den Beziehungen, die zwischen ihnen herrschen, vorgegeben wird – eine sogenannte "Ontologie".
"Eine ganz wichtige Ontologie für uns ist zum Beispiel Wikipedia. Wikipedia ist hierarchisch strukturiert, es gibt da sogenannte Kategorien. Wir versuchen die einzelnen Begriffe, die wir in einem Artikel finden, den Kategorien der Wikipedia zuzuordnen."
Ein Katalog von Kategorien ist allerdings noch ein recht grobes semantisches Modell – komplexere Ontologien definieren Beziehungsgeflechte zwischen Begriffen: Romanautoren schreiben Bücher. Bücher werden geschrieben. Bibliotheken sammeln Bücher. Bücher werden gesammelt. Bücher werden gelesen.
Möglicherweise schreiben also Romanautoren für Leser, vielleicht aber auch für Bibliotheken: Im Idealfall kann der Computer mit den vorgegebenen Regeln und der statistischen Analyse Rückschlüsse aus dem Datenmaterial ziehen, Zusammenhänge erkennen und bei einer Suche anbieten.
"Diese Erkenntnisse werden dann schließlich in einem sogenannten Index abgelegt. Dieser Index enthält ähnlich wie bei einem Google-Index sämtliche Wörter des Textes, aber zu den Wörtern auch deren Eigenschaften; das heißt, handelt es sich um einen Namen, aber auch die Beziehungen zwischen den Wörtern."
Trotz der speziell für diesen Zweck eingeführten Datenformate brauchen semantisch angereicherte, "annotierte" Materialien wesentlich mehr Speicherplatz und Rechenkapazität bei der Verarbeitung. Und – die Erkenntnisse des Computers, datenbanktechnisch gesprochen, die annotierten Metadaten, bleiben natürlich immer nur errechnet; mit einer gewissen statistischen Wahrscheinlichkeit und damit Vertrauenswürdigkeit oder "Konfidenz" für den Nutzer.
"Es gibt natürlich das Problem, dass diese semantischen Verfahren nicht hundertprozentig genau sind. Das bedeutet, wir sind sehr froh, wenn wir 95 oder 90 Prozent hinkriegen. Je komplizierter die Aussage ist, desto geringer, muss man auch sagen, ist die Genauigkeit."
Vom Fraunhofer IAIS fließen nicht nur die im Rahmen von "Contentus" entwickelten semantischen Komponenten in die "Deutsche Digitale Bibliothek" ein – von hier stammt auch die eigentliche Betriebssoftware, der Datenbank-Kern für die DDB. Der soll einmal mit den automatisch errechneten semantischen Metadaten umgehen können – vor allem aber auch erst einmal mit den von Menschenhand erzeugten; sprich, mit den beschreibenden Informationen zu den digitalisierten oder noch zu digitalisierenden Objekten.
Das Problem dabei: Museen, Bibliotheken und Archive haben völlig unterschiedliche Traditionen, Bedürfnisse und Standards. Für ein Buch etwa sind die Angaben "Autor und Titel" elementar und sogar notfalls zur Beschreibung ausreichend, für ein archäologisches Objekt hingegen irrelevant - entsprechend unterschiedlich sehen also auch die Datenformate aus, die ein Museum oder aber eine Bibliothek typischerweise verwenden.
Die Entwickler des Datenbank-Kerns für die DDB setzen auf eine speziell für die Erfassung von kulturellem Erbe konzipierte Ontologie, das "CIDOC CRM". Dieses Datenmodell, das vom "Internationalen Komitee zur Dokumentation" entworfen wurde, auch programmiertechnisch konkret umzusetzen, ist alles andere als trivial – als Lohn winken dann extrem flexible Suchmöglichkeiten für den Endbenutzer.
Der Datenbankkern, das Herzstück der DDB, geht nur mit beschreibenden, mit Metadaten um; und selbst die können für ein einzelnes Objekt schon einmal einen Umfang von mehreren 100 Megabyte haben. Aber die Objekte selbst - so sieht es das dezentrale Konzept der Deutschen Digitalen Bibliothek vor - die Digitalisate; Text, Bild, oder Videodateien also, liegen im Regelfall weiterhin auf den Servern der einzelnen teilnehmenden Institutionen.
Die bleiben also auch für die Datensicherheit und Datenarchivierung zuständig; eine große Verantwortung, denn Digitalisate sind längst mehr als notfalls wiederbeschaffbare Kopien eines physischen Originals. Monika Hagedorn-Saupe vom Institut für Museumsforschung:
"Wenn wir Originale digitalisieren, zum Beispiel Tonaufnahmen, oder Filmaufnahmen, wo wir wissen, dass das Original in Kürze gar nicht mehr da ist, weil es einfach aufgelöst ist, kaputtgegangen ist, dann haben wir eine ganz wichtige Aufgabe, zu sehen, das wir dann das Digitale erhalten. Das Problem aber mit der digitalen Welt ist, dass die sich einerseits sehr schnell entwickelt, und zum anderen noch nicht wirklich umfassende Kenntnisse da sind, wie man umgehen muss, die Fragen der Langzeiterhaltung digitaler Daten sind noch in der Klärung, noch in der Entwicklung. Wir haben in Deutschland ja dafür das Nestor- Kompetenznetzwerk, das mit Vertretern der verschiedenen Sparten gemeinsam versucht, diese Frage für den Kulturbereich weiter anzugehen. Aber das ist eine Herkules-Aufgabe, der wir uns stellen müssen, und wo man sagen kann: Hier hat man die Wege noch nicht gefunden."
Oder zumindest noch nicht die endgültigen Wege: Immerhin haben die zahlreichen Arbeitsgruppen des Nestor-Projekts, das bei der Deutschen Nationalbibliothek in Frankfurt angesiedelt ist, in den letzten Jahren Erfahrungsberichte, Anleitungen und Empfehlungen zu allen denkbaren technischen, organisatorischen und rechtlichen Aspekten beim Umgang mit digitalem Kulturgut vorgelegt. Zusammengefasst finden sich die Erkenntnisse im fortlaufend aktualisierten "Nestor-Handbuch": Die "kleine Enzyklopädie der digitalen Langzeitarchivierung", so lautet der Untertitel, hat momentan einen Umfang von 634 Seiten.
Am Nestor-Handbuch mitgewirkt hat auch Angela Ullmann, sie leitet im Parlamentsarchiv des Deutschen Bundestages die Gebiete "Datenverarbeitungs-Koordination und Audiovisuelle Medien".
"Und wir haben jetzt hier auch unsere Sicherungsmedien, und zwar sind das jetzt die Sicherungs-Medien von der Digitalisierung der Audiodebatten, die sind jetzt auf LTO abgelegt, LTO ist ein empfohlenes Sicherungsformat. Und da ist jetzt zum Beispiel aus der zehnten Wahlperiode die erste bis 27. Sitzung auf so einem Band."
Anspruch und Aufgabe des Parlamentsarchivs ist es, das Handeln des obersten deutschen Gesetzgebers zu dokumentieren und transparent zu machen – gesammelt und aufbewahrt werden also Akten aus der Bundestagsverwaltung ebenso wie Schriftstücke, Bild- und Tonaufnahmen aus den Ausschüssen, Enquete-Kommissionen und natürlich aus den Plenarsitzungen.
"Was wir meinen mit Langzeitarchivierung, ist eben über Jahrhunderte. Und dann wird die Frage des physischen Verfalls eben relativ dringend. Mit 10, 20 Jahren können sie das alles locker auf dem Material aufbewahren, auf dem es entstanden ist. Aber gerade digitale Daten oder auch analoge Sachen, die verfallen dann schlicht und einfach über die Jahrhunderte."
– Atmo historische Ansprache im Bundestag Ende – ausblenden
Auch an den historischen Tonbandaufnahmen der Bundestags-Plenardebatten nagt der Zahn der Zeit – bei der seit etwa sechs Jahren laufenden Digitalisierung haben die Archivare daher mit den ältesten Bändern aus dem Jahr 1949 angefangen. Jetzt ist gerade einmal die Hälfte der Wegstrecke geschafft, denn natürlich werden die Aufnahmen nicht einfach nur überspielt, sondern abgehört und mit den entsprechenden beschreibenden Metadaten versehen. Dabei sind die Mitarbeiter im Vergleich zu anderen Archiven in einer ungewöhnlich komfortablen Situation – zu allen Plenarsitzungen liegen die gedruckten Protokolle der Parlamentsstenografen vor.
Aber die Erschließung erfolgt eben manuell und in Echtzeit – und auch das Bundestagsarchiv verfügt nur über begrenzte personelle und finanzielle Ressourcen. Da ist Pragmatismus angesagt:
"Also was wir nicht machen: Wir digitalisieren keine Akten. Weil sich für die Langzeiterhaltung tatsächlich der Film besser als Medium eignet. Es gibt ja in der Bundesrepublik ein standardisiertes Verfahren, Sicherheitsverfilmung von Kulturgut, wo also die Sachen auf Silberhalogenidfilm aufgenommen werden, und das machen wir hier auch. Aber das hat mit Digitalisierung erst einmal nichts zu tun, da geht es nur um Sicherung. Was man später noch machen könnte, und die Idee haben wir auch, dass man vom Film dann digitalisiert, und das Digitalisat im Internet bereitstellt."
Ein schneller und komfortabler Zugriff auf das Material – für einen Archivar ist das zwar wünschenswert, aber letztlich eine Luxusoption. Allererste Priorität hat die Aufgabe, das Archivgut langfristig zu sichern – und zwar im Rahmen des verfügbaren Budgets:
"Sie müssen ja auch die Folgekosten bedenken. Es kostet ja alles, wenn sie einmal in die digitale Spirale einsteigen, können sie nie wieder aussteigen. Und die dreht sich immer schneller. Das heißt, sie müssen verantwortungsvoll auf Formate setzen, von denen sie annehmen können, dass sie zu mindestens für einige Jahrzehnte halten. Das sehe ich im Dokumentenbereich noch nicht so."
Auch gegenüber den Versprechungen der Semantik, der automatischen Erschließung von Inhalten, hegt Angela Ullmann noch große Skepsis – angesehen hat sie sich zum Beispiel Entwicklungen aus dem Theseus-Projekt, die etwa in Videos von Plenardebatten Abgeordnete oder bestimmte Themen erkennen wollen. Viele Verfahren, so das vorläufige Fazit von Angela Ullmann, funktionieren mit einem bestimmten, ausgiebig trainierten Test-Datensatz schon ganz ausgezeichnet. Aber wenn es dann an Material aus der täglichen Praxis geht, steigt die Fehlerquote rapide in die Höhe:
"Bis jetzt hat es uns noch einfach nicht überzeugt. Das Problem ist ja auch so ein bisschen, und das ist für alle Archivare und für alle Bibliothekare das Problem: Die Zeit, die sie damit verbringen, Verfahren zu evaluieren, die fehlt Ihnen natürlich, um das Material, was sie jetzt schon haben, zu erschließen."
Ob bei der Einführung von semantischen Verfahren oder bei der Digitalisierung insgesamt – für eine einzelne Institution ist es immer riskant, technologisch vornweg zu marschieren: Wer zu früh auf das falsche Pferd setzt, der muss später kostenträchtig umsatteln.
Bei einem speziellen Bereich der digitalen Langzeitspeicherung aber haben Angela Ullmann und ihre Kollegen versucht, Maßstäbe zu setzen: Seit 2005 wird das Webangebot des Deutschen Bundestages archiviert und wiederum im Internet zur Verfügung gestellt. Das hört sich weit trivialer an, als es tatsächlich ist:
"Wenn sie sich in einem Webangebot befinden, dann haben Sie sozusagen nur einen Topf. Wenn sie da zwischen den Seiten springen, dann es gibt einen Link, der führt zu Seite "Aktuelles", im Archiv haben Sie ja ganz verschiedenen Fassungen, sie haben eine vom 1. November, sie haben eine vom 1. Dezember, da gibt es unter Umständen 100 Fassungen der Seite "Aktuelles"."
Auch die Verlinkungen aus einer Website heraus ins Netz sind natürlich inhaltlich wichtig – nach kurzer Zeit schon kann das Ziel aber ganz anders aussehen oder gar nicht mehr vorhanden sein. Und wenn Datenschutzbelange berührt sind, oder, ganz banal, wenn temporär eingekaufte Bildnutzungsrechte abgelaufen sind, dann kann es sogar nötig sein, das eigentlich sakrosankte Archivgut selbst zu verändern, zumindest in der nach außen hin sichtbaren Benutzungsversion. Alle Modifikationen, so die wichtigste Empfehlung der Archivare, müssen dem Benutzer dokumentiert werden.
Daran, dass auch Webseiten zum erhaltungswürdigen Kulturerbe gehören können, gibt es keinen Zweifel: Seit 2006 ist analog zur Pflichteinlieferung von deutschsprachigen Druckwerken bei der Deutschen Nationalbibliothek auch die Pflichteinlieferung von Webpublikationen gesetzlich vorgeschrieben. Betroffen davon sind Webseiten, an denen ein "besonderes öffentliches Interesse" besteht - zumindest theoretisch, denn bislang hat die DNB noch kein fertiges Konzept, wie sie den Sammel- und Archivierungsauftrag umsetzen soll, gibt die Direktorin Ute Schwens zu:
"Es läuft eigentlich noch gar nicht. Wir haben alle Ablieferer, wie wir die immer nennen, die auf uns zugekommen sind, und gefragt haben, wie sollen wir das denn jetzt machen, welches Verfahren, haben wir vertröstet, und gesagt: Lasst uns erst mal ein gemeinsames Verfahren überlegen, was eine sinnvolle Art und Weise ist."
Die Devise lautet also ganz klar – je mehr Standard, je mehr Konsens und Kooperation zwischen verschiedenen Institutionen, desto besser. Auch am Konzept der Deutschen Digitalen Bibliothek arbeitet ein ganzes Kompetenznetzwerk mit; in Frankfurt bei der Deutschen Nationalbibliothek werden die Arbeiten koordiniert. Und hier finden auch Tests der vom Fraunhofer IAIS entwickelten Software statt. Noch gebe es angesichts der schieren Datenmenge und aufgrund von noch vorhandenen Unstimmigkeiten in den zugelieferten Datensätzen immer wieder Überraschungen, berichtet Bibliotheks-Informationswissenschaftler Uwe Müller:
"Und die versuchen wir im Moment zumindest zu minimieren, dass wir uns dann nicht blamieren, wenn das Betaszenario der DDB an die Öffentlichkeit geht."
Fehlerhafte Metadaten führen nämlich zu unsinnigen Suchergebnissen oder Querverweisen, die den Benutzer im günstigsten Fall amüsieren, im schlechtesten Fall aber an der Seriosität des gesamten Projektes zweifeln lassen – und diese Gefahr besteht in noch viel stärkerem Maße bei den semantischen Annotationen. Wahrscheinlich wird die DDB, was computererrechnete Metadaten angeht, zunächst einmal mit sehr konservativen Einstellungen in den öffentlichen Betabetrieb gehen. Im Moment stellt sich der Informatiker ohnehin noch ganz andere, pragmatische Fragen:
"Wie schnell bekomme ich eigentlich meine Daten in das System? Das sieht jetzt für den Endbenutzer nicht so wichtig aus, ist aber aus betrieblicher Sicht durchaus relevant, weil es ja dazu kommen kann, dass ich ab und zu mein System neu aufbauen muss. Andererseits will ich natürlich auch eine gewisse Reaktionszeit haben, mit der ich Daten neu in das System einspielen kann."
Das konzeptionell vielversprechende, aber eben auch sehr komplexe Datenmodell, bei dem jeder Datensatz mit unzähligen anderen querverbunden ist, droht das System träge werden zu lassen – und zwar umso spürbarer, je mehr Objekte hinzukommen.
Genau das sind auch die Erfahrungen beim Leibniz-Institut für Informationsinfrastruktur FIZ in Karlsruhe – hier stehen die Rechner, auf denen die DDB-Datenbank in der Test- und Betaphase und dann möglicherweise auch im späteren Standardbetrieb läuft. Aus Sicherheits- und aus Geschwindigkeitsgründen besteht die Hardwarearchitektur aus zwei oder später sogar drei kompletten Einzelsträngen: So können Benutzer auf ein DDB-System zugreifen, während auf dem anderen gerade neue Daten eingespielt werden. Aber wenn es bei einem solchen Ladevorgang, dem sogenannten Ingest, zu einem Abbruch kommt, hat man anschließend das Problem, die verschiedenen DDB-Instanzen wieder zu synchronisieren, berichtet die Bereichsleiterin "Entwicklung und angewandte Forschung", Leni Helmes:
"Und der andere Fall ist der, mit dem wir uns auch stark auseinandersetzen: Was macht man eigentlich, wenn man feststellt am Ende dieses Ladeprozesses, der schon einmal zwei, drei Wochen dauern kann; wenn man feststellt, es wurden Daten fälschlicherweise in das System eingebaut? Sei es, dass der Betreiber irgend einen Fehler gemacht hat, oder auch der Datenlieferant feststellt: "Oh Gott, diese Daten hätte ich eigentlich gar nicht liefern wollen." Dann müssen diese wieder aus dem System heraus, und dann wird es erst richtig kompliziert. Weil man dann all diese Verlinkungen, die stattgefunden haben, die muss man dann auch wieder zurücksetzen."
Je mehr Semantik und Vernetzung man in die Daten einbaut, umso komplexer wird das System. Einerseits fordern die immer größeren Datenmengen neue, intelligentere Wege der Datenverarbeitung. Aber andererseits generieren die intelligenten Wege wieder neue, riesige Datenmengen. Die existierenden Konzepte stecken in ihrer Nutzbarkeit noch halb in den Kinderschuhen und stoßen doch schon an Limits. Vielleicht steuert man sogar auf eine Wand zu, was die in absehbarer Zeit verfügbaren technischen und finanziellen Ressourcen angeht?
"Nicht außer Acht lassen darf man letztendlich auch irgendwann den Energiebedarf. Also diese neuen Systeme sind sehr leistungsfähig, aber sie verbrauchen teilweise auch entsprechend Energie. Rechenzentren und der Anspruch an "Green IT", das ist schon auch etwas, was man hier bedenken muss oder überlegen muss bei der Anschaffung dieser Server - was bedeutet das letztendlich auch für mein Rechenzentrum?"
Weit besser hätt ich doch mein Weniges verpraßt,
Als mit dem Wenigen belastet hier zu schwitzen!
Was du ererbt von deinen Vätern hast,
Erwirb es, um es zu besitzen.
Was man nicht nützt, ist eine schwere Last,
Nur was der Augenblick erschafft, das kann er nützen.
Lohnt sich der gewaltige Aufwand für die Digitalisierung und Archivierung des Kulturerbes? Wird aus dem Alten Neues entstehen?
"Wenn hinterher wirklich größere Datenmengen von unterschiedlichsten Anbietern und Sparten in dieser zentralen Plattform sein werden, und man eben sieht, wie durch die Semantik man dann auf Inhalte stößt, auf die man sonst gar nicht gekommen wäre - Ich glaube, dann ist der Punkt, wo man sagt: Ja, das hat sich gelohnt."
" Also da kann man sich viele neue Sachen noch vorstellen, die jetzt in der ersten Stufe nicht sichtbar sind, die aber sicherlich zu Mehrwert führen, den man dann monetär gar nicht mehr abschätzen kann. Insofern denke ich, das ist sehr gut investiertes Geld, das man in ein solches Projekt hier rein steckt."
"Denken wir doch einfach einmal 400 Jahre weiter. Man muss sich einfach, wenn man diese Arbeit macht, aus der aktuellen Zeit lösen und einfach diesen Zeitstrahl sehen. Was man jetzt macht, ist etwas, was eine Kette fortsetzt, aber nach Einem werden auch wieder welche kommen, die diese Kette fortsetzen."
erwirb es, um es zu besitzen."
"Was du ererbt von deinen Vätern" - Deutschlands kulturelles Gedächtnis auf dem Weg ins digitale Zeitalter. Ein Feature von Michael Gessat.
"Wir haben hier den Cruiser-Auflichtscanner, das ist ein großer Apparat, wie Sie sehen. Mit einem Auflagetisch und Glasplatte, auf den wir Objekte drauflegen können."
Der Scanner steht in einem Kellergewölbe des Pergamonmuseums in Berlin. Tageslicht gibt es hier nicht, die Luft ist ausgesprochen warm und ausgesprochen trocken – ideale klimatische Bedingungen also für die Objekte, die Fabian Reiter auf dem Auflagetisch platziert hat – sie stammen aus Ägypten und sind über 2000 Jahre alt.
"Die werden von zwei Lichtquellen, die so aussehen wie Neonröhren beleuchtet. Und das Objektiv ist oben drüber, aufgehängt an einem Pfahl, und es bewegen sich also die Objekte unter der Kamera, unter dem Objektiv hindurch."
Und zwar beim eigentlichen Feinscan im Schneckentempo, Millimeter für Millimeter – nur im Vorschaumodus macht der Apparat etwas mehr Tempo. Praktischerweise sind die uralten und kostbaren Objekte auf dem Auflagetisch für eine Ablichtung schon quasi ideal vorbereitet:
"Papyri werden grundsätzlich verglast, seit über 100 Jahren, seit wir Papyri haben, die ersten Papyri wurden in den 20er-Jahren des 19.Jahrhunderts angeschafft ... "
... das war nämlich die Geburtsstunde der Papyrussammlung der Staatlichen Museen zu Berlin. Mit ihrem Bestand von mittlerweile mehreren zehntausend beschrifteten Papyri, Pergamenten, Papieren und Tonscherben, den sogenannten Ostraka, gehört die Sammlung zu den fünf größten und bedeutendsten weltweit. Bisher musste nach Berlin kommen, wer einen Blick etwa auf die Komödie "Die Perser" des griechischen Dichters Timotheus werfen wollte, aufgezeichnet in einer Buchrolle aus dem 4. Jahrhundert vor Chr. – demnächst geht das vom heimischen PC aus. Fabian Reiter leitet ein von der Deutschen Forschungsgemeinschaft DFG gefördertes Projekt, das einem bedeutenden Teil der Papyrussammlung den Weg in die Welt der Bits und Bytes bereiten soll:
"Im Rahmen des Projektes haben wir uns vorgenommen, innerhalb von drei Jahren 6000 Stücke zu digitalisieren, und im Internet zu präsentieren, also die Bilder und die Metadaten. Dahinter steckt ja zum einen der technische Aufwand, das Scannen und die Bildbearbeitung, zum anderen die wissenschaftliche Bearbeitung, die Feststellung des Inhalts. Herkunft, Datierung, diese Daten werden eingetragen in unsere Filemaker-Datenbank und im Internet zur Verfügung gestellt. Und wir verlinken die Datenbank mit anderen Datenbanken und Portalen, sodass man nachher ein Netz hat, mit dem man arbeitet, und die Berliner Sammlung wird ein Teil davon sein."
Mittlerweile ist die von Reiter und seinen Kollegen erstellte Website online und für jedermann unter der Adresse "http://smb.museum/berlpap" zugänglich – "BerlPap" steht für "Berliner Papyrusdatenbank". Der interessierte Laie kann einfach herumstöbern, aber vor allem dient die Datenbank natürlich der wissenschaftlichen Kooperation.
Digitalisierung und Internet machen den wissenschaftlichen Diskurs erheblich einfacher und ergiebiger – die Berliner Papyrologen hoffen denn auch auf eine Verlängerung der DFG-Projektförderung, um noch mehr Exponate für die Datenbank erschließen zu können - oder um vielleicht gar einmal einige der Bleikisten aufzumachen, die seit einem Jahrhundert quasi unberührt im Depot stehen:
"Da sind also unbearbeitete, sowohl restauratorisch als auch wissenschaftlich, Papyri drin. Das sind die Originalfundkisten aus den Grabungsorten, wo die Berliner Museumsangehörigen, die Papyrologen auch gegraben haben Anfang des Jahrhunderts; Otto Rubensohn und Friedrich Zucker zum Beispiel, so wie sie hierher gekommen sind. Und die werden jetzt sukzessive in säurefreie Kartons gepackt, und dann sicher gelagert im neuen Depot, und harren dann der restauratorischen und wissenschaftlichen Bearbeitung."
Wie lange, das steht noch völlig in den Sternen. Zur Zeit gibt es für die riesige Papyrussammlung nur noch eine einzige Restauratorin, die sich auf Anfrage von Kollegen gezielt um einzelne Stücke kümmert und ansonsten mit der Vorbereitung von Ausstellungen ausgelastet ist. Ohne zusätzliche finanzielle Mittel, bedauert Fabian Reiter, bleibe halt nicht viel Raum für größere Projekte.
Was Du ererbt von deinen Vätern, erwirb es, um es zu besitzen.
Was man nicht nützt ist eine schwere Last ...
Auch in vielen anderen deutschen Museen, Bibliotheken und Archiven schlummern Schätze, schlummert Kulturerbe vor sich hin. Das gilt gar nicht einmal nur für die Bestände, die aus Platzgründen in Depots ausgelagert sind. Sondern eigentlich für alle Kunstgegenstände, Bücher oder Urkunden, die zwar in internen Katalogen verzeichnet, aber der Öffentlichkeit im Grunde gar nicht präsent sind. Was hängt da eigentlich alles an den Wänden, was steht da alles in den Regalen, wo sind die historischen Beziehungen, die inhaltlichen Zusammenhänge?
Am 26. Januar 2012 beschließt der Deutsche Bundestag mit den Stimmen von CDU/CSU und FDP eine "Digitalisierungsoffensive für das kulturelle Erbe".
Genauer gesagt: Eine "Digitalisierungsoffensive für unser kulturelles Erbe zu beginnen". Keine Mehrheit nämlich finden die Alternativanträge aus den Reihen der Oppositionsparteien - in denen zum Beispiel gefordert wird, die "Digitalisierung von Kulturgütern zu beschleunigen" bzw. die "Digitalisierung des kulturellen Erbes als gesamtstaatliche Aufgabe umzusetzen". Die Geister scheiden sich an einer nicht ganz unwesentlichen Frage – wieviel soll, wieviel darf die ganze Sache denn kosten? Und vor allem, wer soll die Zeche bezahlen – der Staat allein, oder ist vielleicht eine Kooperation mit privaten Unternehmen möglich und wünschenswert?
Zumindest aber über den Motor, den Dreh- und Angelpunkt der Digitalisierungsoffensive besteht parteiübergreifend Einigkeit: Finanziert von Bund, Ländern und Kommunen soll die "Deutsche Digitale Bibliothek", kurz "DDB", den kulturellen Schatz heben und die verstreuten Informationen aus sämtlichen deutschen Bibliotheken, Museen und Archiven sammeln und im Internet abrufbar machen. Oder vielmehr: Nutzbar machen für die Generation der Gegenwart und für die Generationen der Zukunft.
Online gehen soll die DDB im Laufe des Jahres 2012 zunächst in einer Art Beta-Version, mit einem ersten Datenbestand von etwa 6 Millionen Objekten. Und zwar nicht nur als Riesenkatalog, als rein quantitative Zusammenfassung, sondern mit dem Anspruch, einen Mehrwert zu generieren, Sinnzusammenhänge deutlich machen – das Zauberwort lautet hier: Semantik; die Verknüpfung von Worten mit ihrer Bedeutung. Monika Hagedorn-Saupe, die stellvertretende Leiterin des Instituts für Museumsforschung der Staatlichen Museen zu Berlin:
"Sie sollen mehrere Möglichkeiten haben: zum einen die einfache Suche, dass man also stichwortmäßig etwas findet. Es soll aber auch die Möglichkeit gegeben werden, dass man über Facetten oder über browsen sich in bestimmte Themen hineinzoomen kann, im Prinzip, dass man auch entdecken kann. Es geht nicht nur darum, dass man schon wissen muss, was man sucht, sondern man soll auch etwas finden können, was zu der Thematik gehört, mit der man sich beschäftigt."
Nur einfach digitalisieren, nur einfach immer mehr Daten ansammeln bringt nicht automatisch einen Erkenntnisgewinn. Ob beim Recherchieren im Web oder in einer großen Datenbank - bei einer normalen, lexikalischen Suche kapituliert man notgedrungen vor der schieren Menge von Suchtreffern, deren Relevanz man nicht mehr einschätzen oder durchprobieren kann. Und wahrscheinlich noch gravierender: Man bekommt die Dinge gar nicht erst zu Gesicht, die haarscharf neben dem eingegebenen Suchbegriff liegen.
"Den Zugang zu Informationen vereinfachen, Daten zu neuem Wissen vernetzen und die Grundlage für die Entwicklung neuer Dienstleistungen im Internet schaffen" – so lautete die Zielsetzung für das IT-Forschungsprojekt "Theseus", das nach fünf Jahren Laufzeit in diesen Wochen ausläuft - 200 Millionen Euro wurden investiert, je zur Hälfte aufgebracht vom Bundeswirtschaftsministerium und den beteiligten Partnern aus Forschung und Industrie.
Speziell um Konzepte für die Erschließung der Bestände von Bibliotheken, Museen und Archiven – und damit um die Bedürfnisse der Deutschen Digitalen Bibliothek – ging es beim Theseus-Anwendungsszenario "Contentus". Einer der hier beteiligten Partner ist das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme in St. Augustin, kurz IAIS. Gerhard Paaß versucht hier, dem Computer in der vermeintlich leichtesten Disziplin zur im Institutsnamen beschworenen Intelligenz zu verhelfen – nämlich beim Umgang mit Text über eine rein lexikalische Verschlagwortung herauszukommen.
"Das Wichtige bei einer sogenannten semantischen Erschließung, also einer bedeutungsmäßigen Erschließung ist, dass man über die Wortreihenfolge in den Texten hinausgeht und jedem Wort eine Bedeutung zuordnen möchte, diese Bedeutung kann man sich verdeutlichen bei dem Begriff "Bank", der kann einerseits eine Finanzinstitution sein, andererseits ein Möbelstück."
Um was es vermutlich geht, das kann der Computer durch die statistische Analyse des Kontexts herausbekommen – je nach dem, ob dort mehr von Kredit, Konto und Eurokrise oder von Holz, Garten oder "sitzen" die Rede ist. Auch wenn in einem Text Eigennamen auftauchen, die noch nirgendwo lexikalisch verzeichnet sind, hilft die Methode weiter:
"Weil zum Beispiel Personen nur im Zusammenhang mit gewissen Verben auftauchen, zum Beispiel "sagen", während ein Ort im Zusammenhang mit anderen Begriffen auftaucht, zum Beispiel "Straße" oder "hinfahren" und ähnlichem. Insofern kann man mithilfe der Umgebung von Begriffen herausfinden, um welche Kategorie von Begriffen es sich hier handelt."
Voraussetzung dafür ist allerdings, dass dem Rechner ein formales Modell von Begrifflichkeiten und von den Beziehungen, die zwischen ihnen herrschen, vorgegeben wird – eine sogenannte "Ontologie".
"Eine ganz wichtige Ontologie für uns ist zum Beispiel Wikipedia. Wikipedia ist hierarchisch strukturiert, es gibt da sogenannte Kategorien. Wir versuchen die einzelnen Begriffe, die wir in einem Artikel finden, den Kategorien der Wikipedia zuzuordnen."
Ein Katalog von Kategorien ist allerdings noch ein recht grobes semantisches Modell – komplexere Ontologien definieren Beziehungsgeflechte zwischen Begriffen: Romanautoren schreiben Bücher. Bücher werden geschrieben. Bibliotheken sammeln Bücher. Bücher werden gesammelt. Bücher werden gelesen.
Möglicherweise schreiben also Romanautoren für Leser, vielleicht aber auch für Bibliotheken: Im Idealfall kann der Computer mit den vorgegebenen Regeln und der statistischen Analyse Rückschlüsse aus dem Datenmaterial ziehen, Zusammenhänge erkennen und bei einer Suche anbieten.
"Diese Erkenntnisse werden dann schließlich in einem sogenannten Index abgelegt. Dieser Index enthält ähnlich wie bei einem Google-Index sämtliche Wörter des Textes, aber zu den Wörtern auch deren Eigenschaften; das heißt, handelt es sich um einen Namen, aber auch die Beziehungen zwischen den Wörtern."
Trotz der speziell für diesen Zweck eingeführten Datenformate brauchen semantisch angereicherte, "annotierte" Materialien wesentlich mehr Speicherplatz und Rechenkapazität bei der Verarbeitung. Und – die Erkenntnisse des Computers, datenbanktechnisch gesprochen, die annotierten Metadaten, bleiben natürlich immer nur errechnet; mit einer gewissen statistischen Wahrscheinlichkeit und damit Vertrauenswürdigkeit oder "Konfidenz" für den Nutzer.
"Es gibt natürlich das Problem, dass diese semantischen Verfahren nicht hundertprozentig genau sind. Das bedeutet, wir sind sehr froh, wenn wir 95 oder 90 Prozent hinkriegen. Je komplizierter die Aussage ist, desto geringer, muss man auch sagen, ist die Genauigkeit."
Vom Fraunhofer IAIS fließen nicht nur die im Rahmen von "Contentus" entwickelten semantischen Komponenten in die "Deutsche Digitale Bibliothek" ein – von hier stammt auch die eigentliche Betriebssoftware, der Datenbank-Kern für die DDB. Der soll einmal mit den automatisch errechneten semantischen Metadaten umgehen können – vor allem aber auch erst einmal mit den von Menschenhand erzeugten; sprich, mit den beschreibenden Informationen zu den digitalisierten oder noch zu digitalisierenden Objekten.
Das Problem dabei: Museen, Bibliotheken und Archive haben völlig unterschiedliche Traditionen, Bedürfnisse und Standards. Für ein Buch etwa sind die Angaben "Autor und Titel" elementar und sogar notfalls zur Beschreibung ausreichend, für ein archäologisches Objekt hingegen irrelevant - entsprechend unterschiedlich sehen also auch die Datenformate aus, die ein Museum oder aber eine Bibliothek typischerweise verwenden.
Die Entwickler des Datenbank-Kerns für die DDB setzen auf eine speziell für die Erfassung von kulturellem Erbe konzipierte Ontologie, das "CIDOC CRM". Dieses Datenmodell, das vom "Internationalen Komitee zur Dokumentation" entworfen wurde, auch programmiertechnisch konkret umzusetzen, ist alles andere als trivial – als Lohn winken dann extrem flexible Suchmöglichkeiten für den Endbenutzer.
Der Datenbankkern, das Herzstück der DDB, geht nur mit beschreibenden, mit Metadaten um; und selbst die können für ein einzelnes Objekt schon einmal einen Umfang von mehreren 100 Megabyte haben. Aber die Objekte selbst - so sieht es das dezentrale Konzept der Deutschen Digitalen Bibliothek vor - die Digitalisate; Text, Bild, oder Videodateien also, liegen im Regelfall weiterhin auf den Servern der einzelnen teilnehmenden Institutionen.
Die bleiben also auch für die Datensicherheit und Datenarchivierung zuständig; eine große Verantwortung, denn Digitalisate sind längst mehr als notfalls wiederbeschaffbare Kopien eines physischen Originals. Monika Hagedorn-Saupe vom Institut für Museumsforschung:
"Wenn wir Originale digitalisieren, zum Beispiel Tonaufnahmen, oder Filmaufnahmen, wo wir wissen, dass das Original in Kürze gar nicht mehr da ist, weil es einfach aufgelöst ist, kaputtgegangen ist, dann haben wir eine ganz wichtige Aufgabe, zu sehen, das wir dann das Digitale erhalten. Das Problem aber mit der digitalen Welt ist, dass die sich einerseits sehr schnell entwickelt, und zum anderen noch nicht wirklich umfassende Kenntnisse da sind, wie man umgehen muss, die Fragen der Langzeiterhaltung digitaler Daten sind noch in der Klärung, noch in der Entwicklung. Wir haben in Deutschland ja dafür das Nestor- Kompetenznetzwerk, das mit Vertretern der verschiedenen Sparten gemeinsam versucht, diese Frage für den Kulturbereich weiter anzugehen. Aber das ist eine Herkules-Aufgabe, der wir uns stellen müssen, und wo man sagen kann: Hier hat man die Wege noch nicht gefunden."
Oder zumindest noch nicht die endgültigen Wege: Immerhin haben die zahlreichen Arbeitsgruppen des Nestor-Projekts, das bei der Deutschen Nationalbibliothek in Frankfurt angesiedelt ist, in den letzten Jahren Erfahrungsberichte, Anleitungen und Empfehlungen zu allen denkbaren technischen, organisatorischen und rechtlichen Aspekten beim Umgang mit digitalem Kulturgut vorgelegt. Zusammengefasst finden sich die Erkenntnisse im fortlaufend aktualisierten "Nestor-Handbuch": Die "kleine Enzyklopädie der digitalen Langzeitarchivierung", so lautet der Untertitel, hat momentan einen Umfang von 634 Seiten.
Am Nestor-Handbuch mitgewirkt hat auch Angela Ullmann, sie leitet im Parlamentsarchiv des Deutschen Bundestages die Gebiete "Datenverarbeitungs-Koordination und Audiovisuelle Medien".
"Und wir haben jetzt hier auch unsere Sicherungsmedien, und zwar sind das jetzt die Sicherungs-Medien von der Digitalisierung der Audiodebatten, die sind jetzt auf LTO abgelegt, LTO ist ein empfohlenes Sicherungsformat. Und da ist jetzt zum Beispiel aus der zehnten Wahlperiode die erste bis 27. Sitzung auf so einem Band."
Anspruch und Aufgabe des Parlamentsarchivs ist es, das Handeln des obersten deutschen Gesetzgebers zu dokumentieren und transparent zu machen – gesammelt und aufbewahrt werden also Akten aus der Bundestagsverwaltung ebenso wie Schriftstücke, Bild- und Tonaufnahmen aus den Ausschüssen, Enquete-Kommissionen und natürlich aus den Plenarsitzungen.
"Was wir meinen mit Langzeitarchivierung, ist eben über Jahrhunderte. Und dann wird die Frage des physischen Verfalls eben relativ dringend. Mit 10, 20 Jahren können sie das alles locker auf dem Material aufbewahren, auf dem es entstanden ist. Aber gerade digitale Daten oder auch analoge Sachen, die verfallen dann schlicht und einfach über die Jahrhunderte."
– Atmo historische Ansprache im Bundestag Ende – ausblenden
Auch an den historischen Tonbandaufnahmen der Bundestags-Plenardebatten nagt der Zahn der Zeit – bei der seit etwa sechs Jahren laufenden Digitalisierung haben die Archivare daher mit den ältesten Bändern aus dem Jahr 1949 angefangen. Jetzt ist gerade einmal die Hälfte der Wegstrecke geschafft, denn natürlich werden die Aufnahmen nicht einfach nur überspielt, sondern abgehört und mit den entsprechenden beschreibenden Metadaten versehen. Dabei sind die Mitarbeiter im Vergleich zu anderen Archiven in einer ungewöhnlich komfortablen Situation – zu allen Plenarsitzungen liegen die gedruckten Protokolle der Parlamentsstenografen vor.
Aber die Erschließung erfolgt eben manuell und in Echtzeit – und auch das Bundestagsarchiv verfügt nur über begrenzte personelle und finanzielle Ressourcen. Da ist Pragmatismus angesagt:
"Also was wir nicht machen: Wir digitalisieren keine Akten. Weil sich für die Langzeiterhaltung tatsächlich der Film besser als Medium eignet. Es gibt ja in der Bundesrepublik ein standardisiertes Verfahren, Sicherheitsverfilmung von Kulturgut, wo also die Sachen auf Silberhalogenidfilm aufgenommen werden, und das machen wir hier auch. Aber das hat mit Digitalisierung erst einmal nichts zu tun, da geht es nur um Sicherung. Was man später noch machen könnte, und die Idee haben wir auch, dass man vom Film dann digitalisiert, und das Digitalisat im Internet bereitstellt."
Ein schneller und komfortabler Zugriff auf das Material – für einen Archivar ist das zwar wünschenswert, aber letztlich eine Luxusoption. Allererste Priorität hat die Aufgabe, das Archivgut langfristig zu sichern – und zwar im Rahmen des verfügbaren Budgets:
"Sie müssen ja auch die Folgekosten bedenken. Es kostet ja alles, wenn sie einmal in die digitale Spirale einsteigen, können sie nie wieder aussteigen. Und die dreht sich immer schneller. Das heißt, sie müssen verantwortungsvoll auf Formate setzen, von denen sie annehmen können, dass sie zu mindestens für einige Jahrzehnte halten. Das sehe ich im Dokumentenbereich noch nicht so."
Auch gegenüber den Versprechungen der Semantik, der automatischen Erschließung von Inhalten, hegt Angela Ullmann noch große Skepsis – angesehen hat sie sich zum Beispiel Entwicklungen aus dem Theseus-Projekt, die etwa in Videos von Plenardebatten Abgeordnete oder bestimmte Themen erkennen wollen. Viele Verfahren, so das vorläufige Fazit von Angela Ullmann, funktionieren mit einem bestimmten, ausgiebig trainierten Test-Datensatz schon ganz ausgezeichnet. Aber wenn es dann an Material aus der täglichen Praxis geht, steigt die Fehlerquote rapide in die Höhe:
"Bis jetzt hat es uns noch einfach nicht überzeugt. Das Problem ist ja auch so ein bisschen, und das ist für alle Archivare und für alle Bibliothekare das Problem: Die Zeit, die sie damit verbringen, Verfahren zu evaluieren, die fehlt Ihnen natürlich, um das Material, was sie jetzt schon haben, zu erschließen."
Ob bei der Einführung von semantischen Verfahren oder bei der Digitalisierung insgesamt – für eine einzelne Institution ist es immer riskant, technologisch vornweg zu marschieren: Wer zu früh auf das falsche Pferd setzt, der muss später kostenträchtig umsatteln.
Bei einem speziellen Bereich der digitalen Langzeitspeicherung aber haben Angela Ullmann und ihre Kollegen versucht, Maßstäbe zu setzen: Seit 2005 wird das Webangebot des Deutschen Bundestages archiviert und wiederum im Internet zur Verfügung gestellt. Das hört sich weit trivialer an, als es tatsächlich ist:
"Wenn sie sich in einem Webangebot befinden, dann haben Sie sozusagen nur einen Topf. Wenn sie da zwischen den Seiten springen, dann es gibt einen Link, der führt zu Seite "Aktuelles", im Archiv haben Sie ja ganz verschiedenen Fassungen, sie haben eine vom 1. November, sie haben eine vom 1. Dezember, da gibt es unter Umständen 100 Fassungen der Seite "Aktuelles"."
Auch die Verlinkungen aus einer Website heraus ins Netz sind natürlich inhaltlich wichtig – nach kurzer Zeit schon kann das Ziel aber ganz anders aussehen oder gar nicht mehr vorhanden sein. Und wenn Datenschutzbelange berührt sind, oder, ganz banal, wenn temporär eingekaufte Bildnutzungsrechte abgelaufen sind, dann kann es sogar nötig sein, das eigentlich sakrosankte Archivgut selbst zu verändern, zumindest in der nach außen hin sichtbaren Benutzungsversion. Alle Modifikationen, so die wichtigste Empfehlung der Archivare, müssen dem Benutzer dokumentiert werden.
Daran, dass auch Webseiten zum erhaltungswürdigen Kulturerbe gehören können, gibt es keinen Zweifel: Seit 2006 ist analog zur Pflichteinlieferung von deutschsprachigen Druckwerken bei der Deutschen Nationalbibliothek auch die Pflichteinlieferung von Webpublikationen gesetzlich vorgeschrieben. Betroffen davon sind Webseiten, an denen ein "besonderes öffentliches Interesse" besteht - zumindest theoretisch, denn bislang hat die DNB noch kein fertiges Konzept, wie sie den Sammel- und Archivierungsauftrag umsetzen soll, gibt die Direktorin Ute Schwens zu:
"Es läuft eigentlich noch gar nicht. Wir haben alle Ablieferer, wie wir die immer nennen, die auf uns zugekommen sind, und gefragt haben, wie sollen wir das denn jetzt machen, welches Verfahren, haben wir vertröstet, und gesagt: Lasst uns erst mal ein gemeinsames Verfahren überlegen, was eine sinnvolle Art und Weise ist."
Die Devise lautet also ganz klar – je mehr Standard, je mehr Konsens und Kooperation zwischen verschiedenen Institutionen, desto besser. Auch am Konzept der Deutschen Digitalen Bibliothek arbeitet ein ganzes Kompetenznetzwerk mit; in Frankfurt bei der Deutschen Nationalbibliothek werden die Arbeiten koordiniert. Und hier finden auch Tests der vom Fraunhofer IAIS entwickelten Software statt. Noch gebe es angesichts der schieren Datenmenge und aufgrund von noch vorhandenen Unstimmigkeiten in den zugelieferten Datensätzen immer wieder Überraschungen, berichtet Bibliotheks-Informationswissenschaftler Uwe Müller:
"Und die versuchen wir im Moment zumindest zu minimieren, dass wir uns dann nicht blamieren, wenn das Betaszenario der DDB an die Öffentlichkeit geht."
Fehlerhafte Metadaten führen nämlich zu unsinnigen Suchergebnissen oder Querverweisen, die den Benutzer im günstigsten Fall amüsieren, im schlechtesten Fall aber an der Seriosität des gesamten Projektes zweifeln lassen – und diese Gefahr besteht in noch viel stärkerem Maße bei den semantischen Annotationen. Wahrscheinlich wird die DDB, was computererrechnete Metadaten angeht, zunächst einmal mit sehr konservativen Einstellungen in den öffentlichen Betabetrieb gehen. Im Moment stellt sich der Informatiker ohnehin noch ganz andere, pragmatische Fragen:
"Wie schnell bekomme ich eigentlich meine Daten in das System? Das sieht jetzt für den Endbenutzer nicht so wichtig aus, ist aber aus betrieblicher Sicht durchaus relevant, weil es ja dazu kommen kann, dass ich ab und zu mein System neu aufbauen muss. Andererseits will ich natürlich auch eine gewisse Reaktionszeit haben, mit der ich Daten neu in das System einspielen kann."
Das konzeptionell vielversprechende, aber eben auch sehr komplexe Datenmodell, bei dem jeder Datensatz mit unzähligen anderen querverbunden ist, droht das System träge werden zu lassen – und zwar umso spürbarer, je mehr Objekte hinzukommen.
Genau das sind auch die Erfahrungen beim Leibniz-Institut für Informationsinfrastruktur FIZ in Karlsruhe – hier stehen die Rechner, auf denen die DDB-Datenbank in der Test- und Betaphase und dann möglicherweise auch im späteren Standardbetrieb läuft. Aus Sicherheits- und aus Geschwindigkeitsgründen besteht die Hardwarearchitektur aus zwei oder später sogar drei kompletten Einzelsträngen: So können Benutzer auf ein DDB-System zugreifen, während auf dem anderen gerade neue Daten eingespielt werden. Aber wenn es bei einem solchen Ladevorgang, dem sogenannten Ingest, zu einem Abbruch kommt, hat man anschließend das Problem, die verschiedenen DDB-Instanzen wieder zu synchronisieren, berichtet die Bereichsleiterin "Entwicklung und angewandte Forschung", Leni Helmes:
"Und der andere Fall ist der, mit dem wir uns auch stark auseinandersetzen: Was macht man eigentlich, wenn man feststellt am Ende dieses Ladeprozesses, der schon einmal zwei, drei Wochen dauern kann; wenn man feststellt, es wurden Daten fälschlicherweise in das System eingebaut? Sei es, dass der Betreiber irgend einen Fehler gemacht hat, oder auch der Datenlieferant feststellt: "Oh Gott, diese Daten hätte ich eigentlich gar nicht liefern wollen." Dann müssen diese wieder aus dem System heraus, und dann wird es erst richtig kompliziert. Weil man dann all diese Verlinkungen, die stattgefunden haben, die muss man dann auch wieder zurücksetzen."
Je mehr Semantik und Vernetzung man in die Daten einbaut, umso komplexer wird das System. Einerseits fordern die immer größeren Datenmengen neue, intelligentere Wege der Datenverarbeitung. Aber andererseits generieren die intelligenten Wege wieder neue, riesige Datenmengen. Die existierenden Konzepte stecken in ihrer Nutzbarkeit noch halb in den Kinderschuhen und stoßen doch schon an Limits. Vielleicht steuert man sogar auf eine Wand zu, was die in absehbarer Zeit verfügbaren technischen und finanziellen Ressourcen angeht?
"Nicht außer Acht lassen darf man letztendlich auch irgendwann den Energiebedarf. Also diese neuen Systeme sind sehr leistungsfähig, aber sie verbrauchen teilweise auch entsprechend Energie. Rechenzentren und der Anspruch an "Green IT", das ist schon auch etwas, was man hier bedenken muss oder überlegen muss bei der Anschaffung dieser Server - was bedeutet das letztendlich auch für mein Rechenzentrum?"
Weit besser hätt ich doch mein Weniges verpraßt,
Als mit dem Wenigen belastet hier zu schwitzen!
Was du ererbt von deinen Vätern hast,
Erwirb es, um es zu besitzen.
Was man nicht nützt, ist eine schwere Last,
Nur was der Augenblick erschafft, das kann er nützen.
Lohnt sich der gewaltige Aufwand für die Digitalisierung und Archivierung des Kulturerbes? Wird aus dem Alten Neues entstehen?
"Wenn hinterher wirklich größere Datenmengen von unterschiedlichsten Anbietern und Sparten in dieser zentralen Plattform sein werden, und man eben sieht, wie durch die Semantik man dann auf Inhalte stößt, auf die man sonst gar nicht gekommen wäre - Ich glaube, dann ist der Punkt, wo man sagt: Ja, das hat sich gelohnt."
" Also da kann man sich viele neue Sachen noch vorstellen, die jetzt in der ersten Stufe nicht sichtbar sind, die aber sicherlich zu Mehrwert führen, den man dann monetär gar nicht mehr abschätzen kann. Insofern denke ich, das ist sehr gut investiertes Geld, das man in ein solches Projekt hier rein steckt."
"Denken wir doch einfach einmal 400 Jahre weiter. Man muss sich einfach, wenn man diese Arbeit macht, aus der aktuellen Zeit lösen und einfach diesen Zeitstrahl sehen. Was man jetzt macht, ist etwas, was eine Kette fortsetzt, aber nach Einem werden auch wieder welche kommen, die diese Kette fortsetzen."