1300 bis 1700 Seiten pro Stunde schafft ein moderner Buchscanner. Und dabei ist der nächste Verarbeitungsschritt schon inbegriffen: Die optische Zeichenerkennung, die aus den digitalen Fotos der Buchseiten Textdateien macht. Liegt der Inhalt von Büchern erst einmal als Textdatei vor, dann kann man darin nach Stichworten suchen. Genau so funktioniert das auch bei "Google Books", dem Digitalisierungsprojekt des Suchmaschinen-Riesen. Die herkömmliche Volltextsuche hat aber ihre Grenzen, sagt Thomas Tikwinski vom Fraunhofer Institut für Intelligente Analyse- und Informationssysteme IAIS:
"Wenn Sie heute eine Google-Suche anstoßen nach Büchern, die über den Kommunismus sprechen, dann ist das kein Problem. Wenn Sie sich aber dranmachen, eine Suche zu starten, die Bücher suchen über den Kommunismus, die von amerikanischen Zeitgenossen von Hermann Hesse geschrieben worden sind, das ist nahezu unmöglich mit einer normalen Suchmaschine."
"Contentus" kann mit so einer Suchanfrage etwas anfangen. Es kann Information in inhaltliche, begriffliche Konzepte einsortieren; es kennt semantische Kategorien. Aber wie ein Kind lernt, dass Tisch, Stuhl und Schrank zur Kategorie "Möbel" gehören, muss auch der Software diese Art von Weltwissen erst beigebracht werden:
"Wir nehmen mal einen ganz kleinen Ausschnitt davon und nehmen ein Modell von Weltwissen, wie es der Wikipedia zugrunde liegt, da gibt es im Prinzip einen technischen Abzug von der Wikipedia, die sich um reines Faktenwissen kümmert, und an die klinken wir das an, technisch."
"Contentus" bekommt also nicht das komplette Lexikon eingetrichtert, sondern nur das, was man bei einem Wikipedia-Artikel ganz unten findet, die lexikalische Kategorisierung. Beim Eintrag "Hermann Hesse" also zum Beispiel: "Autor, Person, Mann". So banal eine solche relativ grobe Einordnung auf den ersten Blick erscheinen mag: Sie ermöglicht erst, dass ein semantisches Konzept im Gegensatz zur Volltextsuche mit Mehrdeutigkeiten, mit den so genannten Ambiguitäten umgehen kann:
"Dadurch, dass wir eben den Kontext anschauen, in dem ein Stichwort auftaucht, und dann sagen können, hier wird über ein Ufer gesprochen, über Gebüsch, über Gewässer gesprochen, also wird der Bach wahrscheinlich nicht der Komponist sein."
Benutzen kann man die "Contentus"-Datenbank per Webbrowser, und ein semantisch aufbereiteter Text sieht wie ein sehr gut verschlagworteter Wikipedia-Lexikonartikel aus. Kommt etwa in einem Dokument der Begriff "Berlin" vor, so führt ein Mausklick auf das Wort zu weiteren Informationen und Dokumenten über die Bundeshauptstadt. Ein Klick auf "Hauptstadt" dann lässt einen nach Paris, Rom oder London weiterreisen. Oder man engt die Ergebnisse zu "Berlin" mit ein paar Suchworten ein und findet Schauspielerinnen, die an der Spree geboren sind. Der Witz: Das alles ist nicht das Ergebnis von Handarbeit, das System schafft die Einordnung in Kategorien und deren Querverbindungen automatisch. Das macht die Sache auch für die Deutsche Nationalbibliothek interessant, die an dem Projekt federführend beteiligt ist. Bislang werden Medien dort von Hand gesichtet, erfasst und kategorisiert, was großes Fachwissen erfordert und zeitaufwendig ist. Projektleiter Jan Hannemann:
"Allerdings können intelligente Verfahren und Algorithmen natürlich ein Medium analysieren und gezielt Vorschläge für den Sachbearbeiter machen, damit der nicht die ganze Sache selbst machen muss, sondern sich tatsächlich auf die Vorschläge des Programms beziehen kann."
Das gilt nicht nur für Bücher, "Contentus" soll auch andere Medientypen erschließen, auch wenn es dabei momentan noch an die Grenzen des technisch Machbaren stößt. Immerhin funktioniert ansatzweise das Erkennen von Sprechern bei Tondokumenten und das Erkennen von Gesichtern bei Bild und Filmdateien. Übrigens: Per Internet auf die mit "Contentus" digitalisierten, erschlossenen und verknüpften Medien zugreifen, das wird auch in der Zukunft nie ganz schrankenlos möglich sein: Auch die Deutsche Nationalbibliothek muss die Urheberrechte beachten.
"Wenn Sie heute eine Google-Suche anstoßen nach Büchern, die über den Kommunismus sprechen, dann ist das kein Problem. Wenn Sie sich aber dranmachen, eine Suche zu starten, die Bücher suchen über den Kommunismus, die von amerikanischen Zeitgenossen von Hermann Hesse geschrieben worden sind, das ist nahezu unmöglich mit einer normalen Suchmaschine."
"Contentus" kann mit so einer Suchanfrage etwas anfangen. Es kann Information in inhaltliche, begriffliche Konzepte einsortieren; es kennt semantische Kategorien. Aber wie ein Kind lernt, dass Tisch, Stuhl und Schrank zur Kategorie "Möbel" gehören, muss auch der Software diese Art von Weltwissen erst beigebracht werden:
"Wir nehmen mal einen ganz kleinen Ausschnitt davon und nehmen ein Modell von Weltwissen, wie es der Wikipedia zugrunde liegt, da gibt es im Prinzip einen technischen Abzug von der Wikipedia, die sich um reines Faktenwissen kümmert, und an die klinken wir das an, technisch."
"Contentus" bekommt also nicht das komplette Lexikon eingetrichtert, sondern nur das, was man bei einem Wikipedia-Artikel ganz unten findet, die lexikalische Kategorisierung. Beim Eintrag "Hermann Hesse" also zum Beispiel: "Autor, Person, Mann". So banal eine solche relativ grobe Einordnung auf den ersten Blick erscheinen mag: Sie ermöglicht erst, dass ein semantisches Konzept im Gegensatz zur Volltextsuche mit Mehrdeutigkeiten, mit den so genannten Ambiguitäten umgehen kann:
"Dadurch, dass wir eben den Kontext anschauen, in dem ein Stichwort auftaucht, und dann sagen können, hier wird über ein Ufer gesprochen, über Gebüsch, über Gewässer gesprochen, also wird der Bach wahrscheinlich nicht der Komponist sein."
Benutzen kann man die "Contentus"-Datenbank per Webbrowser, und ein semantisch aufbereiteter Text sieht wie ein sehr gut verschlagworteter Wikipedia-Lexikonartikel aus. Kommt etwa in einem Dokument der Begriff "Berlin" vor, so führt ein Mausklick auf das Wort zu weiteren Informationen und Dokumenten über die Bundeshauptstadt. Ein Klick auf "Hauptstadt" dann lässt einen nach Paris, Rom oder London weiterreisen. Oder man engt die Ergebnisse zu "Berlin" mit ein paar Suchworten ein und findet Schauspielerinnen, die an der Spree geboren sind. Der Witz: Das alles ist nicht das Ergebnis von Handarbeit, das System schafft die Einordnung in Kategorien und deren Querverbindungen automatisch. Das macht die Sache auch für die Deutsche Nationalbibliothek interessant, die an dem Projekt federführend beteiligt ist. Bislang werden Medien dort von Hand gesichtet, erfasst und kategorisiert, was großes Fachwissen erfordert und zeitaufwendig ist. Projektleiter Jan Hannemann:
"Allerdings können intelligente Verfahren und Algorithmen natürlich ein Medium analysieren und gezielt Vorschläge für den Sachbearbeiter machen, damit der nicht die ganze Sache selbst machen muss, sondern sich tatsächlich auf die Vorschläge des Programms beziehen kann."
Das gilt nicht nur für Bücher, "Contentus" soll auch andere Medientypen erschließen, auch wenn es dabei momentan noch an die Grenzen des technisch Machbaren stößt. Immerhin funktioniert ansatzweise das Erkennen von Sprechern bei Tondokumenten und das Erkennen von Gesichtern bei Bild und Filmdateien. Übrigens: Per Internet auf die mit "Contentus" digitalisierten, erschlossenen und verknüpften Medien zugreifen, das wird auch in der Zukunft nie ganz schrankenlos möglich sein: Auch die Deutsche Nationalbibliothek muss die Urheberrechte beachten.