Archiv


Manuskript: Wörter, Kriege, Emotionen

Umbrüche erklären, die Zukunft erkennen - das und nicht weniger ist das Ziel der "Digital Humanities", einer neuen Strömung in den Geisteswissenschaften. Linguisten durchforsten Millionen Bücher nach den Gesetzen des Sprachwandels. Aus Häufigkeitsverteilungen und Zeitreihen von Wortwolken lesen sie ab, wie gesellschaftliche Moden mit  angesagten Hunderassen in Beziehung stehen und klären, nach welchen Mustern sich Skandale entfalten.

Von Bernd Schuh |
    Das Raunen der Welt. Es wird geredet, gesungen, getwittert, gesimst, gemailt; es wird gedruckt, gemalt, geplant. Gescannt, kopiert, gespeichert. Digitalisiert, digitalisiert, digitalisiert. Die Digitalisate: Ablagerungen der Menschheitsgeschichte. Kulturschichten, Menschheitsmuster. Datenschätze? Eine Goldgrube für Historiker? Kaffeesatz für Zukunftsforscher?

    Im Anfang war das Wort. Und die meisten Wörter waren bei Google. Und Google war das Wort. Und dann kamen die Propheten. Sie nahmen das Wort und suchten es in den Büchern und zählten es. Mit den Zahlen betrieben sie Statistik, und das war das Ergebnis:

    "Everyone knows that a picture is worth a thousand words. But we at Harvard were wondering if this was really true."

    Erez Aiden hat Unterhalterqualitäten. Wenn er und sein Mitforscher Jean-Baptiste Michel ihre jüngsten Forschungsergebnisse vortragen, wie hier auf einer TED-Konferenz, wird nicht nur gestaunt, es wird auch geschmunzelt.

    "Ladies and Gentlemen, a picture is not worth a thousand words, in fact we found some pictures that are worth 500 hundred billions words."

    Die beiden Wissenschaftler haben an der Harvard-University eine Art Unterinstitut gegründet, das sie nicht ganz unbescheiden "Cultural Observatory" nennen, also eine Art Sternwarte der Kultur. Deren Instrumentarium bedient sich einer Forschungsmethode, die Aiden und Michel "culturomics" oder Kulturomik getauft haben.

    "Culturomics nennen wir diese Methode, und so wie die Genomik durch ein Vergrößerungsglas auf die Biologie blickt, ist culturomics ganz ähnlich die Anwendung der Datenanalyse auf das Studium der Kultur, durch die Brille digitalisierter Überlieferung."

    Was den Harvardleuten letztlich zu ihrer Berühmtheit verholfen hat, ist ihre Zusammenarbeit mit Google. Der Werbegigant operiert seit Jahren in den Grauzonen des Urheberrechts mit dem ambitionierten Plan, sämtliche jemals gedruckten Bücher zu digitalisieren. An die 15 Millionen sind schon geschafft, und auf diesen riesigen Datensatz haben der Historiker, Physiker und Biomediziner Aiden und der Ingenieur und Systembiologe Michel Zugriff bekommen. Als erstes haben sie Bücher aussortiert, die wegen zu vieler Übertragungsfehler beim Scannen unbrauchbar waren. Übrig blieben etwa 5 Millionen Bücher oder vier Prozent aller jemals zwischen Buchdeckel gepressten Texte - jene 500 Milliarden Wörter, auf die Aiden im Vortrag anspielte. Nun kam den beiden ihre Zusatzausbildung in angewandter Mathematik zugute: Sie entwickelten ein Programm, mit dem man nach einzelnen oder mehreren Wörtern in diesem sich über vier Jahrhunderte erstreckenden Wort-Schatz suchen kann. Oder nach Zahlen, für den Computer ist das kein Unterschied. Aiden:

    "Let me tell you the history of the year 1950…"

    Zum Beispiel die Geschichte der Jahreszahl 1950. In Büchern vor 1950 taucht sie verständlicherweise so gut wie nicht auf. Erst mit dem Jahr 1950 bildet die Häufigkeit, mit der die Jahreszahl erwähnt wird, ein gewaltiges Maximum aus. Das aber auch schnell wieder abklingt. Ein Schicksal, das 1950 mit praktisch allen Jahreszahlen teilt. Es gibt jedoch eine feine, aber bemerkenswerte Gesetzmäßigkeit: Der Hype um ein Jahr verblasst umso schneller, je mehr sich die Jahreszahl der Gegenwart nähert. Aiden:
    "And the net result is, that the bubble bursts faster and faster with each year."

    Wir finden, sagt Erez Aiden, dass die Blase mit jedem Jahr immer schneller platzt. Und er folgert eine kulturkritische Aussage: Wir Menschen verlieren das Interesse an der Vergangenheit zunehmend schneller. Damit untermauert er den beliebten Allgemeinplatz von der zunehmenden Kurzlebigkeit, allerdings mit einer beeindruckenden Statistik: immerhin ein Fünfundzwanzigstel des jemals gedruckten Buchbestands ist als Zeuge aufgerufen. "Big Data-Analyse" nennt man das. Die Analysemethoden selbst und auch ihre Anwendung auf kulturwissenschaftliche Fragestellungen können auf eine lange Tradition zurückblicken.

    "Seit den 60er-Jahren werden Konzepte des quantitativen Umgangs mit Daten gesammelt, und Gedanken, Ideen gesammelt. Die ersten Dinge gehen zurück bis auf die 40er oder so, und spätestens seit den 80er-Jahren gibt es auch sehr kluge quantitative Studien zu Gruppen von Texten."

    Der Literaturwissenschaftler Fotis Jannidis vermisst Verweise auf diese Tradition in den Arbeiten aus Harvard.

    "Und diese Tradition ist bei denen in den Fußnoten nicht existent, und so weiter. Man merkt auch, dass sie in ihrem ganzen Forschungshabitus nur die Leute, die social science machen, im Blick haben, aber nicht die Leute, die sozusagen in den humanities in diesen Richtungen geforscht haben, wahrgenommen haben."

    Jannidis hat einen Lehrstuhl für Computerphilologie in Würzburg inne. Ein Fach, das schon im Namen die Verschmelzung quantitativer Methoden und geisteswissenschaftlicher Forschung zum Ausdruck bringt und an europäischen Unis unter diesem oder einem ähnlichen Etikett seit geraumer Zeit existiert.Tatsächlich beginnt die Geschichte der Verbindung zwischen EDV und Geisteswissenschaften bereits im Jahr 1948. Damals schlägt der italienische Theologe und Priester Roberto Busa auf einer Fachkonferenz vor, die gesammelten Werke des Kirchenlehrers Thomas von Aquin mithilfe automatisierter Methoden zu erfassen und zu ordnen.

    Er machte die ersten Schritte zusammen mit IBM-Gründer Thomas Watson. Und wurde damit zum Pionier eines Forschungsfeldes, das heute unter "digital humanities" firmiert, also digitale Geisteswissenschaften. Die Früchte dieser Zusammenarbeit waren erst Jahrzehnte später zu ernten: Seit 2006 sind die Werke des großen Thomas von Aquin jedermann im Netz zugänglich. Wer mag, kann sich daraus sogar vorlesen lassen, wenn nur Zeichen für Zeichen. Jannidis:

    "Schauen Sie sich die Arbeiten von Martin Müller an zum Beispiel , der Zehntausende von Romanen in seinem Corpus versammelt, schauen Sie sich die Sachen von Jeffrey Rockwell an, der in Kanada sein großes Projekt hat, wo es um quantitative Auswertungen geht, das sind Leute, die schon vorher in diese Richtung gearbeitet haben, die aber keine so spektakulären Ergebnisse und Werkzeuge vorzeigen konnten, weil sie diesen Datenzugang nicht hatten."

    Auf der anderen Seite will Fotis Jannidis die Errungenschaften aus Harvard keineswegs kleinreden.

    "Das heißt, aus mir spricht tiefer Neid und tiefe Begeisterung, dass sie das machen konnten, im Prinzip würde ich vieles im Detail vielleicht anders machen, aber da sind gute Ideen dabei, überhaupt keine Frage."

    Die traditionelle, sagen wir, "analoge" Arbeitsweise eines Historikers oder Sprachwissenschaftlers hat eine klare Fragestellung als Ausgangspunkt. Zum Beispiel: Welcher Stil charakterisiert einen bestimmten Autor? Dann kommt das Quellenstudium; zum Beispiel werden Bücher des Autors miteinander und mit denen anderer verglichen. In den digital humanities übernimmt diese Arbeit der Rechner. Dazu muss eine Auswahl an Quellen getroffen werden, das so genannte Corpus. Lesen kann der Computer die Bücher nur, wenn sie digitalisiert sind. Dann muss ein Programm her, das die Forschungsfrage beantworten kann. Und das kann Überraschungen liefern. Ein Projekt, das der Würzburger Philologe seit einigen Jahren verfolgt, demonstriert das. Jannidis hat ein Corpus von einigen hundert Romanen zusammengestellt. Er lässt sein Programm einfach die häufigsten Wörter zählen.

    "Das Programm nimmt sozusagen die Texte, zählt einfach die häufigsten Wörter, nimmt die 2000 häufigsten und schaut sich sozusagen die Verteilung an und misst darüber dann sozusagen die Distanz und die Nähe. In diesen Prozess greift niemand ein, sondern es ist so."

    Das Ergebnis ist verblüffend: Durch das simple Auszählen von Allerweltswörtern wie "der, die, das, und, oder, so, aber" – was auch immer ein Autor am häufigsten verwendet - ist das Programm in der Lage, zwischen Autoren zu unterscheiden. Literarischen "Stil" mögen wir zwar für eine Frage der Ausdrucksweise halten, im Grunde aber ist der Fingerabdruck eines Autors nichts anderes als eine Häufigkeitsverteilung. Das wichtige Ergebnis für den Literaturwissenschaftler aber ist der Beweis, dass es ihn überhaupt gibt, diesen Fingerabdruck. Jannidis:

    "Der Autor gilt nach Foucault als tot, und spielt keine Rolle, die Zuschreibung von Autoreigenschaften zu Texten wird von ihm selber in seinem berühmten Aufsatz 'Was ist ein Autor' als psychologische Projektion betrachtet. Und hier sehen Sie, dass das so nicht sein kann. Darauf hat schon John Burrows vor zehn Jahren hingewiesen, wir sehen hier ein deutliches Clustering nach Autorschaft, also es gibt sozusagen Merkmale in den Texten, die wir durch solche Verfahren messen können, die es uns erlauben, Texte von Autoren innerhalb einer Gattung unter bestimmten anderen Voraussetzungen als näher wahrzunehmen oder zu sehen, das bedeutet, dass es sich nicht nur um eine psychologische Projektion handeln kann, sondern dass Autorschaft tatsächlich so ein Fundament in re haben muss. Wie das genau aussehen muss, ist natürlich eine Frage der Zukunft, das zu modellieren."

    Selbst ganze Literaturepochen lassen sich auf diese ganz und gar unliterarische Weise herausfiltern. Auch Alf oder E.T. könnten ohne jegliche Kenntnis menschlicher Kulturgeschichte anhand digitalisierter Romane geistige Epochen wie Aufklärung und Realismus auseinanderhalten.

    Das Raunen der Dichter und Denker, die noch nicht getwittert, gesimst und gemailt haben, entpuppt sich bereits als Goldgrube für die historische Sprachwissenschaft. Auf vergleichbar grundlegende Einsichten stößt auch die "Sternwarte der Kultur" in Harvard beim Stöbern in den 500 Milliarden Wörtern. Aiden:

    "Here is the trajectory of Marc Chagall…"

    Wie oft kommen berühmte Persönlichkeiten in den Büchern vor, haben sich die Harvardforscher gefragt. Bei Marc Chagall stießen sie auf den erwartbaren Verlauf: eine stetig steigende Kurve der Berühmtheit. Beschränken sie dagegen die Suche auf deutsche Bücher, fällt die Erwähnung des Malers in der Zeit des Nationalsozialismus auf Null zurück.

    "What we see is that Marc Chagall was a Jewish artist in Nazi Germany."

    Die Kurve zeigt: Marc Chagall wird im Nazideutschland Opfer der Zensur. Aus diesem wenig überraschenden Resultat aber lässt sich eine solide Sonde für Zensur im allgemeinen konstruieren: Nimmt man sich statt eines Künstlers Hunderte vor, schaut sich an, wie deren tatsächliche Erwähnung in den Quellen von der erwarteten abweicht, erhält man eine Verteilungskurve, deren Schiefheit ein Maß für Zensur abgibt. Eine neue Methode mit prognostischer Kraft: Man muss nicht wissen, dass in einem Land Zensur herrscht, man kann es ablesen. Der Zensurindikator ist eine Errungenschaft, die erst durch die Big Data Analyse möglich wird.

    Das Wispern der Bits in den Digitalisaten der Kultur ist voller Antworten, auch auf Fragen, die noch gar nicht gestellt wurden. Am "Center of digital humanities" in Trier wird seit 15 Jahren klassisches Arbeiten mit den neuen Möglichkeiten verbunden. Informatiker, Philologen und Historiker arbeiten hier zusammen. Unter anderem haben sie ein Corpus von 20 deutschen Wörterbüchern zusammengetragen und als "Woerterbuchnetz" ins Netz gestellt. Informatiker Thomas Burch.

    "Wir haben 1998 mit der ersten Gruppe von Wörterbüchern begonnen, und die größte Komponente, die wir zur Verfügung stellen, ist das deutsche Wörterbuch von Jacob und Wilhelm Grimm, das bildet den Kern des Wörterbuchnetzes, mittlerweile umfasst unser Angebot etwas über 20 verschiedene Komponenten, und alle diese unterschiedlichen Wörterbuchkomponenten werden über das Wörterbuchnetz zusammengeführt."

    Ebenso wie das Google-Projekt lässt sich auch dieses Netz nach Zeichenketten, zum Beispiel bestimmten Einträgen in den Wörterbüchern durchsuchen. Was den culturomics-Leuten Marc Chagall ist, war den Trierern Heinrich Heine. Burch:

    "Eine interessante Tatsache, die man auch über die Datenbank ermitteln kann, ist, dass zum Beispiel Autoren wie Heinrich Heine zur NS-Zeit im Wörterbuch nicht zitiert werden. Das lässt sich zum Beispiel anhand der chronologischen Ordnung der Lieferungen des Wörterbuchs und anhand der zitierten Quellen wirklich statistisch beweisen, dass Heinrich Heine zu dieser Zeit nicht zitiert wird. Wohingegen er im restlichen Teil des Wörterbuches über 3000 Mal zitiert wurde."

    In einem nächsten Schritt sollen die Einträge der Datenbank so verknüpft werden, dass sich auch verschiedene, aber bedeutungsgleiche Wörter auffinden lassen. Damit, so erläutert Claudine Moulin, die das Trierer Zentrum leitet, lässt sich dann geisteswissenschaftliche Forschung jenseits der relativ simplen Googlesuche betreiben.

    "Jetzt kann ich als Forscher hingehen, sagen: Wie geht das Wörterbuch der Brüder Grimm zum Beispiel mit Zitaten um? Also, wie oft wird Goethe zitiert, oder wie oft wird mittelalterliche Literatur zitiert, wie konstruieren Grimm und ihre Nachfolger ihren Wortschatz? Stimmt es, dass die Luther-Bibel so eine große Rolle meinetwegen im Grimmschen Wörterbuch gespielt hat, und so weiter. Oder Dialekte, und so weiter und so fort. Das ist der Nutzen einer so genauen Digitalisierung."

    Doch dazu ist mehr Vorarbeit nötig als die vollautomatisierte Umwandlung von Druckseiten in Bytes per "optical character reading", also OCR-Scanner. Claudine Moulin führt Johann Ulrich Megerle als Beispiel an, einen geistlichen Schriftsteller aus dem 17. Jahrhundert, der besser unter seinem Ordensnamen Abraham a Santa Clara bekannt ist.

    "Wenn ich nur ein OCR habe, so eine flache Digitalisierung oder nur ein Image habe, wo ich nur nach Begriffen suchen kann, dann müsste ich…wieviel hatten wir da?...Also für Abraham a Santa Clara habe ich über vierzig Abkürzungen nur für einen Autorennamen! Hier haben die Mitarbeiter eine Auszeichnung geschaffen und ich krieg tatsächlich alle Belege von diesem Autor."

    "Social media, Networking, Kommunikation, Freunde finden ist heute in aller Munde. Also Facebook, Twitter, Skype, tatsächlich ist aber dieses Phänomen des social networking gar kein neues, sondern wurde eben auch früher schon betrieben. und die Frage war ganz einfach, finden sie in dieser Zeit über das Medium Brief neue Möglichkeiten, Gemeinschaft zu schaffen."

    In einem weiteren Projekt plant die Historikerin Vera Hildenbrandt, die sozialen Netzwerke der Exilschriftsteller im Dritten Reich anhand ihrer Korrespondenz zu ergründen. Ihr Ausgangspunkt ist ein Buch mit etwa 300 Briefen von deutschen Exilschriftstellern aus dieser Zeit. Es ist gespickt mit farbigen Post-its, die Verweise auf verwandte Themen geben. Man würde gern wissen: Wer hat mit wem über was geschrieben? Wer mochte wen, wer hat wen ausgegrenzt? Bei einem Corpus von 300 Briefen, wie er dem Buch zugrundeliegt, lässt sich noch klassisch-analog arbeiten, mit Brille, Bleistift und Karteikarten. Tatsächlich aber warten an die 17.000 Briefe aus dieser Zeit auf die Auswertung. Hildenbrandt:

    "Als normal, traditionell arbeitender Literaturwissenschaftler kann ich nur eine begrenzte Menge an Briefen erfassen und diese Themen nachverfolgen. Und die Hoffnung ist eben jetzt, dass man durch solche modernen Verfahren ein ganz, ganz großes Corpus von Briefen absuchen kann, die Themen verfolgen kann, verfolgen kann wie sie sich entwickeln, wie Sie vielleicht auch wieder abbrechen."

    Eine weitere Komplikation beim Schürfen im Bergwerk der Kultur wird hier deutlich: Das Ausgangsmaterial. In diesem Fall handgeschriebene Briefe. Die machen schon das Digitalisieren zu einer Kärrnerarbeit. Dass sich die Mühe lohnen kann, hat Malte Rehbein, Professor für Geschichte an der University of Nebraska mit dem Göttinger Stadtbuch aus dem 15. Jahrhundert demonstriert. Dabei waren nicht nur die verschiedensten Handschriften zu entziffern, sondern oft auch zu datieren; denn Stadtschreiber legten selten neue Bücher an, lieber machten sie ihre Einträge auf bereits bestehenden Seiten. Rehbein wurde zwischenzeitlich zum Chemiker.

    "Da habe ich einige Experimente gemacht, indem ich verschiedene Tinten in einem Chemielabor nach mittelalterlichen Rezepten erstellt habe, die hier aufgetragen habe und nachgeschaut habe, wie sich das dann darstellt und dann über so einen Multispektralscanner angesehen habe, ob man die verschiedenen Tintenzusammensetzungen damit erkennt. Wir sind dabei, das zu automatisieren, über Tintenerkennung, moderne Verfahren wie die Spektralanalyse, die dann hoffentlich einmal in der Lage sind, Tinten zu erkennen, und diese Simulation automatisch zu erstellen. Es geht ansatzweise, aber es ist noch viel Forschung nötig in diesem Bereich."

    Auch das ist digital humanities, und es zeigt einmal mehr, wie interdisziplinär dieses Forschungsfeld aufgestellt ist. Das fertig digitalisierte Stadtbuch lässt sich nun chronologisch und thematisch durchforsten – eine Mehrdimensionalität, die neue Perspektiven eröffnet. Zum Beispiel enthält das Stadtbuch genaue Angaben, wie sich die Bürger für den Fall eines Angriffs zu bewaffnen hatten. Jede Zunft verteidigte ein anderes Segment der Stadtmauer. Malte Rehbein:

    "Und bei einem Angriff wurden die Glocken geläutet, und die Bevölkerung musste dann gemäß der Zugehörigkeit zu ihrer Gilde zu dem zugehörigen Segment kommen, und zwar mit den eigenen Waffen, und welche Waffen das sind, regelten die Statuten gemäß der Steuerleistung, wer viel versteuert, viel Steuern zahlt, der muss auch eine entsprechende Bewaffnung einsetzen, eine Armbrust zum Beispiel. Wenn man sich das Ganze im Zeitverlauf ansieht, dann kann man die Weiterentwicklung und die Innovationen in der Waffentechnologie verfolgen."

    Die Werkzeuge der digital humanities und insbesondere der Big Data-Analysen á la Culturomics stammen aus den Sozial- und Wirtschaftswissenschaften. Sie ähneln Analyseinstrumenten zum Aufspüren von Meinungen und Trends. Man braucht Statistik, macht Zeitreihenanalysen. Wirtschaftsinformatik und Marketing machen davon schon lange Gebrauch. Warum sie nicht auch auf politische Meinungen und Meldungen anwenden? Auf die "Big Data" nicht der social, sondern der news media? Seit dem arabischen Frühling herrscht die Vorstellung, politische Veränderungen könnten durch social media beeinflusst, wenn nicht gar ausgelöst werden. Neuerdings kommt die Idee auf, solche Ereignisse durch die Auswertung möglichst vieler Medienberichte sogar vorhersagen zu können.

    "Hello there, I’m Kalev Leetaru, from the University of Illinois, and it is wonderful to be here with you."

    Der amerikanische Informatiker Kalev Leetaru tritt gern mit dem Anspruch auf, die Big Data-Analyse um eine weitere Dimension bereichert zu haben, die Stimmungsanalyse. Culturomics 2.0 nennt er den Versuch, riesige Datenbestände, insbesondere von klassischen Medien, auf Meinungen und Stimmungen zu untersuchen und damit Netzwerke zwischen Menschen, Ländern, Themen erst sichtbar zu machen. Was sein Vorgehen von den Beispielen aus Trier oder Würzburg unterscheidet ist eigentlich nur die Größe der Computer und der Datenmenge...

    "We do other interesting things, like plot the geographic affinity of a terrorist leader like Bin Laden."

    ...und der Aufmerksamkeitswert seiner Behauptungen.

    Hätten uns die Nachrichten aus der ganzen Welt Hinweise auf das Versteck Osama Bin Ladens geben können,

    macht er den Leser seiner Arbeit neugierig. Um die Frage zu beantworten, hat Leetaru seine Rechner sämtliche Meldungen zweier weltweiter Nachrichtenagenturen danach durchsuchen lassen, mit welchen Orten der Name Bin Laden im Zusammenhang erwähnt wird. Wenig überraschend liegen die mit dem Terroristenführer verbundenen Städte fast zur Hälfte in Pakistan. Mit etwas Abstand folgen die USA, Iran und Afghanistan. Die Stadt Abbottabad, wo er letztlich gefasst und getötet wurde, taucht in dem Datenwust nur ein einziges Mal auf. Weit gefehlt, ist man versucht zu sagen, doch Leetaru fasst optimistisch zusammen:

    Auch wenn das Ergebnis von einer sicheren Prognose von Bin Ladens Aufenthaltsort weit entfernt ist, hätten die globalen Nachrichten ihn doch in einem Umkreis von 200 Kilometern im nördlichen Pakistan vermuten lassen.

    Da haben zumindest die geheimen Dienste der westlichen Länder weit besser Bescheid gewusst. Und aufmerksame Leser der Weltpresse vermutlich genauso gut. Leetarus Methoden sind aus dem Marketing wohlbekannt. Man benutzt positiv und negativ konnotierte Wörter, um Bewertungen zu unterscheiden. Bisher wurden diese Methoden aber noch nicht verwendet, um soziales Verhalten vorherzusagen. Leetaru:

    "Nearly half of all global news of today is available through the web, meaning that we can access it instantly from every corner of the globe."

    So, glaubt Leetaru, durch die augenblickliche Verfügbarkeit aller Nachrichten im Netz, entsteht ein Echtzeitbild der politischen Stimmungen und Ressentiments, das Freundschaft und Feindschaft signalisiert. Die politische Stabilität von Nationen oder Regionen will Leetaru damit graphisch sichtbar machen. Ob Culturomics 2.0 wirklich den Beginn einer Entdeckungsreise in eine neue Welt darstellt, bleibt abzuwarten. Vorerst handelt es sich um populäre Anwendungen von Methoden aus den Sozial- und Geisteswissenschaften. Erez Aiden wies schon in seinem TED-Vortrag darauf hin,

    "The great thing about culturomics is that everyone can do it."

    …, dass, ja, jedermann culturomics betreiben kann. Jeder Internetnutzer kann neuerdings Geschichte und Kultur ergründen, jedenfalls soweit sie in den digitalen Googleschätzen zu finden ist. Dazu muss man nur eine neue Google-Seite aufsuchen: den Ngram Viewer. Dort wird jeder zu seinem eigenen Kulturwissenschaftler. Man kann das Aufkommen des Feminismus anhand der Diskrepanzen im Vorkommen der Wörter "Mann" und "Frau" verfolgen, oder sich zum Beispiel überzeugen, dass Marc Chagall tatsächlich eine erschütternde Erwähnungslücke um 1940 herum aufweist. Bei Heinrich Heine wundert man sich dann, dass dessen Erwähnung ausgerechnet 1943 ein Hoch erfährt - ganz im Gegensatz zum Befund aus Trier, der sich auf die deutschen Wörterbücher stützt. Da bleibt das Laienforschungsprojekt stecken. Es fehlt der Zugriff auf die Rohdaten und in der Regel die Kompetenz zur strengen statistischen Überprüfung der Ergebnisse. Von den Experten der Big Data Analyse und den Erfindern des Kunstworts culturomics werden wir sicher in den nächsten Jahren noch einige erstaunliche Ergebnisse präsentiert bekommen. Mit denen können sich dann Wissenschaftsblätter und die Forscher selbst schmücken.

    "Das wird unser Verständnis von Kultur verändern", sagt Jean-Baptiste Michel in einem der vielen Vorträge, mit denen die culturomics-Erfinder im Netz präsent sind. Wenn es tatsächlich geschieht, könnte es ein langwieriger Prozess werden. Manfred Thaller, einer der Pioniere der digital humanities, mahnt zur Geduld.

    "Ich glaube, dass es sehr stark in den Anfängen ist. Grundsätzlich glaube ich, dass wir hier ein sehr breites Forschungsfeld haben, das in Zukunft vertieft werden kann. Allerdings halte ich es für eines der klassischen Probleme, wo die so genannte 90/10 -Regel in Anwendung kommt, dass wir mit zehn Prozent des Aufwands 90 Prozent des Ergebnisses erzielen und eine offensichtliche Kehrseite sichtbar wird."

    Nämlich dass die restlichen zehn Prozent 90 Prozent des Aufwands verschlingen.

    "Das heißt wir haben relativ viele Fälle im Bereich der Tradition der Anwendung von rechnergestützten Verfahren auf geisteswissenschaftliche Fragestellungen, wo Sie mit vergleichsweise geringem Aufwand sehr spektakuläre Anfangserfolge erringen können. Um die allerdings über spezifische Anwendungsfälle hinaus zu bringen, sind dann unter Umständen jahrzehntelange Vertiefungen notwendig."

    Berühmt sind die culturomics-Erfinder schon jetzt. Wer früher erstmals Zugriff auf eine mittelalterliche Handschrift hatte, wurde in der Philologie berühmt, ganz gleich, was danach noch kam. Fotis Jannidis:

    "Und die sind es jetzt, indem sie zum ersten Mal einen Zugriff auf diese Googledaten gehabt haben, und die haben Geschichte geschrieben, ich glaube daran kommt man gar nicht vorbei, so wie man früher Editionen kritisiert hat, das und das hätte man anders gemacht, aber es ändert nichts daran, dass das ein erstes Szenario ist, was können wir mit diesem großen Datenmengen machen."

    Weniger gutwillig als Fotis Jannidis könnte man die Harvard-Google-Kooperative oder das Datenabraumunternehmen á la Leetaru auch als oberflächliche Abstauber abtun. Aber zumindest die culturomics-Erfinder erheben gar keinen Anspruch auf Tiefgang. Wie Erez Aiden einem Interviewer der New York Times sagte:

    "Wir wollen gar nicht, dass die Geistes- und Gesellschaftswissenschaftler unsere Thesen im einzelnen akzeptieren; wir werfen nur eine Menge interessante Brocken auf den Tisch."