Archiv

Künstliche Intelligenz
Erstes computergeneriertes Buch publiziert

Im Wissenschaftsverlag Springer Nature ist das erste von einem Computer verfasste Buch erschienen. Es basiert auf einem Algorithmus, den Wissenschaftler der Goethe-Universität entwickelt haben. Ersetzen könne die KI den menschlichen Autor jedoch nicht, sagte Studienleiter Christian Chiarcos im Dlf.

Christian Chircos im Gespräch mit Monika Seynsche |
Illustration Künstliche Intelligenz
Ersetzt der Algorythmus bald den Autor? Gerade ist das erste maschinengenerierte Buch publiziert worden. (imago)
Monika Seynsche: Wissenschaftler der Goethe-Universität Frankfurt haben einen Algorithmus entwickelt, der ein Buch geschrieben hat. Das an sich ist nicht neu, aber es ist das erste Mal, dass ein vom Computer geschriebenes Buch von einem Wissenschaftsverlag, nämlich Springer Nature, veröffentlicht wurde. Dieses Buch enthält Zusammenfassungen der neuesten Forschungsliteratur über Lithium-Ionen-Batterien.
Ich habe den Leiter der Studie, Christian Chiarcos, gefragt, wie gut es sich lesen lässt, was der Computer verfasst hat.
Christian Chiarcos: Speziell für das Lithium-Ionen-Buch muss ich persönlich sagen, dass ich die Lesbarkeit nur bedingt beurteilen kann, weil da sehr viele Formeln aneinandergehängt werden, von denen ich persönlich nicht sagen kann, ob das jetzt Sinn macht. Unsere Subject Matter Experts waren für den Fall damit zufrieden.
Das Zweite ist, es gibt tatsächlich momentan Verfahren, die uns gestatten, sehr gut lesbaren Text zu erzeugen. Das Problem ist, dass diese Deep Learning-basierten Verfahren sehr schwer kontrollierbar sind in ihrer Qualität, insbesondere in ihrer faktischen Richtigkeit. Das haben wir mit unseren Experimenten mit dieser Technologie auch festgestellt. Die Lesbarkeit haben wir verbessert durch Anpassungen in der syntaktischen Struktur und haben wir verbessert durch, ja, teilweise auch Beibehaltung der ursprünglichen Reihenfolge, im Rahmen des rechtlich Zulässigen.
"Das Verfahren besteht aus zwei Stufen"
Seynsche: Woher wissen Sie denn, dass der Computer die Quellen richtig gewichtet hat? Ich könnte mir vorstellen, es gibt Quellen, die sind vielleicht bedeutender für eine Zusammenfassung, es gibt Quellen, die sind weniger bedeutend.
Chiarcos: Das ist eine sehr gute Frage. Tatsächlich ist es so: Das Verfahren besteht aus zwei Stufen. In der ersten Stufe wird quasi das Inhaltsverzeichnis generiert oder die Dokumentenstruktur, in der zweiten Stufe wird der Text ergänzt. Die Generierung der Dokumentenstruktur erfolgt im Wesentlichen auf Basis eines sogenannten Clustering-Verfahrens. Das heißt, wir nehmen alle Publikationen in unsere Domäne, ermitteln deren jeweilige Ähnlichkeit miteinander und gruppieren dann die ähnlichen Publikationen zueinander. Dann kommt der Nutzer ins Spiel und der sagt: Wie viele Kapitel möchte ich haben, innerhalb jedes Kapitels wie viele Sektionen? Und dann bilden wir mit Standardverfahren aus dem Clustering eben genau eine Gruppierung in, sagen wir mal, fünf potenzielle Kapitel mit jeweils fünf potenziellen Subsektionen.
Innerhalb dieser Subsektionen nun sind die Publikationen einander unterschiedlich ähnlich, und wir können diejenigen, die sich quasi im Mittelpunkt eines Clusters befinden, als die prototypischsten behandeln.
Auf die Ähnlichkeiten kommt es an
Seynsche: Und prototypisch würde bedeuten, es sind die Wichtigsten?
Chiarcos: Die Wichtigsten insofern, als dass der Mittelpunkt eines Clusters typischerweise eine Gruppierung mehrerer relativ ähnlicher Papiere darstellt und diese ähnlichen Papiere sich vermutlich in ihrer Gestalt auch auf das konzentrieren, was innerhalb dieses Clusters am wichtigsten ist. Das heißt, wenn wir etwas finden, wo wir einen Häufungspunkt haben, dann haben wir mit hoher Wahrscheinlichkeit ein repräsentatives Papier.
Das ist aber nur eine der möglichen Techniken. Wir hatten auch andere, ich sage mal, strategisch vermutlich sinnvollere Ansätze probiert. Einer zum Beispiel besteht darin, dass wir zählen, wie oft werden Publikationen zitiert? Wie wichtig sind sie, um von anderen Publikationen aufgenommen zu werden? Das Problem dabei war, dass in der Domäne der Chemie offensichtlich dieses Verfahren scheitert, weil die reine Häufigkeit der Zitation auch etwas damit zu tun haben kann, dass in einem Papier ein sehr elementares Verfahren beschrieben wird, das immer wieder reproduziert wird. Und dieses Verfahren selbst mag für den Sachverhalt gar nicht wichtig sein. Deswegen haben wir in dieser Domäne tatsächlich rein clustering-, ähnlichkeitsbasiert gearbeitet.
"Ein Werkzeug, das menschliche Autoren unterstützen soll, Bücher zu schreiben"
Seynsche: Warum wollen Sie denn überhaupt, dass Computer Bücher schreiben?
Chiarcos: Ich persönlich sehe das hauptsächlich als ein Werkzeug, das menschliche Autoren unterstützen soll dabei, Bücher zu schreiben. Ich glaube, es ist der Traum jedes Promoventen, einen automatisch generierten Literaturüberblick zu haben. Nicht, um sein eigenes Arbeiten zu ersetzen, sondern um es zu unterstützen. Und ich persönlich sehe auch gerade in diesem Bereich, dass man quasi so eine Art Überblicksperspektive über eine bestimmte Wissensdomäne schaffen kann, eine mögliche Anwendung dieser Technologie.
Äußerungen unserer Gesprächspartner geben deren eigene Auffassungen wieder. Der Deutschlandfunk macht sich Äußerungen seiner Gesprächspartner in Interviews und Diskussionen nicht zu eigen.