"Ein Statistiker sollte vielleicht mit an Bord sein. Aber man braucht in vielen Bereichen auch den Domänen-Experten und vielleicht jemanden, der die IT-Kenntnisse hat, um die Daten entsprechend bereitzustellen. Also, ich denke, sinnvoll ist da ein Teamansatz."
So beschreibt Frank Graeber von der KI-Schmiede Mathworks GmbH in Ismaning bei München sein Erfolgsrezept bei der Entwicklung von Systemen, die mit Künstlicher Intelligenz arbeiten.
Peter Welchering, was bedeutet denn dieser Teamansatz für die KI-Strategie der Bundesregierung?
Hinter jeder KI-Anwendung ein Erkenntnis- und Weltmodell
Peter Welchering: Zumindest eine erhebliche Korrektur. Denn hier handelt es sich um interdisziplinäre Teams, also zum Beispiel Ärzte oder Automobil-Ingenieure, sogenannte Domänen-Experten. Das sind Fachleute, die das Expertenwissen aus ihrem Bereich einbringen. Dazu kommen dann Datenanalysten und Programmierer, Statistiker, aber vor allen Dingen Modellentwickler. Denn hinter jeder Anwendung in der Künstlichen Intelligenz steht eine Art Erkenntnis- und Weltmodell.
Die Mathematiker sprechen dann gern von Funktionen, die sie beschreiben müssen, und davon, was dieser Funktionen voraussetzen. In der KI-Strategie der Bundesregierung sind alle diese Aspekte vollkommen unterbelichtet. Insbesondere bei der Entwicklung von Anwendungen maschinellen Lernens, spätestens seit zunehmend auf das sogenannte Deep-Learning-Verfahren gesetzt wird, ist die Diskussion um die Modellierung der Verfahren wieder intensiver geworden. Und man hat dabei gemerkt, ohne eine Diskussion der Modellierungen kommen wir bei der Entwicklung von Deep-Learning-Verfahren nicht weiter.
Genügend Szenarien aus der wahren Welt
Manfred Kloiber: Beispielhaft dafür ist die Diskussion über selbstfahrende Autos und die dafür benötigten KI-Verfahren. Dieser Bereich nimmt derzeit eine Vorreiterrolle ein. Das liegt nicht daran, dass man hier mit der Modellierung weiter fortgeschritten wäre, sondern in erster Linie daran, dass die Erwartungen der Politik hier besonders hoch sind. KI-Experten verweisen deshalb auch immer wieder darauf, dass die Diskussion über Modellierung bei KI-Anwendungen in der Verwaltung, in der Justiz, eigentlich bei der Entwicklung von jedem Algorithmus in diesem Bereich wichtig ist. Aber geführt wird sie gegenwärtig vor allen Dingen beim autonomen Fahren. Deshalb haben wir diese Beispielsanwendung uns auch mal genauer angeschaut.
"Automatisiertes Fahren, da geht es ja los mit der Aufnahme der Sensordaten. Am Ende müssen wir auch die Objekte, die erkannt werden, und die Umgebung des Fahrzeugs genutzt werden, um zum Beispiel festzustellen, wo kann das Fahrzeug überhaupt lang fahren. Dass man eben entsprechend die Daten hat, um dann die künstliche Intelligenz in so einem Fahrzeug zu trainieren, dass man genügend Szenarien in der wahren Welt sozusagen abgefahren ist, aufgezeichnet hat und für das Trainieren nutzt."
"Überlerntes" System abbrechen
Berichtet Frank Graeber, der bei der Mathworks GmbH die Anwendungsentwicklung leitet. Aus den Sensordaten, die Kameras, Radar oder Ultraschallsysteme, Temperatur- und Feuchtigkeitsfühler liefern, werden nicht nur Trainingsdaten gewonnen, sondern auch zusätzliche Validierungs- und Testdaten. Mit den Validierungsdaten wird gemessen, ob ein System "überlernt", also ob es die Trainingsdaten schlicht auswendig gelernt hat. Um das zu verhindern, muss das Training vor der Phase des Auswendiglernens abgebrochen werden. Doch diese Daten reichen noch nicht:
"Es gibt gewisse Szenarien, die man nicht unbedingt aufzeichnen will, wie zum Beispiel Unfallsituationen, die man aber auch braucht, um am Ende das Fahrzeug so zu trainieren, dass es eben nicht in solche Situationen kommt. Da gibt es eben Simulationsumgebungen, mit denen man synthetische Daten erzeugen kann, die dann auch wieder für das Trainieren genutzt werden können, um kritische Situationen nicht in der wirklichen Welt erfassen zu müssen."
Gegenseitige Einflüsse einkalkulieren
Werden diese Simulationsdaten dann mit den realen Fahrdaten zusammengeführt, muss der Datenanalyst noch einen weiteren Punkt beachten.
"Wenn man daran denkt, wie die Fahrzeuge ihre Umgebung erfassen mit Radar oder mit Laser-Scannern und dergleichen, dass natürlich auch passieren kann, dass mit beliebig vielen anderen Fahrzeugen auf der Straße, die mit ähnlichen Sensoren arbeiten, da auch Einflüsse gegenseitig auf Fahrzeuge existieren können und dass man so vielleicht simuliert. Man braucht beides definitiv."
Mehrere hundert Schichten neuronaler Netze
Wie die Sensoren zu ihren Daten kommen und wie Daten durch Simulationen erzeugt werden, das muss bei der Modellierung des Lernverfahrens berücksichtigt werden. Das neuronale Netz muss also den Kontext, aus dem die Daten entstanden sind, mit lernen. Die Eingabedaten werden dabei in vielen hundert Schichten des neuronalen Netzes verarbeitet. Bei Lernverfahren mit neuronalen Netzen, die mehr als hundert Schichten nutzen, hat sich der Name Deep Learning eingebürgert. Anwendungsingenieur Christoph Stockhammer erläutert den Unterschied:
"Der Ansatz ist der, dass Deep Learning eine Subkategorie von maschinellem Lernen ist, das heißt, das ist ein Spezialfall davon, in dem man einfach neuronale Netze zum einen einsetzt und zum anderen neuronale Netze, die sehr viele Schichten haben. Das heißt, Deep Learning ist immer auch Machine Learning, aber es gibt auch Machine Learning, das kein Deep Learning ist."
Gewichtungswerte der Neuronenschichten
Mit einer Deep-Learning-Strategie kann das System Entscheidungen auf einer abstrakteren Ebene treffen als ein einfaches System für maschinelles Lernen. Es wird dadurch autonomer, weil es auch in völlig unbekannten Situationen sicherer und schneller entscheidet. Dafür ist allerdings der Lernaufwand auch sehr hoch. Denn die zu jeder Neuronenschicht gehörenden Gewichte, die im neuronalen Netz entscheiden, was mit einem Eingabewert geschieht, müssen jeweils mit einem Gewichtungswert versehen werden. Das erfordert sehr viel Rechenzeit, zahlt sich aber später im Einsatz aus.
Kloiber: Und da werden Deep Learning Verfahren ja nicht nur beim autonomen Fahren eingesetzt, sondern auch bei Lageeinschätzungen in der Politik, in der Verwaltung oder bei Militärs. Welche Rolle spielt bei solchen konkreten Einsätzen denn dann der Kontext der Datenentstehung, Peter Welchering?
Welchering: Der schlägt sich unter anderem bei den Gewichtungen nieder und hat damit natürlich direkten Einfluss auf die Verarbeitung der Rohdaten und der Eingabedaten. Im neuronalen Netz wird damit sozusagen die Umwelt der Daten mit abgebildet.
Kloiber: Und da werden Deep Learning Verfahren ja nicht nur beim autonomen Fahren eingesetzt, sondern auch bei Lageeinschätzungen in der Politik, in der Verwaltung oder bei Militärs. Welche Rolle spielt bei solchen konkreten Einsätzen denn dann der Kontext der Datenentstehung, Peter Welchering?
Welchering: Der schlägt sich unter anderem bei den Gewichtungen nieder und hat damit natürlich direkten Einfluss auf die Verarbeitung der Rohdaten und der Eingabedaten. Im neuronalen Netz wird damit sozusagen die Umwelt der Daten mit abgebildet.
Mit Testdaten ermitteln, ob das System gelieferte Ergebnisse bringt
Kloiber: Das stellt natürlich hohe Anforderungen an die Auswahl der Trainingsdaten.
Welchering: Und da wird häufig noch geschlampt. Deshalb ist die interdisziplinäre Zusammenarbeit von Statistikern, Programmierern, Datenanalysten und Fachleuten aus dem jeweiligen Anwendungsgebiet ja so wichtig. Und bei solchen Deep-Learning-Verfahren hat sich eingebürgert, eine Auswahl der gewonnenen Daten als Trainingsdaten herauszunehmen, eine zweite Auswahl als Validierungsdaten vorzusehen. Im ersten Schritt wird also mit den Validierungsdaten geprüft, ob ausreichend trainiert wurde und eben noch nicht überlernt wurde. Und im zweiten Schritt wird dann mit Testdaten ermittelt, ob das System die gelieferten Ergebnisse bringt. Und dabei kommt der Simulation von Testdaten eine immer größere Bedeutung zu.
Antizipiertes Verhalten angelegt
Kloiber: Welche Bedeutung hat den die Simulation von Testdaten für die Verifikation und Kontrolle von KI-basierten Algorithmen?
Welchering: Erste Forschungen dazu gab es zwar in 1980er Jahren, aber das wurde nicht so richtig weiter verfolgt, als in der Folgezeit KI-Projekte so etwas aus dem Blick der Forschungspolitiker gerieten. Deshalb stehen wir da noch ziemlich am Anfang. Aber diese Simulation hat eine sehr interessante Perspektive. Denn die Testdaten können da mit vertretbarem Aufwand auf eine bestimmte Situation hin angelegt werden, wenn man wissen möchte, wie sich das selbstfahrende Auto oder ein bestimmtes Assistenzsystem in solch einer Situation verhalten wird, wie also bestimmte Entscheidungsprozesse im neuronalen Netz laufen.
Simulation auch aus Kostengründen wichtig
Kloiber: Mit welchem Aufwand ist das übertragbar auf andere Anwendungsfälle?
Welchering: Für jeden Anwendungsfall muss ein Daten- und Umweltmodell her. Aber dann können auch für den Einsatz einer solchen Software für die Prognose beispielsweise von Einbrüchen im predictive policing mit einer solchen Simulation Testdaten generiert werden, um abzuklären, ob sich die Software regelgerecht verhält, ob die getroffenen Entscheidungen die erwarteten sind. Der bevorzugte Einsatzbereich bisher sind allerdings fahrerlose Systeme und unbemannte Flugobjekte. Und bei letzteren ist so eine Simulation auch aus Kostengründen wichtig. Denn da wird der trainierte Algorithmus idealerweise auf ein eingebettetes System portiert. Bevor der Code dann aber auf das embedded system kommt, sollte auch mit solchen simulierten Testdaten die Leistungsfähigkeit des trainierten Algorithmus ausreichend überprüft worden sein.