Bildverstehen ist beispielsweise für Roboter wichtig, die sich selbstständig in ihrer Umgebung zurecht finden sollen. Aber auch Mediziner sind an besseren Verfahren interessiert. Nicht zuletzt treibt der große Markt der Internet-Suchmaschinen die Entwickler an, schließlich liegt im Internet ein riesiger Schatz an Bildinformationen nahezu unauffindbar auf Servern herum. Erste Versuche mit Bild- und Videosuchen gibt es bereits, die Polizei nutzte beispielsweise die Analyse von Urlaubsbildern im Fall des verschwundenen britischen Mädchens Madeleine. Oft sind Computeraugen nur für einen bestimmten Einsatzzweck geeignet (zum Beispiel Gesichtserkennung oder Qualitätskontrolle in der Industrie) oder sie brauchen viel zu lange, um die Inhalte eines Bildes zu analysieren. Die bionischen Ansätze, mit denen Forscher ihr Wissen über das menschliche Sehsystem auf Computer übertragen, machen vielversprechende Fortschritte.
"Fahrrad sechs Prozent, Bus 13 Prozent, Pferd 15 Prozent, Auto 17 Prozent, Katze 19 Prozent."
Das Bild mit der Katze stammt aus der Datenbank von Dr. Allan Hanbury. An der Technischen Universität Wien versucht er, Computern das Erkennen von Objekten beizubringen. Dazu hat er verschiedene Algorithmen mit unzähligen Bildern von Autos, Hunden, Pferden, Bussen und auch Katzen gefüttert. Das Ergebnis ist auf den ersten Blick ernüchternd.
"Motorrad acht Prozent, Person zwei Prozent, Schaf zwei Prozent, Katze 19 Prozent."
Schnell wird klar: Bilderkennung, Bildanalyse und Computersehen – dieser Zweig der Wissenschaft ist größtenteils noch Grundlagenforschung. Es bewahrheitet sich einmal mehr: Was für Menschen schwierig ist, ist für Computer einfach. Zum Beispiel Einparken. Aber was uns Menschen leicht von der Hand geht, ist für Maschinen eine Herausforderung. Die Welt mit Sinnen wahrzunehmen ist wahrscheinlich die größte. Und von allen sechs Sinnen ist das Sehen wiederum der komplexeste, derjenige, der das Gehirn am meisten beschäftigt.
Ein Foto aus London. Im Vordergrund links der obere Teil einer der klassischen roten Telefonzellen. "TELEPHONE" steht in Versalien über der Tür. Hinter dem leicht konkav gebogenen Dach ragt die Spitze des Uhrenturms "Big Ben" hervor. Rechts sind noch die Köpfe ein paar vorbeilaufender Menschen zu sehen, links eine Häuserecke.
"Es steht hier vorne "Telephone". Es gibt Forscher, die versuchen, bevor sie dann Objekterkennung machen, allen Text im Bild zu finden. Und wenn sie hier zum Beispiel erkennen, dass hier "Telephone" geschrieben ist, dann wird es vielleicht einfacher. Aber um die Houses of Parliament dann zu erkennen – ja, das kann ich ohne Probleme machen. Aber diese rote Telefonbox verdeckt, was vielleicht interessant ist, zu erkennen. Das macht es vielleicht schwieriger."
Allen Hanburys Algorithmen, die er bisher auf Katzen, Autos, Pferde et cetera trainiert hat, hätten also – würden sie Big Ben kennen – auch mit diesem Bild ihre Schwierigkeiten. Und die sind vielfältig. Zahlreiche Faktoren beeinflussen Bilder und lassen ein und dasselbe Objekt völlig unterschiedlich aussehen. Die Lichtverhältnisse können Big Ben mal trist und grau aussehen lassen, mal erscheint er strahlend und rein. Schatten verändern die Kontraste. Im Beispielbild sorgt die Verdeckung für Probleme. Nicht auf allen Bildern ist das gesuchte Objekt im Fokus. Im Beispiel ist die Telefonzelle scharf, Big Ben im Hintergrund verschwimmt etwas. Unendlich viele Positionen des Fotografen sind denkbar, Linsen oder Spiegeleffekte können das Objekt verzerren. Auch dann noch wäre Big Ben für einen Menschen problemlos identifizierbar. Die Computerwissenschaftler aber sind mit ihren Programmen noch lange nicht so weit.
Im Beispielbild stellt also die Verdeckung das Hauptproblem dar. Die Telefonzelle im Vordergrund macht den Turm dahinter schwerer identifizierbar. Warum das ein Objekterkennungsprogramm an seine Grenze bringen kann, erklärt Dr. Thomas Brox, Informatiker an der Universität Bonn:
"Wir Menschen haben immer einen guten Eindruck von der Gesamtszene und wir können die Verdeckung erklären. Wir wissen zum Beispiel, wenn der Mensch hinter einem Baum vorbeiläuft, dass das da vorne dran ein Baum ist und deswegen wissen wir auch, dass das jetzt kein Problem ist, dass man die Form des Menschen im Moment nicht so gut sehen kann, weil wir ja den Baum erklärt haben. Und wenn der Mensch dann wieder hinter dem Baum hervorkommt – das wissen wir auch, dass er da irgendwann wieder hervorkommen muss – dann können wir ihn einfach weiterverfolgen. Diesen Vorteil hat der Computer im Moment noch nicht. Das müsste man ihm erst noch beibringen, dass er die gesamte Szene modelliert, einschließlich der Verdeckung, und dann auch dadurch argumentieren kann, warum da eine Verdeckung ist."
Daran arbeiten Thomas Brox und seine Kollegen. Die Informatiker haben ihrem Programm gezeigt, wie laufende Menschen aussehen. Jetzt kann es in einem Video einen Menschen markieren und verfolgen, auch wenn dieser teils verdeckt ist. Auch anderswo entstehen vielversprechende Ansätze, um Objekte trotz der zahllosen Unwägbarkeiten in den Aufnahmen wiederzuerkennen. So experimentieren Forscher an der Universität Oxford mit einer Software, die Sehenswürdigkeiten in Fotos auch unter schwierigen Umständen erkennt. Bisher kennt das Programm allerdings nur einige wenige Touristenziele aus Oxford. Gerne zeigt Andrew Zisserman, der diese Forschungen in Oxford leitet, auch ein Projekt, das er "Video Google" nennt. Mit der Software – zum Test auf der Instituts-Website verfügbar, lassen sich Spielfilme durchsuchen. Charade zum Beispiel, mit Audrey Hepburn.
In Einzelbildern aus dem Film lassen sich beliebige Objekte markieren. Im restlichen Film wird dann danach gesucht. Der Nutzer bekommt dann gezeigt, an welchen Stellen im Film beispielsweise ein bestimmter Koffer auftaucht. Auch wenn dieser gedreht und aus verschiedenen Perspektiven oder bei unterschiedlichen Lichtverhältnissen aufgenommen wurde. Dass die britischen Forscher dabei mit Videos arbeiten, statt sich zunächst auf Fotos zu beschränken, macht die Sache nicht unbedingt schwieriger. Zwar werden neue Bilderkennungsalgorithmen in der Regel zuerst an Fotos ausprobiert, aber Bewegtbilder sind unter Umständen sogar einfacher zu analysieren:
"Zunächst mal bietet das Video mehr Informationen. Während man beim Foto mit einem Bild arbeiten muss, kann man bei einem Video eben wirklich die Abfolge von Bildern untersuchen und hat da einfach mehr Information, die einem natürlich auch helfen kann, die Dinge, die man sucht, auch zu finden. Auf der anderen Seite stellen natürlich Videos auch höhere Anforderungen an die Rechenpower dann wieder. Und gerade wenn man dann ein Video in der Geschwindigkeit verarbeiten will, wie es aus der Kamera kommt, dann muss man eben wirklich sehr schnelle Verfahren haben."
Für Menschen ist die Erkennung selbst leicht – nur können sie sich nicht so schnell durch die zigtausend Einzelbilder eines Spielfilms wühlen, wie ein Computer das kann. Die Kombination aus beiden Fähigkeiten ist das Ziel der Computerwissenschaftler: Eine schnelle und gleichzeitig sichere Erkennung und Kategorisierung von Bildern. Um die Zuverlässigkeit eines menschlichen Gehirns zu erreichen, schauen sich die Forscher genau an, wie Bilderkennung im Zusammenspiel von Auge und Hirn funktioniert. Um einen guten Algorithmus zu entwickeln, versuchen sie, in die digitale Welt zu übertragen, was sie über das Sehsystem wissen – wie Zäpfchen und Stäbchen der Netzhaut, die optische Reizleitung durch die Nervenfasern und die primäre Sehrinde im hinteren Teil des Gehirns und viele weitere graue Zellen uns Bilder sehen lassen, die wir augenblicklich interpretieren können. Kanten und Konturen spielen bei der optischen Wahrnehmung eine große Rolle. Dementsprechend setzen die meisten der aktuell viel versprechenden Algorithmen darauf, zuerst Kanten in einem Bild zu finden. Außerdem sollen Computern wie es auch bei Menschen ist, interessante Punkte eines Bildes sofort ins Auge springen.
"Wir Menschen achten sicherlich auch darauf, was uns ins Auge springt. Wenn irgendwas selten ist im Bild, dann achten wir da besonders drauf. Und das macht auch irgendwie Sinn, denn nur das, was selten ist, kann man auch wirklich unterscheiden. Das, was häufig vorkommt, ist nicht eindeutig. Allerdings ist das hier auch wieder schwierig, das in Bildern zu machen, weil es ist sehr aufwändig, erstmal alles abzuprüfen, was selten und was häufig ist. Und da hat man dann oft die Schwierigkeit, dass man das nicht schnell genug machen kann. Was man einfach macht, ist, dass man durch Heuristiken herausfindet, welche Punkte wahrscheinlich selten sind und welche Punkte wahrscheinlich weniger selten sind. Und dann arbeitet man mit den Punkten die wahrscheinlich selten sind."
"Interessante Punkte" nennen der Bonner Forscher Thomas Brox und andere Entwickler diese Stellen eines Bildes. Die interessanten Punkte ergeben ein Muster, anhand dessen sich das Bild oder auch einzelne Objekte eines Bildes wiedererkennen lassen. Eine Variation dieses Ansatzes verfolgt auch Eva Hörster von der Universität Augsburg. Ihre Arbeitsgruppe versucht, sich der Bildanalyse mit Methoden der Textanalyse zu nähern.
"Wenn man versucht, einen Text zu beschreiben, dann ist das ziemlich einfach, weil man ein paar Wörter hat, aus denen dieser Text besteht. Wenn man aber diese selben Modelle, die man dann basierend auf den Wörtern aufbauen kann, auch auf ein Bild anwenden möchte. Ein Bild besteht eben nicht aus diskreten einzelnen Punkten. Natürlich könnte man sagen, es besteht aus den Pixeln, aber ein Pixel hat nicht genug Informationen, als dass man da irgendwas direkt mit machen könnte. Das heißt, man versucht, etwas Ähnliches zu Wörtern in einem Bild zu finden. In unserem Fall nehmen wir jetzt lokale Regionen um die Wörter zu erzeugen. Das heißt man nimmt einzelne Pixel und um die Pixel herum Nachbarschaften und versucht dann diese lokale Ansammlung von Pixeln zu beschreiben."
Aus den einzelnen so genannten visuellen Wörtern entsteht dann ein ganzes Wörterbuch, ein Vokabelheft, das Computern die Sprache der Bilder beibringen soll. Objekte wiedererkennen, darum dreht sich alles. Und das hat wahrlich bedeutendere Anwendungen als das Suchen von Gegenständen in Spielfilmen. Das Objekt könnte schließlich auch ein Gesicht sein.
"Wir bitten alle, die in den zwei Wochen vor Madeleines Verschwinden in der Ferienanlage waren, uns ihre Urlaubsfotos zu schicken. Schauen Sie sich die Bilder an und achten Sie darauf, wer sich im Hintergrund befindet. Wenn da andere Leute sind, schicken Sie uns die Fotos. Wenn da jemand ist, von dem Sie meinen, dass er sich auffällig benimmt, schicken Sie uns die Fotos. Wir können 1000 Fotos pro Stunde verarbeiten und mit den Informationen, die da herauskommen, die Polizei vor Ort in Portugal bei ihrer Suche unterstützen."
Gleichzeitig durchsuchte die britische Polizei auch automatisch Pädophilen-Websites nach Bildern von Madeleine. Auf Basis eines Fotos des Anfang Mai in Portugal verschwundenen Mädchens wurden Websites nach Fotos ähnlich aussehender Kinder durchsucht. Ein Fahndungserfolg ist bisher nicht bekannt. Doch das Beispiel zeigt, wie mächtig Bildersuche bereits ist. Gerade die Gesichtserkennung ist weit fortgeschritten. Das kann jeder selbst ausprobieren: riya.com ist eine Plattform, auf die sich private Fotos hochladen lassen. Auf den Bildern können die Nutzer dann einzelne Personen markieren und mit Namen versehen. Sind von einer Person genügend Bilder vorhanden, markiert die Software sie auf allen weiteren Fotos von selbst. Eine ähnliche Software entwickelt das Unternehmen Polar Rose aus dem schwedischen Malmö in Zusammenarbeit mit der dortigen Universität. Nikolaj Nyholm leitet das junge Web-Startup, dessen Software derzeit noch in der Testphase ist:
"Unsere Technik basiert darauf, dass wir aus zweidimensionalen Fotos dreidimensionale Gesichtsmodelle berechnen. Wenn wir ein neues Foto bekommen, generieren wir daraus zuerst ein 3D-Porträt. Und anhand dieses Modells können wir Menschen viel besser erkennen als mit herkömmlichen Methoden. Einerseits, weil wir die Pose eines Menschen kompensieren können – es macht nichts, wenn Sie schräg in die Kamera schauen. Für herkömmliche Gesichtserkennung, die auf einem Musterabgleich basiert, wäre es ein riesiger Unterschied, ob Sie direkt in die Kamera schauen oder von der Seite. Oder das Licht: Mal kommt es von der rechten Seite, mal von der linken. Mit unserem 3D-Modell können wir Lichteinflüsse herausrechnen."
Damit erschließt sich die Welt der Bilder allmählich für Suchmaschinen. Denn die gewaltige Menge an Informationen, die in online verfügbaren Bildern steckt, ist von Suchmaschinen bisher schlicht nicht erfasst. Die Google-Bildersuche etwa wertet bisher keineswegs aus, was tatsächlich auf den Bildern zu sehen ist. Der Suchroboter analysiert nur den Text im Umfeld eines Fotos. Bei den entsprechenden Schlagwörtern spuckt er dann das Bild als Ergebnis aus. Entsprechend unbefriedigend sind Bildersuchen im Internet bisher. Eine echte Suche im wahren Inhalt von Fotos wird allerdings auch ihre Schattenseiten haben. Schon jetzt finden sich Fotos im Internet, zum Beispiel von ausufernden Partys, die manchen, die darauf zu sehen sind, ein Dorn im Auge sind. Die Gründerin einer der größten Foto-Plattformen im Internet, Caterina Fake, kennt das Problem:
"Ich muss sagen, ich bin sehr froh, dass es noch keine Digitalkameras gab, als ich im College war. Aber ernsthaft: Weil Fotografie so allgegenwärtig ist, gibt es Leute, die ihre Parties mittlerweile als no-photo-dinner-party veranstalten."
Eine bessere Durchsuchbarkeit von Bildern bedeutet auch, dass wir unseren Umgang mit Bildern verändern müssen. Nicht nur, weil möglicherweise kompromittierende Bilder aus der Vergangenheit leichter gefunden werden können. Wenn alle Bilder, die im öffentlichen Raum gemacht werden, durchsuchbar sind, ist das datenschutzrechtlich bedenklich.
Szenario: Ein Tourist schießt mit seinem Handy ein Erinnerungsfoto vom Brandenburger Tor. Vom Handy aus wird das Bild direkt in eine Internet-Fotoplattform geladen. Die Software auf der Plattform erkennt: Da, im Hintergrund, läuft Peter Müller vorbei. Die Information wird gespeichert. Für Dritte ist somit nachvollziehbar wo sich Peter Müller wann aufgehalten hat.
Solche Big-Brother-Szenarien sind nicht sehr weit hergeholt. Kameras, die Menschen verfolgen können sind in London Realität. Und das Potsdamer Unternehmen Vis-à-Pix entwickelt Programme, die Überwachungskameras mit einer gewissen Intelligenz ausstatten. Die harmloseren Varianten zählen automatisch die Menschen in einer Warteschlange, andere Analyseroutinen können selbstständig Graffiti-Sprayer erkennen und Alarm schlagen. Das lässt sich beliebig auf andere vermeintlich verdächtige Verhaltensmuster übertragen. Allerdings: Mit Überwachungskameras bestimmte Personen zu identifizieren, das funktioniert noch nicht zufriedenstellend, wie ein Feldversuch des Bundeskriminalamts gezeigt hat. 200 Versuchspersonen sollten über vier Monate hinweg im Mainzer Hauptbahnhof von Kameras erfasst und identifiziert werden. Abhängig vom Lichteinfall lag die Erkennungsrate nur bei mageren zehn bis 60 Prozent.
Warum tun sich Computer so schwer ein bestimmtes Gesicht in einer Masse zu identifizieren? Oder, andersherum, eine Frage an den Forscher Tomaso Poggio vom Massachussetts Institute of Technology, MIT: Wo ist der große Vorteil eines Menschen gegenüber einem Computer?
"Die Evolution hat Millionen oder Milliarden Jahre am Sehen gearbeitet. Die Menschen arbeiten vielleicht gerade mal fünf Jahrzehnte daran. Es gibt noch viel zu tun, bis wir die Möglichkeiten des Gehirns nachahmen können, was Intelligenz im Allgemeinen und das Sehen im Besonderen angeht – was ich für einen wichtigen Teil der Intelligenz halte."
Die Erfahrung der Evolution und die Erfahrung jedes Einzelnen sind gemeinsam jedem Computer überlegen. Dem pflichtet Thomas Brox bei.
"Das lernen wir von Kind auf, Gesichter sind was ganz Wichtiges für uns, weil wir müssen ja Personen auseinander halten können. Das ist für uns im Leben sehr wichtig. Und auch die verschiedenen Gestiken, die Mimik in den Gesichtern ist sehr wichtig für uns. Und deswegen betreibt das Gehirn da wahrscheinlich sehr viel Aufwand, um Gesichtserkennung zu betreiben. Und wenn man das mit dem Computer machen will, muss man eben hier auch sehr viel Aufwand betreiben, um verschiedene Gesichter auseinander zu halten, weil da wirklich auf sehr kleine Merkmale geachtet wird."
Übung macht den Meister. Schon wenn ein Kleinkind die Welt entdeckt, lernt es, wie ein Bauklotz unter verschiedenen Bedingungen aussieht, wie sich das Bild verändert, wenn es ihn dreht. Die visuelle Wahrnehmung wird dabei noch vom Tastsinn gestützt, was den Lerneffekt weiter erhöht. Unbewusst nimmt das Kind – wie jeder Mensch – einen ständigen Strom von Bildern wahr, in dem auch ständig Objekte erkannt werden.
Dieses Lernen auf den Computer zu übertragen ist die Herausforderung vor der die Wissenschaft derzeit steht. Was die Wissenschaftler bisher unternehmen, um die Erkennungsprogramme zu trainieren, ist nichts anderes als Frontalunterricht. Sie zeigen dem Rechner so lange Bilder von Fahrrädern, bis er weiß, was ein Fahrrad ist. Doch echtes Lernen geht anders, Menschen lernen vor allem etwas in Sachen Objekterkennung, indem sie ihre Umgebung beobachten. Unüberwachtes Lernen nennen die Forscher das, und Tomaso Poggio aus Boston hat auf diesem Gebiet einen großen Schritt nach vorn gemacht. Der MIT-Wissenschaftler hat es geschafft, Computer selbstständig lernen zu lassen, wie Tiere aussehen. Auf beliebigen Fotos kann sein Computermodell erkennen, ob ein Tier darauf zu sehen ist, oder nicht.
"In unserem Computermodell lernt der Rechner zum Teil unüberwacht. Wie wenn ein Kind seinen Sehsinn schärft. Die Neuronen, die wir simulieren, extrahieren automatisch ein Vokabular von Formen aus den Bildern, die wir ihnen zeigen. Mit diesem allgemeinen Vokabular aus Formen und Texturen ist es für das Computermodell dann einfach, verschiedene Kategorien von Objekten zu lernen – und dafür braucht es nur sehr wenige Beispiele. Bei unserem Experiment mit den Tierfotos haben wir einhundert Lernbilder verwendet, aber man könnte das in anderen Fällen auch mit viel weniger machen: mit zwei, drei, vier oder fünf Bildern."
Nur fünf Bilder, und ein Computermodell versteht, was ein Baum ist oder ein Haus. Eine beeindruckende Geschwindigkeit...
"Naja, was das Gehirn in, sagen wir mal, 100 Millisekunden schafft, das dauert selbst mit einer großen Anzahl von Prozessoren eine Minute oder so."
Eine gewaltige Leistung also, die unser Gehirn beim Aufnehmen und Verarbeiten von Bildern vollbringt – ohne dass wir uns dafür besonders anstrengen müssten.
"Uns ist überhaupt nicht bewusst, wie schwierig das ist, was wir da ständig tun. Als Computerwissenschaftler haben wir es noch nicht geschafft, Computer das tun zu lassen, was für uns Routine ist."
Es ist eben nicht einfach, die vielschichtigen Funktionsweisen des Gehirns in eine Maschine zu übertragen. Gerade am Sehen sind schließlich viele Ebenen beteiligt.
"Unser Modell beginnt mit dem ersten Areal in der Großhirnrinde, das mit dem Sehen zu tun hat, die primäre Sehrinde. Es geht dann weiter bis zu Arealen der höchsten visuellen Verarbeitungsstufe der Sehrinde. Wir berücksichtigen auch Hirnareale, die nicht nur für das Sehen zuständig sind, wie den präfrontalen Kortex, der mit dem fällen von Entscheidungen zu tun hat. Aber zum Beispiel die Netzhaut haben wir nur sehr vereinfacht modelliert."
Doch in den Zellen der Netzhaut finden schon die ersten Verarbeitungsschritte statt. Vielleicht ist es aber auch einfach eine Portion grundsätzliches Wissen über die Welt das Computern fehlt, um das Gesehene zu interpretieren. Hintergrundwissen, das einem Roboter im Unterbewussten sagt:
Ein Sessel steht immer auf dem Boden.
Ein Grashalm wächst von unten nach oben.
Ein Fahrrad hat zwei Räder.
Wasser ist nass.
Solche Fakten haben Forscher in den vergangenen Jahren in einer Datenbank namens Cyc zusammengetragen. Auf dieser Basis sollen Künstliche Intelligenzen plausible Aussagen machen können. Doch Bildverarbeitungs-Forscher kamen mit den banalen Fakten über die Welt wie sie ist nicht weiter – vor allem, wegen der Menge der Daten.
Erst allmählich verstehen Wissenschaftler, wie Menschen Bilder wahrnehmen, verstehen und verarbeiten und Schritt für Schritt übertragen sie das auf die Maschinen. Dabei ist ein Treiber der Evolution des Computersehens die Wissenschaft selbst. Kaum ein naturwissenschaftlicher Forschungszweig, in dem nicht auf die Methoden der automatischen Bildverarbeitung gesetzt wird. Kameras beobachten Versuchsaufbauten in der Biologie, Computer werten die aufgenommenen Bilder aus. Gleiches gilt für Physik oder Chemie mit ihren unzähligen Spezialgebieten, auch die moderne Astronomie benutzt Techniken des Computersehens. Vor allem aber in der Medizin ist die Bildanalyse kaum noch wegzudenken – sowohl in der medizinischen Forschung, als auch in der Anwendung. Das Münchner Unternehmen Definiens etwa, das Bildanalyse-Werkzeuge für die unterschiedlichsten Zwecke anbietet, hat eine Software entwickelt, die Hunderte Bilder eines Körperscans in wenigen Minuten nach mutierten Zellen durchsucht. Auch an der Universität Bonn ist eine medizinische Anwendung entstanden. Thomas Brox zeigt an seinem Laptop zwei Bilder von Muskelfasern.
"Bei dem oberen Bild, da sieht man jetzt so rosa Flecken, das sind die Muskelfasern. Die sind getrennt durch ganz dünne, helle Bereiche. In dem unteren Bild, da sieht man jetzt krankhaftes Gewebe. Da sind diese rosa Flecken sehr unterschiedlich verteilt. Man sieht auch, da sind manche sehr klein geworden, sie haben auch die Farbe verändert. Und das deutet auf krankhaftes Gewebe hin, einfach weil die Fasern... manche sind sehr groß und manche sind sehr klein."
Ziel ist es, dass ein Algorithmus diese Bilder auswertet und anhand der Größe der Muskelfasern erkennt, ob der Patient an einer Muskelkrankheit leidet oder nicht. Doch: Die Informatiker sagen selbst, dass ihre Systeme Ärzte nur unterstützen können. Wie die Menschen können auch die Programme sich irren – dafür bieten sie einen enormen Geschwindigkeitsvorteil. Auch anderswo dient das Computersehen bisher nur als Assistenzsystem. Schon vor Jahren kam in Deutschland ein Auto auf den Markt, das mittels eines Infrarotsystems Fahrbahnmarkierungen erkennen kann. Doch statt beim Überfahren der Markierungen gegenzulenken, warnt es den Fahrer lediglich mit einer Vibration im Sitz. Seither entwickeln die Autohersteller fleißig weiter an optischen Systemen, die etwa Unfallstellen oder auf die Fahrbahn laufende Kinder erkennen können sollen. Auf Teststrecken lassen die Entwickler die Fahrzeuge automatisch bremsen oder ausweichen. In der Serienproduktion wird diese Technik aber noch lange nicht ankommen. Grund: Die ungeklärte Haftungsfrage. Wer ist Schuld, wenn das Computerauge einen Fehler macht?
In kleinen, speziellen Anwendungen funktioniert das Computersehen bereits. Kameras beobachten wissenschaftliche Versuchsaufbauten oder Wände, die einladend für Grafitti-Sprüher sind. Computer werten medizinische Bilder aus oder überprüfen mittels optischer Systeme in der Industrie die Qualität der Produkte auf dem Fließband. Auch Müll wird mit Hilfe von Kameras und Computern getrennt. Das alles sind kontrollierte Umgebungen, mit denen die Maschinen umgehen können. Doch das große Ganze ist noch weit entfernt.
"Das klingt vielleicht ein bisschen komisch. Was noch nicht gelöst ist: Wir können jetzt ziemlich gut erkennen zum Beispiel ob es ein Fahrrad im Bild gibt. Aber genau zu sagen, wo das im Bild liegt, ist noch ein ungelöstes Problem. Gerade neulich bin ich auch wieder mit dem Auto durch so eine Landschaft gefahren, es war sehr sonnig, die Bäume haben dann so Schatten geworfen und es war auch ein bisschen schwierig, zu fahren, weil das so starke Lichteffekte waren. Da hab ich mir zum Beispiel auch gedacht: Das wäre jetzt eine Situation, damit käme der Computer überhaupt nicht zurecht."
Bild Kamera Überwachung
Die Funktion der Wahrnehmung auf Maschinen zu übertragen, ist für Forscher eine große Herausforderung.
"Fahrrad sechs Prozent, Bus 13 Prozent, Pferd 15 Prozent, Auto 17 Prozent, Katze 19 Prozent."
Das Bild mit der Katze stammt aus der Datenbank von Dr. Allan Hanbury. An der Technischen Universität Wien versucht er, Computern das Erkennen von Objekten beizubringen. Dazu hat er verschiedene Algorithmen mit unzähligen Bildern von Autos, Hunden, Pferden, Bussen und auch Katzen gefüttert. Das Ergebnis ist auf den ersten Blick ernüchternd.
"Motorrad acht Prozent, Person zwei Prozent, Schaf zwei Prozent, Katze 19 Prozent."
Schnell wird klar: Bilderkennung, Bildanalyse und Computersehen – dieser Zweig der Wissenschaft ist größtenteils noch Grundlagenforschung. Es bewahrheitet sich einmal mehr: Was für Menschen schwierig ist, ist für Computer einfach. Zum Beispiel Einparken. Aber was uns Menschen leicht von der Hand geht, ist für Maschinen eine Herausforderung. Die Welt mit Sinnen wahrzunehmen ist wahrscheinlich die größte. Und von allen sechs Sinnen ist das Sehen wiederum der komplexeste, derjenige, der das Gehirn am meisten beschäftigt.
Ein Foto aus London. Im Vordergrund links der obere Teil einer der klassischen roten Telefonzellen. "TELEPHONE" steht in Versalien über der Tür. Hinter dem leicht konkav gebogenen Dach ragt die Spitze des Uhrenturms "Big Ben" hervor. Rechts sind noch die Köpfe ein paar vorbeilaufender Menschen zu sehen, links eine Häuserecke.
"Es steht hier vorne "Telephone". Es gibt Forscher, die versuchen, bevor sie dann Objekterkennung machen, allen Text im Bild zu finden. Und wenn sie hier zum Beispiel erkennen, dass hier "Telephone" geschrieben ist, dann wird es vielleicht einfacher. Aber um die Houses of Parliament dann zu erkennen – ja, das kann ich ohne Probleme machen. Aber diese rote Telefonbox verdeckt, was vielleicht interessant ist, zu erkennen. Das macht es vielleicht schwieriger."
Allen Hanburys Algorithmen, die er bisher auf Katzen, Autos, Pferde et cetera trainiert hat, hätten also – würden sie Big Ben kennen – auch mit diesem Bild ihre Schwierigkeiten. Und die sind vielfältig. Zahlreiche Faktoren beeinflussen Bilder und lassen ein und dasselbe Objekt völlig unterschiedlich aussehen. Die Lichtverhältnisse können Big Ben mal trist und grau aussehen lassen, mal erscheint er strahlend und rein. Schatten verändern die Kontraste. Im Beispielbild sorgt die Verdeckung für Probleme. Nicht auf allen Bildern ist das gesuchte Objekt im Fokus. Im Beispiel ist die Telefonzelle scharf, Big Ben im Hintergrund verschwimmt etwas. Unendlich viele Positionen des Fotografen sind denkbar, Linsen oder Spiegeleffekte können das Objekt verzerren. Auch dann noch wäre Big Ben für einen Menschen problemlos identifizierbar. Die Computerwissenschaftler aber sind mit ihren Programmen noch lange nicht so weit.
Im Beispielbild stellt also die Verdeckung das Hauptproblem dar. Die Telefonzelle im Vordergrund macht den Turm dahinter schwerer identifizierbar. Warum das ein Objekterkennungsprogramm an seine Grenze bringen kann, erklärt Dr. Thomas Brox, Informatiker an der Universität Bonn:
"Wir Menschen haben immer einen guten Eindruck von der Gesamtszene und wir können die Verdeckung erklären. Wir wissen zum Beispiel, wenn der Mensch hinter einem Baum vorbeiläuft, dass das da vorne dran ein Baum ist und deswegen wissen wir auch, dass das jetzt kein Problem ist, dass man die Form des Menschen im Moment nicht so gut sehen kann, weil wir ja den Baum erklärt haben. Und wenn der Mensch dann wieder hinter dem Baum hervorkommt – das wissen wir auch, dass er da irgendwann wieder hervorkommen muss – dann können wir ihn einfach weiterverfolgen. Diesen Vorteil hat der Computer im Moment noch nicht. Das müsste man ihm erst noch beibringen, dass er die gesamte Szene modelliert, einschließlich der Verdeckung, und dann auch dadurch argumentieren kann, warum da eine Verdeckung ist."
Daran arbeiten Thomas Brox und seine Kollegen. Die Informatiker haben ihrem Programm gezeigt, wie laufende Menschen aussehen. Jetzt kann es in einem Video einen Menschen markieren und verfolgen, auch wenn dieser teils verdeckt ist. Auch anderswo entstehen vielversprechende Ansätze, um Objekte trotz der zahllosen Unwägbarkeiten in den Aufnahmen wiederzuerkennen. So experimentieren Forscher an der Universität Oxford mit einer Software, die Sehenswürdigkeiten in Fotos auch unter schwierigen Umständen erkennt. Bisher kennt das Programm allerdings nur einige wenige Touristenziele aus Oxford. Gerne zeigt Andrew Zisserman, der diese Forschungen in Oxford leitet, auch ein Projekt, das er "Video Google" nennt. Mit der Software – zum Test auf der Instituts-Website verfügbar, lassen sich Spielfilme durchsuchen. Charade zum Beispiel, mit Audrey Hepburn.
In Einzelbildern aus dem Film lassen sich beliebige Objekte markieren. Im restlichen Film wird dann danach gesucht. Der Nutzer bekommt dann gezeigt, an welchen Stellen im Film beispielsweise ein bestimmter Koffer auftaucht. Auch wenn dieser gedreht und aus verschiedenen Perspektiven oder bei unterschiedlichen Lichtverhältnissen aufgenommen wurde. Dass die britischen Forscher dabei mit Videos arbeiten, statt sich zunächst auf Fotos zu beschränken, macht die Sache nicht unbedingt schwieriger. Zwar werden neue Bilderkennungsalgorithmen in der Regel zuerst an Fotos ausprobiert, aber Bewegtbilder sind unter Umständen sogar einfacher zu analysieren:
"Zunächst mal bietet das Video mehr Informationen. Während man beim Foto mit einem Bild arbeiten muss, kann man bei einem Video eben wirklich die Abfolge von Bildern untersuchen und hat da einfach mehr Information, die einem natürlich auch helfen kann, die Dinge, die man sucht, auch zu finden. Auf der anderen Seite stellen natürlich Videos auch höhere Anforderungen an die Rechenpower dann wieder. Und gerade wenn man dann ein Video in der Geschwindigkeit verarbeiten will, wie es aus der Kamera kommt, dann muss man eben wirklich sehr schnelle Verfahren haben."
Für Menschen ist die Erkennung selbst leicht – nur können sie sich nicht so schnell durch die zigtausend Einzelbilder eines Spielfilms wühlen, wie ein Computer das kann. Die Kombination aus beiden Fähigkeiten ist das Ziel der Computerwissenschaftler: Eine schnelle und gleichzeitig sichere Erkennung und Kategorisierung von Bildern. Um die Zuverlässigkeit eines menschlichen Gehirns zu erreichen, schauen sich die Forscher genau an, wie Bilderkennung im Zusammenspiel von Auge und Hirn funktioniert. Um einen guten Algorithmus zu entwickeln, versuchen sie, in die digitale Welt zu übertragen, was sie über das Sehsystem wissen – wie Zäpfchen und Stäbchen der Netzhaut, die optische Reizleitung durch die Nervenfasern und die primäre Sehrinde im hinteren Teil des Gehirns und viele weitere graue Zellen uns Bilder sehen lassen, die wir augenblicklich interpretieren können. Kanten und Konturen spielen bei der optischen Wahrnehmung eine große Rolle. Dementsprechend setzen die meisten der aktuell viel versprechenden Algorithmen darauf, zuerst Kanten in einem Bild zu finden. Außerdem sollen Computern wie es auch bei Menschen ist, interessante Punkte eines Bildes sofort ins Auge springen.
"Wir Menschen achten sicherlich auch darauf, was uns ins Auge springt. Wenn irgendwas selten ist im Bild, dann achten wir da besonders drauf. Und das macht auch irgendwie Sinn, denn nur das, was selten ist, kann man auch wirklich unterscheiden. Das, was häufig vorkommt, ist nicht eindeutig. Allerdings ist das hier auch wieder schwierig, das in Bildern zu machen, weil es ist sehr aufwändig, erstmal alles abzuprüfen, was selten und was häufig ist. Und da hat man dann oft die Schwierigkeit, dass man das nicht schnell genug machen kann. Was man einfach macht, ist, dass man durch Heuristiken herausfindet, welche Punkte wahrscheinlich selten sind und welche Punkte wahrscheinlich weniger selten sind. Und dann arbeitet man mit den Punkten die wahrscheinlich selten sind."
"Interessante Punkte" nennen der Bonner Forscher Thomas Brox und andere Entwickler diese Stellen eines Bildes. Die interessanten Punkte ergeben ein Muster, anhand dessen sich das Bild oder auch einzelne Objekte eines Bildes wiedererkennen lassen. Eine Variation dieses Ansatzes verfolgt auch Eva Hörster von der Universität Augsburg. Ihre Arbeitsgruppe versucht, sich der Bildanalyse mit Methoden der Textanalyse zu nähern.
"Wenn man versucht, einen Text zu beschreiben, dann ist das ziemlich einfach, weil man ein paar Wörter hat, aus denen dieser Text besteht. Wenn man aber diese selben Modelle, die man dann basierend auf den Wörtern aufbauen kann, auch auf ein Bild anwenden möchte. Ein Bild besteht eben nicht aus diskreten einzelnen Punkten. Natürlich könnte man sagen, es besteht aus den Pixeln, aber ein Pixel hat nicht genug Informationen, als dass man da irgendwas direkt mit machen könnte. Das heißt, man versucht, etwas Ähnliches zu Wörtern in einem Bild zu finden. In unserem Fall nehmen wir jetzt lokale Regionen um die Wörter zu erzeugen. Das heißt man nimmt einzelne Pixel und um die Pixel herum Nachbarschaften und versucht dann diese lokale Ansammlung von Pixeln zu beschreiben."
Aus den einzelnen so genannten visuellen Wörtern entsteht dann ein ganzes Wörterbuch, ein Vokabelheft, das Computern die Sprache der Bilder beibringen soll. Objekte wiedererkennen, darum dreht sich alles. Und das hat wahrlich bedeutendere Anwendungen als das Suchen von Gegenständen in Spielfilmen. Das Objekt könnte schließlich auch ein Gesicht sein.
"Wir bitten alle, die in den zwei Wochen vor Madeleines Verschwinden in der Ferienanlage waren, uns ihre Urlaubsfotos zu schicken. Schauen Sie sich die Bilder an und achten Sie darauf, wer sich im Hintergrund befindet. Wenn da andere Leute sind, schicken Sie uns die Fotos. Wenn da jemand ist, von dem Sie meinen, dass er sich auffällig benimmt, schicken Sie uns die Fotos. Wir können 1000 Fotos pro Stunde verarbeiten und mit den Informationen, die da herauskommen, die Polizei vor Ort in Portugal bei ihrer Suche unterstützen."
Gleichzeitig durchsuchte die britische Polizei auch automatisch Pädophilen-Websites nach Bildern von Madeleine. Auf Basis eines Fotos des Anfang Mai in Portugal verschwundenen Mädchens wurden Websites nach Fotos ähnlich aussehender Kinder durchsucht. Ein Fahndungserfolg ist bisher nicht bekannt. Doch das Beispiel zeigt, wie mächtig Bildersuche bereits ist. Gerade die Gesichtserkennung ist weit fortgeschritten. Das kann jeder selbst ausprobieren: riya.com ist eine Plattform, auf die sich private Fotos hochladen lassen. Auf den Bildern können die Nutzer dann einzelne Personen markieren und mit Namen versehen. Sind von einer Person genügend Bilder vorhanden, markiert die Software sie auf allen weiteren Fotos von selbst. Eine ähnliche Software entwickelt das Unternehmen Polar Rose aus dem schwedischen Malmö in Zusammenarbeit mit der dortigen Universität. Nikolaj Nyholm leitet das junge Web-Startup, dessen Software derzeit noch in der Testphase ist:
"Unsere Technik basiert darauf, dass wir aus zweidimensionalen Fotos dreidimensionale Gesichtsmodelle berechnen. Wenn wir ein neues Foto bekommen, generieren wir daraus zuerst ein 3D-Porträt. Und anhand dieses Modells können wir Menschen viel besser erkennen als mit herkömmlichen Methoden. Einerseits, weil wir die Pose eines Menschen kompensieren können – es macht nichts, wenn Sie schräg in die Kamera schauen. Für herkömmliche Gesichtserkennung, die auf einem Musterabgleich basiert, wäre es ein riesiger Unterschied, ob Sie direkt in die Kamera schauen oder von der Seite. Oder das Licht: Mal kommt es von der rechten Seite, mal von der linken. Mit unserem 3D-Modell können wir Lichteinflüsse herausrechnen."
Damit erschließt sich die Welt der Bilder allmählich für Suchmaschinen. Denn die gewaltige Menge an Informationen, die in online verfügbaren Bildern steckt, ist von Suchmaschinen bisher schlicht nicht erfasst. Die Google-Bildersuche etwa wertet bisher keineswegs aus, was tatsächlich auf den Bildern zu sehen ist. Der Suchroboter analysiert nur den Text im Umfeld eines Fotos. Bei den entsprechenden Schlagwörtern spuckt er dann das Bild als Ergebnis aus. Entsprechend unbefriedigend sind Bildersuchen im Internet bisher. Eine echte Suche im wahren Inhalt von Fotos wird allerdings auch ihre Schattenseiten haben. Schon jetzt finden sich Fotos im Internet, zum Beispiel von ausufernden Partys, die manchen, die darauf zu sehen sind, ein Dorn im Auge sind. Die Gründerin einer der größten Foto-Plattformen im Internet, Caterina Fake, kennt das Problem:
"Ich muss sagen, ich bin sehr froh, dass es noch keine Digitalkameras gab, als ich im College war. Aber ernsthaft: Weil Fotografie so allgegenwärtig ist, gibt es Leute, die ihre Parties mittlerweile als no-photo-dinner-party veranstalten."
Eine bessere Durchsuchbarkeit von Bildern bedeutet auch, dass wir unseren Umgang mit Bildern verändern müssen. Nicht nur, weil möglicherweise kompromittierende Bilder aus der Vergangenheit leichter gefunden werden können. Wenn alle Bilder, die im öffentlichen Raum gemacht werden, durchsuchbar sind, ist das datenschutzrechtlich bedenklich.
Szenario: Ein Tourist schießt mit seinem Handy ein Erinnerungsfoto vom Brandenburger Tor. Vom Handy aus wird das Bild direkt in eine Internet-Fotoplattform geladen. Die Software auf der Plattform erkennt: Da, im Hintergrund, läuft Peter Müller vorbei. Die Information wird gespeichert. Für Dritte ist somit nachvollziehbar wo sich Peter Müller wann aufgehalten hat.
Solche Big-Brother-Szenarien sind nicht sehr weit hergeholt. Kameras, die Menschen verfolgen können sind in London Realität. Und das Potsdamer Unternehmen Vis-à-Pix entwickelt Programme, die Überwachungskameras mit einer gewissen Intelligenz ausstatten. Die harmloseren Varianten zählen automatisch die Menschen in einer Warteschlange, andere Analyseroutinen können selbstständig Graffiti-Sprayer erkennen und Alarm schlagen. Das lässt sich beliebig auf andere vermeintlich verdächtige Verhaltensmuster übertragen. Allerdings: Mit Überwachungskameras bestimmte Personen zu identifizieren, das funktioniert noch nicht zufriedenstellend, wie ein Feldversuch des Bundeskriminalamts gezeigt hat. 200 Versuchspersonen sollten über vier Monate hinweg im Mainzer Hauptbahnhof von Kameras erfasst und identifiziert werden. Abhängig vom Lichteinfall lag die Erkennungsrate nur bei mageren zehn bis 60 Prozent.
Warum tun sich Computer so schwer ein bestimmtes Gesicht in einer Masse zu identifizieren? Oder, andersherum, eine Frage an den Forscher Tomaso Poggio vom Massachussetts Institute of Technology, MIT: Wo ist der große Vorteil eines Menschen gegenüber einem Computer?
"Die Evolution hat Millionen oder Milliarden Jahre am Sehen gearbeitet. Die Menschen arbeiten vielleicht gerade mal fünf Jahrzehnte daran. Es gibt noch viel zu tun, bis wir die Möglichkeiten des Gehirns nachahmen können, was Intelligenz im Allgemeinen und das Sehen im Besonderen angeht – was ich für einen wichtigen Teil der Intelligenz halte."
Die Erfahrung der Evolution und die Erfahrung jedes Einzelnen sind gemeinsam jedem Computer überlegen. Dem pflichtet Thomas Brox bei.
"Das lernen wir von Kind auf, Gesichter sind was ganz Wichtiges für uns, weil wir müssen ja Personen auseinander halten können. Das ist für uns im Leben sehr wichtig. Und auch die verschiedenen Gestiken, die Mimik in den Gesichtern ist sehr wichtig für uns. Und deswegen betreibt das Gehirn da wahrscheinlich sehr viel Aufwand, um Gesichtserkennung zu betreiben. Und wenn man das mit dem Computer machen will, muss man eben hier auch sehr viel Aufwand betreiben, um verschiedene Gesichter auseinander zu halten, weil da wirklich auf sehr kleine Merkmale geachtet wird."
Übung macht den Meister. Schon wenn ein Kleinkind die Welt entdeckt, lernt es, wie ein Bauklotz unter verschiedenen Bedingungen aussieht, wie sich das Bild verändert, wenn es ihn dreht. Die visuelle Wahrnehmung wird dabei noch vom Tastsinn gestützt, was den Lerneffekt weiter erhöht. Unbewusst nimmt das Kind – wie jeder Mensch – einen ständigen Strom von Bildern wahr, in dem auch ständig Objekte erkannt werden.
Dieses Lernen auf den Computer zu übertragen ist die Herausforderung vor der die Wissenschaft derzeit steht. Was die Wissenschaftler bisher unternehmen, um die Erkennungsprogramme zu trainieren, ist nichts anderes als Frontalunterricht. Sie zeigen dem Rechner so lange Bilder von Fahrrädern, bis er weiß, was ein Fahrrad ist. Doch echtes Lernen geht anders, Menschen lernen vor allem etwas in Sachen Objekterkennung, indem sie ihre Umgebung beobachten. Unüberwachtes Lernen nennen die Forscher das, und Tomaso Poggio aus Boston hat auf diesem Gebiet einen großen Schritt nach vorn gemacht. Der MIT-Wissenschaftler hat es geschafft, Computer selbstständig lernen zu lassen, wie Tiere aussehen. Auf beliebigen Fotos kann sein Computermodell erkennen, ob ein Tier darauf zu sehen ist, oder nicht.
"In unserem Computermodell lernt der Rechner zum Teil unüberwacht. Wie wenn ein Kind seinen Sehsinn schärft. Die Neuronen, die wir simulieren, extrahieren automatisch ein Vokabular von Formen aus den Bildern, die wir ihnen zeigen. Mit diesem allgemeinen Vokabular aus Formen und Texturen ist es für das Computermodell dann einfach, verschiedene Kategorien von Objekten zu lernen – und dafür braucht es nur sehr wenige Beispiele. Bei unserem Experiment mit den Tierfotos haben wir einhundert Lernbilder verwendet, aber man könnte das in anderen Fällen auch mit viel weniger machen: mit zwei, drei, vier oder fünf Bildern."
Nur fünf Bilder, und ein Computermodell versteht, was ein Baum ist oder ein Haus. Eine beeindruckende Geschwindigkeit...
"Naja, was das Gehirn in, sagen wir mal, 100 Millisekunden schafft, das dauert selbst mit einer großen Anzahl von Prozessoren eine Minute oder so."
Eine gewaltige Leistung also, die unser Gehirn beim Aufnehmen und Verarbeiten von Bildern vollbringt – ohne dass wir uns dafür besonders anstrengen müssten.
"Uns ist überhaupt nicht bewusst, wie schwierig das ist, was wir da ständig tun. Als Computerwissenschaftler haben wir es noch nicht geschafft, Computer das tun zu lassen, was für uns Routine ist."
Es ist eben nicht einfach, die vielschichtigen Funktionsweisen des Gehirns in eine Maschine zu übertragen. Gerade am Sehen sind schließlich viele Ebenen beteiligt.
"Unser Modell beginnt mit dem ersten Areal in der Großhirnrinde, das mit dem Sehen zu tun hat, die primäre Sehrinde. Es geht dann weiter bis zu Arealen der höchsten visuellen Verarbeitungsstufe der Sehrinde. Wir berücksichtigen auch Hirnareale, die nicht nur für das Sehen zuständig sind, wie den präfrontalen Kortex, der mit dem fällen von Entscheidungen zu tun hat. Aber zum Beispiel die Netzhaut haben wir nur sehr vereinfacht modelliert."
Doch in den Zellen der Netzhaut finden schon die ersten Verarbeitungsschritte statt. Vielleicht ist es aber auch einfach eine Portion grundsätzliches Wissen über die Welt das Computern fehlt, um das Gesehene zu interpretieren. Hintergrundwissen, das einem Roboter im Unterbewussten sagt:
Ein Sessel steht immer auf dem Boden.
Ein Grashalm wächst von unten nach oben.
Ein Fahrrad hat zwei Räder.
Wasser ist nass.
Solche Fakten haben Forscher in den vergangenen Jahren in einer Datenbank namens Cyc zusammengetragen. Auf dieser Basis sollen Künstliche Intelligenzen plausible Aussagen machen können. Doch Bildverarbeitungs-Forscher kamen mit den banalen Fakten über die Welt wie sie ist nicht weiter – vor allem, wegen der Menge der Daten.
Erst allmählich verstehen Wissenschaftler, wie Menschen Bilder wahrnehmen, verstehen und verarbeiten und Schritt für Schritt übertragen sie das auf die Maschinen. Dabei ist ein Treiber der Evolution des Computersehens die Wissenschaft selbst. Kaum ein naturwissenschaftlicher Forschungszweig, in dem nicht auf die Methoden der automatischen Bildverarbeitung gesetzt wird. Kameras beobachten Versuchsaufbauten in der Biologie, Computer werten die aufgenommenen Bilder aus. Gleiches gilt für Physik oder Chemie mit ihren unzähligen Spezialgebieten, auch die moderne Astronomie benutzt Techniken des Computersehens. Vor allem aber in der Medizin ist die Bildanalyse kaum noch wegzudenken – sowohl in der medizinischen Forschung, als auch in der Anwendung. Das Münchner Unternehmen Definiens etwa, das Bildanalyse-Werkzeuge für die unterschiedlichsten Zwecke anbietet, hat eine Software entwickelt, die Hunderte Bilder eines Körperscans in wenigen Minuten nach mutierten Zellen durchsucht. Auch an der Universität Bonn ist eine medizinische Anwendung entstanden. Thomas Brox zeigt an seinem Laptop zwei Bilder von Muskelfasern.
"Bei dem oberen Bild, da sieht man jetzt so rosa Flecken, das sind die Muskelfasern. Die sind getrennt durch ganz dünne, helle Bereiche. In dem unteren Bild, da sieht man jetzt krankhaftes Gewebe. Da sind diese rosa Flecken sehr unterschiedlich verteilt. Man sieht auch, da sind manche sehr klein geworden, sie haben auch die Farbe verändert. Und das deutet auf krankhaftes Gewebe hin, einfach weil die Fasern... manche sind sehr groß und manche sind sehr klein."
Ziel ist es, dass ein Algorithmus diese Bilder auswertet und anhand der Größe der Muskelfasern erkennt, ob der Patient an einer Muskelkrankheit leidet oder nicht. Doch: Die Informatiker sagen selbst, dass ihre Systeme Ärzte nur unterstützen können. Wie die Menschen können auch die Programme sich irren – dafür bieten sie einen enormen Geschwindigkeitsvorteil. Auch anderswo dient das Computersehen bisher nur als Assistenzsystem. Schon vor Jahren kam in Deutschland ein Auto auf den Markt, das mittels eines Infrarotsystems Fahrbahnmarkierungen erkennen kann. Doch statt beim Überfahren der Markierungen gegenzulenken, warnt es den Fahrer lediglich mit einer Vibration im Sitz. Seither entwickeln die Autohersteller fleißig weiter an optischen Systemen, die etwa Unfallstellen oder auf die Fahrbahn laufende Kinder erkennen können sollen. Auf Teststrecken lassen die Entwickler die Fahrzeuge automatisch bremsen oder ausweichen. In der Serienproduktion wird diese Technik aber noch lange nicht ankommen. Grund: Die ungeklärte Haftungsfrage. Wer ist Schuld, wenn das Computerauge einen Fehler macht?
In kleinen, speziellen Anwendungen funktioniert das Computersehen bereits. Kameras beobachten wissenschaftliche Versuchsaufbauten oder Wände, die einladend für Grafitti-Sprüher sind. Computer werten medizinische Bilder aus oder überprüfen mittels optischer Systeme in der Industrie die Qualität der Produkte auf dem Fließband. Auch Müll wird mit Hilfe von Kameras und Computern getrennt. Das alles sind kontrollierte Umgebungen, mit denen die Maschinen umgehen können. Doch das große Ganze ist noch weit entfernt.
"Das klingt vielleicht ein bisschen komisch. Was noch nicht gelöst ist: Wir können jetzt ziemlich gut erkennen zum Beispiel ob es ein Fahrrad im Bild gibt. Aber genau zu sagen, wo das im Bild liegt, ist noch ein ungelöstes Problem. Gerade neulich bin ich auch wieder mit dem Auto durch so eine Landschaft gefahren, es war sehr sonnig, die Bäume haben dann so Schatten geworfen und es war auch ein bisschen schwierig, zu fahren, weil das so starke Lichteffekte waren. Da hab ich mir zum Beispiel auch gedacht: Das wäre jetzt eine Situation, damit käme der Computer überhaupt nicht zurecht."
Bild Kamera Überwachung
Die Funktion der Wahrnehmung auf Maschinen zu übertragen, ist für Forscher eine große Herausforderung.