"Wir werden im Jahr 2012 so viele Daten erzeugen wie in der gesamten Menschheitsgeschichte davor."
Mit dieser Aussage bringt Andreas Zilch, Vorstand der Experton Group, auf den Punkt, worum es derzeit bei vielen IT-Anwendungen geht: die Bewältigung enormer Datenmengen oder auch Big Data.
"Wir haben inzwischen einige Anwendungen, wo man von Petabyte redet",
ergänzt Peter Sanders, Professor am Karlsruhe Institut of Technology.
"Vielleicht zur Illustration: Terabyte können Sie inzwischen auf Festplatten kaufen, da kann sich aber auch niemand etwas darunter vorstellen. Das sind dann nochmal 1000 Festplatten mit Daten. Wenn Sie sagen, sämtliche Bücher, die jemals veröffentlicht wurden, dann passen die auf eine solche Festplatte."
Und das ist noch das Ende der Fahnenstange. Im Schnitt rechnen die Unternehmen in den nächsten zwei Jahren mit einer weiteren Steigerung der Datenvolumina um je ein Drittel. Das hat die Experton Group in einer Befragung zum Thema Big Data herausgefunden. Doch nicht alleine das Volumen ist relevant:
"Nicht nur das Datenvolumen ist wichtig und wird sich extrem steigern, sondern auch die Anzahl der Nutzer, die Anzahl der Datenquellen. Wenn man sieht, dass heutzutage sehr viele Daten aus strukturierten Quellen kommen: aus Office-Dokumenten, aus E-Mail, aus ERP-Systemen, so werden in Zukunft auch Social-Networks-Daten eingebunden, Audio- und Videodaten, eine Vielfalt von Quellen, die hinzukommt und die vierte Dimension, die wir da sehen, ist die Geschwindigkeit mit der maximalen Forderung Echtzeitanalysen."
Mit bislang gängigen Konzepten, die darauf setzen, dass die Rechenleistung der Transistoren höher wird, lasse sich das nicht mehr beherrschen sagt Sanders:
"Wir haben Moores Law. Das sagt, dass man alle 18 Monate doppelt so viele Transistoren auf Chips unterbringt. Das gilt erstaunlicherweise seit den 60er-Jahren. Sie haben eine Anwendung, dann müssen Sie nur 18 Monate warten, dann können Sie doppelt so viele Daten verarbeiten. Heute funktioniert das nicht mehr, weil wir haben zwar immer noch mehr Transistoren, aber die Prozessoren werden nicht mehr schneller. Wir müssen jetzt hergehen und viele Prozessoren gleichzeitig auf dem Problem rechnen lassen."
Mit seinen Teams arbeitet er unter anderem an Verfahren, die sicherstellen, dass dabei alle Prozessoren möglichst gleichmäßig arbeiten. Vier technologische Herausforderungen sieht der Karlsruher Forscher derzeit bei Big Data:
"Massiver Parallelismus, Speicherhierarchien, Energieverbrauch und Fehlertoleranz, und das gleichzeitig damit, dass die Anwendungen neu sind."
Einzelne Bausteine gibt es schon, um diese Herausforderungen zu bewältigen. Sie kommen unter anderem aus den Werkstätten der Suchmaschinenhersteller. So hat Google sich Map Reduce patentieren lassen. Das ist eine leistungsfähige Methode, um Schlüsselinformationen in großen Datenmengen zu finden und zusammenzuführen.
Notwendig sind auch neue Konzepte wie In-Memory-Datenbanken. Das sind Datenbanken, die nicht die Festplatte, sondern den Arbeitsspeicher eines Computers als Datenspeicher verwenden. Die Zugriffe sind schneller als bei einer Festplatte. Suchmaschinen für das Internet sind eine der Anwendungen, die ohne Big-Data-Ansätze nicht funktionieren können. Als eine der Anwendungen, die davon profitieren, gilt die rasante Bildverarbeitung. In der Forschung wird die beispielsweise eingesetzt, um am Forschungszentrum die Bilderflut eines Teilchenbeschleunigers auszuwerten. Die schnelle Bildverarbeitung ist aber nicht nur für Forschungszwecke notwendig, sie spielt auch in der Medizin eine immer wichtigere Rolle, etwa zur Auswertung von Daten aus Magnetresonanztomografen. Und nicht zuletzt werden sich in der Logistik und Verkehrsflugplanung neue Möglichkeiten ergeben. Man könne Stauprognosen verbessern.
"Indem man zum einen die Autos nutzt, die gegenseitig sich anfunken können und entlang der Straße auch entsprechende Sensoren einbaut",
so Zilch. Das könnte aber auch eine Herausforderung für den Datenschutz sein:
"Da kann man die Daten des Fahrzeugs messen und übertragen und auswerten für zum Beispiel Staumeldungen. Wenn man aber zusätzlich weiß, wer in dem Auto sitzt, hat man ein Bewegungsprofil des Menschen. Man kann mit den Technologien Staus vermeiden und bessere Verkehrsprognosen haben, man kann aber auch eine illegale Sache machen - nämlich die entsprechenden Bewegungsprofile von Menschen verfolgen."
Mit dieser Aussage bringt Andreas Zilch, Vorstand der Experton Group, auf den Punkt, worum es derzeit bei vielen IT-Anwendungen geht: die Bewältigung enormer Datenmengen oder auch Big Data.
"Wir haben inzwischen einige Anwendungen, wo man von Petabyte redet",
ergänzt Peter Sanders, Professor am Karlsruhe Institut of Technology.
"Vielleicht zur Illustration: Terabyte können Sie inzwischen auf Festplatten kaufen, da kann sich aber auch niemand etwas darunter vorstellen. Das sind dann nochmal 1000 Festplatten mit Daten. Wenn Sie sagen, sämtliche Bücher, die jemals veröffentlicht wurden, dann passen die auf eine solche Festplatte."
Und das ist noch das Ende der Fahnenstange. Im Schnitt rechnen die Unternehmen in den nächsten zwei Jahren mit einer weiteren Steigerung der Datenvolumina um je ein Drittel. Das hat die Experton Group in einer Befragung zum Thema Big Data herausgefunden. Doch nicht alleine das Volumen ist relevant:
"Nicht nur das Datenvolumen ist wichtig und wird sich extrem steigern, sondern auch die Anzahl der Nutzer, die Anzahl der Datenquellen. Wenn man sieht, dass heutzutage sehr viele Daten aus strukturierten Quellen kommen: aus Office-Dokumenten, aus E-Mail, aus ERP-Systemen, so werden in Zukunft auch Social-Networks-Daten eingebunden, Audio- und Videodaten, eine Vielfalt von Quellen, die hinzukommt und die vierte Dimension, die wir da sehen, ist die Geschwindigkeit mit der maximalen Forderung Echtzeitanalysen."
Mit bislang gängigen Konzepten, die darauf setzen, dass die Rechenleistung der Transistoren höher wird, lasse sich das nicht mehr beherrschen sagt Sanders:
"Wir haben Moores Law. Das sagt, dass man alle 18 Monate doppelt so viele Transistoren auf Chips unterbringt. Das gilt erstaunlicherweise seit den 60er-Jahren. Sie haben eine Anwendung, dann müssen Sie nur 18 Monate warten, dann können Sie doppelt so viele Daten verarbeiten. Heute funktioniert das nicht mehr, weil wir haben zwar immer noch mehr Transistoren, aber die Prozessoren werden nicht mehr schneller. Wir müssen jetzt hergehen und viele Prozessoren gleichzeitig auf dem Problem rechnen lassen."
Mit seinen Teams arbeitet er unter anderem an Verfahren, die sicherstellen, dass dabei alle Prozessoren möglichst gleichmäßig arbeiten. Vier technologische Herausforderungen sieht der Karlsruher Forscher derzeit bei Big Data:
"Massiver Parallelismus, Speicherhierarchien, Energieverbrauch und Fehlertoleranz, und das gleichzeitig damit, dass die Anwendungen neu sind."
Einzelne Bausteine gibt es schon, um diese Herausforderungen zu bewältigen. Sie kommen unter anderem aus den Werkstätten der Suchmaschinenhersteller. So hat Google sich Map Reduce patentieren lassen. Das ist eine leistungsfähige Methode, um Schlüsselinformationen in großen Datenmengen zu finden und zusammenzuführen.
Notwendig sind auch neue Konzepte wie In-Memory-Datenbanken. Das sind Datenbanken, die nicht die Festplatte, sondern den Arbeitsspeicher eines Computers als Datenspeicher verwenden. Die Zugriffe sind schneller als bei einer Festplatte. Suchmaschinen für das Internet sind eine der Anwendungen, die ohne Big-Data-Ansätze nicht funktionieren können. Als eine der Anwendungen, die davon profitieren, gilt die rasante Bildverarbeitung. In der Forschung wird die beispielsweise eingesetzt, um am Forschungszentrum die Bilderflut eines Teilchenbeschleunigers auszuwerten. Die schnelle Bildverarbeitung ist aber nicht nur für Forschungszwecke notwendig, sie spielt auch in der Medizin eine immer wichtigere Rolle, etwa zur Auswertung von Daten aus Magnetresonanztomografen. Und nicht zuletzt werden sich in der Logistik und Verkehrsflugplanung neue Möglichkeiten ergeben. Man könne Stauprognosen verbessern.
"Indem man zum einen die Autos nutzt, die gegenseitig sich anfunken können und entlang der Straße auch entsprechende Sensoren einbaut",
so Zilch. Das könnte aber auch eine Herausforderung für den Datenschutz sein:
"Da kann man die Daten des Fahrzeugs messen und übertragen und auswerten für zum Beispiel Staumeldungen. Wenn man aber zusätzlich weiß, wer in dem Auto sitzt, hat man ein Bewegungsprofil des Menschen. Man kann mit den Technologien Staus vermeiden und bessere Verkehrsprognosen haben, man kann aber auch eine illegale Sache machen - nämlich die entsprechenden Bewegungsprofile von Menschen verfolgen."