Manfred Kloiber: Was hat denn Vivek Kundra, der CIO von Barack Obama da genau vor, Peter Welchering?
Peter Welchering: Er will ganz genau ein Gesetz zur Sicherung der Qualität von Datenproduktionsprozessen haben. Aber bis das tatsächlich verabschiedet wird, da wird vermutlich noch sehr viel Wasser den Potomac runterfließen. Dahinter steckt einfach die Tatsache, dass im Büro dieses amerikanischen Chief Information Officer die Analytiker in den vergangenen Monaten ziemlich viel Zeit mit nachdenken verbracht haben. Und sie haben Nachrichten ausgewertet über Computerfehler und dann sind sie darauf gekommen, dass hinter den meisten Computerfehlern schlicht ein Datenproblem steckt. Am Anfang eines jeden Softwareprojektes steht ja die sogenannte Anforderungsanalyse, das Requirement Management, mit der genau definiert wird, was die Software eigentlich leisten muss. Und diese Entwicklungsziele werden dann in ein Programmiermodell umgesetzt. Und da hat man auch in der Vergangenheit große Anstrengungen unternommen, um diese Programmiermodelle möglichst fehlertolerant zu bekommen. Aber trotz dieser Fehlertoleranz gab's mehr oder weniger spektakuläre Computerfehler. So kam es beispielsweise - und das war der Ausgangspunkt für Vivek Kundra vor einiger Zeit - in mehreren Kleinstädten im Mittelwesten der USA zu völlig unerklärlichen Stromausfällen. Immer wieder schalteten die Stromleitrechner in einigen Netzabschnitten einfach den Saft ab. Es gab keinen Grund dafür, es gab keinen Programmierfehler. Die Hardware funktionierte einwandfrei. Und trotzdem schalteten die Rechner, diese Dinger, immer mal wieder den Strom ab, unmotiviert. Über viele Wochen wurden dann diese Stromleitrechner überwacht und des Rätsels Lösung war: Beim sogenannten Aggregieren von Daten, beim Zusammenführen von Daten, da gab's einen Fehler in der Maßeinheit. Also ein Einheitenproblem. Dahinter steckt folgendes: Diese Stromleitrechner erhalten in der Regel Verbrauchsanforderungen für 24 Stunden, um allzu große Schwankungen im Netz ausgleichen zu können und um rechtzeitig Spitzenverbrauchswerte abzufangen. Da werden dann etwa Wasserkraftwerke oder Gasturbinen zugeschaltet, die für den kurzen Zeitraum einer Verbrauchsspitze dann eben Strom erzeugen. Nur entstehen solche Verbrauchsanforderungen für Stromleitrechner indem eben viele Millionen Haushalte und Untenehmen ihre Verbrauchswerte, die von intelligenten Stromzählern erfasst werden, an einen Erfassungsrechner weiterleiten. Und im konkreten Fall mussten fünf Millionen Datensätze abgeglichen werden. Einige Verbrauchszähler meldeten kontinuierlich im Minutentakt ihre Verbräuche, andere im Stundentakt. Wieder andere machten das für zwölf oder 24 Stunden und da lag das Problem. Die Stromleitrechner erwarteten Verbrauchsanforderungen für die nächsten 24 Stunden, aufbereitet nach Stundenverbräuchen. Hier sind aber die Verbrauchswerte, die im Zwölf- oder 24-Stunden-Rhythmus gemessen wurden, nicht sauber mit den Stundenwerten abgeglichen worden, die es da gab. Und Verbrauchsprofile von zwölf oder 24 Stunden wurden dann fälschlich als Stundenwert interpretiert. Und da hat die Software des Stromleitrechners einfach eine Überlastung des Netzes prognostiziert und vorsorglich das Netz kurzfristig abgeschaltet.
Kloiber: Und wie wollen die Experten beim Chefinformatiker des Weißen Hauses solche Störfälle künftig verhindern?
Welchering: Ja eben durch eine verbesserte Datenqualität. Unterschiedliche Daten, die in unterschiedlichen Perioden erfasst werden, die müssen eine Beschreibung, die müssen Metadaten erhalten. Da muss ganz konkret angegeben werden: Um welche Daten handelt es sich denn hier? Welche Einheiten oder Messgrößen liegen zugrunde? Und in welcher Periode wurden sie erfasst? Also auf Tagesbasis, Monatsbasis oder Wochenbasis? Also der Detailierungsgrad muss genau beschrieben werden. Und bei der US-Luftwaffe hat man damit auch schon ganz gute Erfahrungen gemacht. Da gab's nämlich ein ganz beunruhigendes Problem: nämlich Flugzeuge auf Überwachungsflügen, also auch Awac-Maschinen beispielsweise, mussten vorzeitig auf ihre Basis zurückkehren, weil ihnen der Sprit ausging. Die Luftraumüberwachung hatte deshalb Löcher und das Problem dahinter war simpel, hatte aber eben massive Folgen: Tankcomputer hatten bei der Reichweitenangabe Kilometer und Meilen verwechselt. Also ein simples Problem der Maßeinheit.
Kloiber: Welche Konsequenzen wurden daraus gezogen?
Welchering: Es wurden Kriterien für die Datenqualität definiert und diese Datenqualität wurde angereichert um Qualitätsdimensionen für unterschiedliche Anwendungen. Und dabei müssen eben nicht nur Metadaten beschrieben werden, die genau angeben, um welche Datenarten es sich handelt, wie diese Datenarten erhoben werden, mit welchem Detailierungsgrad sie verarbeitet werden, sondern es muss eine vollständige Methode der Überwachung des Produktionsprozesses dieser Daten beschrieben werden und das heißt, es wird gecheckt: Wo kommen die Daten her? Sind die Daten vollständig? Genügen sie auch dem Anwendungszweck? So wurden etwa Strahlendosen bei der Krebsbehandlung falsch gerechnet, weil das Datum musste, ein Schild zwischen Patient und Bestrahlungseinheit, heruntergefahren werden, eben nicht da war. Und deshalb wird versucht, jetzt alle vollständigen Daten mit einer Methode zu beschreiben. Und diese Methode darf dann nur eingesetzt werden, wenn wirklich die vollständige Beschreibung garantiert ist. Das ist sozusagen die bisherige Lücke, die geschlossen werden muss im Qualitätsmanagement.
Kloiber: Peter Welchering über Qualitätssicherung bei der Datenerhebung. Vielen Dank.
Peter Welchering: Er will ganz genau ein Gesetz zur Sicherung der Qualität von Datenproduktionsprozessen haben. Aber bis das tatsächlich verabschiedet wird, da wird vermutlich noch sehr viel Wasser den Potomac runterfließen. Dahinter steckt einfach die Tatsache, dass im Büro dieses amerikanischen Chief Information Officer die Analytiker in den vergangenen Monaten ziemlich viel Zeit mit nachdenken verbracht haben. Und sie haben Nachrichten ausgewertet über Computerfehler und dann sind sie darauf gekommen, dass hinter den meisten Computerfehlern schlicht ein Datenproblem steckt. Am Anfang eines jeden Softwareprojektes steht ja die sogenannte Anforderungsanalyse, das Requirement Management, mit der genau definiert wird, was die Software eigentlich leisten muss. Und diese Entwicklungsziele werden dann in ein Programmiermodell umgesetzt. Und da hat man auch in der Vergangenheit große Anstrengungen unternommen, um diese Programmiermodelle möglichst fehlertolerant zu bekommen. Aber trotz dieser Fehlertoleranz gab's mehr oder weniger spektakuläre Computerfehler. So kam es beispielsweise - und das war der Ausgangspunkt für Vivek Kundra vor einiger Zeit - in mehreren Kleinstädten im Mittelwesten der USA zu völlig unerklärlichen Stromausfällen. Immer wieder schalteten die Stromleitrechner in einigen Netzabschnitten einfach den Saft ab. Es gab keinen Grund dafür, es gab keinen Programmierfehler. Die Hardware funktionierte einwandfrei. Und trotzdem schalteten die Rechner, diese Dinger, immer mal wieder den Strom ab, unmotiviert. Über viele Wochen wurden dann diese Stromleitrechner überwacht und des Rätsels Lösung war: Beim sogenannten Aggregieren von Daten, beim Zusammenführen von Daten, da gab's einen Fehler in der Maßeinheit. Also ein Einheitenproblem. Dahinter steckt folgendes: Diese Stromleitrechner erhalten in der Regel Verbrauchsanforderungen für 24 Stunden, um allzu große Schwankungen im Netz ausgleichen zu können und um rechtzeitig Spitzenverbrauchswerte abzufangen. Da werden dann etwa Wasserkraftwerke oder Gasturbinen zugeschaltet, die für den kurzen Zeitraum einer Verbrauchsspitze dann eben Strom erzeugen. Nur entstehen solche Verbrauchsanforderungen für Stromleitrechner indem eben viele Millionen Haushalte und Untenehmen ihre Verbrauchswerte, die von intelligenten Stromzählern erfasst werden, an einen Erfassungsrechner weiterleiten. Und im konkreten Fall mussten fünf Millionen Datensätze abgeglichen werden. Einige Verbrauchszähler meldeten kontinuierlich im Minutentakt ihre Verbräuche, andere im Stundentakt. Wieder andere machten das für zwölf oder 24 Stunden und da lag das Problem. Die Stromleitrechner erwarteten Verbrauchsanforderungen für die nächsten 24 Stunden, aufbereitet nach Stundenverbräuchen. Hier sind aber die Verbrauchswerte, die im Zwölf- oder 24-Stunden-Rhythmus gemessen wurden, nicht sauber mit den Stundenwerten abgeglichen worden, die es da gab. Und Verbrauchsprofile von zwölf oder 24 Stunden wurden dann fälschlich als Stundenwert interpretiert. Und da hat die Software des Stromleitrechners einfach eine Überlastung des Netzes prognostiziert und vorsorglich das Netz kurzfristig abgeschaltet.
Kloiber: Und wie wollen die Experten beim Chefinformatiker des Weißen Hauses solche Störfälle künftig verhindern?
Welchering: Ja eben durch eine verbesserte Datenqualität. Unterschiedliche Daten, die in unterschiedlichen Perioden erfasst werden, die müssen eine Beschreibung, die müssen Metadaten erhalten. Da muss ganz konkret angegeben werden: Um welche Daten handelt es sich denn hier? Welche Einheiten oder Messgrößen liegen zugrunde? Und in welcher Periode wurden sie erfasst? Also auf Tagesbasis, Monatsbasis oder Wochenbasis? Also der Detailierungsgrad muss genau beschrieben werden. Und bei der US-Luftwaffe hat man damit auch schon ganz gute Erfahrungen gemacht. Da gab's nämlich ein ganz beunruhigendes Problem: nämlich Flugzeuge auf Überwachungsflügen, also auch Awac-Maschinen beispielsweise, mussten vorzeitig auf ihre Basis zurückkehren, weil ihnen der Sprit ausging. Die Luftraumüberwachung hatte deshalb Löcher und das Problem dahinter war simpel, hatte aber eben massive Folgen: Tankcomputer hatten bei der Reichweitenangabe Kilometer und Meilen verwechselt. Also ein simples Problem der Maßeinheit.
Kloiber: Welche Konsequenzen wurden daraus gezogen?
Welchering: Es wurden Kriterien für die Datenqualität definiert und diese Datenqualität wurde angereichert um Qualitätsdimensionen für unterschiedliche Anwendungen. Und dabei müssen eben nicht nur Metadaten beschrieben werden, die genau angeben, um welche Datenarten es sich handelt, wie diese Datenarten erhoben werden, mit welchem Detailierungsgrad sie verarbeitet werden, sondern es muss eine vollständige Methode der Überwachung des Produktionsprozesses dieser Daten beschrieben werden und das heißt, es wird gecheckt: Wo kommen die Daten her? Sind die Daten vollständig? Genügen sie auch dem Anwendungszweck? So wurden etwa Strahlendosen bei der Krebsbehandlung falsch gerechnet, weil das Datum musste, ein Schild zwischen Patient und Bestrahlungseinheit, heruntergefahren werden, eben nicht da war. Und deshalb wird versucht, jetzt alle vollständigen Daten mit einer Methode zu beschreiben. Und diese Methode darf dann nur eingesetzt werden, wenn wirklich die vollständige Beschreibung garantiert ist. Das ist sozusagen die bisherige Lücke, die geschlossen werden muss im Qualitätsmanagement.
Kloiber: Peter Welchering über Qualitätssicherung bei der Datenerhebung. Vielen Dank.