Manfred Kloiber: Datenschützer schreckten auf, als am Donnerstag die Auskunftei Schufa mal wieder Schlagzeilen machte. Das Unternehmen – früher noch ein Verein mit dem Namen Schutzgemeinschaft für allgemeine Kreditsicherung – wollte mit dem Projekt Schufalab at HPI am Hasso-Plattner-Institut in Potsdam erforschen lassen, welchen Informationsgehalt Daten aus sozialen Netzwerken wie Facebook oder Twitter für Bonitätsauskünfte wirklich haben. Datenschützer und Politiker haben das Projekt heftig kritisiert, sogar von einer "Grenzüberschreitung" war die Rede. Nun hat das Hasso-Plattner-Institut gestern das Projekt gestoppt. HPI-Projektleiter Professor Felix Naumann:
O-Ton Felix Naumann: Die Papiere, die an die Öffentlichkeit gelangt waren, waren schlicht Projektideen, oder das Ergebnis eines Brainstormings, aber einen ganz konkreten Projektplan mit einzelnen Schritten und Datenquellen, den gab es noch gar nicht, einfach weil diese rechtliche und ethische Analyse noch gar nicht stattgefunden hatte. Was mich halt ärgert, dass wir jetzt hiermit diese Forschungsfragen den privaten Unternehmen und dem Ausland überlassen, weil in Deutschland offenbar keine sachliche Diskussion möglich ist."
Kloiber: Was ist da schief gelaufen, Peter Welchering?
Peter Welchering: Sicherlich war eine etwas einseitige Darstellung des Projekts Schufalab at HPI auch einer der Gründe, warum das Projekt jetzt gestoppt wurde. Und diese einseitige Darstellung in den Medien wurde dann noch verstärkt durch die Politik. Es gab ja eigentlich gestern, am Freitag, kaum einen Politiker, der nicht eindeutig davor gewarnt hat, dass man ein solches Projekt so doch nicht einfach machen könne. Und dabei war eben das, was das Projekt eigentlich machen sollte, in vielen Bereichen noch ziemlich unklar. Das ist auch sehr vorschnell geurteilt worden. Und das hat natürlich wieder auf die Medien zurückgewirkt, so dass es dann insgesamt so ein bisschen wie am Anfang einer Skandalisierung eines solchen wissenschaftlichen Projektes stand.
Kloiber: Wie sah denn dieser erste Entwurf für das Forschungsdesign überhaupt aus?
Welchering: Im ersten Entwurf waren zwei Fragen sehr maßgebend. Zum einen sollte geklärt werden: Wie valide sind denn eigentlich Daten aus sozialen Netzwerken, wenn man sie für Bonitätsauskünfte verwenden will? Das wird ja heute schon gemacht. Aber bisher hat noch niemand die Frage gestellt, wie stark denn solche Daten eigentlich in ein Scoring miteinbezogen werden dürfen und beispielsweise, welche Gewichtung sie haben müssen. Weil häufig auch ungeklärt ist, aus welchen Quellen sie stammen. Und die Frage, um die es ging – da wurde gefragt: Wie sind denn eigentlich bisher so die Auswertungstechnologien für solche Daten entwickelt worden. Und: Wie kann man diese Auswertungstechnologien denn dann auch weiterentwickeln? Und da spielt natürlich auch das Stichwort "Big Data" eine wesentliche Rolle. Denn was vor zehn Jahren nur mit sehr teurer Hardware, mit sehr hoch bezahlten Spezialisten an Auswertung in Data Warehouses mit Analysen möglich war, kann heute eben mit verteilten Methoden und solchen Werkzeugen wie etwa Hadoop eigentlich jede Kreissparkasse, jede kleinere Firma an Analysen und somit auch an Bonitätsauskünften leisten. Und die bräuchten dann, so war eine der Befürchtungen, in ein paar Jahren Schufa, Kreditreform und Co. nicht mehr. Deshalb muss man einfach mal nachschauen: Wo kann denn da das besondere Geschäftsmodell liegen, sozusagen der einzigartige Verkaufsvorteil – wenn es diese Daten aus dem Web allein nicht mehr sein können? Oder: Wie müssen die weiter aggregiert werden?
Kloiber: Wie gewinnen denn heute diese Auskunfteien ihre Daten, um die Bonität von Unternehmen oder Menschen einzuschätzen?
Welchering: Da gibt es im Wesentlichen drei Bereiche: Es werden Daten von Mitgliedern und Kunden geliefert. Es gibt beispielsweise einige Kunden, die schicken einfach ihre gesamten Buchhaltungsdaten an die Wirtschaftsauskunftei, von der sie auch ihre Auskünfte über Geschäftspartner bekommen. Und mit diesen Buchhaltungsdaten kann dann ermittelt werden, wer wie pünktlich seine Rechnungen zahlt oder wer früher pünktlich gezahlt hat und sich jetzt etwas mehr Zeit lässt. Solche Dinge eben. Zum zweiten gibt es dann vor allen Dingen im Bereich Schufa die berühmte Selbstauskunft, also ein Fragebogen, der schriftlich ausgefüllt werden muss. Der wird dann ergänzt durch Bankauskünfte und bei Unternehmen eben auch durch eine Auswertung der letzten Bilanzen, die veröffentlicht werden müssen im Bundesanzeiger. Und zum dritten darf man eben nicht vergessen: Auch heute schon werden zahlreiche Daten aus dem Web genutzt, um dann auch Bonitätsauskünfte, Bonitätsprofile, wie die so schön heißen, zumindest abzusichern, zumindest ein wenig zu verbreitern. Also Daten aus dem Web fließen hier schon mit ein.
Kloiber: Und welche Daten aus dem Web werden da konkret verarbeitet?
Welchering: Es gibt beispielsweise eine New Yorker Bank – die verarbeitet jeden Tag zwölf Terabyte Twitterdaten, Kurzmitteilungen, also die Tweets, die da aufkommen. Und diese Tweets werden ausgewertet nach Kunden der Bank. Und diese Bankkunden werden dann daraufhin analysiert: Was schreiben die gerade über sich und ihre Situation? Drohen die Beispielsweise ihren Job zu verlieren? Dann wird die Bonität herabgestuft. Oder haben sie gerade eine Beförderung vor sich, dann wird die Bonität heraufgesetzt. Haben sie Schwierigkeiten beim Hauskauf, Schwierigkeiten in der Ehe, stehen sie vor einer Scheidung? Haben sie beispielsweise gesundheitliche Probleme? Auch das wird da ausgewertet. Und all dass fließt natürlich dann auch in eine Bonitätsauskunft ein. Zahlreiche Daten aus ganz unterschiedlichen Internetquellen gehen da heute schon ein und werden sehr unterschiedlich und undurchschaubar gewichtet.
Kloiber: Aber das hört sich auch nach riesigen Datenmengen an, die da analysiert werden müssen. Wahrscheinlich eine teure Angelegenheit.
Welchering: Das war bisher eine sehr teure Angelegenheit. Man ging beispielsweise vor ungefähr 10 bis 15 Jahren davon aus, dass man tatsächlich ungefähr 1,5 Prozent des Umsatzes der Banken für Analysekosten berechnen konnte. Und ein Data Warehouse im Jahr 1998 beispielsweise – da kostete alleine der Aufbau der Datenbasis, also die Infrastruktur, die Datenbank, dann die Erstbeschaffung der Daten, ungefähr 12 bis 16 Millionen Dollar , also ziemlich viel Geld. Und die jährlichen Kosten, um dieses Daten dann eben aktuell zu halten, um sagen zu können, aha, bei einem Kunden entwickelt sich das jetzt in die oder in jene Richtung, die lagen bei ungefähr drei bis vier Millionen. Und heute – da zitiere ich mal den IT-Experten Kristian Köhntopp, der sich auf Twitter sehr, sehr intensiv auch mit den gesamten Vorgängen um die Schufa und das Hasso-Plattner-Institut auseinandergesetzt hat – sind Investitionen von 100.000 Euro beispielsweise für so einen Hadoop-Cluster notwendig. Das ist eine Infrastruktur, um riesige Datenmengen analysieren zu können. Und diese Datenmengen, beispielsweise im Petabyte-Maßstab, dann auch wirklich etwa in Richtung Profilbildung oder ähnliches auswerten zu können. Und mit diesen Voraussetzungen kann das tatsächlich jede Kreissparkasse, kann das jedes mittlere Unternehmen. Und da ergibt sich natürlich für die Wirtschaftsauskunfteien dann die spannende Forschungsfrage: Wo liegt denn unser Geschäftsmodell der Zukunft? Wie sicher, wie valide sind denn die Daten, wenn andere Firmen das hauptsächlich mit Daten aus dem Web machen?
O-Ton Felix Naumann: Die Papiere, die an die Öffentlichkeit gelangt waren, waren schlicht Projektideen, oder das Ergebnis eines Brainstormings, aber einen ganz konkreten Projektplan mit einzelnen Schritten und Datenquellen, den gab es noch gar nicht, einfach weil diese rechtliche und ethische Analyse noch gar nicht stattgefunden hatte. Was mich halt ärgert, dass wir jetzt hiermit diese Forschungsfragen den privaten Unternehmen und dem Ausland überlassen, weil in Deutschland offenbar keine sachliche Diskussion möglich ist."
Kloiber: Was ist da schief gelaufen, Peter Welchering?
Peter Welchering: Sicherlich war eine etwas einseitige Darstellung des Projekts Schufalab at HPI auch einer der Gründe, warum das Projekt jetzt gestoppt wurde. Und diese einseitige Darstellung in den Medien wurde dann noch verstärkt durch die Politik. Es gab ja eigentlich gestern, am Freitag, kaum einen Politiker, der nicht eindeutig davor gewarnt hat, dass man ein solches Projekt so doch nicht einfach machen könne. Und dabei war eben das, was das Projekt eigentlich machen sollte, in vielen Bereichen noch ziemlich unklar. Das ist auch sehr vorschnell geurteilt worden. Und das hat natürlich wieder auf die Medien zurückgewirkt, so dass es dann insgesamt so ein bisschen wie am Anfang einer Skandalisierung eines solchen wissenschaftlichen Projektes stand.
Kloiber: Wie sah denn dieser erste Entwurf für das Forschungsdesign überhaupt aus?
Welchering: Im ersten Entwurf waren zwei Fragen sehr maßgebend. Zum einen sollte geklärt werden: Wie valide sind denn eigentlich Daten aus sozialen Netzwerken, wenn man sie für Bonitätsauskünfte verwenden will? Das wird ja heute schon gemacht. Aber bisher hat noch niemand die Frage gestellt, wie stark denn solche Daten eigentlich in ein Scoring miteinbezogen werden dürfen und beispielsweise, welche Gewichtung sie haben müssen. Weil häufig auch ungeklärt ist, aus welchen Quellen sie stammen. Und die Frage, um die es ging – da wurde gefragt: Wie sind denn eigentlich bisher so die Auswertungstechnologien für solche Daten entwickelt worden. Und: Wie kann man diese Auswertungstechnologien denn dann auch weiterentwickeln? Und da spielt natürlich auch das Stichwort "Big Data" eine wesentliche Rolle. Denn was vor zehn Jahren nur mit sehr teurer Hardware, mit sehr hoch bezahlten Spezialisten an Auswertung in Data Warehouses mit Analysen möglich war, kann heute eben mit verteilten Methoden und solchen Werkzeugen wie etwa Hadoop eigentlich jede Kreissparkasse, jede kleinere Firma an Analysen und somit auch an Bonitätsauskünften leisten. Und die bräuchten dann, so war eine der Befürchtungen, in ein paar Jahren Schufa, Kreditreform und Co. nicht mehr. Deshalb muss man einfach mal nachschauen: Wo kann denn da das besondere Geschäftsmodell liegen, sozusagen der einzigartige Verkaufsvorteil – wenn es diese Daten aus dem Web allein nicht mehr sein können? Oder: Wie müssen die weiter aggregiert werden?
Kloiber: Wie gewinnen denn heute diese Auskunfteien ihre Daten, um die Bonität von Unternehmen oder Menschen einzuschätzen?
Welchering: Da gibt es im Wesentlichen drei Bereiche: Es werden Daten von Mitgliedern und Kunden geliefert. Es gibt beispielsweise einige Kunden, die schicken einfach ihre gesamten Buchhaltungsdaten an die Wirtschaftsauskunftei, von der sie auch ihre Auskünfte über Geschäftspartner bekommen. Und mit diesen Buchhaltungsdaten kann dann ermittelt werden, wer wie pünktlich seine Rechnungen zahlt oder wer früher pünktlich gezahlt hat und sich jetzt etwas mehr Zeit lässt. Solche Dinge eben. Zum zweiten gibt es dann vor allen Dingen im Bereich Schufa die berühmte Selbstauskunft, also ein Fragebogen, der schriftlich ausgefüllt werden muss. Der wird dann ergänzt durch Bankauskünfte und bei Unternehmen eben auch durch eine Auswertung der letzten Bilanzen, die veröffentlicht werden müssen im Bundesanzeiger. Und zum dritten darf man eben nicht vergessen: Auch heute schon werden zahlreiche Daten aus dem Web genutzt, um dann auch Bonitätsauskünfte, Bonitätsprofile, wie die so schön heißen, zumindest abzusichern, zumindest ein wenig zu verbreitern. Also Daten aus dem Web fließen hier schon mit ein.
Kloiber: Und welche Daten aus dem Web werden da konkret verarbeitet?
Welchering: Es gibt beispielsweise eine New Yorker Bank – die verarbeitet jeden Tag zwölf Terabyte Twitterdaten, Kurzmitteilungen, also die Tweets, die da aufkommen. Und diese Tweets werden ausgewertet nach Kunden der Bank. Und diese Bankkunden werden dann daraufhin analysiert: Was schreiben die gerade über sich und ihre Situation? Drohen die Beispielsweise ihren Job zu verlieren? Dann wird die Bonität herabgestuft. Oder haben sie gerade eine Beförderung vor sich, dann wird die Bonität heraufgesetzt. Haben sie Schwierigkeiten beim Hauskauf, Schwierigkeiten in der Ehe, stehen sie vor einer Scheidung? Haben sie beispielsweise gesundheitliche Probleme? Auch das wird da ausgewertet. Und all dass fließt natürlich dann auch in eine Bonitätsauskunft ein. Zahlreiche Daten aus ganz unterschiedlichen Internetquellen gehen da heute schon ein und werden sehr unterschiedlich und undurchschaubar gewichtet.
Kloiber: Aber das hört sich auch nach riesigen Datenmengen an, die da analysiert werden müssen. Wahrscheinlich eine teure Angelegenheit.
Welchering: Das war bisher eine sehr teure Angelegenheit. Man ging beispielsweise vor ungefähr 10 bis 15 Jahren davon aus, dass man tatsächlich ungefähr 1,5 Prozent des Umsatzes der Banken für Analysekosten berechnen konnte. Und ein Data Warehouse im Jahr 1998 beispielsweise – da kostete alleine der Aufbau der Datenbasis, also die Infrastruktur, die Datenbank, dann die Erstbeschaffung der Daten, ungefähr 12 bis 16 Millionen Dollar , also ziemlich viel Geld. Und die jährlichen Kosten, um dieses Daten dann eben aktuell zu halten, um sagen zu können, aha, bei einem Kunden entwickelt sich das jetzt in die oder in jene Richtung, die lagen bei ungefähr drei bis vier Millionen. Und heute – da zitiere ich mal den IT-Experten Kristian Köhntopp, der sich auf Twitter sehr, sehr intensiv auch mit den gesamten Vorgängen um die Schufa und das Hasso-Plattner-Institut auseinandergesetzt hat – sind Investitionen von 100.000 Euro beispielsweise für so einen Hadoop-Cluster notwendig. Das ist eine Infrastruktur, um riesige Datenmengen analysieren zu können. Und diese Datenmengen, beispielsweise im Petabyte-Maßstab, dann auch wirklich etwa in Richtung Profilbildung oder ähnliches auswerten zu können. Und mit diesen Voraussetzungen kann das tatsächlich jede Kreissparkasse, kann das jedes mittlere Unternehmen. Und da ergibt sich natürlich für die Wirtschaftsauskunfteien dann die spannende Forschungsfrage: Wo liegt denn unser Geschäftsmodell der Zukunft? Wie sicher, wie valide sind denn die Daten, wenn andere Firmen das hauptsächlich mit Daten aus dem Web machen?