Manfred Kloiber: Nicht 50 Jahre, sondern nur einziges und zwei Monate obendrauf – so lange – oder so kurz erst ist die europäische Datenschutzgrundverordnung nun in Kraft. Und obwohl sie schon einige Monate vorher verabschiedet wurde, machten sich viele Unternehmen erst mit dem Stichtag im Mai letzten Jahres dran, ihre Prozesse zu überprüfen. Eines schien dabei zur echten Herausforderung zu werden: Wie können es Unternehmen schaffen, ihre Daten tiefgehend zu analysieren, ohne die vielfältigen, durch die DSGVO neuen Rechte der Datenspender zu hintertreiben. In diesem Bereich kommen nun viele Verfahren zum Einsatz, die dem Bereich der Künstlichen Intelligenz zugerechnet werden. Mein Kollege Jan Rähm hat sich mit diesen Verfahren und den Anbietern solcher Analysetools beschäftigt und hat auch Datenschützer dazu befragt. Jan, wie sieht denn die Stimmungslage ein Jahr nach Inkrafttreten der DSGVO aus?
Jan Rähm: Gemischt – grundsätzlich herrscht Freude darüber vor, den Datenschutz gestärkt und das Bewusstsein für Datenschutz geschärft zu haben. Gefreut wurde sich auch, dass die befürchtete Abmahnwelle ausgeblieben ist. Die Zahl der Verstöße, die Verfahren nach sich zogen, blieb auch eher gering. So nennt die "Tagesschau" in Berufung auf EU-Behörden eine Zahl von lediglich 450 Ermittlungen wegen Verstößen gegen die DSGVO.
Kritik an starker Belastung für kleine Betriebe
Kloiber: Also alle rundum zufrieden?
Rähm: Nein, es gibt aber auch Kritik, vor allem wegen des Aufwands für Unternehmen, der Verordnung zu genügen. Da geht es beispielsweise um die Dokumentationspflichten. Konkret bemängelt beispielsweise die IHK München, und nicht nur die, dass nicht zwischen kleinen und großen Betrieben unterschieden würde und die Maßnahmen kleine Betriebe verhältnismäßig stärker belasteten. Es gibt auch scharfe Kritik, wie die des Aktivisten Wolfie Christl. Er sagte gegenüber netzpolitik.org, es sei trotz DSGVO nur ungenügend gelungen, "das Wild-West des kommerziellen Massendatenmissbrauchs in den Griff zu bekommen". Die Datenschutzbeauftragte des Landes Schleswig-Holstein Marit Hansen sagte im Gespräch, gerade die großen Internetkonzerne würden sich noch nicht vollständig an das halten, was die DSGVO vorschreibe.
Kloiber: Dann schauen wir doch auf die Konzerne und Unternehmen, denn bei allem Datenschutz, für sie sind Daten strategische Informationen, die sie gerne heben wollen. Wie also können sie weiterhin personenbeziehbare Daten verarbeiten und auswerten, ohne mit der Datenschutzgrundverordnung in Konflikt zu geraten?
Beitrag
Mit der europäischen Datenschutzgrundverordnung habe sich in anderen europäischen Ländern viel mehr geändert als in Deutschland. So beschreibt die schleswig-holsteinische Landesdatenschutzbeauftragte Marit Hansen die Zeit nach Inkrafttreten der Verordnung im Mai letzten Jahres. Schon das bis dahin gültige deutsche Datenschutzrecht sei sehr streng gewesen. Aber die DSGVO habe das Bewusstsein der Bürger für den Datenschutz noch einmal geschärft - und auch zu mehr Anfragen an Unternehmen geführt. Insofern, meint Marit Hansen:
"Deswegen hat sich doch überall etwas geändert. Alle haben ihre Prozesse aufgeräumt und sich schon verbessert. Auch die Mitarbeiter sind sensibler geworden. Deswegen große Veränderungen."
Beim Aufräumen, wie es Hansen nennt, hätten die Unternehmen Sicherheitsrisiken entdeckt, die beispielsweise durch externe Dienstleister bestanden hätten. Das allerdings sei kein einmaliger Effekt, warnt Hansen.
"Das muss aber immer wieder mal passieren. Und da bin ich jetzt gespannt, ob das wirklich so ist. Wir nennen das Datenschutzmanagement. Man muss am Ball bleiben."
Vor allem beim Umgang mit Daten, die sich direkt auf Personen beziehen lassen, ist Vorsicht angesagt. Zum einen, weil diese Daten nur noch mit ganz konkreter Beschreibung der Art der Nutzung überhaupt erhoben werden dürfen. Und zum anderen, weil bei der eigentlichen Verarbeitung einiges schief gehen kann. Deshalb setzen zum Beispiel viele Unternehmen auf die Anonymisierung der Daten - in der Hoffnung, anschließend zwar Erkenntnisse aus den Daten ziehen zu können, aber die Identität der hinter den Daten stehenden Personen zu schützen. Die Anonymisierung ist jedoch ein komplexer Vorgang, der auch scheitern kann. Das zeigt ein Beispiel aus der jüngeren Vergangenheit. Eine große Videostreaming-Plattform hatte einen riesigen Datenpool anonymisierter Kundendaten veröffentlicht, damit jeder Analysen auf diesen Daten erstellen könne. Ein Nutzer allerdings korrelierte sie mit einem gänzlich anderen, aber ebenfalls auf Filme bezogenen Datenpool. So war er in der Lage, ein sehr große Zahl der Einträge zu de-anonymisieren. Und es gibt noch andere Probleme mit anonymisierten Daten, erklärt Sebastian Weyer, Geschäftsführer der Statice GmbH.
Detailgrad von Daten ist wichtig
"Das ist zwar gut, wenn man die Person schützt, aber man verliert sehr viel Detailgrad an den Daten. Und um das zu überwinden und Daten auf der einen Seite anonym, aber trotzdem noch granular genug zu anonymisieren, setzen wir auf ein Verfahren, das nennt sich synthetische Daten. Das heißt, dass wir im Prinzip in der Lage sind, Daten zu anonymisieren, aber trotzdem Detailgrad und die statistische Relevanz der Daten beizubehalten."
Bei der Anonymisierung an sich werden die Daten um jene Bestandteile bereinigt, die eine Identifizierung der Person ermöglichen. Weyer schlägt einen anderen Weg vor - basierend auf dem Verfahren des maschinellen Lernens. Dabei lernt der Algorithmus anhand des originalen Datensatzes statistische Verteilungen, Korrelationen und weitere statistische Informationen und nutzt dieses Wissen, um einen komplett neuen künstlichen Datenpool zu generieren.
"Das ist sehr vergleichbar mit den sogenannten Deep Fakes, die sie vielleicht in den letzten Monaten in den Nachrichten gesehen haben, wo neue Gesichter generiert werden, die basieren auf echten Gesichtern, dementsprechend sehr echt aussehen, aber überhaupt komplett künstlich erfunden sind. Das machen wir sehr ähnlich, nur eben mit strukturierten Daten und nicht mit Gesichtern."
Wichtiger Aspekt: Die Software bereinigt den Datenpool um Extremwerte, weil auch diese eine Reindentifizierung ermöglichen. Wenn beispielsweise ein Datensatz eines 120-Jährigen enthalten ist, der komplett um alle anderen identifizierenden Daten bereinigt wurde, bleibt die Person allein aufgrund des herausragenden Alters ermittelbar. Mit dem synthetischen Datenpool soll so etwas nicht mehr möglich sein. Bisher habe sich der Ansatz bewährt, so Sebastian Weyer. Anonymisierung mithilfe der KI hält Marit Hansen durchaus für einen guten Ansatz, gibt jedoch zu bedenken:
"Wenn man etwas bewirbt mit, es würde jetzt anonymisieren und es ist ja gar keine Anonymisierung, dann wäre das natürlich schon eine große Gefahr, weil sich viele darauf verlassen, dass es klappt. Außerdem: Man braucht auch für eine Anonymisierung erst mal eine Rechtsgrundlage. Das wird oft vergessen. Man denkt, ich nehme einfach Daten irgendwo her und dann nehme ich dieses tolle Tool und dann bin ich jetzt im sicheren Bereich. So einfach ist es dann eben nicht, sondern man ist auch erst einmal in der Datenschutzgrundverordnung drin. Aber ansonsten denke ich eher, dass die Technik und auch die KI dort einen großen Dienst leisten kann. Man muss eben nur aufpassen mit der Qualitätskontrolle. Stimmt es oder stimmt es nicht."
Synthetischer Datensatz wird weitergeleitet
Kloiber: Anonymisierung muss also gut gemacht werden, warnt Marit Hansen. Jan, was ich mich gefragt habe, in den Beispielen, die wir gerade gehört haben. Wo findet denn da die Datenverarbeitung überhaupt statt? In der Cloud, wie ja mittlerweile oft üblich, oder auf speziellen Rechner bei den Auftraggebern?
Rähm: Das Unternehmen betont, die Datenverarbeitung finde ausschließlich auf den Rechnern der Kunden statt und erst der synthetische Datensatz werde dann zur Analyse und Weiterverarbeitung weitergereicht. So wolle man sicherstellen, dass keine Daten unabsichtlich übertragen werden oder gar abhanden kommen. Das vorgestellte Beispiel ist nur eines von einigen, in denen KI beziehungsweise maschinelles Lernen zur Anonymisierung eingesetzt werden.
Kloiber: Ich möchte noch einmal auf die DSGVO an sich zurückkommen. Grundsätzlich scheint die Reform ja ein Erfolg. Hat die Verordnung auch Auswirkungen über die Grenzen Europas hinaus?
Rähm: Das kann man so sagen oder sogar soweit gehen, zu sagen, die DSGVO ist ein Exportschlager. Beispiel Kalifornien: Der US-amerikanische Bundesstaat hat den California Consumer Privacy Act verabschiedet, der sich an der DSGVO orientiert und 2020 in Kraft treten soll. Auch Japan hat ein Datenschutzgesetz nach europäischem Vorbild bekommen. Anderes Beispiel: Der Cloud Anbieter AWS - nach Aussage des Chief Architects des Unternehmens waren ehemals die deutsche und sind jetzt die europäischen Datenschutzregeln vorbildhaft für deren Cloud-Geschäft weltweit. Das waren nur drei Beispiele die zeigen: Die Datenschutzgrundverordnung hat weltweite Strahlkraft.
Kloiber: Wie Unternehmen personenbezogene Daten auswerten können, ohne mit der Datenschutzgrundverordnung in Konflikt zu geraten, darüber sprach ich mit Jan Rähm. Danke!