Wir haben Project A auf der Konferenz Data2Day vorstellen können! Den Bericht dazu kann man hier lesen.
Exceltabellen, Fotos, Chatverläufe, IP-Logs, … Oft gedankenlos liegengelassen, oft unbemerkt führt eine Spur von Daten-Brotkrumen bis zu uns als Person. Das kann und wird ausgenutzt, sowohl zum Vor-, als auch zum Nachteil eines Jeden. Da hilft es auch nicht, dass oft beim Berichten über die neusten Algorithmen und künstlichen Intelligenzen über das Ziel hinausgeschossen wird. Aber auch rein objektiv: Mit Daten, insbesondere persönlichen, sollte man achtsam umgehen. Damit das einheitlich festgehalten ist (und um Missbrauch vorzubeugen), führte die EU 2018 die Datenschutz-Grundverordnung ein.
Eine der Hauptaussagen ist, dass Prozesse, die das „Erheben, das Erfassen, …, die Speicherung, die Anpassung oder Veränderung, …, das Löschen oder die Vernichtung“ (Art. 4 Abs. 2 DSGVO)) von Daten bewirken, „alle[r] Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen“ (Art. 4 Abs. 1 DSGVO) entfernt werden müssen.
Zwei Seiten einer Medaille
Ein löblicher Sieg aus Sicht des Datenschutzes, denn diese Verordnung gilt nicht nur für Privatpersonen, sondern auch für Unternehmen. Doch das ist Segen und Fluch zugleich. Denn auch hier gilt das Mantra: Es gibt nicht nur schwarz und weiß. Dass Suchmaschinenunternehmen ungefragt Fitness-, Orts- und Kontaktdaten verbinden und so ein unheimlich akkurates Bild eines Nutzers erstellen oder dass ein Unternehmen mittwochs mehr Vertragsbearbeiter in die Hotline setzt, weil mittwochs einfach öfter wegen Vertragsangelegenheiten angerufen wird, sind beides Fälle, die unter die DSGVO fallen, unterschiedlicher aber nicht sein können.
Reguläre und irreguläre Daten
Hier steht man vor einem neuen Problem. Klar, Personenbezogenheit aus einer Exceltabelle entfernen ist keine Herausforderung. Man weiß, dass in Spalte A Namen stehen – man lasse automatisiert jeden Namen durch ein Pseudonym ersetzen. Exceltabellen, Datenbanktabellen, das sind reguläre Daten. Man weiß genau wo, welche Informationen stehen und kann diese gezielt maskieren.
Aber was ist mit Supportchats? Oder E-Mails? Wir Menschen haben kein Problem, wir können einfach mit dem Finger auf personenbezogene Informationen zeigen. Mit der DSGVO dürfen solche irregulären Daten aber nicht per Hand anonymisiert werden. Bleibt also nur, sie zu löschen.
Nun wird mir dabei aber als Data Scientist das Herz schwer, denn solche irregulären Daten enthalten neben personenbezogenen Informationen natürlich auch weitere wertvolle, personenunbezogene Informationen (wie z.B., dass mittwochs viele Vertragsanfragen über den Supportchat reinkommen). Diese würden verloren gehen.
Ein Lichtblick
Wenn es möglich wäre, die „Personenbezogenheit“ aus diesen Daten zu filtern, könnte man jedoch mit der unpersönlichen Hülle weiterarbeiten.
Deshalb möchte ich an dieser Stelle Project A vorstellen. Eine Lösung für die Anonymisierung irregulärer Daten, die wir hier bei German Management Consulting entwickelt haben.
Fließtexte wie:
"Harald Papp hat diesen Beitrag auf der GC-Homepage verfasst. Harald Papp's Beitrag kann auf der German-Management Homepage gelesen werden."
werden von unserem Machine Learning-Modell aufgenommen und pseudonymisiert:
"{ Name 0 } hat diesen Beitrag auf der { Organisation 0 } -Homepage verfasst. { Name 0 } 's Beitrag kann auf der { Organisation 1 } Homepage gelesen werden."
bzw. anonymisiert:
"{ Name } hat diesen Beitrag auf der { Organisation } -Homepage verfasst. { Name } 's Beitrag kann auf der { Organisation } Homepage gelesen werden."
Obwohl der Satzbau in den beiden Sätzen unterschiedlich ist, werden personenbezogene Daten erkannt und „geschwärzt“. Im Falle meines Namens erkannte unser System, dass es derselbe in beiden Sätzen ist. Im Falle von „GC“ und „German-Management“ wurden die beiden Eigennamen korrekt als Unternehmen erkannt (zwar als zwei unterschiedliche, aber ohne Vorwissen, kann man auch nicht von „GC“ auf „German-Management“ schließen).
Das Ganze funktioniert komfortabel über eine API. Man verschickt eine standardisierte Nachricht mit zu anonymisierendem Text, sowie einigen Zusatzparametern, die die Anonymisierungsleistung zusätzlich noch verbessern können, wie bspw. ob vorwiegend Namen oder Unternehmen im Text vorkommen. Durch die standardisierten Schnittstellen kann man den Vorgang auch leicht automatisieren.
Mit dem Ergebnis kann dann getrost weitergearbeitet werden, denn es fällt nicht mehr unter die DSGVO.
Fazit
Mit unserem Project A versuchen wir DSGVO und Data Science zu verbinden. Irreguläre Textformen, wie E-Mails oder Chatverläufe werden um ihre personenbezogenen Daten gefiltert. Diese können entweder durch Pseudonyme ersetzt oder vollständig anonymisiert werden. Das Ergebnis sollte unter der DSGVO nicht zu beanstanden sein und kann für weitere Analysen im Rahmen der Data Science genutzt werden.