Project A ist eine leistungsfähige Lösung für die Anonymisierung von Texten und anderen Daten, die wir selbst entwickelt haben. Wie sind wir dazu gekommen?
Mit der Einführung der DSGVO letzten Jahres wurde es an vielen Stellen schwieriger, Daten mit personenbezogenem Inhalt, zum Beispiel im Rahmen von Big Data, zu analysieren und auszuwerten. Auch wenn dies sicher ein guter Schritt in Richtung eines gewissenhafterem Umgangs mit Daten ist, bedeutet das für uns als DataScientists natürlich auch Einschränkungen. Denn Daten sind – wie der Name schon impliziert – zentral in unserer Disziplin.
Eine Vision, die wir teilen wollen
Aus dieser Motivation heraus entstand eine Vision: Mithilfe von Anonymisierung wollten wir den Spagat zwischen Datenschutz und Big Data ermöglichen. Diese Methodik entfernt personenbezogene Daten aus Texten. So ist es möglich, die Daten DSGVO-konform zur weiteren Analyse zu verwenden.

Bisherige Anonymisierungs-Lösungen haben uns in ihrer Leistung und Anpassungsfähigkeit nicht überzeugt. So haben wir uns zum Ziel gesetzt, selbst eine Alternative zu erschaffen: Dies war der Beginn unseres Project A.
Mittlerweile ist Project A in der Lage, beeindruckende Ergebnisse in der Anonymisierung von Daten zu erreichen. Doch auf dem Weg dort hin sind wir natürlich auch auf Probleme gestoßen, die wir lösen mussten und schließlich konnten. Die Erkenntnisse, die wir auf eben diesem Weg gesammelt haben, wollen wir gerne mit Kollegen teilen. So kam es, dass wir dieses Jahr die Data2Day besucht und dort einen Vortrag über die Anonymisierung deutscher Textdaten mithilfe von Project A gehalten haben. Diese Inhalte wollen wir nun auch hier auf dem Blog teilen.
Data2Day: Drei Tage voller Inspirationen
Die Data2Day wird jährlich von Heise sowie vom dpunkt.Verlag über drei Tage hinweg veranstaltet. Der Fokus liegt hierbei auf der „technischen Umsetzung von Projekten aus den Bereichen Big Data, Data Science, Machine Learning, Künstliche Intelligenz, Internet der Dinge und Enterprise Search“.
Neben mehreren Workshops am ersten Tag wurden vor allem in zahlreichen Vorträgen unterschiedlichste Aspekte des Themenfeldes beleuchtet. So versuchte zum Beispiel Rolf Schulz, die Felder IT Security und Maschine Learning zusammen zu führen, in dem er in seinem Vortrag IT-Security, der Analyst und seine KI das Bewusstsein für Sicherheit bei Data Scientists schärfte. Exemplarisch für die Diversität des Themenfeldes waren auch die beiden Keynotes: Während Evelina Gabasova in Breaking black-box AI vor allem technische Aspekte betrachtete, lag der Fokus von Roberto Zicaris Vortrag On the need of an Ethical AI Due Diligence auf ethischen Fragestellungen im Zusammenhang mit AI. Dies bot inhaltlich auch eine gute Brücke zu unserem Vortrag, mit welchem wir den dritten Tag abschließen durften.

Ein Teil des Problems als Teil der Lösung
Aus der Sicht des Datenschutzes stellen Verfahren des Deep Learning häufig das Problem dar, da im Rahmen dieser Vorgehensweise meist große Mengen von Daten gesammelt werden. Wir drehen dies nun um: Wir wenden Techniken des Deep Learnings an, um Textdaten zu anonymisieren und somit personenbezogene Daten aus ihnen zu entfernen. Dabei trainieren wir ein Deep Learning-Modell auf verschiedene Arten von Texten, sodass es möglichst vielseitig einsetzbar ist. Insbesondere können auch Daten mit unregelmäßiger Struktur oder Rechtschreibfehlern, wie zum Beispiel Chatverläufe aus dem Support eines Unternehmens, anonymisiert werden. So können sie DSGVO-konform verarbeitet werden, ohne dass persönliche Informationen eines Einzelnen in die falschen Hände geraten können.
Einfaches Interface, Unzählige Möglichkeiten
Auch wenn das Deep Learning Modell das Kernstück des Anonymisierers bildet, ist es damit noch nicht getan. Damit es möglichst vielseitig und barrierefrei angewendet werden kann, haben wir eine API entworfen, die noch einige zusätzliche Features beinhaltet. Auf einige davon wollen wir im folgenden genauer eingehen.
Steuerung der Sensibilität
In manchen Anwendungsfällen kann es wichtig sein, mit fast 100-prozentiger Sicherheit alle Daten zu anonymisieren, welche anonymisiert werden müssen. Auch, wenn dabei gegebenenfalls unverfängliche Daten, die nicht hätten anonymisiert werden müssen, trotzdem mit anonymisiert werden. In anderen Anwendungsfällen kann es hingegen eher wichtig sein, nur gerade so viele Daten zu anonymisieren, wie es notwendig ist, und möglichst nicht mehr als das. Um dies zu erreichen, haben wir in der Project A – API die Möglichkeit eingebaut, diese „Sensibilität“ bei jeder Anfrage gezielt steuern zu können, um so allen möglichen Anwendungsfällen gerecht zu werden.
Sichere Verwahrung von sensiblen Daten
Neben einer Anonymisierung ist es auch möglich, eine Pseudonymisierung der Daten durchzuführen. Dabei wird ein weiteres Dokument mit sogenannten Tokens erstellt, in welchem die ursprünglichen Werte der anonymisierten Daten gespeichert werden. So kann der ursprüngliche, un-anonymisierte Zustand, wieder hergestellt werden. Die Daten werden bei diesem Konzept bewusst getrennt: Die anonymisierten Daten können problemlos, zum Beispiel in einem Big Data System, zur Analyse verwendet werden, während die sensiblen, anonymisierten Daten sicher verwahrt werden (im „Safe“).

Möchte man auf die sensiblen Daten zugreifen, oder diese löschen, bleiben die „Big Data Daten“ davon unbetroffen und können weiterhin für Analysen im Post Processing verwendet werden. Der Zugriff erfolgt hierbei durch ein Security Gateway, welches ausreichende Zugriffsrechte sowie einen angemessenen Verwendungszweck DSGVO-konform kontrolliert.
Flexibles Hosting
Verschiedene Anwendungsgebiete erfordern verschiedene Hosting-Lösungen: Daher haben wir Project A auf der Basis von Docker-Container aufgebaut, sodass die Anwendung schnell & flexibel auf verschiedenen System eingerichtet werden kann. Im Allgemeinen kann Project A sowohl On-Premise als auch als SaaS (Software as a Service) genutzt werden.
Fazit
Auf der Data2Day konnten wir einiges von Kollegen aus der Branche mitnehmen. Mit Project A konnten wir ihnen weiterhin eine leistungsfähige Anonymisierungslösung vorstellen und verschiedene Aspekte dazu diskutieren. Somit waren es für uns drei sehr erfolgreiche Tage.
Wenn Sie das Thema und unser Projekt genauso spannend finden wie wir und gern weitere Informationen benötigen, oder einfach nur Fachsimpeln wollen, so melden Sie sich einfach unverbindlich bei uns per E-Mail oder in den Kommentaren!