Analytics: Ist die DSGVO das Ende der Data Science?

Interessante Frage heute: Ist die DSGVO das Ende der Data Science? Meine Erfahrung zeigt, dass die unterschiedliche Auslegung der DSGVO und fehlende Urteile das größte Hindernis sind. Dies gepaart mit fehlendem Verständnis über neue Geschäftsmodelle der Digitalisierung in den Rechtsabteilungen stellt eine enorme Gefahr für die Zukunftsfähigkeit der Unternehmen dar.

Eine besondere Herausforderung für viele Unternehmen stellt das „Recht auf Vergessen“ gemäß Artikel 17 der DSGVO dar. Demnach hat die betroffene Person das Recht, dass ihre personenbezogenen Daten nach hinreichender Begründung auf Anforderung gelöscht werden.
In einer idealen Welt sind die Datensätze, welche mit einer Person verbunden sind, in einem Datenschema klar strukturiert nachvollziehbar. In diesem Fall kann man folglich die Daten relativ leicht auswählen. Auswirkungen auf die interne oder externe Berichterstattung durch Inkonsistenzen oder Unvollständigkeiten müssen auch bei der Löschung von Datenattributen vermieden werden. In diesem Kontext stellt sich daher die Frage, wie man Daten korrekterweise entfernen sollte. Um die referenzielle Integrität nicht zu verletzen, wird in der Praxis nur der Personenbezug entfernt und durch eine entsprechende Dummy-Variable ersetzt.
Anspruchsvoller hingegen gestaltet sich die Suche in unstrukturierten Daten, insbesondere wenn diese über verschiedene Datenquellen und Organisationseinheiten hinweg verteilt sind. Beispielsweise werden Kundendaten im Vertrieb erhoben, dann in der Auftragsfertigung und letztlich im Service verarbeitet oder neu erzeugt. Hier liegen dann womöglich Verträge, CRM-Daten, E-Mails, Briefe, etc. in unterschiedlichen Systemen.
Eine Zuordnung der Datensätze zu einem bestimmten Kunden ist teilweise nicht über eine exakte Suche möglich, da eine eindeutige Referenz nicht immer vorliegt – beispielweise, wenn zu einem Kunden mehrere Emailadressen bzw. nicht alle (historischen) Adressen eindeutig im CRM-System hinterlegt sind. Der  Komplexitätsgrad erhöht sich zusätzlich um ein Vielfaches, wenn noch verschiedene Schreibweisen, eine unterschiedliche Anzahl an Vornamen, der Wechsel der Nachnamen über die Lebenszeit oder – bei Firmenkunden – Umfirmierungen auftreten.
Jede „Suche“ nach personenbezogenen Daten birgt daher das Risiko, dass die Treffermenge nicht vollständig ist und somit nicht alle Daten vollständig identifiziert wurden. Idealerweise integriert man daher die Zuordnung von Inhalten zu Personen über einen eindeutigen Identifier in bestehende Prozesse und Systeme bzw. führt bestenfalls eine Anreicherung der bestehenden Daten durch. Es gibt hier unterschiedliche Lösungsstrategien, beispielsweise die Verknüpfung von personenbezogenen und personenbeziehbaren Daten, Triangulierung von Daten aus verschiedenen Quellen bis hin zur Auflösung von Handschriften oder Unterschriften zur exakten Zuordnung zu Personen.
Insbesondere bei unscharfen Suchen gilt grundsätzlich hier eine Balance zwischen Genauigkeit und Wirtschaftlichkeit zu bewahren. Moderne Data Science-Methoden können vor allem in der Aufarbeitung der Daten einen hohen Mehrwert liefern. Zwar entsteht hier ein einmaliges Investment, welches sich aber später durch effizientere Prozesse und bessere Qualität der Prozesse letztlich doch auszahlt.
Durch ausgefeilte Anonymisierungsverfahren stichhaltige Analysen beibehalten
Darüber hinaus beeinflusst die DSGVO die Anwendung von Data Science dahingehend, als dass sie für die Erstellung von Kundenprofilen Grenzen setzt. Gleichzeitig haben Unternehmen auf der einen Seite hohe Anforderungen, ihre Kunden besser verstehen zu wollen und immer individueller zugeschnittene Produkte und Dienstleistungen anbieten zu können. Ein Beispiel wäre ein Onlineshop, der Produkte vorschlägt oder bei der Produktsuche besonders passende Produkte – etwa weil sie zum Geschmack oder Budget des Kunden passen – mit einem höheren Ranking darstellt.
Auf der anderen Seite sind personenbezogene Daten grundsätzlich zu pseudonymisieren bzw. zu anonymisieren. Einzelne Angaben dürfen nicht mehr oder nur mit „mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können“. Da der Schutzbedarf der Daten von vielen Faktoren abhängt – etwa von der Sensibilität der Daten und der Menge der unterschiedlichen Betroffenen – muss man die Anonymisierungsverfahren mit sehr viel Sorgfalt auswählen.
Wichtig ist, dass man die Anonymisierung nicht erst in der Data Science Workbench umsetzt, sondern eine klare Funktionstrennung etabliert, so dass die Datenlieferanten bzw. Eigentümer im Unternehmen nur Daten ohne erkennbaren Personenbezug zu Analysezwecken herausgeben. Hierzu kann man beispielsweise Datenverdichtungen anwenden, so dass mindestens immer zwei Datensätze in eine Gruppe verdichtet werden, um keinen direkten Personenbezog mehr herzustellen.

Keine News mehr verpassen!

Quelle: digitaleweltmagazin.de