Anwendbarkeit von Anonymisierungstechniken im Bereich Big Data

Datenschutz und Datensicherheit erfordern einen sorgfältigen Umgang mit personenbezogenen Daten. Ein populärer Ansatz basiert auf der Anonymisierung dieser Daten.

In seiner Masterthesis untersucht der inovex-Mitarbeiter Andreas Bender, inwieweit bekannte Anonymisierungsverfahren auf große Datenmengen in Big-Data-Systemen angewendet werden können.

Anonymisierung ist eine Methode, um personenbezogene Daten so zu verändern, dass keine Rückschlüsse mehr auf einzelne Personen gezogen werden können. Dennoch können, mit Hilfe von Datenanalysen, wertvolle Informationen aus den anonymisierten Daten gewonnen werden.

Die Arbeit bietet eine umfangreiche Übersicht zu Anonymisierungsmethoden bzw. -algorithmen, bei der Vor- und Nachteile verschiedener Ansätze aufgezeigt werden. Das Hauptaugenmerk liegt hierbei auf der Bewertung von Algorithmen hinsichtlich ihrer Effizienz und Skalierbarkeit.

Auf Grundlage der gesammelten Erkenntnisse wurde ein neuer paralleler Anonymisierungsalgorithmus entwickelt und mit aktuellen Big Data-Technologien (Apache Hadoop, Apache Spark) implementiert. Damit können große personenbezogene Datenmengen in einem Big-Data-System effizient anonymisiert werden.

Inhalt:

Grundlagen

  • Struktur von Mikrodaten
  • Anonymisierung und verwandte Themengebiete: z. B. Pseudonymisierung, Verschlüsselung
  • Beispiele unzureichender Anonymisierung

    Analyse

    • Kategorisierung von Bedrohungen: Identity Disclosure, Attribute Disclosure u. a.
    • Kriterien für Anonymität: k-Anonymity, l-Diversity, d-Presence u. a.
    • Anonymisierungsoperationen: Generalisierung, Permutation, Slicing u. a.
    • Untersuchung von Algorithmen: Mondrian/Rothko, Anatomize, Hilb u. a.

      Open-Source-Implementierungen

      • Frei verfügbare Implementierungen von Algorithmen: UTD Anonymization Toolbox u. a.
      • Tools zur Anonymisierung von Mikrodaten: ARX Anonymization Tool, Cornell Anonymization Toolkit u. a.

        Konzeption und Implementierung eines verteilten Algorithmus

        • Entwurf eines neuen parallelen Algorithmus zur Anonymisierung von Mikrodaten
        • Implementierung auf Basis von Apache Hadoop und Apache Spark

        Evaluierung

        • Datensätze: Zensusdaten, generierte Testdaten
        • Testcluster auf Amazon Elastic MapReduce (Amazon EMR)
        • Evaluierung der Effizienz und Skalierbarkeit
        • Vergleich mit anderen Verfahren

        Sie haben Fragen oder möchten zu diesem Thema beraten werden?

        Dann rufen Sie uns an unter +49 (0)721 619 021-0 oder schreiben Sie uns eine E-Mail. Wir freuen uns auf Ihre Nachricht!

        Patrick Thoma

        Ich freue mich auf Ihre Nachricht!

        Patrick Thoma

        Head of Data Management & Analytics

        inovex Leistungen

        Data Science bei inovex

        Mehr erfahren