Privatsphäre und Machine Learning

Beitrag teilen:

Privatsphäre und Machine Learning – Eine neue Technik, die sensible Daten schützen kann

Damit ein Machine Learning Modell vernünftig funktionieren kann, muss es mit Daten trainiert werden.
Wenn man dieses Modell nun aber mit der Welt teilen möchte – beispielsweise ein Modell zur Krebserkennung, welches mit Patienten-Scans trainiert wurde – könnten diese Trainingsdaten potenziell extrahiert werden. Die privaten Daten der Patienten wären somit gefährdet.

Um diesem Problem entgegen zu wirken, kann den Bildern Rauschen beigefügt werden – also eine gewisse, geringfügige Störung des Bildes.
Dies würde es einem Angreifer erschweren, die Originaldaten zu erfassen. Allerdings kann diese Störung auch die Akkuratesse des Modells reduzieren.
Somit gilt: Umso weniger Rauschen hinzugefügt werden muss, desto besser.

Forschende des MITs haben nun eine Technik entwickelt, mit welcher sie die geringst nötige Menge an Rauschen, welches nötig ist um die Daten zu schützen, herausfinden können.
Dazu haben die Forschenden eine neue Privatsphären-Metrik geschaffen; Probably Approximately Correct (PAC) Privacy.
Das Framework, in dem diese Metrik angewandt wird, kann automatisch die minimal nötige Menge an Rauschen, welche hinzugefügt werden muss, herausfinden. Außerdem ist dieses Framework flexibel für verschiedene Machine Learning Modelle einsetzbar, da es keine Informationen über den Trainingsprozess benötigt.
Laut den Forschenden kann durch das Framework viel weniger Rauschen nötig sein, als andere Methoden.

Privatsphäre definieren
Eine grundlegende Frage ist, wie viele sensible Daten ein Angreifer aus einem Machine Learning Modell extrahieren, wenn den Daten Rauschen beigefügt wurde?

Eine Definition von Privatsphäre, Differential Privacy, beschreibt, dass sie erreicht wird, wenn ein Angreifer nicht erkennen kann, ob eine Datei für das Training verwendet wurde. Doch um dies zu bewerkstelligen, wird häufig eine große Menge Rauschen benötigt, welche die Akkuratesse des Machine Learning Modells beeinträchtigt.

Das PAC Privacy Modell der Forschenden geht dieses Problem etwas anders an. Anstatt zu Verschleiern, ob eine Datei verwendet wurde, fokussiert sich das Modell darauf, die schwere von Rekonstruktion der Daten zu bewerten.
Bei einem Datenset von menschlichen Gesichtern würde beispielsweise Differential Privacy herausfinden, ob ein bestimmtes Gesicht in den Daten vorhanden ist.
Das PAC Privacy Modell würde hingegen herausfinden, ob ein Angreifer eine Silhouette des Gesichts, mit welchem man ein bestimmtes Gesicht erkennen könnte, extrahieren kann.

Nach Erstellung dieser Definition von PAC Privacy entwickelten die Forschenden einen Algorithmus, welcher dem Nutzer automatisch sagen kann, wie viel Rauschen einem Modell beigefügt werden muss, damit ein Angreifer wahrscheinlich keine genaue Approximation der sensiblen Daten herstellen kann.

Um die optimale Menge an Rauschen herauszufinden bedient sich PAC Privacy an der Entropie der originalen Daten, vom Blickfeld des Angreifers.
Das Modell kreiert zufällige Subsets von großen Datenpools, und lässt den Machine Learning Trainingsalgorithmus des Nutzers mehrmals über diese Sets laufen. So erhält das Modell viele gelernte Modelle. Anschließend vergleicht es diese Ausgabemodelle und berechnet die Varianz. Diese Varianz beschreibt dann, wie viel Rauschen den Daten beigefügt werden müssen – umso weniger, desto besser.

Vorteile des Algorithmus
Anders als andere Ansätze zum Schutz der Privatsphäre bei Machine Learning Modellen, benötigt PAC Privacy keine Angaben zu den inneren Funktionen des Modells oder dem Trainingsprozess.

Der Nutzer von PAC Privacy kann zu Beginn das gewünschte Level an Konfidenz des Ausgabesets angeben. Wenn der Nutzer beispielsweise garantieren möchte, dass ein Angreifer weniger als 1% Zuversichtlich sein kann, dass er die sensiblen Daten mit nur einer Abweichung von 5% wiederhergestellt hat, kann dies eingestellt werden.
Das Modell gibt automatisch die optimale Menge an Rauschen an, welche der Nutzer zu seinem Modell beifügen sollte, bevor es der Öffentlichkeit zugänglich gemacht wird, damit dessen Ziele eingehalten werden.

Begrenzt ist das Modell allerdings darauf; es kann keine Aussage über die durch das Rauschen verlorene Akkuratesse des Machine Learning Algorithmus machen.
Zusätzlich basiert das PAC Privacy Modell auf dem wiederholten Durchlaufen des Trainingsmodells – somit kann es viel Rechenleistung in Anspruch nehmen.

Um das Modell zu verbessern, könnten die Machine Learning Trainingsprozesse des Nutzers optimiert werden. Diese könnten dahingehend verbessert werden, dass die Ausgabe sich nicht stark verändert, wenn die Eingabedaten aus einem Datenpool herausgepickt wurden.
Diese Stabilität würde die Varianz zwischen den Subset Ausgaben verringern, wodurch PAC Privacy die Anzahl an Durchläufen, und somit die benötigte Rechenleistung verringern kann.
Zusätzlich müsste somit auch weniger Rauschen beigefügt werden.

Quellen

Bild: Image by kjpargeter on Freepik