Analysis of Adversarial Examples
- Termin in der Vergangenheit
- Dienstag, 30. Juli 2024, 10:00 Uhr
- Mathematikon B, Raum B128 (3. Stock)
- Peter Lorenz
Adresse
Mathematikon B
Raum B128 (3. Stock)Veranstalter
Dekan
Veranstaltungstyp
Disputation
Der Aufstieg der künstlichen Intelligenz (KI) hat den Bereich der Computer Vision (CV) erheblich beeinflusst. Insbesondere das Deep Learning (DL) hat die Entwicklung von Algorithmen zum Verstehen visueller Daten vorangetrieben. Bei bestimmten Aufgaben zeigt DL (über)menschliche Fähigkeiten und wirkt sich auf unser tägliches Leben aus, z.B. bei virtuellen Assistenten, in der Unterhaltungsbranche oder bei der Websuche.
Trotz des Erfolgs der visuellen Algorithmen untersuchen wir in dieser Arbeit die Bedrohung: Feindliche Beispiele, die das Bild manipulieren, um eine bewusste Fehlklassifizierung zu ermöglichen. Das menschliche Sehsystem ist im Falle von feindlichen Beispielen nicht beeinträchtigt und kann das Bild richtig wahrnehmen, während für einen DL-Klassifikator eine Pixeländerung für eine Fehlklassifizierung ausreicht. Dies ist eine Unstimmigkeit zwischen dem menschlichen und dem maschinellen Sehen. Daher beginnen wir diese Arbeit mit der Vorstellung des Konzepts eines Klassifizierungsmodells, um zu verstehen, wie diese Modelle überlistet werden können.
Anschließend analysieren wir die feindlichen Beispiele in der Fourier-Domäne, da sie nach dieser Transformation für die Erkennung besser identifiziert werden können. Zu diesem Zweck bewerten wir verschiedene Angriffe auf verschiedene Klassifizierungsmodelle und Datensätze, welche von den Standardevaluierungen abweichen.
Als weiteren Ansatz haben wir ein Anti-Muster entwickelt, das eine rahmenähnliche Überlagerung (Prompt) auf dem Eingabebild verwendet, um der Manipulation der Eingabe entgegenzuwirken. Dieser Prompt soll feindliche Eingaben neutralisieren.
Als weitere Erkennungsmethode haben wir unter der Verwendung einer Charakteristik von mehrdimensionale Daten - der lokalen intrinsischen Dimensionalität (LID) - erweitert, um zwischen gutartigen und angegriffenen Bildern zu unterscheiden, was zur Verbesserung der Erkennungsraten für feindliche Beispiele führt.
Neue Fortschritte in Diffusionsmodellen (DMs) haben die Robustheit gegen Angriffsmodelle erheblich verbessert. Obwohl DMs bekannt sind für ihre generativen Fähigkeiten, ist unklar, ob angegriffene Bilder Teil der gelernten Verteilung sind. Um diese Lücke zu schließen, schlagen wir eine Methodik vor, um zu bestimmen, ob feindliche Beispiele innerhalb der gelernten Verteilung von DM liegen.