On Structured Prediction of Discrete Data: Geometry and Statistical Learning

  • Dienstag, 17. September 2024, 11:00 Uhr
  • Raum 4/414
    • Bastian Benjamin Boll
  • Adresse

    Raum 4/414

  • Veranstalter

  • Veranstaltungstyp

Strukturierte Vorhersage bezeichnet das Problem, Realisierungen mehrerer gekoppelter Zufallsvariablen vorherzusagen. Dieses statistische Problem ist von zentraler Bedeutung für eine Vielzahl komplexer Anwendungen des tiefen Lernens, einschließlich der Bildsegmentierung und Klassifizierung von Graphknoten. Wir beleuchten die strukturierte Vorhersage diskreter Daten sowohl aus geometrischer Perspektive als auch in Bezug auf statistisches Lernen. Auf der geometrischen Seite interpretieren wir zunächst Verteilungen unabhängiger diskreter Zufallsvariablen als Punkte einer Produktmannigfaltigkeit von Simplexen. Wir stellen fest, dass diese Mannigfaltigkeit isometrisch in das Meta-Simplex multivariater Wahrscheinlichkeitsverteilungen eingebettet ist. Diese Erkenntnis beleuchtet die Beziehung zwischen Inferenzdynamiken auf der Produktmannigfaltigkeit, sogenannter Zuweisungsflüsse, und Replikator Dynamiken im Meta-Simplex. Erstere können als Replikator Dynamiken mehrerer Populationen betrachtet werden, wobei die konstruierte Einbettung diese formal auf Spieldynamiken einer einzelnen, hochdimensionalen Population reduziert. Basierend auf diesen geometrischen Einsichten entwickeln wir zwei generative Modelle für diskrete Daten, die Maßtransport durch Randomisierung von Zuweisungsflüssen realisieren. Das erste Modell approximiert ein gegebenes Energiemodell, während das zweite direkt aus Daten gelernt wird. Experimente mit Bildsegmentierungsdaten veranschaulichen die Anwendbarkeit der vorgeschlagenen Methoden. In Bezug auf statistisches Lernen explorieren wir aktuelle PAC-Bayessche Methoden und stellen einen Ansatz für Klassifikationsprobleme vor, der günstige Berechnung erlaubt. Darüber hinaus entwickeln wir eine PAC-Bayessche Schranke an die Kosten strukturierter Prädiktoren, welche Generalisierung sogar aus einem einzelnen strukturierten Datum beschreiben kann. Hierbei wird die Abwesenheit von statistisch unabhängigen Daten durch explizite Extraktion von  deren Kopplungsstruktur berücksichtigt. Der Konstruktion liegt die Annahme einer Datenverteilung zugrunde, die durch Knothe-Rosenblatt Umordnung eines Referenzmaßes gegeben ist, was moderne Ergebnisse zum Phänomen der Konzentration des Maßes zugänglich macht.