Quantity-Centric Search and Retrieval

  • Termin in der Vergangenheit
  • Freitag, 18. Oktober 2024, 10:00 Uhr
  • Mathematikon, Raum 2.414
    • Shideh Satya Almasian
  • Adresse

    Mathematikon
    Raum 2.414

  • Veranstalter

  • Veranstaltungstyp

Quantitäten sind unerlässlich, wenn es um die Darlegung von Fakten in Anwendungsbereichen wie z.B. der Finanzbranche, Volkswirtschaft, Medizin und allgemeinen Wissenschaft geht. Diese Dissertation beinhaltet 1.423 Quantitäten. Während dies gerade einmal 1% der gesamten Anzahl an Wörtern ausmacht, beschreiben diese Wertangaben die genauesten und wichtigsten Informationen, die für die Analyse und den Vergleich von Systemen notwendig sind. Trotz dieser Relevanz von Quantitäten gibt es nur wenige Studien, die sich mit der textuellen Repräsentation und deren Auswirkungen auf das Information Retrieval (IR) beschäftigen. In einer Vielzahl von Anwendungen spielen Quantitäten eine zentrale Rolle, um den Informationsbedarf von Nutzern zu decken, und sie können ohne semantisches Verständnis nicht richtig behandelt werden. Bei der Suchanfrage „ein Gebrauchtwagen mit weniger als 200 PS“ sucht ein Nutzer beispielsweise nach einem Auto in einem gewissen Bereich der Suchparameter. Um auf diese Suche eine richtige Antwort zu geben, muss ein Suchsystem nicht nur den Zusammenhang zwischen einem Auto und der zugehörigen Quantität verstehen, sondern auch die entsprechenden Werte und Einheiten verarbeiten. Darüber hinaus sollten nur Ergebnisse präsentiert werden, bei denen der Wert für dieses spezifische Attribut kleiner als „200“ ist, was ein Verständnis von Nachbarschaft von Zahlen erfordert. Derzeitige Modelle zur Repräsentation von Quantitäten betrachten diese isoliert und vernachlässigen dabei den Zusammenhang zu benachbarten Token im Text. Weiterhin wenden moderne Suchmaschinen die gleichen Methoden auf Wörter und Quantitäten an und ignorieren dabei Informationen zu Werten und Einheit von Quantitäten. Somit führen quantitäts-zentrische Suchanfragen oft zu irrelevanten Ergebnissen und Nutzer verlieren wertvolle Zeit beim Anschauen durch irrelevante Inhalte.


Diese Arbeit beschäftigt sich mit diesen Problemen und zielt darauf ab, das Quantitäts-Verständnis von derzeitigen Suchsystemen zu verbessern. Wir beginnen mit einem gesamtheitlichen Modell zur Repräsentation von Quantitäten, welches effektiv Kombinationen von Werten bzw. Einheiten, Veränderungen im Verhalten einer Quantität im gegebenen Kontext (beispielsweise fallend oder steigend) und Konzepten (verwandte Entitäten oder Ereignisse) erkennen kann. Auf Basis dieses Modells wird eine Methode zur Extraktion namens Comprehensive Quantity Extraction (CQE) entwickelt. Darüber hinaus stellen wir einen neuartigen Benchmark-Datensatz vor, der speziell für die Bewertung dieser Aufgabe entwickelt wurde. Mithilfe dieser Extraktionsmethode stellen wir zwei quantitäts-fokussierte Suchmethoden vor, welche sowohl klassische als auch neuronale Modelle umfassen. Diese Modelle sind so konzipiert, dass sie sowohl die Nachbarschaft von Quantitäten als auch den Text in ein Ranking mit einbeziehen. Eine Variante ist der sogenannte Disjoint-Ranker, welcher die Relevanz von Quantitäts- und Texttoken mittels einer Quantitäts-Indexstruktur separat bewertet. Die zweite Variante, der Joint-Ranker, realisiert eine gemeinsame Abbildung von Quantitäten und Textinhalten mittels Fine-Tuning von neuronalen Netzen auf Daten, welche viele Quantitäten beinhalten. Diese Techniken beziehen Mengeninformationen während des Rankings sowohl in neuronale als auch in lexikalische Modelle ein, mit minimalem Overhead in Bezug auf die Effizienz und ohne Änderung der zugrundeliegenden Architektur. Diese Modelle können Suchanfragen auswerten, die numerische Bedingungen wie gleich, größer als und kleiner als sowie bestimmte Wörter enthalten. Um die Effektivität unserer Ranking-Modelle zu bewerten, stellen wir zwei neue Benchmark-Datensätze aus dem Finanz- und Medizinbereich vor. Wir vergleichen unsere Methoden in den Benchmarks mit verschiedenen klassischen und neuronalen Retrieval-Systemen und zeigen eine signifikante Verbesserung bei der Beantwortung quantitätfokussierter Abfragen.