Bildsprache mit KI-Modellen verstehen

Nov 29 2022
Exploring DREAM and DREAM-FLUTE von Yuling Gu Der Versuch, die komplexe Welt um uns herum zu verstehen – und diese Welt und unsere Erfahrungen damit anderen zu erklären – ist eine besonders menschliche Eigenschaft. Vielleicht gibt es deshalb in jeder bekannten Sprache eine sogenannte Bildsprache.

Erforschung von TRAUM und TRAUMFLÖTE

von Yuling Gu

Foto eines Wolfs, der in die Ferne blickt, von Milo Weiler

Der Versuch, die komplexe Welt um uns herum zu verstehen – und diese Welt und unsere Erfahrungen damit anderen zu erklären – ist eine besonders menschliche Eigenschaft. Vielleicht gibt es deshalb in jeder bekannten Sprache eine sogenannte Bildsprache .

Bildsprache umfasst Dinge wie Metaphern, Redewendungen, Übertreibungen und Personifikationen. Es ist ein Wort oder Satz, der nicht wörtlich interpretiert werden soll, sondern dazu dient, ein verwirrendes Thema zu verstehen. Über Kulturen und Sprachen hinweg können bildliche Ausdrücke jedoch in der Übersetzung verloren gehen oder schwer zu verstehen sein.

Im Bereich der Sprachverarbeitung haben Forscher begonnen, mit figurativer Sprache und Modellen der künstlichen Intelligenz zu experimentieren. Bei AI2 kam ein Team von Forschern der Teams Aristo, Mosaic und AllenNLP zusammen, um ein System namens DREAM-FLUTE zu entwickeln , das versucht, „mentale Modelle“ von Eingabetext zu erstellen und diesen als Kontext zu verwenden, um das bildliche Sprachverständnis in KIs zu unterstützen . Diese Arbeit baut auf einem früheren Artikel von drei der gleichen Forscher, DREAM , auf .

Die Vorgehensweise

Wenn Menschen eine Textbeschreibung einer Situation präsentiert wird, schlägt die Kognitionswissenschaft vor, dass sie sich ein mentales Bild dieser Situation machen. Wenn man zum Beispiel den Satz „Nachdem er seine Wut losgelassen hatte, war er wie ein wilder Wolf“, kann jemandes mentales Bild eine Person beinhalten, die wie ein Wolf heult und sich bedrohlich verhält.

Abbildung 1: Wenn eine Textbeschreibung einer Situation präsentiert wird, besteht unser Ansatz darin, sich zunächst ein mentales Bild dieser Situation zu machen.

Menschen schließen natürlich zusätzliche kontextbezogene Details ein, die über das hinausgehen, was ausdrücklich im Text angegeben ist, um ihnen bei Aufgaben wie der Beantwortung von Fragen und dem Verständnis von Bildsprache zu helfen. Dennoch bleibt das Verständnis von Bildsprache ein besonders herausforderndes Problem für die KI ( Stowe et al., 2022 ).

Im Laufe eines dreitägigen Hackathons bei AI2 unternahm unser Team einen Versuch, die Herausforderung in der gemeinsamen Aufgabe Figlang2022 zum Verständnis der bildlichen Sprache anzugehen. Wir präsentierten DREAM-FLUTE, ein Gewinnersystem, das den (gemeinsamen) ersten Platz für die gemeinsame Aufgabe erreichte. Das System nutzt die Szenenausarbeitung zum Aufbau eines „mentalen Modells“ der in bildlicher Sprache beschriebenen Situationen, um sinnvolle Bedeutungen davon zu identifizieren. Es baut auf dem Szenenausarbeitungsmodell DREAM auf, das zusätzliche, relevante Details zu jeder gegebenen Situation im Eingabetext generiert, entlang wichtiger konzeptioneller Dimensionen, die durch Kognitionswissenschaft, Geschichtenverständnis und Planungsliteratur informiert sind.

Die Ergebnisse

Bei einem eingegebenen Satzpaar besteht die Aufgabe aus zwei Teilen: (1). zunächst klassifizieren, ob die beiden Sätze einander bedingen oder widersprechen; dann (2). Generieren Sie eine Texterklärung darüber, warum sie beinhalten/widersprechen. Unser Team demonstrierte die Effektivität des Einzelmodellsystems in Bezug auf das Erreichen von Bestnoten bei der Aufgabe sowie die Flexibilität bei der Implementierung eines Ensemblesystems, das nicht nur weitere Verbesserungen für diese Aufgabe bringt, sondern auch eine Anpassung an die Anforderungen verschiedener ermöglicht nachgelagerte Anwendungen.

Abbildung 2: Dies ist eine Übersicht über DREAM-FLUTE. Es verwendet zuerst DREAM, um eine Ausarbeitung der Situation in der Prämisse und Hypothese (getrennt) zu erzeugen, und verwendet dann diesen zusätzlichen Kontext für die Klassifizierung der Folgerungen und die Generierung von Erklärungen.

Durch die Einbeziehung der wahrscheinlichen Konsequenz-Szenenausarbeitung von DREAM wurde DREAM-FLUTE (Konsequenz) basierend auf der offiziellen Ranglistenmetrik, die Erklärungen von hoher Qualität erfordert, an erster Stelle eingestuft. Darüber hinaus präsentierten wir DREAM-FLUTE (Ensemble), ein Ensemble-System, das den Kontext weiter nutzt und weitere Verbesserungen erzielt.

Schon vorher hat sich gezeigt, dass die Verwendung der Szenenausarbeitung von DREAM als zusätzlichen Kontext die Leistung der Fragebeantwortung (QA) bei verschiedenen Modellen ( Macaw , UnifiedQA ) und über verschiedene nachgelagerte Aufgaben wie ETHIK ( Hendrycks et al., 2021 ), CODAH ( Chen et al., 2019 ) und Social IQA ( Sap et al., 2019 ). DREAM-FLUTE baut auf diesem Erfolg auf und demonstriert eine effektive Anwendung im Bereich des figurativen Sprachverständnisses.

Der Aufprall

Die Kognitionswissenschaft fördert seit langem die Bildung von mentalen Modellen – kohärente, konstruierte Darstellungen der Situationen, denen wir begegnen – als zentral für das Verständnis und die Beantwortung von Fragen ( Johnson-Laird, 1983 ). Locker auf dieser Idee aufbauend, aber ohne Behauptungen darüber aufzustellen, wie Sprachmodelle (LM) intern argumentieren, wollten wir untersuchen, ob ein Sprachmodell verschiedene Sprachverständnisaufgaben besser ausführen kann, wenn sie mit zusätzlichen, relevanten Details zu Situationen in der Eingabe versehen werden Text.

Menschen füllen solche impliziten Informationen schnell mit gesundem Menschenverstand aus, aber die besten KI-Systeme von heute haben immer noch Probleme. Zum Beispiel als Antwort auf die Aufforderung: „Nachdem er seine Wut abgelassen hatte, war er wie ein wilder Wolf. Was passiert wahrscheinlich?“ GPT-3 von OpenAI antwortete: „Die Person wird wahrscheinlich ruhig und entspannt.“ Es ist schwer vorstellbar, wie die Metapher „wilder Wolf“ kohärent zu der Schlussfolgerung „ruhig und entspannt werden“ führen würde.

Die DREAM-Arbeitsreihe versucht, diese Lücke zwischen dem menschlichen Verständnis impliziter Informationen und dem, was aktuelle KI-Systeme leisten können, zu schließen. Durch die Serie konnten wir zeigen, dass unser Ansatz leicht an andere Sprachmodelle anpassbar und aufgabenagnostisch in Bezug auf Format (z. B. QA oder NLI) und Domäne (z. B. ethische Entscheidungen oder bildliches Sprachverständnis) ist. Diese Ergebnisse deuten auf aufregende Möglichkeiten zur weiteren Verbesserung und Nutzung von Szenenausarbeitungen hin, um neue Probleme besser zu lösen.

Die nächsten Schritte

Wir hoffen, dass die DREAM-Serie den Fortschritt in Richtung KI-Systeme mit konsistenteren und kohärenteren „mentalen Modellen“ vorantreiben wird, um diese Systeme einen Schritt näher an die Denkfähigkeiten auf menschlicher Ebene zu bringen.

DREAM ist ein wichtiger erster Schritt, aber es muss noch mehr getan werden. Selbst Szenenausarbeitungen von DREAM sind nicht perfekt – der Aufbau „mentaler Modelle“, die genau, konsistent und nützlich sind, wäre eine vielversprechende Richtung für die zukünftige Arbeit.

Während eine Person feststellen kann, dass ein „wilder Wolf“ wahrscheinlich nicht „ruhig und entspannt“ ist, demonstrieren selbst die besten KI-Modelle diese Fähigkeit nicht konsequent. Wir ermutigen andere Forscher, auf unserer Arbeit aufzubauen, die Struktur und Qualität solcher „mentalen Modelle“ zu verbessern und die Verwendung dieser Modelle zu untersuchen, um KI-Systemen zu helfen, bessere Leistungen zu erbringen.

Weitere Informationen finden Sie in unserem Artikel „Just-DREAM-about-it: Figurative Language Understanding with DREAM-FLUTE“

Folgen Sie @ai2_allennlp und @allen_ai auf Twitter und abonnieren Sie den AI2-Newsletter , um über Neuigkeiten und Forschungsergebnisse aus AI2 auf dem Laufenden zu bleiben.