Verarbeitung natürlicher Sprache in kontextbezogener Werbung

Apr 20 2023
Modelle für kontextbezogene Werbung analysieren den Inhalt von Webseiten und bestimmen, wo die am besten geeigneten und relevantesten Anzeigen auf Websites platziert werden. Die Hauptannahme hinter kontextbezogener Werbung ist, dass Benutzer Inhalte zu Themen konsumieren, an denen sie interessiert sind.
Grafik, die ein Beispiel einer Anzeige auf einem Mobiltelefon zeigt, das von StackAdapt betrieben wird.

Modelle für kontextbezogene Werbung analysieren den Inhalt von Webseiten und bestimmen, wo die am besten geeigneten und relevantesten Anzeigen auf Websites platziert werden. Die Hauptannahme hinter kontextbezogener Werbung ist, dass Benutzer Inhalte zu Themen konsumieren, die sie interessieren. Wenn ein Benutzer beispielsweise über die neuesten Modetrends bei Schuhen mit hohen Absätzen liest, ist er wahrscheinlich daran interessiert, ein neues Paar Schuhe zu kaufen . Studien haben gezeigt, dass Menschen viel häufiger mit Anzeigen interagieren, die in relevanten Kontexten erscheinen. Darüber hinaus ist es angesichts der zunehmenden Datenschutzbedenken in Bezug auf Browser-Cookies für DSPs unerlässlich geworden, in kontextbezogene Werbung zu investieren.

Die zentrale Technologie hinter kontextbezogener Werbung ist Natural Language Processing (NLP). Diese Technologie hilft dabei, den auf einer Webseite gefundenen Inhalt besser zu modellieren und mit einem Gebotsalgorithmus zu arbeiten, um sicherzustellen, dass ein DSP die Auktion gewinnt, um relevante Anzeigen in einem qualitativ hochwertigen Kontext zu platzieren.

Bei StackAdapt erkunden wir regelmäßig die neuesten Verarbeitungstechniken für natürliche Sprache, und mit den neuesten technologischen Ansätzen, einschließlich Transformatoren, großen vortrainierten Modellen und Lernern mit wenigen Aufnahmen, sind dem Himmel keine Grenzen gesetzt.

Im Folgenden untersuche ich drei NLP-Veröffentlichungen, die möglicherweise beim Aufbau von Kontext-Targeting-Modellen nützlich sein können:

Faszinierende Eigenschaften der Komprimierung bei mehrsprachigen Modellen

Mehrsprachige Modelle sind leistungsstarke Tools, die mehrere Sprachen analysieren und betreiben können, wodurch die Notwendigkeit entfällt, separate Modelle für jede Sprache zu trainieren. Dieser Ansatz bietet mehrere attraktive Vorteile, darunter eine höhere Leistung bei ressourcenarmen Sprachen, reduzierte Wartung und Kosteneinsparungen. Dies kann insbesondere bei kontextbezogener Werbung hilfreich sein, da es den Prozess der Expansion in neue Sprachen und Länder erheblich beschleunigt.

Dieser Artikel untersucht die Auswirkungen von Komprimierung und Sparsifizierung auf mehrsprachige Modelle. Wir wissen, dass die Bereitstellung in ressourcenbeschränkten Umgebungen mit zunehmender Größe und erweiterten Parametern mehrsprachiger Modelle immer schwieriger wird. Insbesondere konzentrieren sich die Autoren auf das Beschneiden von Sparsifizierungsmethoden, bei denen alle Gewichtungen, die unter einem vordefinierten Schwellenwert liegen, aus dem Modell eliminiert werden.

Die Studie experimentierte mit verschiedenen Kompressionsparametern und brachte einige interessante Erkenntnisse zutage. Erstens leiden ressourcenarme Sprachen typischerweise unter einer geringeren Leistung mit extremer Sparsifizierung; Komprimierungen im mittleren Bereich können jedoch ihre Leistung verbessern. Zweitens ist es möglich, dass Sparsification die Robustheit verbessern kann, indem Overfitting reduziert wird.

Trainieren von rechenoptimalen großen Sprachmodellen

In den letzten Jahren haben Forscher vielversprechende Verbesserungen bei einer Vielzahl von NLP-Aufgaben beobachtet, indem sie die Größe von Sprachmodellen erhöht haben. Infolgedessen wurden in den letzten Jahren größere Sprachmodelle trainiert, z. B. GPT-3 mit 175 Milliarden Parametern, Gopher mit 280 Milliarden Parametern und MT-NLG mit 530 Milliarden Parametern. Eine natürliche Weiterentwicklung der laufenden Forschung ist die Entdeckung von Methoden zur Verbesserung der Optimierung von Rechenressourcen. Diese Optimierungen können zu einem kostensparenden und effektiveren Ressourceneinsatz in der kontextbezogenen Werbung führen.

In diesem Papier zielten die Autoren darauf ab, ein rechenoptimiertes Sprachmodell bei einer bestimmten Ressourcenbeschränkung zu finden. Insbesondere zielten sie darauf ab, eine optimale Anzahl von Parametern (N) und die Anzahl von Token (D) zu finden, die den Modellverlust bei einer vorgegebenen Rechenbeschränkung minimieren. Sie experimentierten mit 400 verschiedenen Modellen, um die optimalen Werte für N und D empirisch abzuschätzen. Interessanterweise stellten sie fest, dass optimale Modelle im Vergleich zu aktuellen vortrainierten Modellen tendenziell eine höhere Anzahl von Token und eine geringere Anzahl von Parametern aufweisen.

Zum Beispiel sollte das optimale Modell für das gleiche Budget, das zum Trainieren von Gopher verwendet wird, viermal mehr Token und 1/4 der Anzahl der Parameter haben. Durch Extrahieren dieser optimalen Zahlen führten die Autoren Chinchilla mit 1,4 Billionen und 70 Milliarden Parametern ein. Dieser Ansatz führte nicht nur zu verbesserten Ergebnissen, sondern auch zu reduzierten Inferenzkosten aufgrund der geringeren Anzahl von Modellparametern.

Gelernte inkrementelle Darstellungen für das Parsing

Syntaktisches Parsing kann das Sprachverständnis verbessern, indem grammatikalische Abhängigkeiten in einem Satz extrahiert werden. Insbesondere konzentriert sich dieses Papier auf das inkrementelle syntaktische Parsing, ein Prozess, bei dem das Modell einen Satz schrittweise Wort für Wort verarbeitet, um grammatikalische Abhängigkeiten zu extrahieren und jedem Wort Bedeutung und Struktur zuzuordnen. Diese Methode steht im Gegensatz zu anderen Ansätzen, bei denen das Modell auf den gesamten Satz wartet, um mit der Analyse zu beginnen. Die Autoren erinnern uns daran, dass dies sehr ähnlich ist, wie Menschen Sprache verstehen, indem sie Sätze schrittweise verarbeiten, anstatt darauf zu warten, dass der vollständige Satz gesprochen wird.

Die zentrale Herausforderung, die das Papier ansprechen soll, ist das falsche Festschreiben in der inkrementellen Verarbeitung, bei dem sich das Modell in Zeiten der Mehrdeutigkeit auf eine falsche Struktur festlegt, die erst offensichtlich wird, wenn der vollständige Satz aufgedeckt wurde. Ein einfacher Ansatz zur Überwindung dieses Problems ist die Strahlsuche, bei der das Modell mehrere plausible Lösungen gleichzeitig berücksichtigt und die genaueste Struktur auswählt, sobald der Satz vollständig ist.

Die Autoren boten eine Lösung für falsches Commitment an, indem sie ein End-to-End-Modell trainierten. Die erste Hälfte des Modells kombiniert den GPT-2-Encoder, gefolgt von einem Diskretisierungsschritt, bei dem kontinuierliche Vektoren zu einem kleinen Satz von Symbolen zusammengefasst werden. Die zweite Hälfte des Modells ist ein bidirektionales Auslesenetzwerk, das die diskretisierten Symbole liest und die endgültige syntaktische Struktur für den gesamten Satz erstellt.

Abschluss

Wir haben mehrere neuere Veröffentlichungen untersucht, die möglicherweise für kontextbezogene Werbung nützlich sein könnten. Mehrsprachige Modelle können bei der Analyse von Webseiten in verschiedenen Ländern und Sprachen helfen, rechenoptimierte Modelle können uns helfen, unsere Rechenressourcen besser zu verwalten, und die Verwendung von syntaktischer Analyse kann zu einem genaueren Sprachverständnis führen.

Möchten Sie mehr über die Arbeit bei StackAdapt erfahren? Erkunden Sie unseren Engineering-Karriereweg !