Umsetzbare große Sprachmodelle

Dec 08 2022
Die Einführung von ChatGPT (neben anderen Modellen wie Stability und Cohere) hat KI wirklich ins Rampenlicht gerückt, und man kann jetzt mit Sicherheit sagen, dass KI konsumiert wird. Unzählige Beiträge haben Hypothesen darüber aufgestellt, was mit diesen Modellen in naher Zukunft möglich sein wird, und es scheint, als ob die Obergrenze ständig zunimmt.

Die Einführung von ChatGPT (neben anderen Modellen wie Stability und Cohere ) hat KI wirklich ins Rampenlicht gerückt, und man kann jetzt mit Sicherheit sagen, dass KI konsumiert wird. Unzählige Beiträge haben Hypothesen darüber aufgestellt, was mit diesen Modellen in naher Zukunft möglich sein wird, und es scheint, als ob die Obergrenze ständig zunimmt.

KI kann Inhalte generieren, aber was wäre, wenn KI Aktionen generieren könnte? Bei Balderton sehen wir eine Zukunft, in der KI nicht nur Anweisungen für ein Problem generiert, sondern es auch löst (und wir glauben nicht, dass es noch weit entfernt ist!).

Die Technologie, die allen großen LLMs wie ChatGPT, T5 und RoBERTa zugrunde liegt, ist als Transformator bekannt. Es ist eine Iteration des rekurrenten neuronalen Netzwerks (RNN), das Durchbrüche bei sequentiellen Analyseproblemen wie der Verarbeitung natürlicher Sprache und der Zeitreihenanalyse (dh alles, was als Sequenz modelliert werden könnte) hervorgebracht hat. LLMs haben gezeigt, wie Transformer NLP auf ein höheres Niveau gebracht haben, und es gibt jetzt Beweise dafür, dass Transformer bei anderen Zeitreihenproblemen wie dem Trading genauso effektiv sind . Wir haben auch Beispiele von Transformatoren gesehen, die über sequentielle Analyseprobleme wie Computer Vision hinaus verwendet werdendurch die Verwendung cleverer Techniken, um das Bild in eine Sequenz umzuwandeln – das Papier trägt den treffenden Namen „An Image is Worth 16x16 Words“ und führt zu einer SOTA-Leistung mit wesentlich geringeren Rechenressourcen.

Architecture of Vision Transformers – Konvertieren von Bildern in Sequenzen

Dieser Beitrag untersucht einen Anwendungsfall von Transformatoren und LLMs, auf den wir besonders gespannt sind.

Umsetzbare LLMs

Es ist klar, dass Transformer und andere Durchbrüche in der KI großartig sind, um Inhalte zu generieren (wie Text , Code , Bilder und Videos ), aber was wäre, wenn KI Entscheidungen treffen und Maßnahmen ergreifen könnte, basierend auf einigen einfachen Eingabeaufforderungen in Klartext?

KI hat zuvor Schlagzeilen gemacht, indem sie sehr gut darin war, Entscheidungen zu treffen (hauptsächlich mit freundlicher Genehmigung von DeepMind ) und Weltmeister bei komplexen Spielen wie Go zu werden. Die Technologie, die diesen Durchbrüchen zugrunde liegt, ist als Reinforcement Learning (RL) bekannt. Dabei handelt es sich um einen Rahmen, um Entscheidungsträger aufzubauen und optimales Verhalten zu lernen, indem sie durch Versuch und Irrtum mit der Umgebung interagieren und Belohnungen als einzigartiges Feedback erhalten. RL führte zu enormen Fortschritten in einer Vielzahl realer, entscheidungsbasierter Anwendungsfälle wie Industrieautomatisierung, Gesundheitswesen, Marketing und autonome Autos.

Framework für verstärkendes Lernen

Decision Transformers wurden letztes Jahr von Facebook AI Research und Google Brain eingeführt, indem Transformer auf ein RL-Framework angewendet wurden. Genauso wie „An Image is Worth 16x16 Words“ ein Bild in eine Sequenz abstrahierte, abstrahierte Decision Transformers RL in ein Sequenzmodellierungsproblem. Ein großartiger Hugging Face-Blogbeitrag untersucht dies, wenn Sie weiter graben möchten, hier .

ChatGPT hat uns gezeigt, dass die nächste Ära der Computer durch natürliche Sprachschnittstellen definiert wird, die es uns ermöglichen, Computern direkt mitzuteilen, was wir wollen. Das wahre Schöne ist, dass sie Absicht interpretieren können . Adept bringt dies auf die nächste Ebene, indem es den Action Transformer (ACT-1) entwickelt, ein Modell, das innerhalb des Aktionsbereichs der UI-Elemente auf einer Webseite agiert, dh Sie können dem Modell sagen, dass es alles innerhalb eines Browsers tun soll oder Unternehmensanwendung. Wenn Sie nicht schon begeistert sind, wenn Sie dies lesen, lohnt es sich, sich hier ein paar Demos anzusehen , um wirklich zu verstehen, was dies bedeuten könnte.

Screenshot von ACT-1 bei der Arbeit

Adept setzt auf den OpenAI-Ansatz und baut ein breites Basismodell mit einem wahnsinnig großen „Aktionsraum“ auf – das definiert die Grenzen, innerhalb derer Aktionen gemacht werden sollen. Obwohl das Konzept von Decision Transformers cool ist, sind sie nicht trivial zu bauen und es ist immer noch unklar, wie sie verwendet werden. Es gibt jetzt jedoch eine unmittelbare Gelegenheit, LLMs zu nutzen, um Logik aufzubauen und innerhalb vertikalisierter Aktionsräume zu handeln, während man sich gleichzeitig auf eine großartige UX konzentriert .

Es gibt bereits Anzeichen dafür – zum Beispiel entwickelt Glyphic ein Produkt, um Aktionen im Aktionsbereich des B2B-Vertriebs durchzuführen, ShiftLab entwickelt ein Produkt, um Aktionen im Aktionsbereich des E-Commerce durchzuführen, und Harvey entwickelt für den Aktionsbereich eines Anwalts.

Es ist erwähnenswert, dass es viele Aktionsräume gibt, die nicht allgemein als Aktionsräume wahrgenommen werden, z . B. übernahm Jasper.ai den Aktionsraum einer leeren Anzeige und Copilot übernahm den Aktionsraum von VSCode. Jedes No-Code-Tool ist im Wesentlichen ein Aktionsraum , daher ist es nur eine Frage der Zeit, bis diese Tools alle damit beginnen, KI-Funktionen zu entwickeln, mit denen Benutzer über natürliche Sprache mit ihren Plattformen interagieren können – Glide , Fillout und Qatalog untersuchen dies bereits.

Es wird zwangsläufig KI-Anwendungsfälle im ultimativen Aktionsraum, der physischen Welt, geben, und wir sehen bereits Fortschritte in der Robotik durch unbeaufsichtigtes Lernen.

Schlussfolgerungen

Wir glauben, dass die nützlichsten Modelle „Modelle sein werden, die handeln“ und nicht nur generieren, und wir bewegen uns in Richtung einer Welt von domänenspezifischen Versionen von Copilot, um ein neues Produktivitätsniveau zu erreichen.

In den letzten 12 Monaten haben wir viele KI-native Unternehmen wie Levity und Photoroom unterstützt. Wenn Sie in dem Raum bauen, würden wir gerne mit Ihnen sprechen – wenden Sie sich bitte an [email protected]