ChatGPT

Dec 09 2022
ChatGPT von OpenAI hat das Internet in Brand gesetzt! Ich habe noch nie so viele Posts über KI gesehen – meine Twitter- und LinkedIn-Feeds sind komplett überschwemmt. Tatsächlich habe ich gerade gelesen, dass 1 Million Menschen es in nur 5 Tagen benutzt haben.
Bild von Wolodymyr Hryschtschenko

ChatGPT von OpenAI hat das Internet in Brand gesetzt! Ich habe noch nie so viele Posts über KI gesehen – meine Twitter- und LinkedIn-Feeds sind komplett überschwemmt. Tatsächlich habe ich gerade gelesen, dass 1 Million Menschen es in nur 5 Tagen benutzt haben.

Um fair zu sein, ChatGPT ist wahrscheinlich der weltweit erste gute Allzweck-KI-Chatbot, mit dem jeder spielen kann. Die Reaktionen waren vorhersehbar – „wow“, „der Anfang vom Ende“, „Menschen sind dem Untergang geweiht“ sind nur einige unaufgeforderte Reaktionen, die ich von Freunden hatte.

Aber ich war schon einmal hier. Ich war der europäische CTO für IBM Watson in den frühen Tagen, als wir versuchten, Jeopardy! Technologie. Also, mit dieser Erfahrung, was denke ich?

Ich sollte anmerken, dass ich mich, wenn ich in diesem Beitrag über Watson spreche, auf die Technologie beziehe, die speziell für die Jeopardy! Show. IBM hat in der Folge eine Reihe unabhängiger Produkte der Marke Watson entwickelt und dabei seine Erfahrung und sein effektives Branding sinnvoll genutzt, anstatt die ursprüngliche Technologie selbst. Meine Verweise auf Watson beziehen sich speziell auf das Original Jeopardy! Technologie und nicht die Produkte der Marke Watson, die IBM heute anbietet.

Technisch gesehen sind ChatGPT und Watson sehr unterschiedlich. ChatGPT ist ein Large Language Model (LLM), das mit dem davinvi-003-Modell von OpenAI erstellt wurde, das Teil der GPT3.5-Modellreihe ist. GPT3.5-Modelle gehören zu den größten und ausgereiftesten LLMs, die derzeit erhältlich sind. Im Gegensatz dazu war der ursprüngliche Gameshow-Gewinner Watson eine Pipeline verschiedener Algorithmen, von denen keiner als LLM bezeichnet werden konnte. Watson gewann Jeopardy im Jahr 2011 – vor über einem Jahrzehnt und zu einer Zeit, als der Ausdruck „große Sprachmodelle“ noch nicht einmal geprägt worden war. Es ist daher keine Überraschung, dass sich Watson und ChatGPT technologisch unterscheiden – ein Jahrzehnt ist eine lange Zeit in der Technologie.

Abgesehen von den technologischen Unterschieden sehe ich als Ex-Watsoner drei wesentliche Dinge an ChatGPT.

Offene Verfügbarkeit

Erstens zeigt die Tatsache, dass OpenAI ChatGPT kostenlos veröffentlicht hat, damit jeder daran herumbasteln kann, Vertrauen in seine Fähigkeiten. Werfen Sie einfach einen Blick auf die wilden Gespräche, die die Leute auf dieser Mashup-Website darüber führen. Die Vielfalt ist außergewöhnlich – so etwas habe ich noch nie gesehen. Und es funktioniert ziemlich gut – die Leute sind begeistert, weil es oft ihre Erwartungen übertrifft, was ziemlich viel ist.

ChatGPT für jedermann frei verfügbar zu machen, war mutig und würde nur funktionieren, wenn es wirklich beeindruckend war. Vergleichen Sie den Empfang mit dem für Metas Galactica . Galactica wurde scharf kritisiert und die Demo überlebte nur drei Tage, bevor sie abgeschaltet wurde.

Die Neigung der Galactica, wissenschaftliche Informationen zu erfinden, gab Anlass zu ernsthafter Besorgnis, und unabhängig von ihren Vorzügen wurde sie fast überall negativ aufgenommen. Im Gegensatz dazu ist es offensichtlich, dass OpenAI mit ChatGPT große Fortschritte gemacht hat. Es ist nicht ganz fehlerfrei, aber ich habe das Gefühl, dass einiges an Gedanken hineingesteckt wurde.

Zurück zu Watson, The Jeopardy! Maschine wurde nie veröffentlicht, teilweise weil sie sehr speziell für die seltsamen Fragen entwickelt wurde, die auf der Jeopardy! Show. Wir wussten, dass die breite Öffentlichkeit sehr unterschiedliche Fragen stellen und Fehler schnell finden würde. Diese spielgewinnenden KIs werden sehr selten der Öffentlichkeit zugänglich gemacht. Sei es DeepMind mit Go, Meta mit dem Diplomatie-Gewinner Cicero, Watson, DeepBlue bei Chess – keines dieser Systeme wurde für öffentliches Herumbasteln oder Kritik freigegeben. Das unterscheidet ChatGPT von all diesen anderen vermeintlichen Durchbrüchen.

Skalierbarkeit

Dass genug Leute mit ChatGPT spielen, um meine Twitter- und LinkedIn-Timelines zu überschwemmen, sagt uns, dass es gut skalieren muss. Es wird mit vielen Anfragen überhäuft.

Es ist meistens so, dass KI-Durchbrüche nicht für viele Benutzer skaliert werden können. Sie erreichen ihre Durchbrüche zum Teil dadurch, dass sie riesige Mengen an Rechenleistung auf einen einzelnen Benutzer anwenden. Wenn Ihnen jemand ein ganzes Rechenzentrum mit Maschinen gibt, mit denen Sie ein System aufbauen können, ist das großartig. Aber wenn es ein ganzes Rechenzentrum braucht, um eine Frage zu beantworten oder einen Zug auf einem Spielbrett zu entscheiden, ist das nicht nur ein ernsthaftes Skalierbarkeitsproblem, sondern auch eine große Kommerzialisierungshürde. Eine Maschine zu bauen, um einen Menschen in einem Spiel zu schlagen, ist keineswegs dasselbe wie eine Maschine zu bauen, die eine Million Menschen schlagen kann.

Dass buchstäblich Millionen von Menschen auf der ganzen Welt mit ChatGPT spielen, beweist, dass es nicht eines ganzen Rechenzentrums bedarf, um eine einzige Frage zu beantworten. Damit ist die Technologie durchaus kommerzialisierbar – die große Hürde der Skalierbarkeit und Wirtschaftlichkeit muss bereits gelöst sein.

Flexibilität

Der ursprüngliche Watson wurde gebaut, um nur eine Sache zu tun – Jeopardy zu spielen! Dasselbe gilt für die Go-Gewinnmaschine von Deep Mind und die unzähligen anderen KI-Spielsysteme, die im Laufe der Jahre für Schlagzeilen gesorgt haben.

Diese Systeme erreichen Größe, indem sie ein sehr spezifisches Problem lösen, und können normalerweise nicht einfach oder überhaupt nicht auf andere Bereiche angewendet werden. Vertrauen Sie mir, diejenigen von uns, die damit beauftragt wurden, Watson Jeopardy! Technologie, um andere Dinge zu tun, hat Kampfspuren, die zeigen, wie schwierig das sein kann.

Im Vergleich dazu verwenden die Leute ChatGPT, um Fragen zum Allgemeinwissen zu beantworten, Gedichte zu schreiben, Bewerbungen zu erstellen, Witze zu erzählen, Programmiercode zu schreiben und zu erklären und eine Vielzahl anderer zufälliger Dinge . Und es macht all diese Dinge beeindruckend gut und ohne zusätzlichen Trainingsaufwand. Im Gegensatz zu früheren KI-Versuchen scheint ChatGPT in vielen Dingen sofort gut zu sein. Natürlich wird mir in dem Moment, in dem ich das sage, jemand etwas zeigen, worin es schlecht ist. Aber im Allgemeinen werde ich mich behaupten – es ist in vielen Dingen beeindruckend gut.

Drei Gründe, warum ChatGPT eine beeindruckende Anstrengung ist – Offenheit, Skalierbarkeit und Flexibilität. Aber ich möchte auch einige andere wichtige Aspekte dessen kommentieren, was ich mit ChatGPT sehe.

Sachen erfinden

Trotz seiner beeindruckenden Fähigkeiten neigt ChatGPT manchmal immer noch dazu, Dinge zu erfinden. Meistens scheint es das zu vermeiden, aber manchmal weicht es ab und erfindet seine eigene Realität. Sagen wir einfach, es ist unwahrscheinlich, dass es einen Lügendetektortest besteht.

Zu ihrer Ehre gibt OpenAI diese Herausforderung offen zu.

„ChatGPT schreibt manchmal plausibel klingende, aber falsche oder unsinnige Antworten … ChatGPT reagiert empfindlich auf Änderungen an der Eingabeformulierung oder wiederholte Versuche mit derselben Eingabeaufforderung. Zum Beispiel kann das Modell bei einer gegebenen Formulierung einer Frage behaupten, die Antwort nicht zu kennen, aber bei einer leichten Umformulierung richtig antworten.“https://openai.com/blog/chatgpt/

Als ich zum ersten Mal an GPT-3 herumbastelte (auf dem ChatGPT aufbaut), stellte ich fest, dass die Neigung des Modells, Dinge zu erfinden, ein großes Hindernis darstellte. Ich kenne nur sehr wenige reale Geschäftsszenarien, in denen „Erfinden“ nicht als großes Markenrisiko angesehen würde. ChatGPT scheint viel besser zu sein, vielleicht teilweise, weil es auf dem davinci-003-Modell basiert, einem Upgrade des ursprünglichen davinci-002. Aber es ist nicht fehlerfrei, und wenn vollständige sachliche Genauigkeit wichtig ist, wird dieses Problem eine Akzeptanzbarriere darstellen.

Voreingenommenheit

Eine große Herausforderung bei großen Sprachmodellen sind die inhärenten Verzerrungen, die im Trainingssatz vorhanden sind. Dies ist schwer zu vermeiden, da LLMs massenhaft aus Internetdaten trainiert werden, die praktisch immer Beispiele für alle bekannten menschlichen Laster und Vorurteile enthalten.

Auch hier erfüllt OpenAI unsere Erwartungen.

„Obwohl wir uns bemüht haben, das Modell dazu zu bringen, unangemessene Anfragen abzulehnen, reagiert es manchmal auf schädliche Anweisungen oder zeigt ein voreingenommenes Verhalten. Wir verwenden die Moderation API, um bestimmte Arten von unsicheren Inhalten zu warnen oder zu blockieren, aber wir gehen davon aus, dass sie vorerst einige falsch negative und positive Ergebnisse enthalten wird. Wir sind bestrebt, Benutzerfeedback zu sammeln, um unsere laufende Arbeit zur Verbesserung dieses Systems zu unterstützen.“https://openai.com/blog/chatgpt/

Nach meiner persönlichen Erfahrung leistet ChatGPT gute Arbeit, um Vorurteile zu vermeiden, und weigert sich häufig, Fragen zu beantworten, die darauf abzielen, schlechtes Verhalten anzuregen. Aber bei einem entschlossenen Benutzer ist es möglich, ihn dazu zu bringen, einige ziemlich dumme Dinge zu sagen. Es ist gut, aber nicht 100% perfekt.

Schau dir einfach dieses Video an:

Ja, Rassen- und Geschlechtervorurteile sind für alle sichtbar, angesichts einer kreativen Provokation (in diesem Fall die rassistische/sexistische Absicht als Programmierherausforderung zu tarnen und dann wiederholt dieselbe Frage zu stellen).

Meine eigene Erfahrung war, es zu bitten, mir eine Gute-Nacht-Geschichte zu erzählen. Als Antwort bekam ich eine Geschichte über eine blonde, blauäugige Prinzessin. Ein bisschen wie ein Klischee, also habe ich es herausgefordert.

Das ist eigentlich ziemlich gut. Es ist schwierig, LLMs davon zu überzeugen, immer das Richtige zu sagen, aber OpenAI scheint es zu versuchen. Aber das Problem bleibt – obwohl die meisten Menschen keine zwielichtigen Reaktionen erleben werden, ist es möglich, sie zu provozieren, wenn Sie entschlossen sind.

Das Auflösen von Vorurteilen und das Halten eines LLMs auf dem rechten Weg bleibt ein work-in-progress. Aber ich finde ChatGPT im Allgemeinen viel besser als frühere Bemühungen. Aber dennoch ist der Aufbau eines Chatbots für ein Unternehmen, das ChatGPT verwendet, mit einigen Risiken der Markenwiederholung verbunden, sagen wir mal.

Wozu dient ChatGPT?

Nachdem ich meine anfängliche Begeisterung für ChatGPT überwunden hatte, begann ich mich zu fragen, welchen Nutzen ein solches System haben könnte. Immerhin ist das Allgemeinwissen beeindruckend, aber abgesehen von Siri-v2 ist es nicht sofort offensichtlich, wie es verwendet werden könnte.

Ein Allgemeinwissenscomputer, der nicht bereit ist, zu irgendetwas eine Meinung abzugeben, aber bereit ist, über alles zu plaudern. Hmm…

Vielleicht spielt der Science-Fiction-Film THX 1138 eine Rolle – wo Bewohner einer unterirdischen Welt sich, wenn sie gestresst sind, in „Geständniskabinen“ zurückziehen und ein Gespräch mit einem Computer mit Jesusgesicht beginnen, der behauptet, „OMM“ zu sein. Das könnte es.

Sorry, das war etwas oberflächlich. Wofür könnte es noch verwendet werden?

Mit einem Generalisten zu chatten macht Spaß, aber die meisten wirklich nützlichen Dinge erfordern Fachwissen. Wenn Sie mit einer Bank chatten, brauchen Sie diesen Chatbot, um alles über Ihr Konto, die Produkte der Bank, die Finanzregeln usw. zu wissen – Dinge, über die ChatGPT wenig oder gar nichts weiß. Dasselbe gilt für die meisten, wenn nicht alle Domänen. Das bedeutet, dass wir für einen echten Nutzen in der Lage sein müssen, ChatGPT neue Dinge beizubringen. Und möglicherweise sogar daran hindern, über themenfremde Dinge zu plaudern. Es ist schließlich ein bisschen komisch, wenn der Chatbot Ihrer Bank über den Sinn des Lebens spricht, oder?

Wie können wir ChatGPT trainieren?

Bei LLMs im Allgemeinen gibt es typischerweise zwei Arten von Training – was ich als „Kern“-Training und dann als „Feinabstimmung“ bezeichnen werde.

OpenAI hat bereits das Kerntraining von ChatGPT durchgeführt und ich denke, dass sie dabei sehr gute Arbeit geleistet haben. Aber wir werden mit ziemlicher Sicherheit nicht in der Lage sein, dieses Kerntraining zu ändern – dies zu tun, ist ein enorm rechenintensiver Prozess, der wahrscheinlich Hunderttausende von Pfund an Rechenressourcen verschlingt. Selbst wenn wir könnten, sehr, sehr wenige von uns könnten es sich leisten.

Damit bleibt uns die Feinabstimmung. Aber wie effektiv wird dies bei neuen Domains sein? Wie einfach wird die Durchführung sein? Was wird es kosten? Welche Tools wird OpenAI bereitstellen? Die Antworten können wir heute nur erahnen. Ich bin hoffnungsvoll, aber es gibt keine Gewissheit darüber, wie oder ob ChatGPT trainiert werden kann, um als Spezialist in verschiedenen Bereichen effektiv zu arbeiten.

Die Kraft einer offenen Community

ChatGPT ist großartig, aber es ist derzeit hinter einer proprietären webbasierten OpenAI-Schnittstelle gesperrt. Ich kann mir nur vorstellen, was die Leute damit machen werden, sobald es offen ist, mit Pluggable APIs.

Oder vielleicht können wir schon einen Blick erhaschen. Inspiriert von der viralen Begeisterung hat @mmabrouk_ einen Python-Wrapper gehackt , schnell gefolgt von @_wheels, der eine sprachbasierte Whisper-Schnittstelle erstellt hat . Wir können also bereits mit ChatGPT chatten (dh laut sprechen).

Der Ansatz von OpenAI unterscheidet sich auch ein wenig von einem Großteil der Branche des maschinellen Lernens, wo die offene Veröffentlichung der Modelle selbst üblich ist. OpenAI gibt ihre GPT-Modelle normalerweise nicht frei, sondern entscheidet sich stattdessen dafür, sie zu hosten und den Zugriff über eine API bereitzustellen.

Für diejenigen, die gerne an Hyperparametern basteln und den zugrunde liegenden Code verstehen, ist dies ein Problem. Ich persönlich sehe es einfach als einen anderen Ansatz – mit Vor- und Nachteilen. Offene Modelle/Code oder gehostete APIs – beide können funktionieren. Wichtig ist aber, dass der Zugang geöffnet wird, denn von dort kommt die Innovation. Die Verrückten mit verrückten Ideen brauchen etwas, worauf sie aufbauen können.

Wie ist etwas anderes vergleichbar?

Ich stoße jetzt seit ungefähr einem Jahrzehnt auf Chatbots herum. Das ist lang genug, um zu wissen, dass jeder das will, was mit der heutigen Technologie nicht möglich ist – etwas, das so ist, als würde man mit einem Science-Fiction-Roboter chatten.

Das Problem, das ChatGPT aufwirft, ist, dass es dieser Vision in vielerlei Hinsicht ziemlich nahe kommt. Als Werkzeug, um mit Worten zu spielen, ist es sicherlich unvergleichlich. Und es ist schwer, sich beim Chatten nicht schwindelig zu fühlen – es beeindruckt jedes Mal auf neue Weise, wenn ich es benutze. Aber kommt da nur der kleine Junge in mir raus? Derselbe kleine Junge, der damals in den 80ern von Eliza auf seinem Commodore 64 beeindruckt war. KI hat eine lange Geschichte falscher Morgenröten, und obwohl ich damals von Eliza beeindruckt war, ist sie nicht die Grundlage für die heutige KI.

Mit ChatGPT haben wir alle unsere Erwartungen an das, was ein Chatbot sein kann, zurückgesetzt. Die Ergebnisse davon werden interessant sein. Jeder, der versucht, auf dem gleichen „wir haben großartige KI-Boden“ zu konkurrieren, wird wahrscheinlich mit einem Kampf konfrontiert sein.

Ist das wirklich KI?

Ein letzter Punkt, auf den ich noch eingehen möchte, ist, wie ChatGPT im Vergleich zu unserem eigenen Gehirn abschneidet. Wenn wir danach streben, künstliche Intelligenz aufzubauen, ist das schließlich kein schlechter Vergleich.

Ian Bogost behauptet, dass ChatGPT ein Spielzeug ist und dass es nichts so wirklich versteht wie wir. Er beschwert sich, dass es nur Worte sind, die er hervorwürgt, und hat kein Verständnis dafür, was diese Worte bedeuten. Clevererweise entpuppt sich der erste Teil seines Atlantic-Artikels selbst als von ChatGPT generiert.

Natürlich hat Ian Recht – jeder, der sich mit LLMs auskennt, weiß, dass er es nicht „versteht“. Und doch … wie „verstehen“ wir ? Sind unsere Gehirne nicht zumindest teilweise riesige Mustererkennungsmaschinen? Könnte „Verstehen“ einfach besserer Musterabgleich sein? Wenn wir „etwas lernen“, legen wir nicht nur Muster fest, die unser Gehirn später abgleichen kann?

Vielleicht sollten wir weniger an uns als Menschen denken und mehr an ein Tier mit einem einfacheren Gehirn – ein Insekt, eine Eidechse, eine Maus. Pattern Matching scheint eine gute Beschreibung dafür zu sein, wie sich solche Tiere verhalten. Ich lache oft über meine Katzen, weil sie so verliebt in Routine sind – eines Tages an einem Ort ein Nickerchen machen und wenn es gut läuft, sitzen sie jeden Tag bis in alle Ewigkeit dort. Das sieht für mich nach Pattern-Matching aus.

Aber es scheint auch, dass bei Tieren höherer Ordnung wie Menschen etwas mehr los ist. Simon Sinek ist berühmt für seine „Golden Circle“ -Analogie. Er vergleicht sein Modell mit den Strukturen des Gehirns – dem Neokortex, der das rationale Denken steuert, und dem limbischen Gehirn, das für eher instinktive Reaktionen verantwortlich ist. Ich frage mich, ob wir vielleicht einen Punkt erreichen, an dem wir mit Dingen wie ChatGPT eine gewisse Annäherung an ein limbisches Gehirn haben, dies aber noch nicht mit einem künstlichen Neocortex erweitert haben – etwas, das den Mustervergleich mit rationalem Denken erweitert. Oder vielleicht verlassen sich unsere Gehirne mehr auf den Mustervergleich, als wir bisher zugeben wollten. Wenn das der Fall wäre, brauchen wir vielleicht nur Even Larger Language Models (ELLMs)?