Die unendliche Babel-Bibliothek der LLMs
„‚ Der Pate der KI‘ verlässt Google und warnt vor Gefahren “, lautet der Titel der New York Times. Wie können wir wissen, ob LMs eine Bedrohung für die Menschheit darstellen, wenn sie nicht Open Source sind? Was passiert eigentlich? Wie die Welt der Sprachmodelle vor dem Wandel steht.
Der Aufruf zum Open-Source-Kreuzzug
Vor kurzem wurde GPT-4 der Öffentlichkeit vorgestellt, und ich glaube, wir haben uns alle den technischen Bericht angesehen und waren enttäuscht.
Vor kurzem hat sich auch Nature mit dem Thema befasst : Wir brauchen große Sprachmodelle (LLMs), die Open-Source sein müssen.
Viele der LLMs sind proprietär, nicht freigegeben, und wir wissen nicht, mit welchen Daten sie trainiert wurden. Dies erlaubt es nicht, sie zu inspizieren und auf Einschränkungen zu testen, insbesondere im Hinblick auf Bias.
Darüber hinaus besteht beim Teilen von Informationen und Code mit ChatGPT die Gefahr von Datenlecks, wie von Samsung festgestellt wurde . Ganz zu schweigen davon, dass einige Staaten der Meinung sind, dass die Datenspeicherung durch diese Unternehmen gegen die DSGVO verstößt .
Aus diesem Grund brauchen wir Open-Source-LLMs, und es sollte mehr in die Entwicklung neuer LLMs investiert werden, wie z. B. das BLOOM- Konsortium (ein 170-B-Parameter-LLM, das von einem akademischen Konsortium entwickelt wurde).
In den letzten Monaten gab es oft Sensationen, sowohl über die wirklichen Fähigkeiten dieser LLMs als auch über die Risiken der künstlichen Intelligenz. Wenn Forscher die Modelle nicht testen können, können sie ihre Fähigkeiten nicht wirklich einschätzen, und dasselbe gilt für die Analyse der Risiken. Darüber hinaus ist ein Open-Source-Modell viel transparenter und die Community kann auch versuchen, die Quelle problematischen Verhaltens zu identifizieren.
Darüber hinaus ist es keine Forderung der Wissenschaft, Institutionen sind von KI alarmiert. Die Europäische Union diskutiert dieser Tage über das EU-KI-Gesetz, das die Zukunft von LLMs neu gestalten kann. Gleichzeitig drängt das Weiße Haus den Tech-CEO, das KI-Risiko zu begrenzen. Somit könnte Open Source tatsächlich eine zukünftige Anforderung an Sprachmodelle sein.
Warum ist ChatGPT so gut?
Wir haben alle von ChatGPT gehört und wie revolutionär es schien. Aber wie wurde er trainiert?
Alles, was Sie über ChatGPT wissen müssenFangen wir damit an, dass ChatGPT auf Basis eines LLM (genauer gesagt GPT 3.5) trainiert wurde. Typischerweise werden diese GPT-ähnlichen Sprachmodelle unter Verwendung der Vorhersage des nächsten Tokens in einer Folge trainiert (aus einer Folge von Tokens w muss das Modell das nächste Token w+1 vorhersagen).
Das Modell ist typischerweise ein Transformator: bestehend aus einem Codierer, der die Eingabe als Sequenz empfängt, und einem Decodierer, der die Ausgabesequenz erzeugt. Das Herzstück dieses Systems ist die Mehrkopf-Selbstaufmerksamkeit , die es dem Modell ermöglicht, Informationen über den Kontext und die Abhängigkeiten zwischen den verschiedenen Teilen der Sequenz zu lernen.
GPT-3 wurde mit diesem Prinzip trainiert (wie die anderen Modelle in der Familie Generative Pre-training Transformer, GPT), nur mit viel mehr Parametern und viel mehr Daten (570 GB Daten und 176 B Parameter).
GPT3 hat enorme Fähigkeiten, aber wenn es um die Generierung von Text geht, halluziniert es oft, ist nicht hilfreich, nicht interpretierbar und enthält oft Vorurteile. Das bedeutet, dass das Modell nicht mit dem übereinstimmt, was wir von einem Modell erwarten, das Text wie ein Mensch generiert
Wie erhalten wir ChatGPT von GPT-3?
Der Prozess heißt Reinforcement Learning from Human Feedback (RHLF) und wurde von den Autoren in diesem Artikel beschrieben:
Hier werde ich es sehr allgemein und prägnant beschreiben. Konkret besteht sie aus drei Schritten:
- Überwachte Feinabstimmung ist der erste Schritt, in dem das LLM feinabgestimmt wird, um eine überwachte Richtlinie (Basismodell oder SFT-Modell) zu lernen.
- Nachahmung menschlicher Vorlieben , in diesem Schritt müssen die Annotatoren über eine Reihe von Ausgaben des Basismodells abstimmen. Dieser kuratierte Datensatz wird verwendet, um ein neues Modell, das Belohnungsmodell, zu trainieren.
- Proximal Policy Optimization (PPO) , hier wird das Belohnungsmodell verwendet, um das SFT-Modell zu verfeinern und das Policy-Modell zu erhalten
Die Autoren verwendeten als Modell GPT-3.5, das bereits auf Programmiercode abgestimmt war, dies erklärt auch die Codefähigkeiten von ChatGPT.
Nun ist dieser Schritt jedoch nicht genau skalierbar, da es sich um überwachtes Lernen handelt. In jedem Fall ist das so erhaltene Modell noch nicht ausgerichtet.
Die Kommentatoren notierten eine Reihe von Antworten aus dem SFT-Modell, je nachdem, wie wünschenswert eine solche Antwort ist (von der schlechtesten bis zur besten). Wir haben jetzt einen viel größeren Datensatz (10 x) und liefern die SFT-Modellantworten auf das neue Modell, das in der Reihenfolge der Präferenz geordnet werden muss.
Während dieser Phase lernt das Modell eine allgemeine Richtlinie über die Daten und wie es seine Belohnung maximieren kann (wenn es in der Lage ist, die Ergebnisse gut einzustufen).
Wir haben also das SFT-Modell und verwenden seine Gewichtungen, um ein neues PPO-Modell zu initialisieren. Dieses Modell wird mithilfe der Proximal Policy Optimization (PPO) feinabgestimmt.
Mit anderen Worten, wir verwenden einen Reinforcement-Learning-Algorithmus. Das PPO-Modell erhält eine zufällige Eingabeaufforderung und antwortet auf die Eingabeaufforderung, woraufhin es eine Strafe oder Belohnung erhält. Anstelle des klassischen Q-Lernens wird hier die Modellpolitik bei jeder Antwort aktualisiert (das Modell lernt direkt aus der Erfahrung, über die Politik).
Darüber hinaus verwenden die Autoren die Kullback-Leibler (KL) -Strafe pro Token , um die Antwortverteilung des Modells der des SFT-Modells ähnlich zu machen. Dies liegt daran, dass wir das Modell mit dem RL optimieren möchten (aufgrund des Belohnungsmodells), aber wir möchten immer noch nicht, dass es vergisst, was es in Schritt 1 gelernt hat, was von Menschen kuratierte Eingabeaufforderungen sind.
Abschließend wird das Modell anhand von drei Aspekten bewertet: Hilfsbereitschaft, Wahrhaftigkeit und Harmlosigkeit. Schließlich waren das genau die Aspekte, die wir optimieren wollten.
Eine merkwürdige Anmerkung ist, dass das Modell bei der Bewertung mit klassischen Benchmarks (Fragebeantwortung, Zusammenfassung, Klassifizierung) eine geringere Leistung als GPT-3 aufweist. Dies sind die Kosten für die Ausrichtung.
Alpaka, ein revolutionäres Tier
Wie bereits erwähnt, besteht ein echter Bedarf, das Verhalten dieser Modelle zu untersuchen, und dies ist nur möglich, wenn sie Open Source sind. Andererseits kann jede LM mit RHLF ausgerichtet werden.
RHLF ist viel weniger teuer und rechenintensiv als das Trainieren eines Modells von Grund auf neu. Andererseits erfordert es, dass es Annotatoren gibt (Sie brauchen tatsächlich einen Datensatz mit Anweisungen). Aber lassen sich diese Schritte nicht automatisieren?
Der erste Schritt war Self-instruct , in diesem Artikel von 2022 schlagen die Autoren eine halbautomatische Methode vor. Tatsächlich besteht die allgemeine Idee darin, mit einer Reihe von manuell geschriebenen Anweisungen zu beginnen. Diese Anleitung dient sowohl als Ausgangspunkt als auch um sicherzustellen, dass die meisten NLP- Aufgaben abgedeckt sind.
Beginnend mit nur 175 Anweisungen veranlasste das Modell, den Datensatz zu generieren (50.000 Anweisungen). Der Datensatz wurde dann für die Anweisungsabstimmung verwendet.
Eine Methode zu haben, brauchte nur ein Modell. ChatGPT basiert auf OpenAI GPT-3.5, aber kann nicht ein kleineres Modell verwendet werden? Braucht es unbedingt mehr als 100 B-Parameter?
Stattdessen verwendeten die Stanford-Forscher LLaMA und insbesondere die 7B-Version und 52.000 Anweisungen, die nach der Selbstinstruktionsmethode generiert wurden (Anweisungen, die mit OpenAIs text-davinci-003 generiert wurden). Der wahre Wert von Alpaca besteht darin, dass die Autoren die Pipeline vereinfacht und die Kosten so stark gesenkt haben, dass jedes akademische Labor den Prozess (der sich in diesem Repository befindet ) replizieren könnte. Wie eigentlich gesagt:
Bei unserem ersten Durchlauf dauerte die Feinabstimmung eines 7B LLaMA-Modells 3 Stunden auf 8 A100 mit 80 GB, was bei den meisten Cloud-Computing-Anbietern weniger als 100 US-Dollar kostet. ( Quelle )
Die erste Modellbewertung zeigte, dass Alpaka bei GPT-3,5 fast gut ist (in einigen Fällen sogar darüber hinaus). Dies mag überraschend erscheinen, da es sich um ein 20-mal kleineres Modell handelt. Andererseits verhielt sich das Modell bei einer Reihe von Eingaben wie GPT (das Training fungiert also als eine Art Wissensdestillation). Andererseits hat das Modell die gleichen Einschränkungen wie typische Sprachmodelle und zeigt Halluzinationen, Toxizität und Stereotypen.
Alpaca demonstriert dann, dass jedes akademische Labor seine eigene Version von ChatGPT trainieren kann (unter Verwendung von LLaMA , das nur für Forschungszwecke verfügbar ist). Andererseits kann jedes Unternehmen, das ein anderes Modell verwendet, seine eigene Version von ChatGPT anpassen und erstellen. Darüber hinaus könnten ähnliche Modelle sogar noch auf Handys oder Raspberry-Pi-Computern eingesetzt werden .
Die Autoren veröffentlichten eine Demo, die jedoch nach kurzer Zeit (aus Sicherheitsgründen) abgeschaltet wurde . Obwohl man sich für die Nutzung von LLaMA bewerben musste (und auf die Modellgewichte zugreifen konnte), wurde das Modell einige Tage später online geleakt .
Stehen LLMs am Rande einer Revolution?
Es scheint Jahre her zu sein, seit ChatGPT veröffentlicht wurde, aber stattdessen waren es nur ein paar Monate. Bis zu diesem Zeitpunkt sprachen wir über das Potenzgesetz, wie es für ein Modell notwendig war, mehr Parameter, mehr Daten und mehr Training zu haben, um den Ursprung von emergenten Verhaltensweisen zu ermöglichen.
Diese Ideen führten zu der Idee, dass wir eine Art Mooresches Gesetz für Sprachmodelle definieren könnten. In gewisser Weise haben wir in den letzten Jahren fast ein Exponentialgesetz gesehen (wir sind von 1,5 B-Parametern für GPT-2 auf 175 B für GPT-3 gegangen).
Was hat sich verändert?
Der erste Schlag gegen diese Doktrin könnte die Ankunft von Chinchilla genannt werden . Das Modell von DeepMind zeigte, dass es nicht nur auf die Datenmenge, sondern auch auf die Datenqualität ankommt. Zweitens zeigte LLaMA von META, dass selbst kleinere Modelle, die einen kuratierten Datensatz verwenden, ähnliche, wenn nicht sogar bessere Ergebnisse erzielen können als riesige Modelle.
Es geht nicht nur um Modelle. Die Daten sind das andere Problem. Menschen produzieren nicht genug Daten, wahrscheinlich nicht genug Daten, um GPT-5 zu unterstützen, wenn dies vom Machtgesetz gefordert wird. Zweitens werden die Daten nicht mehr so zugänglich sein wie zuvor.
Tatsächlich hat Reddit (eine beliebte Datenquelle) angekündigt, dass KI-Entwickler für den Zugriff auf ihre Inhalte bezahlen müssen . Sogar Wikipedia hat das gleiche gedacht und jetzt bewegt sich StackOverflow auf die gleiche Weise, es wird von Unternehmen verlangen, dass sie bezahlen.
„Gemeinschaftsplattformen, die LLMs vorantreiben, sollten unbedingt für ihre Beiträge entschädigt werden, damit Unternehmen wie wir wieder in unsere Gemeinschaften investieren können, damit sie weiter gedeihen“, sagt Chandrasekar von Stack Overflow. „Wir unterstützen den Ansatz von Reddit sehr.“ ( Quelle )
Und selbst wenn man es schafft, an die Daten zu kommen, sind sie für ein Unternehmen möglicherweise nicht gleich sicher. Getty hat einen KI-Kunstgenerator verklagt , aber auch die Künstler selbst haben Klage eingereicht. Ganz zu schweigen davon, dass Programmierer dasselbe mit GitHub Copilot getan haben , das mit Code in den Repositories trainiert wurde. Darüber hinaus hat sich die Musikindustrie (notorisch streitsüchtig) gegen KI-generierte Musik ausgesprochen und gegen Streaming-Dienste gedrängt. Wenn sich sogar KI-Unternehmen auf Fair Use berufen , ist es keineswegs selbstverständlich, dass sie in Zukunft den gleichen Zugriff auf Daten haben werden.
Abgesehen von der Erweiterung der Modelle um die Heteromodalität ist noch ein weiterer Faktor zu berücksichtigen, die Transformer-Architektur hat sich seit 2017 nicht geändert. Alle Sprachmodelle basieren auf dem Dogma, dass nur mehrköpfige Selbstaufmerksamkeit erforderlich ist und nicht mehr. Bis vor kurzem war Sam Altman davon überzeugt, dass die Skalierbarkeit der Architektur der Schlüssel zu AGI sei. Aber wie er kürzlich auf einer MIT-Veranstaltung sagte , liegt der Schlüssel zu AGI nicht in mehr Schichten und mehr Parametern.
Der Transformator hat eindeutige Einschränkungen und dies spiegelt sich in den LMs wider: Halluzinationen, Toxizität und Voreingenommenheit. Moderne LLMs sind nicht in der Lage, kritisch zu denken. Techniken wie Chain of Thoughts und Prompt Engineering dienen als Patches, um zu versuchen, das Problem zu entschärfen.
Darüber hinaus hat sich gezeigt, dass Mehrkopf-Selbstaufmerksamkeit in der Lage ist, RNN-abgeleitete Probleme zu lösen und Verhaltensweisen entstehen zu lassen, da Lernen im Kontext quadratische Kosten hat. In letzter Zeit hat sich gezeigt, dass man die Selbstaufmerksamkeit nicht durch nicht-quadratische Varianten der Aufmerksamkeit ersetzen kann, ohne an Ausdruckskraft zu verlieren. Arbeiten wie Spike-GPT und Hyena zeigen jedoch, dass es kostengünstigere Alternativen gibt, die nicht auf Selbstaufmerksamkeit basieren, und ermöglichen vergleichbare Ergebnisse bei der Konstruktion von Sprachmodellen.
Wie auch gezeigt, hat das Ausrichten eines Modells unter Verwendung von RHLF Kosten in Bezug auf die Leistung bei den verschiedenen Aufgaben. Daher werden LMs das „Expertenmodell“ nicht ersetzen, sondern in Zukunft vielleicht Orchestratoren anderer Modelle sein (wie zum Beispiel von HuggingGPT vorgeschlagen ).
Sie können Open Source nicht aufhalten und warum es immer gewinnt
ist MidJourney oder DALL-E besser? es ist vielleicht schwer zu sagen. Sicher ist, dass die stabile Diffusion die Gewinnertechnologie ist. Eine stabile Verbreitung durch die Tatsache, dass es Open Source ist, hat so viele Anwendungen hervorgebracht und war die Inspiration für so viel abgeleitete Forschung (ControlNet, synthetische Daten für die medizinische Bildgebung, Parallelen zum Gehirn).
Durch die Arbeit der Community wurde Stable Diffusion in seinen verschiedenen Versionen verbessert und es gibt endlose Variationen. Andererseits gibt es keine Anwendung von DALL-E, die kein Gegenstück hat, das auf stabiler Diffusion basiert (aber das Gegenteil ist der Fall).
Warum ist das nicht auch für Sprachmodelle geschehen?
Bisher besteht das Hauptproblem darin, dass das Trainieren eines Sprachmodells ein unerschwingliches Unterfangen war. BLOOM von BigScience ist in der Tat ein riesiges Konsortium. Aber LLaMA hat gezeigt, dass viel kleinere Modelle mit Monstern von mehr als 100 B-Parametern konkurrieren können. Alpaca zeigte, dass die LM-Ausrichtung auch mit geringen Kosten (weniger als 1.000 USD Gesamtkosten) durchgeführt werden kann. Dies sind die Elemente, die es Simon Willson ermöglichten zu sagen: „ Große Sprachmodelle haben ihren Moment der stabilen Verbreitung. ”
Von Alpaca bis heute sind viele Open-Source- Modelle herausgekommen . Stability AI hat nicht nur eine Reihe von Modellen veröffentlicht , die mit Giganten konkurrieren und von allen genutzt werden können, sondern auch andere Unternehmen haben Chatbots und Modelle veröffentlicht. In nur wenigen Wochen haben wir gesehen: Dolly , HuggingChat , Koala und viele mehr
Nun, einige der genannten Modelle sind zwar Open Source, jedoch für den nichtkommerziellen Gebrauch bestimmt. sie stehen zwar der akademischen Forschung offen, können aber nicht von interessierten Unternehmen verwertet werden.
Dies ist nur ein Teil der Geschichte. Tatsächlich gibt es auf HuggingFace bereits Modelle, die leicht trainiert werden können (Modelle, Datensätze und Pipelines), und es gibt bis heute mehrere Modelle, die kommerziell erhältlich sind (bisher mehr als 10 ) :
Open-Source-Modell, private Daten und neue Anwendungen
Dario Amodei, CEO von Anthropic, strebt nach Milliarden , um OpenAI auf dem größeren Modell der Welt zu schlagen. Der Rest der Welt bewegt sich jedoch in eine andere Richtung. Zum Beispiel hat Bloomberg, das kein bekannter Akteur in der KI ist, ein LLM für Finanzen veröffentlicht (trainiert auf 363 Milliarden Token aus Finanzquellen).
Warum wollen wir einen LLM für Finanzen? Warum nicht einfach ChatGPT verwenden?
Google MedPalm hat gezeigt, dass ein generalistisches Modell im Vergleich zu einem Modell, das auf ein bestimmtes Thema abgestimmt ist (in diesem Fall handelt es sich um Datensätze medizinischer, wissenschaftlicher usw. Artikel), eine schlechte Leistung hat.
Die Feinabstimmung eines LLM ist eindeutig teuer. Vor allem, wenn es sich um Modelle mit Hunderten von Milliarden Parametern handelt. Kleinere Modelle sind viel billiger, aber immer noch nicht gleichgültig. LLaMA von META hat dieses Problem teilweise gelöst, da es Open Source ist. Tatsächlich zeigten die Autoren von LLaMA-Adapter, dass nur 1,2 Millionen Parameter hinzugefügt werden müssen, um eine Feinabstimmung durchzuführen (das Training dauerte weniger als eine Stunde).
Es stimmt zwar, dass LLaMA nicht im Handel erhältlich ist, aber es gibt viele andere Modelle, die erhältlich sind (von klein bis groß). Was offensichtlich eine erfolgreiche Bewerbung in einem bestimmten Bereich ermöglicht, sind Daten.
Wie Samsung unangenehm feststellen musste , ist es ein Risiko, ChatGPT innerhalb eines Unternehmens zu verwenden. Selbst wenn ChatGPT es den Leuten jetzt erlaubt, den Chatverlauf zu deaktivieren oder die Verwendung ihrer Daten zum Trainieren des Modells abzulehnen, werden Unternehmen es als riskant ansehen, ihre Daten preiszugeben.
Viele Unternehmen werden es für möglich halten, ihren eigenen Chatbot zu trainieren, ein Modell, das auf ihre eigenen Unternehmensdaten abgestimmt ist und intern bleibt. Schließlich ist die Technologie auch für Unternehmen mit kleinem Budget verfügbar und bezahlbar. Darüber hinaus ermöglichen die niedrigen Kosten eine regelmäßige Feinabstimmung, wenn neue Daten eintreffen oder ein besseres Open-Source-Modell veröffentlicht wird. Unternehmen, die jetzt über die Daten verfügen, werden viel zurückhaltender sein, sie zu gewähren.
Darüber hinaus haben wir gesehen, wie wichtig es ist, qualitativ hochwertige Daten zu haben. Daten in der Medizin und vielen anderen Bereichen sind schwer zu erheben (teuer, reguliert, knapp) und Unternehmen, die über sie verfügen, haben einen Vorteil. OpenAI könnte Milliarden ausgeben, um beispielsweise medizinische Daten zu sammeln, aber abgesehen von den Kosten erfordert die Patientenrekrutierung Jahre und ein etabliertes Netzwerk (was es nicht hat). Unternehmen, die jetzt über die Daten verfügen, werden diese Daten restriktiver mit Modellen teilen, die speichern können, was sie offengelegt haben.
Darüber hinaus zeigen Arbeiten wie HuggingGPT und AudioGPT , dass das LLM eine Schnittstelle für den Benutzer ist, um mit Expertenmodellen (Text-zu-Bild, Audiomodell und vieles mehr) zu interagieren. In den letzten Jahren haben viele Unternehmen Data Scientists eingestellt und verschiedene spezialisierte Modelle für ihre Bedürfnisse entwickelt (Modelle von Pharmaunternehmen für die Entdeckung und das Design von Arzneimitteln, Herstellerunternehmen für Komponentendesign und vorausschauende Wartung usw.). So können Datenwissenschaftler jetzt LLMs anweisen, sich mit ihren zuvor trainierten Modellen zu verbinden, und es internen nicht-technischen Benutzern ermöglichen, mit ihnen durch Textaufforderungen zu interagieren.
Es gibt noch ein weiteres Element, das auf ein solches Szenario hindeutet, die Vorschriften zur generativen KI sind unklar (z. B. hat Google sein generatives Musikmodell aus Angst vor Urheberrechtsverletzungen nicht veröffentlicht). Neben der Urheberrechtsfrage bleiben auch Haftungsfragen offen. Daher könnten viele Unternehmen die Technologie verinnerlichen und in den kommenden Monaten einen eigenen KI-Assistenten entwickeln.
Abschiedsgedanken
Dr. Hinton sagte, wenn Leute ihn fragten, wie er an potenziell gefährlicher Technologie arbeiten könne, paraphrasierte er Robert Oppenheimer, der die US-Bemühungen zum Bau der Atombombe leitete: „Wenn Sie etwas sehen, das technisch süß ist, Sie gehen Sie voran und tun Sie es.“
Das sagt er nicht mehr. ( Quelle )
Hinton hat kürzlich erklärt, dass wir die Risiken der künstlichen Intelligenz diskutieren müssen. Aber wir können die Risiken einer Bombenexplosion nicht untersuchen, wenn sie sich in einer Black Box befindet. Deshalb wird es immer dringender, dass Modelle Open Source sind.
LLMs befinden sich ohnehin in einer Phase des Wandels. Das Erstellen immer größerer Modelle ist nicht nachhaltig und bietet nicht mehr den gleichen Vorteil wie früher. Die Zukunft der nächsten LLMs wird in Daten und wahrscheinlich in neuen Architekturen liegen, die nicht mehr auf Selbstaufmerksamkeit basieren.
Die Daten werden jedoch nicht mehr so zugänglich sein wie früher; Unternehmen beginnen, den Zugriff darauf zu stoppen. Microsoft sagt, es sei bereit, Unternehmen zu erlauben, ihre eigene Version von ChatGPT zu erstellen. Aber Unternehmen werden skeptisch sein.
Einige Unternehmen fürchten um ihr Geschäft (es scheint, dass ChatGPT bereits sein erstes Opfer gefordert hat ), und andere haben Angst vor Datenlecks. Oder einfach nur, die Technologie ist endlich für fast alle Unternehmen erreichbar, und jedes wird einen auf seine Bedürfnisse zugeschnittenen Chatbot erstellen.
Zusammenfassend können wir verschiedene Trends erkennen (die teilweise bereits stattfinden):
- Eine wachsende Angst vor KI drängt auf Open-Source-Modelle
- Dies führt zu einer zunehmenden Veröffentlichung von Open-Source-LLMs-Modellen. Was wiederum zeigt, dass Sie kleinere Modelle verwenden und die Kosten für deren Ausrichtung reduzieren können.
- LLM-Modelle stellen eine Bedrohung für verschiedene Unternehmen dar, und Unternehmen befürchten, dass diese Modelle ihr Geschäft gefährden könnten. Daher schränken verschiedene Unternehmen den Zugriff auf ihre Daten ein oder fordern Zahlungen von KI-Unternehmen.
- Kostenreduktion, Konkurrenzangst, eine neue Relevanz für proprietäre Daten und die neue Verfügbarkeit von Open-Source-Modellen führen dazu, dass Unternehmen ihre eigenen Chatbots mit Open-Source-Modellen auf ihre eigenen Daten trainieren.
Falls Sie das interessant fanden:
Sie können nach meinen anderen Artikeln suchen, Sie können auch abonnieren , um benachrichtigt zu werden, wenn ich Artikel veröffentliche, Sie können Medium-Mitglied werden , um auf alle seine Geschichten zuzugreifen (Affiliate-Links der Plattform, für die ich kleine Einnahmen ohne Kosten für Sie erhalte) und Sie können mich auch auf LinkedIn verbinden oder erreichen .
Hier ist der Link zu meinem GitHub-Repository, in dem ich Code und viele Ressourcen zu maschinellem Lernen, künstlicher Intelligenz und mehr sammeln möchte.
oder Sie interessieren sich vielleicht für einen meiner letzten Artikel: