Sztuczna inteligencja to modne słowo. Oto prawdziwe słowa, które warto znać
W moim przeglądzie sztucznej inteligencji i uczenia maszynowego zdefiniowałem sztuczną inteligencję jako „zdolność do zrobienia czegoś, co„ wydaje się inteligentne ”. Uwaga spoiler: wiem, że to zła definicja. Prawdziwy spoiler: nie mogę znaleźć dobrego. Nikt nie napisał takiego, z którym wszyscy się zgadzają . Na razie utknęliśmy z „wydaje się sprytny”. Ale to jest w porządku, ponieważ ludzie z branży technologicznej tak naprawdę nie mówią „zbudujmy aplikację AI”, mówią „zaimplementujmy to rozwiązanie z uczeniem maszynowym” lub „upewnijmy się, że uziemimy podpowiedzi użytkownika, aby uniknąć halucynacji”.
AI, jako termin, to tylko modne słowo. W latach 90. Deep Blue był wielką złą sztuczną inteligencją, która pokonała Garry'ego Kasparowa, ówczesnego mistrza świata w szachach, we własnej partii! Jednak w dzisiejszych czasach wielu zawahałoby się nazwać to sztuczną inteligencją: w końcu wiele z tego to zapamiętywanie, a reszta to wykonywanie instrukcji przekazywanych przez programistów i szachowych ekspertów. Czy to mądre, jeśli po prostu przestrzegasz instrukcji? Ale sztuczna inteligencja brzmi fajnie! I z pewnością wydaje się sprytny, więc pasuje! Tutaj widzimy prawdziwy cel terminu „AI”: nadanie programom fajniejszej nazwy, czegoś lepszego niż „komputer zapamiętujący szachy i wykonujący instrukcje” lub „pozornie inteligentny przestrzegający reguł”. „AI” zgrabnie podsumowuje wszystko, a marketerzy często mają nadzieję, że publiczność nigdy tak naprawdę nie kwestionuje tego, co dzieje się za kulisami.
Zajrzyjmy więc za kulisy.
Zastrzeżenie: Ten artykuł wspomina o firmie Microsoft, moim pracodawcy. Ten artykuł napisałem w wolnym czasie i wszystkie opinie są moimi własnymi.
Obecnie prawie każda aplikacja, którą uważamy za sztuczną inteligencję, jest tworzona w procesie zwanym uczeniem maszynowym . Podsumowując moje wcześniejsze omówienie tego terminu , algorytm uczenia maszynowego tworzy swój własny sposób działania na podstawie przykładów. Ten sposób działania nazywa się modelem i przypomina przepis kulinarny. Tradycyjny algorytm jest dostarczany z ręcznie wykonaną recepturą przez inżynierów. Jednak inżynierowie nie byli w stanie stworzyć ręcznie opracowanych receptur dotyczących rozpoznawania obrazów i wielu innych problemów, więc uczenie maszynowe uratowało dzień w tych dziedzinach.
Posługując się doskonałą analogią kuchenną Cassie Kozyrkov , każdy proces uczenia maszynowego składa się z czterech części: zbieranie danych, wprowadzanie ich do algorytmu, weryfikowanie modelu i wykorzystywanie go do prognozowania. Analogicznie kuchnia składa się z czterech części: składników, urządzeń, przepisów i potraw. Ale „urządzenia” uczące się maszyn są o wiele inteligentniejsze niż przeciętny piekarnik — nie tylko podgrzewają jedzenie, ale uczą się, jak przygotowywać danie!
Na przykład, aby stworzyć ChatGPT, OpenAI zebrało dane z całego Internetu i stworzyło kilka własnych przykładowych konwersacji, wprowadziło to wszystko do generatywnego algorytmu wstępnie wytrenowanego transformatora (GPT), wyszło ze zaktualizowanym modelem GPT-3.5 i teraz używają tego do przewidywania kolejnych słów w rozmowie. (Aktualizacja z 8 kwietnia: Było trochę dodatkowej pracy: „sprawdzili model podczas gotowania”, że tak powiem, aby pomóc urządzeniu w korzystaniu z procesu znanego jako Uczenie się wzmocnienia na podstawie informacji zwrotnych od ludzi. Zmodyfikowałem również poprzedni akapit, aby wyjaśnić, że ChatGPT jest jednym modelem zbudowanym niezależnie od oryginalnych modeli GPT-3.5.)
W rzeczywistości uczenie maszynowe jest używane wszędzie : od algorytmu rekomendacji Twittera (szczegóły można znaleźć w jego „ciężkim rankingu”), przez algorytm rekomendacji prawdopodobnie każdej innej witryny, przez diagnostykę medyczną , wykrywanie oszustw , po astronomię i nie tylko!
Duży model językowy to po prostu model uczenia maszynowego specjalnie przeszkolony do wyprowadzania tekstu na podstawie wprowadzania tekstu. Niektóre przykłady dużych modeli językowych obejmują GPT-3, GPT-3.5 i GPT-4 (czasami są one określane po prostu jako GPT-n). Jest też LaMDA od Google , LLaMA od Meta i BloombergGPT od tej firmy, która nazywa wszystko imieniem tego gościa. Z technicznego punktu widzenia każdy z modeli GPT-n to rodzina modeli , ale w większości artykułów „GPT-4” odnosi się do najbardziej zoptymalizowanego modelu czatu.
Niektóre produkty korzystające z dużych modeli językowych to ChatGPT, który używa GPT-3.5* (obecnie GPT-4 dla subskrybentów), nowy Bing (GPT-4) i Google Bard (LaMDA). Spodziewaj się wielu, wielu innych. I pamiętaj: każdy, kto twierdzi, że nowy Bing jest „obsługiwany przez ChatGPT”, nie do końca ma rację — teraz możesz pomóc mu się uczyć!
*Aktualizacja z 8 kwietnia: Z technicznego punktu widzenia ChatGPT to także nazwa modelu , ale został on dopracowany z modelu GPT-3.5 i jest określany jako „GPT-3.5” w samej aplikacji oraz „ gpt-3.5-turbo ” w całej dokumentacji OpenAI .
Produkt to opakowanie wokół modelu, sposób na ułatwienie pracy z modelem i zintegrowanie go z innymi rzeczami, takimi jak strony internetowe i inne . Produkty zapewniają również bezpieczeństwo, prywatność i logikę zasad, aby zapewnić, że błędne monity nie zostaną wysłane do modelu, a złe dane wyjściowe nie zostaną wyświetlone. Właściciele produktów decydują, co jest „złe”, a co nie, i zazwyczaj unikają m.in. Podpowiedzi zaakceptowane przez produkt są zwykle przekazywane bezpośrednio do modelu, choć to się zmienia.
Nowsze produkty oparte na monitach będą uziemiać monity, co oznacza po prostu, że dostosują monity, aby uczynić je bardziej użytecznymi przed przekazaniem ich modelowi (patrz ostatnie ogłoszenie Microsoftu o 21:04). Uziemiony monit powinien rzadziej powodować halucynacje . Model ma halucynacje za każdym razem, gdy wyprowadza coś, co może wydawać się prawdą, ale nią nie jest. Istnieje wiele przykładów tego w Internecie, ale wczesne dni nowego Bing biorą górę: w jednym przypadku twierdził, że Avatar 2 jeszcze nie wyszedł i zaczął obrażać użytkownika . (Zrzuty ekranu i historie można wymyślić, ale sam odtworzyłem halucynację Avatara 2, chociaż nie poczułem się urażony.)
Halucynacje są tak niebezpieczne, jak się wydaje, dlatego ważne jest, aby pamiętać, że modelki nie znają prawdy . Modele tylko zgadują słowa. To od produktu, a ostatecznie od użytkownika, zależy sprawdzenie faktów we wszystkim, co generuje model. Kolejna słynna halucynacja pochodzi od Google: 6 lutego Google zaprezentowało pierwszą publiczną odpowiedź Barda — i była to halucynacja. Nie złapali tego i nie złożyli żadnych zastrzeżeń, a następnie Google stracił 100 miliardów dolarów wartości rynkowej . Aby być uczciwym, stary Bing wciąż popełnia ten sam błąd, gdy szukam „który teleskop zrobił pierwsze zdjęcie egzoplanety”, ale niepowodzenie Google w sprawdzeniu faktów ich własnego modelu pokazuje, jak łatwo jest uwierzyć w halucynacje. Zawsze sprawdzaj fakty!
Na koniec omówmy kilka podstawowych algorytmów tworzących modele. Pierwszą była sieć neuronowa , a potem ludzie zaczęli budować konwolucyjne sieci neuronowe , rekurencyjne sieci neuronowe i generatywne przeciwstawne sieci neuronowe , ale dopiero w 2017 roku otrzymaliśmy najnowszy algorytm: transformator , który jest znacznie prostszy i opanowanie podstaw zajęło mi tylko kilkanaście godzin intensywnej nauki.
Czy musimy wiedzieć, jak działa którykolwiek z tych algorytmów? Cóż, czy musimy wiedzieć, jak działa piekarnik? Niezupełnie, po prostu musimy wiedzieć, że gotuje nasze jedzenie i jest niebezpieczne, gdy jest gorąco! Szczegóły techniczne mogą być interesujące, ale wszystko sprowadza się do powtarzania tej samej matematyki w kółko, obiecuję.
Podsumujmy wszystko w ładnym glosariuszu z punktami, dobrze?
- Sztuczna inteligencja (AI): słabo zdefiniowany termin, który zasadniczo oznacza „wydaje się inteligentny”, używany głównie w marketingu.
- Uczenie maszynowe (ML): proces, w ramach którego programiści tworzą program, który uczy się na przykładzie, a nie na podstawie instrukcji.
- Algorytm ML: kawałek oprogramowania, który udoskonala model za każdym razem, gdy przyjmuje dane wejściowe.
- Model: proces matematyczny, który działa na danych określonego typu, aby coś przewidzieć.
- Generatywny model dużego języka (LLM): typ modelu, który przewiduje, jaki tekst będzie następny.
- Produkt: Dowolna aplikacja korzystająca z LLM za kulisami.
- Monituj: Kiedy idziesz do ChatGPT i wysyłasz wiadomość, ta wiadomość jest twoim monitem.
- Uziemienie: dostosowanie monitu w celu ulepszenia go dla LLM.
- Halucynacje: kiedy LLM coś źle robi, to halucynacje — zawsze sprawdzaj fakty!
Dziękuję za przeczytanie. Czego chciałbyś się dowiedzieć w następnej kolejności? Jak mogę pomóc?
Oto propozycja, to pierwszy artykuł z tej serii:
Poznajmy sztuczną inteligencjęI kolejny wpis:
Odblokuj moc ChatGPT dzięki szybkiej inżynierii