Poznajmy sztuczną inteligencję
Seria o sztucznej inteligencji, uczeniu maszynowym, ChatGPT i nie tylko
Od czasu wybuchowego wydania ChatGPT w listopadzie 2022 r. odczuwam syndrom oszusta i niepokój związany ze sztuczną inteligencją (AI). Co dokładnie robi? Jak to działa? Co dalej? Dla kontekstu, jestem inżynierem oprogramowania i pracuję w firmie Microsoft, odkąd ukończyłem studia w 2020 roku. Ale nigdy nie miałem okazji naprawdę „wykorzystać sztucznej inteligencji” i zignorowałem większość wiadomości na ten temat jako zbyt pełnych modne słowa, szum i żargon.
Poznajmy sztuczną inteligencję i najnowsze osiągnięcia w tej dziedzinie. Ta seria jest przeznaczona dla każdego, zarówno technicznego, jak i nietechnicznego, kto ma minimalne doświadczenie z AI. Dowiemy się razem, co do diabła dzieje się z tymi wszystkimi narzędziami chatbota — ChatGPT, nowy Bing, Bard, Copilot, lista jest długa. Czy są przereklamowane? Do czego są zdolni? Czy są wystarczająco prywatne, bezpieczne i etyczne? To są duże pytania i nie da się na nie odpowiedzieć w jednym poście. Ale mam nadzieję, że uda mi się to rozbić bez żargonu, który wydaje się być w każdym artykule, który do tej pory przeczytałem.
W tym artykule omówimy definicję sztucznej inteligencji, uczenie maszynowe, OpenAI i najnowsze zapowiedzi produktów AI.
Ten artykuł wspomina o firmie Microsoft, moim pracodawcy. Ten artykuł napisałem w wolnym czasie i wszystkie opinie są moimi własnymi.
Ze sztuczną inteligencją zetknąłem się dopiero na początku lutego , kiedy nasz zespół był podekscytowany FHL obejmującym całą organizację — tygodniem nauki i naprawiania hacków, w którym zasadniczo możemy robić, co chcemy. Tematem, który zdominował rozmowy był ChatGPT i potencjał narzędzi z nim związanych. Spędziłem ten tydzień nerwowo ucząc się podstaw współczesnej sztucznej inteligencji, terminów z nią związanych i ostatnich wydań produktów. Mój zespół przekazał dane modelom i tak dalej, ale ja po prostu czytałem artykuły w Wikipedii i poprosiłem ChatGPT o wyjaśnienie mi, jak to działa. Kiedy mój zespół miał działający dowód słuszności koncepcji, zapytałem ich, jak to zrobili, i zgłosiłem się na ochotnika do stworzenia filmu promocyjnego. Tak się zdenerwowałem, że wziąłem dzień wolny. Ale uczyłem się dalej.
A potem wydano „nowego Binga”, pojawił się GPT-4 i ogłoszono Microsoft 365 Copilot, a Google wydało wiele własnych ogłoszeń. Wszystkie te zmiany są niezwykle ważne i podkreślają nowy potencjał narzędzi sztucznej inteligencji. Pogłębiają też moje poczucie niekompetencji i przytłoczenia. Ale jedynym wyjściem jest przejście, prawda? Więc chodźmy.
Sztuczna inteligencja to zdolność do zrobienia czegoś, co „wydaje się sprytne” : dobrze rozegrać grę, rozpoznać pismo odręczne, zamienić mowę na tekst, polecić film do obejrzenia lub wygenerować akapit w odpowiedzi na pytanie napisane prostym angielskim. Wydaje się, że ta definicja obejmuje wiele: i tak jest! 100 lat temu wszystko odbywało się ręcznie, od podstawowych działań arytmetycznych, przez przygotowywanie dokumentów, planowanie po planowanie międzynarodowych rządów. Dostępne narzędzia mogły jedynie przekazywać istniejące informacje, nie mogły ich podsumować ani „zrobić” z nimi czegokolwiek. Narzędzia sztucznej inteligencji określają następny ruch w grze planszowej lub następne słowo w zapytaniu lub czy słowo jest źle napisane. Każde narzędzie, które może generować dane wyjściowe inne niż te, które wprowadzasz, jest w najbardziej podstawowym sensie narzędziem sztucznej inteligencji.
Częściej myślimy o sztucznej inteligencji „wyższego poziomu”, która robi „naprawdę inteligentne rzeczy”: kiedy mówimy o „algorytmie” obecnym w YouTube, Facebooku, TikToku, Amazonie i innych miejscach, który poleca treści, mamy na myśli algorytm sztucznej inteligencji. Oczywiście to, co ktoś uważa za „naprawdę mądre”, będzie się bardzo różnić w zależności od tego, kogo i kiedy zapytasz. 50 lat temu zdolność komputera do gry w warcaby była zdumiewająca, teraz jest to „tylko obliczenie”. To jest efekt sztucznej inteligencji i próbowałem temu przeciwdziałać za pomocą mojej wcześniejszej szerokiej definicji sztucznej inteligencji. ChatGPT i inne nowe „narzędzia chatbota” są niemal jednogłośnie uważane za sztuczną inteligencję „wyższego poziomu”, ale tak naprawdę nie ma zasadniczej różnicy między ChatGPT a prostym kalkulatorem. Oba przyjmują dane wejściowe, wykonują obliczenia (OK, ChatGPT robi dużoobliczeń) i podaj nowe dane wyjściowe na podstawie danych wejściowych. Oba są AI. Co ich zatem dzieli?
Uczenie maszynowe to najczęściej omawiany sposób, w jaki inżynierowie tworzą algorytmy AI „wyższego poziomu”. Podobnie jak sztuczna inteligencja, uczenie maszynowe jest bardzo szeroką dziedziną. Cechą charakterystyczną algorytmu uczenia maszynowego (w porównaniu z innym algorytmem sztucznej inteligencji) jest to, że inżynierowie nie „bezpośrednio” mówią mu dokładnie, co ma robić. Zamiast tego algorytm uczenia maszynowego otrzymuje dane szkoleniowe (przykładowe dane wejściowe i wyjściowe) i oczekuje się, że „nauczy się” wzorca między wejściem a wyjściem. Na przykład algorytm mógłby otrzymać 10 000 zdjęć psów z przykładowym wynikiem „to jest pies”, a następnie 10 000 zdjęć dosłownie czegokolwiek innego z przykładowym wynikiem „to nie jest pies”. Stamtąd ktoś mógłby dać algorytmowi nowy obraz, a algorytm wykorzystałby swoją wiedzę, aby powiedzieć „to jest pies” lub „to nie jest pies”.
Uczenie maszynowe nie ogranicza się jednak do klasyfikowania obrazów: jest to ten sam podstawowy proces, który napędza ChatGPT, „algorytm” obecny w mediach społecznościowych i witrynach sklepowych, algorytmy szachowe i nie tylko. (W ramach ćwiczenia zastanów się, jakie mogą być dane szkoleniowe dla tych algorytmów).
Użyjmy przykładu : warcaby. W tradycyjnym algorytmie inżynierowie mogliby powiedzieć „OK, komputer, oto aktualna tablica. Przejrzyj wszystkie możliwe następne ruchy i oceń każdy ruch w zależności od tego, ile pionków ma drugi gracz i ile twoich elementów jest wrażliwych. Wybierz ruch z najwyższym wynikiem.” Ten system punktacji jest uważany za modelowy: funkcja matematyczna, która oblicza wynik dla danego wejścia. Ten algorytm to sztuczna inteligencja, ale nie jest to uczenie maszynowe. W uczeniu maszynowym algorytm otrzymałby dane treningowe: „OK komputer, oto szachownica, oto najlepszy następny ruch. Podaliśmy Ci 100 takich przykładów. Naucz się grać w warcaby”. Algorytm buduje swój własny model, ponownie dostosowując swoją funkcję punktacji podczas przechodzenia przez dane treningowe. Zmienia swoją punktację na podstawie tego, co odgadł i jaki był oczekiwany wynik. Podczas gdy algorytm przechodzi przez dane treningowe, mówi się, że uczy się lub trenuje swój model. Następnie używa tego przeszkolonego modelu do przewidywania nowych danych wejściowych. Moglibyśmy pokazać wyszkolonemu algorytmowi szachownicę, której nigdy wcześniej nie widział, a on użyłby swojego modelu do oceny możliwych kolejnych ruchów i dokonania wyboru.
OpenAI to laboratorium stojące za ChatGPT . Został założony w 2015 roku. OpenAI ukuł termin generatywny wstępnie wyszkolony transformator (GPT) w 2018 roku. Generatywny oznacza po prostu, że model będzie generował treść, taką jak tekst. Porozmawiamy więcej o „wstępnie wyszkolonych” i „transformatorach” w następnym artykule, ale bardziej dotyczą one sposobu zbudowania algorytmu, a nie tego, co potrafi. Ale te rzeczy GPT-n (GPT-2, GPT-3 itp.) To tylko modele, w szczególności duże modele językowe (LLM). LLM pobiera tekst, ocenia potencjalny tekst wyjściowy, a następnie zwraca tekst z najwyższym wynikiem. Nie są bezpośrednio interaktywne, jak ChatGPT.
Istnieją inne LLM stworzone przez inne duże firmy: na przykład Google ma LaMDA . Te nowe „narzędzia chatbota” składają się w zasadzie z dwóch części: część, która przyjmuje Twój monit (Twoja wiadomość do chatbota) oraz sam model języka. Te dwie części komunikują się ze sobą tak, jak Twoja przeglądarka rozmawia z Google podczas wyszukiwania w Internecie.
ChatGPT to strona internetowa, która rozmawia z modelem GPT za kulisami. Inne firmy budują własne narzędzia, które komunikują się z GPT-n lub modelem ChatGPT. Na przykład „ nowy Bing ” rozmawia z GPT-4 , który właśnie został udostępniony publicznie 14 marca 2023 r.
(Aktualizacja z 8 kwietnia: powinienem wyjaśnić, że ChatGPT to także nazwa modelu , z którym komunikuje się witryna ChatGPT. Jest on wymieniony jako „gpt-3.5-turbo” w wielu dokumentach OpenAI , więc możesz usłyszeć, jak ludzie mówią „ChatGPT rozmawia z GPT -3,5” lub „ChatGPT rozmawia z modelem GPT-3.5”, z których oba są zwykle wystarczająco zbliżone).
Lekka styczna: Microsoft jest głównym partnerem OpenAI . GPT-4 był szkolony na superkomputerze zbudowanym przez Microsoft . Ten superkomputer jest piątym co do wielkości na świecie. I został zbudowany tylko dla OpenAI. Microsoft zainwestował miliardy dolarów w laboratorium i podobno jest 49% udziałowcem od stycznia 2023 r. Och, GPT-3 jest licencjonowany wyłącznie dla firmy Microsoft — oznacza to, że Microsoft określa, kto może, a kto nie może tworzyć przyszłych narzędzi, takich jak ChatGPT za pomocą tego modelu. Nie jestem jeszcze pewien statusu GPT-4, ale nie byłbym zbytnio zaskoczony, gdyby wszystkie przyszłe modele GPT-n były przeznaczone wyłącznie dla Microsoftu.
Dlaczego firmy ogłaszają tak wiele narzędzi do chatbotów? Krótko mówiąc, wiele firm już jakiś czas temu dostrzegło potencjał LLM i od tego czasu te narzędzia są w fazie prac. Ale dzięki bezprecedensowej popularności ChatGPT inżynierowie prawdopodobnie uzyskali dodatkowe możliwości i od tego czasu jest to dobrze nagłośniony wyścig.
Narzędzia są potężne, ponieważ używają prostego języka angielskiego zarówno do wprowadzania, jak i wyprowadzania . Podobnie jak tradycyjna wyszukiwarka, nie musimy pamiętać określonego sposobu mówienia do komputera: po prostu wpisujemy to, co myślimy i otrzymujemy wyniki. Co więcej, dane wyjściowe są również po angielsku! Zamiast listy (reklam i) być może przydatnych linków dostajemy po prostu… odpowiedź! Narzędzia zbudowane wokół modeli OpenAI dosłownie wyeliminowały wyszukiwanie z wyszukiwania. Czy możesz powiedzieć, że jestem podekscytowany? (Uwaga dodatkowa: eksperci określają „zwykły angielski” jako „język naturalny”).
Wreszcie, szerokość i głębokość tych narzędzi wydaje się naprawdę nieograniczona. Wierzę, że Microsoft zapowiedział Microsoft 365 Copilotmówi samo za siebie, ale jeśli 40-minutowe demo i przegląd to dla ciebie za dużo, podsumuję. Firma Microsoft wierzy w moc narzędzi, w których wprowadzasz prosty angielski, i generuje przydatne informacje, a nawet pomocną modyfikację dokumentu. Copilot to w zasadzie „ChatGPT, który ma dostęp do twoich dokumentów Microsoft 365”. Poproś Copilota o 3-minutowy szkic przemówienia z okazji ukończenia szkoły przez twoją córkę, pamiętaj, aby wspomnieć o jej dobrych ocenach, tym, jak bardzo jesteś z niej dumny i jak podekscytowany jesteś jej przyszłością, a dostaniesz to. Natychmiast. Bez szukania, bez kopiowania i wklejania, bez niczego. Celem paradygmatu „drugiego pilota” jest zapewnienie wersji roboczych i opcji szybkiej naprawy bez przejmowania kontroli i bez konieczności wykonywania przez użytkownika jakiejkolwiek pracowitej pracy. Zamiast pytać swojego „kolegę z Excela”, jak napisać konkretną formułę (patrzę na ciebie, tato) lub próbuje przesiać wyniki z Google, po prostu zapytaj drugiego pilota. Nie tylko poda ci formułę, ale zwizualizuje ją dla ciebie, zapewni dodatkowy kontekst na jej temat, dostarczy alternatywnych sugestii - cokolwiek! OK, to zaczyna brzmieć jak reklama (nie jest), ale naprawdę jestem podekscytowany. Nie korzystałem jeszcze z funkcji Copilot, ale chętnie to zrobię i zdam relację, kiedy tylko będę mógł. Jeśli taka technologia zadziała, „po prostu Google to” zostanie zastąpione przez „po prostu zapytaj drugiego pilota”.
Microsoft nie jest sam: Google ogłosił podobne funkcje dla Google Workspace , a obie firmy ogłosiły jakąś formę platform dla programistów, które umożliwią inżynierom tworzenie własnych środowisk opartych na LLM-AI: Microsoft ma Semantic Kernel , a Google ma MakerSuite . W chwili pisania tego tekstu Google Bard właśnie wszedł do publicznej wersji zapoznawczej . Nie słyszałem jeszcze zbyt wiele od Amazon, Apple ani innych firm Big Tech, ale to tylko kwestia czasu.
Ponadto OpenAI opublikowało 6 historii klientów dotyczących GPT-4: Duolingo , Khan Academy , Government of Iceland , Stripe , Morgan Stanley i Be My Eyes . Historie te podkreślają różnorodność aplikacji LLM poza znanymi nam „narzędziami chatbota”. Spodziewaj się, że ta technologia zacznie być integrowana w coraz bardziej unikalny sposób!
Najwyraźniej wielu dużych graczy w branży wierzy, że te nowe narzędzia chatbota będą równie rewolucyjne, jak smartfony. Jestem skłonny im uwierzyć.
To podsumowanie części 1! Mam nadzieję, że ten artykuł pomógł ci zrozumieć obecny krajobraz sztucznej inteligencji i to, co może przynieść najbliższa przyszłość. Jeśli jeszcze tego nie zrobiłeś, możesz bezpłatnie korzystać z ChatGPT , wypróbować nową usługę Bing lub oglądać niekończące się pokazy na dowolnej stronie wideo w pobliżu.
Dziękuję za przeczytanie. Czego chcesz się dowiedzieć? Jak mogę pomóc? Daj mi znać w komentarzach!
Oto drugi artykuł z tej serii:
Sztuczna inteligencja to modne słowo. Oto prawdziwe słowa, które warto znaćZaktualizowano 8 kwietnia, aby wyjaśnić, że ChatGPT jest zarówno modelem, jak i produktem.
Zaktualizowano 16 kwietnia, aby dodać podtytuł.
Zaktualizowano 6 maja, aby uzyskać bardziej atrakcyjny wyróżniony obraz (mózg, robot i emotikony eksplodującej głowy na niebieskim tle). Zaktualizował także wniosek i zmienił „nowy Bing” na „nowy Bing”.
Zaktualizuj 7 maja, aby zdefiniować „monit” i dodać zastrzeżenie „niezależny od firmy Microsoft”.