OpenAI odkrywa możliwości głosowe GPT-4 Omni i są dosłownie niewiarygodne

May 14 2024

ChatGPT brzmi bardziej ludzko niż kiedykolwiek dzięki wydaniu OpenAI GPT-4 Omni, zdolnemu do przetwarzania tekstu, dźwięku i obrazu z niewielkimi lub żadnymi opóźnieniami.

OpenAI zaprezentowało GPT-4 Omni (GPT-4o) podczas wiosennej aktualizacji w poniedziałek rano w San Francisco. Dyrektor ds. technologii Mira Murati i pracownicy OpenAI zaprezentowali swój najnowszy flagowy model, umożliwiający prowadzenie rozmów werbalnych w czasie rzeczywistym z przyjaznym chatbotem AI, który przekonująco mówi jak człowiek.

powiązana zawartość

Szef ds. zaufania i bezpieczeństwa OpenAI ustępuje ze stanowiska, ponieważ deweloperzy zobowiązują się poświęcić więcej czasu na naprawianie ChatGPT

Sam Altman również uważa, że ChatGPT jest „trochę do bani” i powinien o tym wiedzieć

„GPT-4o zapewnia inteligencję na poziomie GPT-4, ale jest znacznie szybszy” – powiedział Murati na scenie. „Uważamy, że GPT-4o naprawdę zmienia ten paradygmat w przyszłość współpracy, gdzie interakcja staje się znacznie bardziej naturalna i znacznie łatwiejsza”.

powiązana zawartość

Szef ds. zaufania i bezpieczeństwa OpenAI ustępuje ze stanowiska, ponieważ deweloperzy zobowiązują się poświęcić więcej czasu na naprawianie ChatGPT

Sam Altman również uważa, że ChatGPT jest „trochę do bani” i powinien o tym wiedzieć

Dlaczego wszyscy pozywają firmy zajmujące się sztuczną inteligencją? | Technologia przyszłości

Udział

Napisy na filmie obcojęzycznym

Wyłączony
język angielski

Udostępnij ten film

Facebook Twitter E-mail

Link do Reddita

Dlaczego wszyscy pozywają firmy zajmujące się sztuczną inteligencją? | Technologia przyszłości

GPT-40 natychmiast reaguje na werbalne podpowiedzi przyjaznym głosem, który brzmi niesamowicie jak Scarlett Johansson, która podkładała głos asystentce AI w filmie fabularnym Ona. Z wersji demonstracyjnych wynika, że ta technologia zasadniczo sprawia, że ten film staje się rzeczywistością. Przemówienie GPT-4o ma emocjonalną intonację, czasami wyraża podekscytowanie, a czasami śmieje się. Co więcej, potrafi także rozpoznać emocje i ton mowy użytkowników. Pracownicy OpenAI pokazali rozmowy z chatbotami AI niemal bez opóźnień, a chatbot był nawet w stanie szybko się obracać, gdy został przerwany.

Podczas gdy możliwości audio GPT-4o są imponujące, Omni działa w kilku mediach. Podczas gdy ChatGPT przetwarzał wcześniej tekst, obraz i dźwięk za pośrednictwem sieci modeli AI, GPT-4o to pojedynczy model zdolny do przetwarzania wszystkich trzech. Dzięki temu wszystko działa znacznie szybciej. Możesz pokazać GPT-4o obraz zadania matematycznego za pomocą aparatu w telefonie, rozmawiając z modelką. OpenAI twierdzi, że jego nowy flagowy model działa na poziomie inteligencji GPT-4, jednocześnie wyznaczając przełomowe standardy w zakresie możliwości wielojęzyczności, dźwięku i obrazu.

Po tym oszałamiającym demo OpenAI wypuszcza GPT-4o jako aplikację komputerową dla systemu macOS. Płatni użytkownicy również otrzymają dziś aplikację na macOS, ale GPT-4o będzie w przyszłości dostępny dla użytkowników bezpłatnych. Aplikacja komputerowa pozwoli Ci rozpocząć rozmowy głosowe z ChatGPT bezpośrednio z Twojego komputera i udostępnić ekran przy minimalnym tarciu. Strona ChatGPT również otrzyma uproszczone odświeżenie.

W poniedziałek na scenie pracownicy OpenAI Mark Chen i Barret Zoph zademonstrowali, jak działa multimodalny model sztucznej inteligencji działający w czasie rzeczywistym. Rozmowa w czasie rzeczywistym przeważnie działała świetnie, ponieważ Chen i Zoph przerywali modelowi, prosząc go o przestawianie odpowiedzi. GPT-4o opowiadał historie na dobranoc, pomagał w rozwiązywaniu problemów matematycznych i nie tylko. Czasami GPT-4 Omni miał trudności ze zrozumieniem intencji użytkowników, ale model dość sprawnie radził sobie z wpadkami.

Model głosu potrafił wydawać różne głosy podczas opowiadania historii, śmiechu, a nawet w pewnym momencie mówienia „To miło z twojej strony”. Oczywiste jest, że zespół OpenAI zadbał o to, aby GPT-4o wywoływał więcej emocji i był bardziej konwersacyjny niż poprzednie modele głosowe. W wersjach demonstracyjnych ChatGPT brzmiał bardziej ludzko niż kiedykolwiek.

Pracownik OpenAI potwierdził w tweecie, że firma testuje GPT-4o na arenie chatbotów LMSYS Org jako „jestem-również-dobrym-chatbotem-gpt2”. Jak wielu podejrzewało i jak dokuczał Sam Altman, były to modele OpenAI w przygotowaniu. Według pracownika najnowszy chatbot znacznie przewyższa konkurencję, w tym liderów branży GPT-4 Turbo i Claude 3 Opus, pod kilkoma wskaźnikami.

Wydanie GPT-4o wydaje się przełomowym momentem dla przyszłości chatbotów AI. Technologia ta eliminuje wiele niezręcznych opóźnień, które nękały wczesne chatboty. Łatwo sobie wyobrazić wersję Siri, która jest całkiem przydatna w przypadku GPT-4o. Te możliwości w czasie rzeczywistym są prawdopodobnie zasługą najnowszych chipów wnioskowujących Nvidii, o których Murati z pewnością wspomniał przed zakończeniem prezentacji. Niezależnie od tego, OpenAI potwierdziło swoją dominującą pozycję lidera innowacji AI dzięki poniedziałkowej demonstracji. Teraz czekamy, czy prezentacja dokładnie przedstawiła możliwości tego urządzenia, czy też została starannie przygotowana, aby uniknąć oczywistych błędów.