Dlaczego „multimodalna sztuczna inteligencja” jest obecnie najgorętszą rzeczą w technologii

May 16 2024

Rozpoczął się nowy wyścig w technologii, dzięki któremu sztuczna inteligencja widzi i słyszy świat wokół ciebie, a ostatecznie nadaje mu sens.

OpenAI i Google zaprezentowały w tym tygodniu swoją najnowszą i najlepszą technologię sztucznej inteligencji . Przez ostatnie dwa lata firmy technologiczne prześcigały się w ulepszaniu modeli sztucznej inteligencji, ale teraz pojawił się nowy cel: uczynienie ich multimodalnymi. OpenAI i Google skupiają się na sztucznej inteligencji, która może płynnie przełączać się między automatycznymi ustami, oczami i uszami.

powiązana zawartość

10 najważniejszych rzeczy, których dowiedzieliśmy się o nowej sztucznej inteligencji Google Gemini

Asystent Google właśnie został doładowany sztuczną inteligencją. To może być największa aktualizacja w historii Google.

„Multimodalny” to najczęstsze hasło, ponieważ firmy technologiczne obstawiają, jak najbardziej kusząca forma ich modeli sztucznej inteligencji pojawi się w Twoim codziennym życiu. Chatboty AI straciły swój blask od czasu wprowadzenia ChatGPT w 2022 r. Firmy mają więc nadzieję, że rozmowa z asystentem AI i wizualne udostępnianie mu treści będzie bardziej naturalne niż pisanie. Kiedy widzisz dobrze działającą multimodalną sztuczną inteligencję, masz wrażenie, że science fiction ożywa.

powiązana zawartość

10 najważniejszych rzeczy, których dowiedzieliśmy się o nowej sztucznej inteligencji Google Gemini

Asystent Google właśnie został doładowany sztuczną inteligencją. To może być największa aktualizacja w historii Google.

Dlaczego wszyscy pozywają firmy zajmujące się sztuczną inteligencją? | Technologia przyszłości

Udział

Napisy na filmie obcojęzycznym

Wyłączony
język angielski

Udostępnij ten film

Facebook Twitter E-mail

Link do Reddita

Dlaczego wszyscy pozywają firmy zajmujące się sztuczną inteligencją? | Technologia przyszłości

W poniedziałek OpenAI pokazało GPT-4 Omni , co dziwnie przypomina dystopijny film o utraconej ludzkiej relacji Her. Omni oznacza „omnichannel”, a OpenAI zachwalało zdolność modelu do przetwarzania wideo wraz z dźwiękiem. Demo pokazało, że ChatGPT przygląda się problemowi matematycznemu przez kamerę telefonu, podczas gdy pracownik OpenAI ustnie prosi chatbota o przeprowadzenie go przez to rozwiązanie. OpenAI twierdzi, że jest już udostępniane użytkownikom Premium.

Następnego dnia Google zaprezentowało Projekt Astra , który obiecał zrobić mniej więcej to samo. Florence Ion z Gizmodo wykorzystała multimodalną sztuczną inteligencję do zidentyfikowania sztucznych kwiatów, na które patrzyła, i prawidłowo zidentyfikowała je jako tulipany. Jednak Projekt Astra wydawał się nieco wolniejszy niż GPT-4o, a głos był znacznie bardziej automatyczny. Bardziej Siri niż Ona , ale pozwolę ci zdecydować, czy to dobrze. Google twierdzi jednak, że jest to na wczesnym etapie i nawet zauważa pewne obecne wyzwania, które OpenAI przezwyciężyło.

„Chociaż poczyniliśmy niesamowite postępy w opracowywaniu systemów sztucznej inteligencji, które potrafią zrozumieć informacje wielomodalne, skrócenie czasu reakcji do poziomu konwersacyjnego jest trudnym wyzwaniem inżynieryjnym” – stwierdził Google w poście na blogu.

Być może pamiętasz film demonstracyjny Google Gemini z grudnia 2023 r., który okazał się mocno zmanipulowany. Sześć miesięcy później Google nadal nie jest gotowy, aby opublikować to, co pokazał w tym filmie, ale OpenAI przyspiesza dzięki GPT-4o. Multimodalna sztuczna inteligencja to kolejny wielki wyścig w rozwoju sztucznej inteligencji, a OpenAI wydaje się wygrywać.

Kluczową różnicą w GPT-4o jest to, że pojedynczy model AI może natywnie przetwarzać dźwięk, wideo i tekst. Wcześniej OpenAI potrzebowało oddzielnych modeli sztucznej inteligencji do tłumaczenia mowy i wideo na tekst, aby bazowy GPT-4, oparty na języku, mógł zrozumieć te różne media. Wygląda na to, że Google może nadal używać wielu modeli sztucznej inteligencji do wykonywania tych zadań, biorąc pod uwagę wolniejszy czas reakcji.

Zaobserwowaliśmy także szersze zastosowanie urządzeń do noszenia ze sztuczną inteligencją , ponieważ firmy technologiczne wdrażają multimodalną sztuczną inteligencję. Humane AI Pin, Rabbit R1 i Meta Ray-Bans to przykłady urządzeń obsługujących sztuczną inteligencję, które wykorzystują te różne media. Urządzenia te obiecują, że będziemy mniej zależni od smartfonów, choć możliwe, że Siri i Asystent Google wkrótce również zostaną wyposażone w multimodalną sztuczną inteligencję.

Multimodalna sztuczna inteligencja to prawdopodobnie coś, o czym usłyszysz znacznie więcej w nadchodzących miesiącach i latach. Jej rozwój i integracja z produktami może znacznie zwiększyć użyteczność sztucznej inteligencji. Technologia ostatecznie odciąża Cię podczas transkrypcji świata do LLM i pozwala sztucznej inteligencji „zobaczyć” i „usłyszeć” świat dla siebie.