Dlaczego „multimodalna sztuczna inteligencja” jest obecnie najgorętszą rzeczą w technologii

OpenAI i Google zaprezentowały w tym tygodniu swoją najnowszą i najlepszą technologię sztucznej inteligencji . Przez ostatnie dwa lata firmy technologiczne prześcigały się w ulepszaniu modeli sztucznej inteligencji, ale teraz pojawił się nowy cel: uczynienie ich multimodalnymi. OpenAI i Google skupiają się na sztucznej inteligencji, która może płynnie przełączać się między automatycznymi ustami, oczami i uszami.
powiązana zawartość
„Multimodalny” to najczęstsze hasło, ponieważ firmy technologiczne obstawiają, jak najbardziej kusząca forma ich modeli sztucznej inteligencji pojawi się w Twoim codziennym życiu. Chatboty AI straciły swój blask od czasu wprowadzenia ChatGPT w 2022 r. Firmy mają więc nadzieję, że rozmowa z asystentem AI i wizualne udostępnianie mu treści będzie bardziej naturalne niż pisanie. Kiedy widzisz dobrze działającą multimodalną sztuczną inteligencję, masz wrażenie, że science fiction ożywa.
powiązana zawartość
- Wyłączony
- język angielski
W poniedziałek OpenAI pokazało GPT-4 Omni , co dziwnie przypomina dystopijny film o utraconej ludzkiej relacji Her. Omni oznacza „omnichannel”, a OpenAI zachwalało zdolność modelu do przetwarzania wideo wraz z dźwiękiem. Demo pokazało, że ChatGPT przygląda się problemowi matematycznemu przez kamerę telefonu, podczas gdy pracownik OpenAI ustnie prosi chatbota o przeprowadzenie go przez to rozwiązanie. OpenAI twierdzi, że jest już udostępniane użytkownikom Premium.
Następnego dnia Google zaprezentowało Projekt Astra , który obiecał zrobić mniej więcej to samo. Florence Ion z Gizmodo wykorzystała multimodalną sztuczną inteligencję do zidentyfikowania sztucznych kwiatów, na które patrzyła, i prawidłowo zidentyfikowała je jako tulipany. Jednak Projekt Astra wydawał się nieco wolniejszy niż GPT-4o, a głos był znacznie bardziej automatyczny. Bardziej Siri niż Ona , ale pozwolę ci zdecydować, czy to dobrze. Google twierdzi jednak, że jest to na wczesnym etapie i nawet zauważa pewne obecne wyzwania, które OpenAI przezwyciężyło.
„Chociaż poczyniliśmy niesamowite postępy w opracowywaniu systemów sztucznej inteligencji, które potrafią zrozumieć informacje wielomodalne, skrócenie czasu reakcji do poziomu konwersacyjnego jest trudnym wyzwaniem inżynieryjnym” – stwierdził Google w poście na blogu.
Być może pamiętasz film demonstracyjny Google Gemini z grudnia 2023 r., który okazał się mocno zmanipulowany. Sześć miesięcy później Google nadal nie jest gotowy, aby opublikować to, co pokazał w tym filmie, ale OpenAI przyspiesza dzięki GPT-4o. Multimodalna sztuczna inteligencja to kolejny wielki wyścig w rozwoju sztucznej inteligencji, a OpenAI wydaje się wygrywać.
Kluczową różnicą w GPT-4o jest to, że pojedynczy model AI może natywnie przetwarzać dźwięk, wideo i tekst. Wcześniej OpenAI potrzebowało oddzielnych modeli sztucznej inteligencji do tłumaczenia mowy i wideo na tekst, aby bazowy GPT-4, oparty na języku, mógł zrozumieć te różne media. Wygląda na to, że Google może nadal używać wielu modeli sztucznej inteligencji do wykonywania tych zadań, biorąc pod uwagę wolniejszy czas reakcji.
Zaobserwowaliśmy także szersze zastosowanie urządzeń do noszenia ze sztuczną inteligencją , ponieważ firmy technologiczne wdrażają multimodalną sztuczną inteligencję. Humane AI Pin, Rabbit R1 i Meta Ray-Bans to przykłady urządzeń obsługujących sztuczną inteligencję, które wykorzystują te różne media. Urządzenia te obiecują, że będziemy mniej zależni od smartfonów, choć możliwe, że Siri i Asystent Google wkrótce również zostaną wyposażone w multimodalną sztuczną inteligencję.
Multimodalna sztuczna inteligencja to prawdopodobnie coś, o czym usłyszysz znacznie więcej w nadchodzących miesiącach i latach. Jej rozwój i integracja z produktami może znacznie zwiększyć użyteczność sztucznej inteligencji. Technologia ostatecznie odciąża Cię podczas transkrypcji świata do LLM i pozwala sztucznej inteligencji „zobaczyć” i „usłyszeć” świat dla siebie.

