AudioGPT: łączenie tekstu z muzyką

May 09 2023
Nowy model AI łączy ChatGPT z modelami audio i muzycznymi
W 2022 roku OpenAI DALL-E zniszczyło świat sztuki. StableDiffusion praktycznie dokonał zamachu stanu.
zdjęcie Marcela Laskoski na Unsplash

W 2022 roku OpenAI DALL-E zniszczyło świat sztuki. StableDiffusion praktycznie dokonał zamachu stanu. Od samego początku apetyty wielkich firm zajmujących się sztuczną inteligencją koncentrowały się na kolejnej granicy: muzyce.

W styczniu 2023 r. Google Research wydał MusicLM, co umożliwiło ludziom korzystanie z monitu tekstowego w celu uzyskania muzyki. Kilka dni temu został wydany model, który jest chatGPT więcej muzyki.

AudioGPT, nowy dyrektor symfonii

obraz autorstwa Kazuo ota na Unsplash

Niedawno badacze z brytyjskich i amerykańskich uniwersytetów zaprezentowali nową pracę o nazwie AudioGPT

Jak przyznają autorzy, ChatGPT i ostatnie postępy w modelach NLP miały szeroki wpływ na społeczeństwo. Zostały one jednak ograniczone do tekstu i nie odniosły sukcesu w innych modalnościach (obrazy, wideo, tekst). Teraz częściowo na obrazach, widzieliśmy próby (a GPT-4 powinien być multimodalny, tekst i obrazy).

W scenariuszu ze świata rzeczywistego ludzie komunikują się za pomocą mowy, a także używają asystenta głosowego. Ponadto znaczna część mózgu i inteligencji poświęcona jest przetwarzaniu informacji z dźwięku. W rzeczywistości nawet duża część naszego społeczeństwa nie tylko się komunikuje, ale słucha muzyki i prowadzi wewnętrzny monolog. Tak więc model, który rozumie tekst i muzykę, wcale nie jest trywialny.

Teraz przetwarzanie muzyki wcale nie jest łatwe z kilku powodów:

  • Dane, w rzeczywistości uzyskiwanie danych mowy oznaczonych przez człowieka, jest znacznie droższym zadaniem niż skrobanie tekstu internetowego (a także bardziej czasochłonne). Ponadto jest znacznie mniej materiału, a co za tym idzie, mniej danych.
  • jest znacznie droższy obliczeniowo.

Chodzi o to, aby mieć LLM jako interfejs, ten LLM następnie dialoguje z modelami podstawowymi poświęconymi mowie i interfejsem do dialogu mowy (interfejs wejścia/wyjścia (ASR, TTS))

źródło obrazka: tutaj

Jak podają autorzy, proces można podzielić na cztery etapy:

  • Modality Transformation , interfejs wejścia/wyjścia do łączenia tekstu i dźwięku.
  • Analiza tekstu , aby umożliwić ChatGPT zrozumienie intencji użytkownika.
  • Przypisanie modelu , ChatGPT przypisuje modele fundamentów audio do zrozumienia i generowania.
  • Generowanie odpowiedzi , generowana jest odpowiedź dla użytkownika.

Zanim przejdziemy do szczegółów, możemy powiedzieć, że AudioGPT to chatbot, który działa jak ChatGPT. Jednak w przeciwieństwie do tego może również obsługiwać dane wejściowe, takie jak mowa i dźwięk, oraz wykonywać manipulacje tymi danymi wejściowymi.

źródło obrazka: tutaj

Następnie model pobiera zarówno dane wejściowe tekstowe, jak i głosowe. Jeśli jest to wejście tekstowe, przetwarza je bezpośrednio, jeśli nie, jeśli jest to mowa, dokonuje transkrypcji na tekst.

Po wykonaniu tej czynności ChatGPT analizuje zapytanie użytkownika (model musi zrozumieć, o co prosi użytkownik i jakie zadanie ma wykonać). Użytkownik może na przykład powiedzieć „Przetranskrybuj ten dźwięk” lub „wygeneruj dźwięk motocykla w deszczu”. Jak widzieliśmy w HugginGPT, gdy ChatGPT zrozumie żądanie, musi je odwzorować na zadanie, które może być następnie wykonane przez inny model.

Po przekształceniu żądania w zadanie wybiera spośród różnych dostępnych modeli (17 dostępnych modeli opisano w powyższej tabeli). Oczywiście każdy model ma swoje własne specyfikacje i może wykonywać różne zadania, AudioGPT w zasadzie decyduje, który model jest najlepszy do danego zadania. Ponadto LLM wykonują zadanie wysłania żądania, aby model mógł je przetworzyć.

Wybrany model wykonuje zadanie (jest używany we wnioskowaniu bez ponownego trenowania) i wysyła wyniki do ChatGPT. ChatGPT generuje odpowiedź, a także dodaje wynik modelu. Następnie LLM przekształcają dane wyjściowe modelu w format zrozumiały dla użytkownika, w formie tekstowej lub z dołączonym plikiem audio.

Zaletą jest to, że proces jest interaktywny, a ChatGPT ma pamięć rozmowy. Możesz więc postrzegać to jako rozszerzenie ChatGPT do plików audio.

przykład wykonanego zadania. źródło obrazka: tutaj

Autorzy ocenili model z różnymi zadaniami, zbiorami danych i metrykami:

źródło obrazka: tutaj

Autorzy postanowili ocenić model również pod kątem solidności, zwracając jednocześnie uwagę na szczególne przypadki, jakie może napotkać model:

  • Długie łańcuchy oceny , model musi uwzględniać długie zależności kontekstowe dla tego zadania (takie jak zarządzanie sekwencją modeli, różnymi modelami).
  • Zadania nieobsługiwane , model musi zapewnić odpowiednią informację zwrotną.
  • Obsługa błędów modeli multimodalnych , w tym przypadku możemy mieć różne dane wejściowe i formaty, które mogą prowadzić do błędów i awarii modelu.
  • Przerwy w kontekście , zapytania przesłane przez użytkownika niekoniecznie są ułożone w logicznej kolejności, ale mogą być w kolejności losowej.

Tutaj możemy zobaczyć kilka przykładów, na przykład AudioGPT jest w stanie generować dźwięki na podstawie obrazów. W tym przykładzie autorzy proszą model o wygenerowanie obrazów dla kota. Innymi słowy, dla obrazu generowany jest podpis, który jest używany do generowania dźwięku. Oczywiście mogą to wykorzystać muzycy, którzy chcą wzbogacić swoje utwory dźwiękami bez konieczności kupowania bibliotek dźwięków. Ponadto szablony zamiany tekstu na wideo mogą być używane do generowania obrazów i filmów oraz AudioGPT do dodawania dźwięków.

źródło obrazka: tutaj

Z drugiej strony AudioGPT nie tylko generuje dźwięki, ale także ludzką mowę. Niesamowite jest to, że można określić informacje o nutach i czas trwania sekwencji. Następnie model generuje śpiew. Innymi słowy, można wygenerować piosenkę.

źródło obrazka: tutaj

Ponadto, biorąc pod uwagę dźwięk, może wygenerować wideo. Moglibyśmy więc potencjalnie stworzyć piosenkę, a następnie wygenerować teledysk (wszystko przy użyciu jednego szablonu)

źródło obrazka: tutaj

Można go również użyć do sklasyfikowania tego, co dzieje się w dźwięku. Ponieważ model zachowuje wiedzę historyczną, możemy wyobrazić sobie operacje sekwencyjne. Wszyscy używają tylko AudioGPT i jego armii modeli.

źródło obrazka: tutaj

Model nie ogranicza się do możliwości generowania dźwięków. Na przykład może wyodrębnić dźwięki, a następnie wyeliminować szum tła lub wyodrębnić dźwięk do wykorzystania w innym kontekście

źródło obrazka: tutaj

Może również oddzielać źródła dźwięku, usuwać również hałas

źródło obrazka: tutaj

a także może tłumaczyć z jednego języka na inny:

źródło obrazka: tutaj

Wydaje się zatem niewiarygodne, co potrafi ten model. Wszystko to po prostu działając jako dyrygent różnych modeli. Użytkownik musi tylko napisać monit, a model zajmie się resztą.

Ale czy nie ma ograniczeń?

  • Szybka inżynieria. Oczywiście pierwszym ograniczeniem jest to, że model zasadniczo wykorzystuje ChatGPT, a użytkownik musi mieć możliwość pisania w monicie, co może być czasochłonne.
  • Ograniczenie długości. Podobnie jak w innych podobnych modelach (HuggingGPT), maksymalna długość podpowiedzi to limit blokujący okno dialogowe i maksymalna liczba instrukcji, jakie może wydać użytkownik.
  • Ograniczenie możliwości. ograniczenia używanych szablonów są ograniczone do możliwości samego AudioGPT.

Lub jeśli nie chcesz tego robić, możesz skorzystać z wersji demonstracyjnej (potrzebny jest również klucz OpenAI API). Pamiętaj, że płacisz za korzystanie z niego:

źródło obrazka: tutaj

Rozstania myśli

obraz Andrea Zanenga na Unsplash

Ten model pokazuje, jak za pomocą prostego monitu LM można połączyć z kilkoma modelami zdolnymi do manipulowania dźwiękiem. Model może generować muzykę i dźwięki lub je modyfikować. Oczywiście jego możliwości będą się zwiększać poprzez wiązanie innych modeli lub poprawę dokładności wykorzystywanych modeli. W ten sposób AudioGPT zyska nowe możliwe zadania i poprawi ich efektywność.

Z drugiej strony istnieją bardzo wydajne modele tekstu i obrazów, ale dopiero niedawno pojawiły się modele zdolne do wykorzystania złożoności dźwięku.

Oczywiście nie jest to ostateczny model, a demonstrator możliwości systemu. W rzeczywistości model nie zawsze obejmuje zadanie lub monit, a zatem wynik jest użyteczny. W przyszłości podobne modele będą w stanie wykonywać zadania od wideo po muzykę, od obrazów po tekst i łączyć je ze sobą.

Ponadto taki system nie ogranicza się do dźwięku; można pomyśleć o modelach, które łączą ze sobą różne modalności. Takie systemy można następnie zintegrować z oprogramowaniem modyfikującym dźwięk (np. Ableton). W przyszłości użytkownik mógłby generować dźwięk za pomocą sztucznej inteligencji, a następnie używać go jako punktu wyjścia do dalszej modyfikacji za pomocą odpowiedniego oprogramowania. Lub dodaj dźwięki i nie tylko do nagranego utworu. Ponadto niekoniecznie za pomocą monitu tekstowego, ale nawet poleceń głosowych

Widzieliśmy wpływ stabilnej dystrybucji na branżę graficzną. Przemysł muzyczny jest kolejnym, który zobaczy efekty sztucznej inteligencji. Otwiera to nowe scenariusze, problemy z prawami autorskimi i wiele więcej. Co myślicie?

Jeśli uznałeś to za interesujące:

Możesz szukać innych moich artykułów, możesz również zapisać się , aby otrzymywać powiadomienia, gdy opublikuję artykuły, możesz zostać członkiem Medium , aby uzyskać dostęp do wszystkich jego artykułów (linki partnerskie platformy, z których otrzymuję niewielkie dochody bez żadnych kosztów) i ty może również połączyć się ze mną lub skontaktować się ze mną na LinkedIn .

Oto link do mojego repozytorium GitHub, w którym planuję gromadzić kod i wiele zasobów związanych z uczeniem maszynowym, sztuczną inteligencją i nie tylko.

lub może zainteresuje Cię jeden z moich ostatnich artykułów:

Wszystko oprócz wszystkiego, co musisz wiedzieć o ChatGPT