Jak przekroczyłem granice fotorealizmu AI i dlaczego zrezygnowałem: część 1


Każda historia ma swój początek
W ciągu 3 do 5 miesięcy przesuwałem granice „fotorealistycznych” technik i stylów sztuki sztucznej inteligencji. Powinienem najpierw powiedzieć, że nie jestem artystą. Jestem inżynierem oprogramowania, być może pozbawionym motywacji technologiem i intensywnie studiowałem rynki. Jednak praktykowałem tradycyjne metody sztuki i malarstwo cyfrowe przez około 3 lata ponad 20 lat temu! Nauczyłem się nawet trochę modelowania 3D.
Moim pierwszym kontaktem ze sztuką była najprawdopodobniej wczesna komputerowa grafika pikselowa i sztuka cyfrowa. W pewnym momencie dowiedziałem się, że większość wspaniałych dzieł sztuki pikselowej, które ceniłem, to kopie innych wielkich artystów, takich jak Boris Vallejo, Sorayama Hajime czy Julie Bell. Grafika pikselowa była bardzo specyficzną i czasami żmudną umiejętnością, którą doceniałem, ale nie interesowałem się jej opanowaniem. Doprowadziło to jednak do tego, że studiowałem mistrzów, od których oni kopiowali.
Mam nawet mgliste wspomnienia z ogólnych rozmów z mistrzami sztuki cyfrowej, takimi jak Craig Mullins. Pamiętam, jak błagał, żeby pozbyć się pustego białego tła z gradientem i blokiem kształtów nad tym. To była świetna technika dla kogoś, kto był tak utalentowany jak Mullins i potrzebował wolności od duszenia tradycyjnych technik. Ale dla kogoś bez wiedzy technicznej, takiej jak ja, nie jestem pewien, czy było to właściwe podejście.
I tak naprawdę to podsumowuje wiele moich wczesnych prób. Była to mieszanka różnych klasycznych nauk i rzeczy, które próbowałem zaczerpnąć od innych profesjonalistów. Prawdziwy problem polegał na tym, że nie miałem talentu, aby zrealizować swoją wizję. Popełniłem kolejny błąd, gdy zbyt wcześnie zacząłem próbować tworzyć oryginalne prace. Czułem, że jeśli mogę sobie wyobrazić pracę, to z pewnością mogę ją stworzyć. Uważam, że ta umiejętność postrzegania celu w sztuce lub dążenia do niego jest cenna — w przeciwnym razie pozostaje ci tylko kopiowanie innych. Jednak, aby dokonać ustrukturyzowanego postępu, trzeba mieć niemal naukowy proces, w jaki sposób można osiągnąć pożądany rezultat. W przypadku każdego nowego dzieła sztuki należy wiedzieć, jak osiągnąć 80% efektu końcowego — tylko 20% powinno być uczenie się lub niewiadome. W ten sposób czuję postęp.
W pewnym momencie zdałem sobie sprawę, że nie mogę zrealizować swoich wizji. I szczerze mówiąc, rozpoznałem coś w lepszych artystach: zadowalali się malowaniem i odosobnieniem na długi czas, podczas gdy mój umysł zaczynał pracować na pełnych obrotach, kiedy malowałem. Podczas malowania stałem się znudzony lub niespokojny. Potrzebowałem więcej intelektualnej stymulacji i ponownie skupiłem się na rynkach i handlu oraz mojej inżynierii oprogramowania.
Jednak „błąd” tworzenia dzieł mistrzowskich wciąż czaił się w tle.
Hawker przyszłości
Ten „błąd”, kiedy dowiedziałem się o Dalle-2. Mówiłem wszystkim, których znałem, jak AI i ML zmienią sztukę, handel i świat, jaki znamy. Ale tak naprawdę nie zadałem sobie trudu, aby spróbować stworzyć jakąkolwiek sztukę z najnowszymi technologiami sztucznej inteligencji. I w pewnym momencie dziwne przemieszczenie wiedzy o przyszłej technologii i mój brak doświadczenia wywarły na mnie wrażenie: muszę zdobyć trochę doświadczenia z tą technologią.
Kiedy próbowałem uzyskać dostęp do Dalle-2, dowiedziałem się, że jest dostępny tylko dla wybranej grupy wcześniej wybranych osób. Nie mogłem uzyskać dostępu: dowiedziałem się jednak o generatorze sztucznej inteligencji o nazwie „Dalle-mini”, do którego również mogłem uzyskać dostęp.
Dalle-mini

Dalle-mini jest co najwyżej około 1/1000 tak wydajny jak Dalle2. Większość ludzi, którzy używali Dalle-mini, używała go do tworzenia żartobliwych memów, takich jak zdjęcia z kamery terenowej. To było dość okropne w porównaniu do Dalle2.
Na początku korzystałem z usługi publicznej, ale szybko zdałem sobie sprawę, że muszę skonfigurować własny serwer, aby móc generować wystarczającą liczbę przebiegów. Wymagało to skonfigurowania serwera Linux w ramach usługi Docker lub WSDL. To nie jest dla osób o słabym sercu i było dla mnie wyzwaniem, nawet z moim silnym zapleczem technicznym.
Dalle-mini miał jednak pewne zalety, ponieważ był dość szybki i zwracał wynik w ciągu około 2 minut, a co najważniejsze był bezpłatny. Doprowadziło to do mojego pierwszego poważnego doświadczenia z szybkim hakowaniem. W przypadku grafiki AI przekazujesz AI opis tekstowy grafiki, którą chcesz stworzyć, a ona wypluwa wynik. Przez większość czasu pluje jak psie wymiociny, ale jeśli będziesz dalej hakować, ciągle podpowiadać, możesz zacząć uzyskiwać dobre wyniki. Uzyskanie świetnego wyniku wymagało poważnych umiejętności podpowiadania, a następnie umożliwienia wygenerowania tony obrazów w celu wybrania najlepszych prac.
Na początku tej sekcji możesz zobaczyć moją wczesną „pracę z portalami”. Dalle-mini generował obrazy o stosunkowo niskiej rozdzielczości, ale udało mi się uzyskać lepsze wyniki, stosując algorytmy sztucznej inteligencji z superskalowaniem lub próbkowaniem w górę.



Dalle-mini potrafił tworzyć przedstawienia wizualne, ale najczęściej nie były one zbyt artystyczne. Zwykle wyświetla się dosłownie, nierafinowany i często nieartystyczny. Oczywiście nie oznacza to, że nie mógłby stworzyć czegoś artystycznego z poważnym, szybkim hakowaniem i uruchomieniem własnego serwera, ale tradycyjny artysta nie straciłby snu z powodu jego możliwości.
Wczesne prace Disco Difusion



Kiedy po raz pierwszy zobaczyłem utwór Disco Diffusion oznaczony na Twitterze, byłem zachwycony. Poziom szczegółowości był niesamowity! To było prawie za dużo szczegółów. W przeciwieństwie do nudnych, dosłownych przedstawień w niskiej rozdzielczości stworzonych przez dalle-mini, to były szczegóły w wysokiej rozdzielczości, malarskie, wspaniałe. Nie było usługi publicznej dla Disco Diffusion. A moja karta graficzna nie miała wystarczającej ilości pamięci. Zamiast tego musiałem zapłacić za usługę platformy zdalnego przetwarzania w chmurze AI.
Disco Diffusion ma wiele ograniczeń. Może dobrze wykonywać prace malarskie, ale zmaga się z postaciami, zwierzętami i fotorealizmem. Renderowanie każdego obrazu zajmuje około 30 minut, w porównaniu do około 30 sekund w przypadku Dalle2. Szybkie hakowanie jest wolniejsze, ale nadal krytyczne. Chociaż nie jest to wymagane, wielu artystów zajmujących się rozpowszechnianiem odwołuje się do innych malarzy.


Podtrzymywanie ognia

Generowanie grafiki za pomocą Disco Diffusion to ciężka praca. Kiedy dostałem dobry, szybki zdalny serwer obsługujący GPU, musiałem utrzymywać instancję aktywną, ponieważ były one przeznaczone wyłącznie do użytku w czasie rzeczywistym. Chcesz utworzyć wystarczającą liczbę obrazów z dobrym monitem, aby mieć wystarczająco dużo prac, aby wybrać żądany obraz, ale nie tak wiele, aby było marnotrawstwem. Ogólnie pożądane było około 25 do 50 pokoleń na monit. Często miałem 2 instancje. Wszystko to oznacza, że musisz być przygotowany na długie maratony sesji roboczych.
W tej chwili myślę, że pomocne może być wyjaśnienie czegoś na temat grafiki wspomaganej sztuczną inteligencją i dlaczego wykonałem tak dużo pracy w tak krótkim czasie. Wspomaganie przez sztuczną inteligencję prowadzi do wykładniczego wzrostu i produktywności — to jak film Limitless. Jest to bardzo orzeźwiające, a nawet uzależniające i prowadzi do chęci cięższej pracy. Nieograniczanie się do określonego stylu lub wąskiego motywu sprawia, że osoby o niespokojnym umyśle, takie jak ja, mogą płynąć kreatywnymi sokami.



Tradycyjny artysta musi nauczyć się rozwiązywać problemy specyficzne dla rodzaju malarstwa, które chce malować. Wypracowanie unikalnego stylu jest trudne. Artysta wspomagany przez sztuczną inteligencję może podejmować nowe style tak często, jak zmienia się nastrój wraz z pogodą.
Tajna broń i upokarzająca sztuczna inteligencja

Podczas gdy sztuczna inteligencja generowała dokładne obrazy, zacząłem od mojej wizji, mojej intencji i postrzegałem wszystko jako proste prowadzenie sztucznej inteligencji do mojego wyniku. Jednak mniej więcej w tym czasie dowiedziałem się o Open GPT, który był generatorem tekstu i zacząłem go używać do opisywania obrazów, które później udostępniłem Disco Diffusion. Doprowadziło to do powyższego rezultatu i niektórych z najbardziej artystycznych i interesujących prac, które, jak sądzę, stworzyłem.


Nie wierz w kłamstwa


Pozwólcie, że zrobię krok w celu wyjaśnienia wszystkim tym tradycyjnym artystom, którzy teraz myślą, że sztuczna inteligencja wykonała całą pracę. Musiałem poprosić o zhakowanie GPT, aby uzyskać wyniki takie, jak chciałem. Natychmiast zhakowałem GPT, aby uzyskać pożądaną wizję, a następnie zhakowałem ten wynik. Co więcej, kilka z tych prac przeniosłem do Photoshopa i wykonałem obszerną i dodatkową obróbkę końcową, aby były jak najlepsze.
Najlepszą częścią sztucznej inteligencji dla artysty cyfrowego jest to, że zamiast zaczynać od białego tła (lub wypełnienia gradientowego, jak zalecał Mullins) — możesz zacząć od dowolnego poziomu i pracować nad rozwiązywaniem problemów swojego obrazu na swoim poziom. To jest ogromna wartość.
Mowa o Photoshopie


Moje umiejętności związane z Photoshopem znacznie się poprawiły wraz z moimi umiejętnościami sztucznej inteligencji. Umiejętność wykorzystania AI pozwoliła mi skupić się na technice w malarstwie i rozwiązywaniu konkretnych problemów. Co ważne, technologia sztucznej inteligencji również szybko się rozwijała. Poniżej znajduje się przykład mojego cyfrowego obrazu w Photoshopie, w którym połączyłem wiele przebiegów AI, ala „matowy styl malowania”, aby uzyskać pożądany efekt końcowy.


Na tym kończy się pierwsza część mojej podróży ze sztuką AI. Więcej o tym, jak przesuwałem granice fotorealistycznej sztucznej inteligencji oraz o czynnikach, które doprowadziły do mojego odejścia, opowiem w części 2.
Podobał Ci się ten artykuł? Komentujcie, lajkujcie i koniecznie obserwujcie . Muszę zdobyć 100 subskrybentów dla Medium, aby rzucić mi kość do podziału zysków.