Cómo empujé los límites del fotorrealismo de IA y por qué renuncié: Parte 1


Toda historia tiene su comienzo
Durante 3 a 5 meses, superé los límites en las técnicas y el estilo "fotorrealistas" del arte de la IA. Debo compartir que no soy un artista en primer lugar. Soy ingeniero de software, quizás un tecnólogo desmotivado, y he estudiado los mercados extensamente. Sin embargo, ¡practiqué los métodos tradicionales de arte y pintura digital durante un período de 3 años hace más de 20 años! Incluso aprendí un poco de modelado 3d.
Mi primer contacto con el arte probablemente fue el pixel art y el arte digital. En algún momento, supe que la mayoría de las grandes obras de pixel art que apreciaba eran copias de otros grandes artistas como Boris Vallejo, Sorayama Hajime o Julie Bell. Pixel art era una habilidad muy específica y, a veces, laboriosa que apreciaba pero que no tenía interés en dominar. Sin embargo, esto me llevó a estudiar a los maestros artistas de los que copiaron.
Incluso tengo algunos vagos recuerdos de charlas generales con los grandes del arte digital como Craig Mullins. Recuerdo cómo imploró que se deshiciera del fondo blanco vacío con un degradado y bloques de formas sobre eso. Era una gran técnica para alguien que era tan hábil como Mullins y necesitaba liberarse de las sofocantes técnicas tradicionales. Pero para alguien sin perspicacia técnica como yo, no estoy tan seguro de que fuera el enfoque correcto.
Y, realmente, eso resume muchos de mis primeros intentos. Era una mezcolanza de varias enseñanzas clásicas y cosas que traté de aprender de otros profesionales. El verdadero problema era que no tenía el talento para lograr mi visión. Cometí otro error cuando comencé a intentar crear obras originales demasiado pronto. Sentí que si podía visualizar una obra, seguramente podría crearla. Siento que esta capacidad de ver o trabajar para lograr una meta en el arte es valiosa, o de lo contrario, simplemente te dejan copiando a otros. Sin embargo, para lograr un progreso estructurado, uno debe tener un proceso casi científico sobre cómo logrará el resultado deseado. Para cualquier obra de arte nueva, uno debe saber cómo lograr el 80% del resultado final; solo el 20% debe ser aprendizaje o incógnitas. Así es como siento que se avanza.
Entonces, en algún momento, me di cuenta de que no podía lograr mis visiones. Y, para ser honesto, reconocí algo acerca de los mejores artistas: estaban contentos con pintar y distraerse durante largos períodos de tiempo, mientras que mi mente comenzaba a correr cuando pintaba. Me aburría o me inquietaba al pintar. Necesitaba una mayor estimulación intelectual y me volví a centrar en los mercados y el comercio y mi ingeniería de software.
Sin embargo, el “bicho” por crear obras magistrales seguía ahí en un segundo plano.
Vendedor ambulante del futuro
El "bicho" bit cuando me enteré de Dalle-2. Les decía a todos que sabía cómo AI y ML cambiarían el arte, el comercio y el mundo tal como lo conocemos. Pero, en realidad, no me había molestado en intentar hacer arte con las últimas tecnologías de IA. Y en algún momento, la extraña dislocación del conocimiento de la tecnología futura y mi falta de experiencia me impresionaron: necesito obtener algo de experiencia con esta tecnología.
Cuando traté de obtener acceso a Dalle-2, supe que solo estaba disponible para un grupo selecto de personas preseleccionadas. No pude obtener acceso: sin embargo, me enteré de un generador de IA llamado "Dalle-mini" al que también podía acceder.
Dalle-mini

Dalle-mini es, en el mejor de los casos, aproximadamente 1/1,000 de la capacidad de Dalle2. La mayoría de las personas que usaban Dalle-mini lo usaban para crear memes de broma como imágenes de cámaras de seguimiento. Fue bastante horrible en comparación con Dalle2.
Al principio, estaba usando un servicio público, pero rápidamente me di cuenta de que necesitaba configurar mi propio servidor para poder generar suficientes ejecuciones. Requería que configurara un servidor Linux dentro de un servicio Docker o WSDL. Esto no es para los débiles de corazón y fue un desafío para mí, incluso con mi sólida formación técnica.
Sin embargo, Dalle-mini tenía algunos beneficios, ya que era razonablemente rápido y solo tardaba unos 2 minutos en devolver un resultado y, lo que es más importante, era gratis. Esto me llevó a mi primera experiencia seria con la piratería rápida. Con el arte de IA, le das a la IA una descripción de texto del arte que quieres hacer y escupe un resultado. La mayoría de las veces, escupe como vómito de perro, pero si sigue pirateando, sigue solicitando, puede comenzar a obtener buenos resultados. Obtener un gran resultado se basó en habilidades serias de incitación y luego dejar que generara una tonelada de imágenes para seleccionar los mejores trabajos.
Puede ver mis primeros "trabajos de portales" al comienzo de esta sección. Dalle-mini produjo imágenes de resolución relativamente baja, pero pude obtener mejores resultados usando algoritmos de IA de súper escala o muestreo ascendente.



Dalle-mini podía crear representaciones visuales, pero la mayoría de las veces no eran muy artísticas. Por lo general, genera lo literal, sin refinar y, a menudo, poco artístico. Por supuesto, eso no quiere decir que no pueda crear algo artístico con una piratería rápida y seria y ejecutando mi propio servidor, pero un artista tradicional no perdería el sueño por sus capacidades.
Primeros trabajos de difusión disco



La primera vez que vi una pieza de Disco Diffusion etiquetada en twitter, me quedé impresionado. ¡El nivel de detalle fue increíble! Era casi demasiado detalle. A diferencia de las aburridas representaciones literales de baja resolución creadas por dalle-mini, este era un detalle de alta resolución, pictórico, espléndido. No había un servicio público para Disco Diffusion. Y mi tarjeta gráfica no tenía suficiente memoria. En cambio, tuve que pagar por el servicio remoto de la plataforma de computación en la nube de IA.
Disco Diffusion tiene numerosas limitaciones. Puede hacer bien piezas pictóricas, pero tiene problemas con las figuras, los animales y el fotorrealismo. Cada imagen tarda unos 30 minutos en renderizarse en comparación con los 30 segundos de Dalle2. La piratería rápida es más lenta pero aún crítica. Si bien no es obligatorio, muchos artistas de difusión hacen referencia a otros pintores.


Mantener el fuego avivado

Generar arte con Disco Diffusion es un trabajo duro y serio. Cuando obtuve un buen servidor remoto habilitado para GPU rápido, tuve que mantener la instancia activa porque solo estaban destinados para uso en tiempo real. Desea crear suficientes imágenes con un buen indicador para tener suficientes trabajos para seleccionar la imagen deseada, pero no tantos como para ser un desperdicio. En general, se deseaban alrededor de 25 a 50 generaciones por aviso. A menudo tendría 2 instancias en marcha. Todo esto significa que debe estar preparado para largas sesiones de trabajo maratónicas.
En este momento, creo que puede ser útil explicar algo sobre el arte asistido por IA y por qué hice tanto trabajo en tan poco tiempo. Ser asistido por IA conduce a un crecimiento y productividad exponenciales, es como la película Sin límites. Esto es muy vigorizante, incluso adictivo, y conduce a la voluntad de trabajar más duro. No estar restringido a un estilo específico o motivo estrecho también mantiene el flujo creativo para alguien con una mente inquieta como yo.



Un artista tradicional necesita aprender a resolver problemas específicos del tipo de pintura que quiere hacer. Desarrollar un estilo único es difícil. El artista asistido por IA puede adoptar nuevos estilos tan a menudo como el estado de ánimo cambia con el clima.
Armas secretas y la IA humillante

Si bien la IA generó las imágenes exactas, comencé con mi visión, mi intención y vi todo como simplemente llevar a la IA a mi resultado. Sin embargo, en ese momento me di cuenta de Open GPT, que era un generador de texto, y comencé a usarlo para describir pinturas que luego enviaría a Disco Diffusion. Y esto llevó al resultado anterior y a algunas de las obras más artísticas e interesantes que creo que creé.


No creas las mentiras


Permítanme dar un paso para explicar más a todos esos artistas tradicionales que ahora piensan que la IA hizo todo el trabajo. Tuve que incitar a piratear el GPT para obtener los resultados que quería. Estaba pirateando GPT rápidamente para obtener la visión deseada y luego pirateando ese resultado. Más sobre varios de estos trabajos, los llevé a Photoshop y realicé un procesamiento posterior extenso y adicional para hacerlos lo mejor posible.
La mejor parte de la IA para el artista digital es que, en lugar de tener que comenzar con un fondo blanco (o un relleno degradado como recomienda Mullins), puede comenzar en cualquier nivel que desee y trabajar para resolver los problemas de su pintura a su gusto. nivel. Este es un valor tremendo.
Hablando de photoshop


Mis habilidades de Photoshop estaban avanzando significativamente con mis habilidades de IA. La capacidad de usar IA me permitió concentrarme en la técnica de pintura y resolver problemas específicos. Es importante destacar que la tecnología de IA también avanzaba rápidamente. A continuación se muestra un ejemplo de mi pintura digital de Photoshop en la que compuse varias ejecuciones de IA, al estilo de "pintura mate" para obtener el resultado final que quería.


Esto concluye la primera parte de mi viaje artístico de IA. Compartiré más sobre cómo superé los límites en los trabajos de IA fotorrealista y los factores que me llevaron a renunciar en la parte 2.
¿Te ha gustado este artículo? Comenta, dale me gusta y asegúrate de seguir . Necesito obtener 100 suscriptores para que Medium me arroje un hueso de participación en las ganancias.