Fios do Tempo. Sonhos alienígenas: uma cena artística emergente – por Charlie Snell

Na sequência de nossos textos sobre as novas possibilidades da arte contemporânea, após termos trazido Self-Made Art, de Leonel Moura, publicamos hoje, no Fios do Tempo, o artigo de Charlie Snell da Universidade da Califórnia, Berkeley. Nele, são apresentadas algumas das experimentações feitas com algoritmos generativos (GANs) que produzem imagens a partir de comandos textuais. Entre figuras oníricas, psicodélicas e por vezes incômodas, vemos como a arte algorítmica constrói sua própria estética e processo criativo. São dados inúmeros exemplos de “obras de arte” destes “alienígenas”; e este é, segundo o autor, apenas o começo.

Agradecemos a Charlie Snell e ao blog Machine Learning at Berkeley pela autorização da publicação desta tradução.

Uma boa leitura!

Liz Ribeiro e André Magnelli

Fios do Tempo, 17 de setembro de 2021

Sonhos alienígenas:
uma cena artística emergente*

Por Charlie Snell

Nos últimos meses, houve uma pequena explosão na cena artística gerada por inteligência artificial (IA).

Desde que o OpenAI lançou os pesos e códigos para seu modelo CLIP, vários hackers, artistas, pesquisadores e entusiastas do aprendizado profundo descobriram como utilizar o CLIP como um efetivo “volante de linguagem natural” para vários modelos generativos, permitindo aos artistas criar todo tipo de arte visual interessante simplesmente inserindo algum texto – uma legenda, um poema, uma letra, uma palavra – para um desses modelos.

Por exemplo, a inserção de “uma paisagem urbana à noite” produz esta representação suave e abstrata de algumas luzes da cidade:

(fonte: @RiversHaveWings via Twitter)

Ou pedir uma imagem do pôr-do-sol resulta nesta interessante coisa minimalista:

(fonte: @Advadnoun via Twitter)

Pedir “uma pintura abstrata de um planeta governado por pequenos castelos” resulta nesta peça satisfatória e excêntrica [trippy]:

(Fonte: @RiversHaveWings via Twitter)

Alimente o sistema com uma parte do poema The Wasteland de T.S. Eliot e você terá este trabalho sublime e calmante:

(Fonte: @Advadnoun via Twitter)

Você pode até mesmo mencionar referências culturais específicas e, em geral, isso irá gerar algo mais ou menos preciso. Consultar o modelo para uma “paisagem de estúdio ghibli” produz um resultado razoavelmente convincente:

(Fonte: @ak92501 via Twitter)

Você também pode criar pequenas animações com este mesmo método. Em minha própria experimentação, tentei pedir a “Noite Estrelada” e acabei com este gif muito legal:

Estes modelos têm tanto poder criativo: basta introduzir algumas palavras e o sistema faz o melhor para traduzi-las em seu próprio estilo estranho e abstrato. É realmente divertido e surpreendente brincar com eles: eu nunca sei realmente o que vai sair; pode ser uma paisagem pseudo-realista excêntrica [trippy] ou algo mais abstrato e mínimo.

E apesar do fato de que o modelo faz a maior parte do trabalho na geração real da imagem, eu ainda me sinto criativo – sinto-me como um artista – quando trabalho com estes modelos. Há um elemento real de criatividade em descobrir como incitar o modelo. A entrada da linguagem natural é uma caixa de areia totalmente aberta, e se você puder usar palavras ao gosto do modelo, você pode criar quase tudo.

Em conceito, esta ideia de gerar imagens a partir de uma descrição de texto é incrivelmente semelhante ao modelo DALL-E da Open-AI (se você já viu meus posts anteriores no blog, eu cobri tanto o funcionamento técnico interno quanto as ideias filosóficas por trás do DALL-E em grandes detalhes). Mas, na verdade, o método aqui é bem diferente. O DALL-E é treinado de ponta a ponta com o único propósito de produzir imagens de alta qualidade diretamente da linguagem, enquanto este método CLIP é mais como um belo truque para usar a linguagem para dirigir modelos existentes que geram imagens incondicionais.

Uma descrição de alto nível de como funciona a geração ponta a ponta de texto para imagem da DALL-E.

Uma representação de alto nível de como o CLIP pode ser usado para gerar arte

Os pesos para a DALL-E ainda nem foram lançados publicamente, então você pode ver este CLIP funcionar como uma tentativa de um hacker de reproduzir a promessa da DALL-E.

Como a abordagem baseada no CLIP é um pouco mais banal [hacky], os resultados não são de tão alta qualidade e precisão quanto o que foi demonstrado com o DALL-E. Em vez disso, as imagens produzidas por estes sistemas são estranhas, irregulares e abstratas. As saídas são certamente baseadas em nosso mundo, mas é como se fossem produzidas por um alienígena que vê as coisas de maneira um pouco diferente.

É exatamente a estranheza que torna estes trabalhos baseados no CLIP tão singularmente artísticos e belos para mim. Há algo de especial em ver uma perspectiva alienígena sobre algo familiar.

(Nota: tecnicamente, a DALL-E faz uso do CLIP para reclassificar suas produções, mas quando digo métodos baseados no CLIP aqui, não estou falando da DALL-E).

Nos últimos meses, minha linha do tempo do Twitter foi tomada por esta arte gerada pelo CLIP. Uma crescente comunidade de artistas, pesquisadores e hackers tem experimentado estes modelos e compartilhado seus resultados. As pessoas também têm compartilhado códigos e vários truques/métodos para modificar a qualidade ou o estilo artístico das imagens produzidas. Tudo isso parece um pouco como uma cena artística emergente.

Eu me diverti muito assistindo a esta cena artística, que se desenvolveu e evoluiu ao longo do ano, então eu pensei em escrever um post no blog sobre isso porque é muito legal para mim.

Não vou me aprofundar nos detalhes técnicos de como este sistema gera arte. Ao invés disso, vou documentar as origens inesperadas e a evolução desta cena artística, e ao longo do caminho também vou apresentar alguns dos meus próprios pensamentos e algumas obras de arte legais.

É claro que não sou capaz de cobrir todos os aspectos desta cena artística em um único post de blog. Mas acho que este blog atinge a maioria dos grandes pontos e grandes ideias, e se há algo importante que você acha que eu possa ter perdido, sinta-se à vontade para comentar abaixo ou twittar para mim.

CLIP: uma história de origem inesperada

Em 5 de janeiro de 2021, a OpenAI lançou o peso-modelo e o código para o CLIP: um modelo treinado para determinar qual legenda de um conjunto de legendas se encaixa melhor em uma determinada imagem. Após aprender de centenas de milhões de imagens desta forma, o CLIP não só se tornou bastante proficiente em escolher a melhor legenda para uma determinada imagem, mas também aprendeu algumas representações surpreendentemente abstratas e gerais para a visão (veja o trabalho de neurônios multimodais de Goh et al. em Distill).

Por exemplo, o CLIP aprendeu a representar um neurônio que se ativa especificamente para imagens e conceitos relacionados ao Homem-Aranha. Há também outros neurônios que se ativam para imagens relacionadas a emoções, localizações geográficas ou mesmo indivíduos famosos (você mesmo pode explorar estas ativações de neurônios com a ferramenta de microscópio do OpenAI).

As representações de imagens neste nível de abstração foram de certa forma as primeiras de seu tipo. E, além de tudo isso, o modelo também demonstrou uma maior robustez de classificação do que qualquer trabalho anterior.

Assim, sob uma perspectiva de pesquisa, o CLIP foi um modelo incrivelmente empolgante e poderoso. Mas nada aqui sugere claramente que seria útil para gerar arte – muito menos para criar a cena artística que ela fez.

No entanto, levou apenas um dia para vários hackers, pesquisadores e artistas (mais notadamente @advadnoun e @quasimondo no Twitter) descobrirem que com um simples truque o CLIP pode realmente ser usado para orientar modelos existentes de geração de imagens (como GANs, Autoencoders, ou Representações Neuronais Implícitas como SIREN) para produzir imagens originais que se encaixam com um determinado título.

Neste método, o CLIP atua como um tipo de “volante de direção em linguagem natural” para modelos generativos. O CLIP guia essencialmente uma busca através do espaço latente de um determinado modelo generativo para encontrar latentes que mapeiam imagens que se encaixam com uma determinada sequência de palavras.

Os primeiros resultados obtidos com esta técnica foram estranhos, mas ainda assim surpreendentes e promissores:

esquerda – (fonte: @quasimondo via Twitter); direita – (fonte: @advadnoun via Twitter)

The Big Sleep: começos humildes

Em apenas algumas semanas, houve um grande avanço. @advadnoun lançou o código para The Big Sleep: uma técnica de texto para imagem baseada no CLIP, que usou o Big GAN como modelo generativo.

(Fonte: @advadnoun via Twitter)

À sua própria maneira, o Big Sleep cumpriu, grosso modo, a promessa do texto-para-imagem. Ele pode converter praticamente qualquer coisa que você possa colocar em palavras: “um pôr do sol”, “um rosto como um desenho do M.C. Escher”, “quando o vento sopra”, “o Grand Canyon em 3d”.

É claro, os resultados de The Big Sleep talvez não sejam da preferência de todos. Eles são estranhos e abstratos, e embora geralmente sejam coerentes, às vezes não fazem muito sentido. Há definitivamente um estilo único nas obras de arte produzidas pelo The Big Sleep, e eu pessoalmente acho que é esteticamente agradável.

Um “pôr-do-sol” segundo The Big Sleep
(fonte: @advadnoun via Twitter)
“Rosto como um desenho de M.C. Escher” de The Big Sleep
(fonte: @advadnoun via Twitter)
“Quando o vento sopra” de The Big Sleep
(fonte: @advadnoun on Twitter)

Mas a principal maravilha e encantamento que tenho com The Big Sleep não vem necessariamente de sua estética, mas é um pouco mais meta. O objetivo de otimização do Big Sleep ao gerar imagens é encontrar um ponto no espaço latente do GAN que corresponda ao máximo a uma determinada sequência de palavras sob o CLIP. Assim, quando olhamos para as saídas do The Big Sleep, estamos literalmente vendo como o CLIP interpreta as palavras e como ele “pensa” que elas correspondem ao nosso mundo visual.

Para realmente apreciar isto, você pode pensar no CLIP como sendo tanto estatístico quanto alienígena. Eu prefiro o último. Gosto de pensar no CLIP como algo parecido com um cérebro alienígena que somos capazes de destravar e espreitar com a ajuda de técnicas como The Big Sleep. As redes neurais são muito diferentes dos cérebros humanos, então pensar no CLIP como uma espécie de cérebro alienígena não é realmente tão louco assim. É claro que o CLIP não é verdadeiramente “inteligente”, mas ainda está nos mostrando uma visão diferente das coisas, e eu acho essa ideia bastante encantadora.

A perspectiva/filosofia alternativa sobre o CLIP é um pouco mais estatística e fria. Você poderia pensar nos resultados do CLIP como o produto de meras médias estatísticas: o resultado do cálculo das correlações entre linguagem e visão como elas existem na internet. E assim, com esta perspectiva, os resultados do CLIP são mais parecidos com o “Zeitgeist” (pelo menos o Zeitgeist na época em que os dados de treinamento do CLIP foram raspados) e ver as coisas como algo como uma “média estatística da internet” (é claro que isto assume um erro mínimo de aproximação com relação à verdadeira distribuição dos dados, o que provavelmente não é uma suposição razoável).

Como as saídas do CLIP são tão estranhas, o ponto de vista alienígena faz muito mais sentido para mim. Eu acho que a perspectiva estatística Zeitgeist se aplica mais a situações como GPT-3, onde o erro de aproximação é presumivelmente bastante baixo.

“No final de tudo, edifícios desmoronando e uma arma para perfurar o céu” de The Big Sleep (fonte: @advadnoun via Twitter)

Olhando para trás, The Big Sleep não é a primeira técnica de arte IA a capturar este sentimento mágico de espreitar a “mente” de uma rede neural, mas ele captura esse sentimento indiscutivelmente melhor do que qualquer técnica que tenha vindo antes.

Isso não quer dizer que as técnicas mais antigas de arte da IA sejam irrelevantes ou desinteressantes. Na verdade, parece que The Big Sleep foi influenciada de alguma forma por uma das técnicas mais populares de arte de redes neurais de uma época anterior: DeepDream.

Por @advadnoun (O criador do The Big Sleep):

O nome do Big Sleep é “uma alusão a DeepDream e ao filme surrealista noir, The Big Sleep”. A segunda referência se deve a sua estranha qualidade de sonho” (fonte).

É interessante que @advadnoun deu parcialmente o nome de The Big Sleep em homenagem a DeepDream porque, olhando para trás agora, eles estão espiritualmente relacionados.

DeepDream foi uma técnica de arte IA incrivelmente popular de uma geração anterior (2015). A técnica essencialmente absorve uma imagem e a modifica ligeiramente (ou dramaticamente) de forma que a imagem ativa ao máximo certos neurônios em uma rede neural treinada para classificar as imagens. Os resultados são geralmente muito psicodélicos e excêntricos, como a imagem abaixo.

Uma imagem produzida por DeepDream (fonte).

Embora esteticamente DeepDream seja bastante diferente de The Big Sleep, ambas as técnicas compartilham uma visão semelhante: buscam extrair arte de redes neurais que não foram necessariamente destinadas a gerar arte. Elas mergulham dentro da rede e extraem belas imagens. Estas técnicas de arte parecem ferramentas de interptretabilidade com aprendizagem profunda (deep learning) que produziram arte acidentalmente ao longo do caminho.

Assim, de certa forma, The Big Sleep é como uma sequência de DeepDream. Mas, neste caso, a sequência é indiscutivelmente melhor do que a original. As visões alienígenas geradas pelo DeepDream serão sempre intemporais em seu próprio respeito, mas há algo realmente poderoso em ser capaz de sondar o conhecimento do CLIP, provocando-o com linguagem natural. Qualquer coisa que você possa colocar em palavras será transmitida através desta lente alienígena de sonho. É uma maneira muito encantadora de fazer arte.

VQ-GAN: novos super-poderes generativos

Em 17 de dezembro de 2020, pesquisadores (Esser et al.) da Universidade de Heidelberg, publicaram seu trabalho “Taming Transformers for High-Resolution Image Synthesis” na Arxiv. Eles apresentaram uma nova arquitetura GAN chamada VQ-GAN que combina conv-nets (abreviação do termo em inglês para Redes Neurais Convolucionais) com transformadores de uma maneira que aproveita tanto os vieses indutivos locais de conv-nets quanto a atenção global em transformadores, criando um modelo generativo particularmente forte.

Por volta do início de abril, @advadnoun e @RiversHaveWings começaram a fazer algumas experiências combinando VQ-GAN e CLIP para gerar imagens a partir de um prompt de texto. Em um alto nível, o método que eles usaram é em sua maioria idêntico ao The Big Sleep. A principal diferença é que, em vez de usar o Big-GAN como modelo generativo, este sistema usou o VQ-GAN.

Os resultados foram uma enorme mudança estilística:

“Série de tubos” de VQ-GAN+CLIP (fonte: @RiversHaveWings via Twitter)
“A fumaça amarela que esfrega seu focinho nas janelas” de VQ-GAN+CLIP (fonte: @RiversHaveWings via Twitter)
“Cidade planetária C” de VQ-GAN+CLIP (fonte: @RiversHaveWings via Twitter)
“Dançando à luz da lua” de VQ-GAN+CLIP (fonte: @advadnoun via Twitter)
“Desejo mecânico” de VQ-GAN+CLIP (fonte: @RiversHaveWings via Twitter)
“Desejo mecânico” de VQ-GAN+CLIP (fonte: @RiversHaveWings via Twitter)
“Árvore com galhos armados” de VQ-GAN+CLIP (fonte: @advadnoun via Twitter)

As saídas do VQ-GAN+CLIP tendem a parecer menos pintadas do que The Big Sleep e mais como uma escultura. Mesmo quando as imagens são muito abstratas para serem reais, há uma certa qualidade material que faz parecer que os objetos nas imagens poderiam ter sido feitos à mão. Ao mesmo tempo, ainda há uma estranheza alienígena em tudo isso, e a aura de espreitar em uma rede neural e ver as coisas do seu ponto de vista definitivamente não está perdida aqui.

Apenas trocar o modelo generativo de Big-GAN para VQ-GAN foi quase como ganhar um novo artista com seu próprio estilo e ponto de vista: uma nova lente para ver o mundo através dos olhos do CLIP. Isto destaca a generalidade deste sistema baseado no CLIP. Sempre que um novo modelo de geração latente é lançado, ele normalmente pode ser conectado ao CLIP sem muitos problemas e, de repente, podemos gerar arte com um novo estilo e forma. Na verdade, isto já aconteceu pelo menos uma vez: menos de 8 horas após o lançamento público dos pesos dVAE da DALL-E, @advadnoun já estava tweetando arte feita com dVAE+CLIP.

Alegrias da programação imediata: o truque do motor irreal

Já vimos como a troca de modelos generativos pode modificar dramaticamente o estilo das saídas do CLIP sem muito esforço, mas acontece que há um truque ainda mais simples para fazer isso.

Tudo o que você precisa fazer é adicionar algumas palavras-chave específicas ao seu prompt que indicam algo sobre o estilo de sua imagem desejada e o CLIP fará o seu melhor para “entender” e modificar sua saída de acordo. Por exemplo, você poderia acrescentar “no estilo de Minecraft” ou “no estilo de um desenho animado” ou mesmo “no estilo de DeepDream” ao seu prompt e, na maioria das vezes, o CLIP irá realmente produzir algo que corresponda aproximadamente ao estilo descrito.

De fato, um truque específico de estímulo ganhou um pouco de tração. Ele ficou conhecido como o “truque do motor irreal”.

(fonte: @arankomatsuzaki via Twitter)

Foi descoberto por @jbustter no Discord da EleutherAI há apenas algumas semanas que se você acrescentar “renderizado em motor irreal” ao seu prompt, as saídas parecem muito mais realistas.

(fonte: canal de #arte no Discord da EleutherAI)

Unreal Engine é um popular mecanismo de videogame 3D criado pela Epic Games. O CLIP provavelmente viu muitas imagens de videogames que foram marcadas com a legenda “renderizado em Unreal Engine“. Portanto, acrescentando isto ao nosso prompt, estamos efetivamente incentivando o modelo a replicar o visual das imagens da Unreal Engine.

E funciona muito bem, basta olhar para alguns destes exemplos:

“uma casa de fadas mágica, motor irreal” da VQ-GAN+CLIP (fonte: @arankomatsuzaki no Twitter)

“A Void Dimension Rendered in Unreal Engine” do VQ-GAN+CLIP (fonte: @arankomatsuzaki no Twitter
“A Lucid Nightmare Rendered in Unreal Engine” da VQ-GAN+CLIP (fonte: @arankomatsuzaki no Twitter)

Originally tweeted by Aran Komatsuzaki (@arankomatsuzaki) on 26/05/2021.

O CLIP aprendeu representações suficientemente gerais para que, a fim de induzir o comportamento desejado do modelo, tudo o que precisamos fazer é pedi-lo na hora certa. É claro que encontrar as palavras certas para obter os melhores resultados pode ser um desafio e tanto; afinal, levou vários meses para descobrir o truque do motor irreal.

De certa forma, o truque do motor irreal foi um avanço. Ele fez com que as pessoas percebessem o quão eficaz pode ser acrescentar palavras-chave ao prompt. E nas últimas semanas, tenho visto prompts cada vez mais complicados sendo usados com o objetivo de extrair a maior qualidade possível dos resultados do CLIP.

Por exemplo, pedir ao VQ-GAN+CLIP “uma pequena cabana em uma nevasca perto do topo de uma montanha com uma luz acesa ao anoitecer tendência na artstation | motor irreal” produz esta saída de aparência hiper-realista:

(fonte: @ak92501 via Twitter)

Ou consultar o modelo com “vista do alto de uma montanha onde se pode ver um vilarejo abaixo à noite com as luzes na pintura da paisagem tendência na artstation | vray” dá esta vista imponente:

(fonte: @ak92501 via Twitter)

Ou “pintura matte de uma casa no topo de uma colina à meia-noite com pequenos pirilampos voando no estilo de estúdio ghibli | artstation | motor irreal”:

(fonte: @ak92501 via Twitter)

Cada uma destas imagens não se parece nada com a arte VQ-GAN+CLIP que vimos na seção anterior. Os resultados ainda têm em si uma certa qualidade surreal e talvez a coerência se rompa em alguns pontos, mas de modo geral as imagens simplesmente surgem como nada mais que vimos até agora; parecem mais fotografias editadas ou cenas de um videogame. Portanto, parece que cada uma destas palavras-chave – “trending on artstation” [tendência na artstation], “unreal engine” [motor irreal], “vray” – desempenha um papel crucial na definição do estilo único destas saídas.

Este paradigma geral de suscitar modelos para o comportamento desejado está se tornando conhecido como “programação por prompt” [prompt programming], e é realmente uma arte e tanto. Para ter alguma intuição sobre quais prompts podem ser eficazes, você precisa de alguma pista sobre como o modelo “pensa” e que tipos de dados o modelo “viu” durante o treinamento. De outra forma, o estímulo pode ser um pouco como uma sorte estúpida. Embora esperemos que, no futuro, à medida que os modelos forem ficando ainda maiores e mais poderosos, isto se tornará um pouco mais fácil.

Este é apenas o começo

Neste post, eu descrevi alguns dos primeiros marcos na evolução da arte generativa baseada no CLIP. Mas de forma alguma esta foi uma extensa cobertura da arte que as pessoas foram capazes de criar com o CLIP. Eu nem cheguei a falar do trabalho super legal que foi feito com o StyleGAN+CLIP ou do trabalho realmente interessante do CLIPDraw ou mesmo da saga de experimentos feitos com o DALL-E’s dVAE+CLIP. Eu poderia continuar e a lista de novos métodos para criar arte com o CLIP está se expandindo a cada semana. Na verdade, parece realmente que isto é apenas o começo; é provável que haja muito a melhorar e construir e tantas descobertas criativas ainda a serem feitas.

Portanto, se este material for interessante para você, e você gostaria de aprender mais sobre como estes sistemas de arte baseados no CLIP funcionam, ou mesmo se você quiser apenas acompanhar alguns dos artistas mais inovadores neste espaço, ou se você quiser tentar por conta própria gerar alguma arte, não deixe de conferir os recursos abaixo.

Referências, notebooks e contas relevantes no Twitter

Referências

(veja as legendas abaixo de cada obra de arte para sua referência correspondente; todas as imagens sem referências são obras que eu criei)

Cadernos

(você pode usar estes cadernos Colab para fazer sua própria arte baseada no CLIP; basta inserir um prompt. Cada um deles usa técnicas ligeiramente diferentes. Divirta-se!)

(Nota: se você não está familiarizado com o Google Colab, posso recomendar este tutorial sobre como operar os cadernos.)

Contas relevantes no Twitter

(todas estas são contas do twitter que frequentemente postam arte gerada com CLIP)

Publicado em 30 de junho de 2021


* Este artigo foi publicado originalmente como: “Alien Dreams: An Emerging Art Scene” no blog Machine Learning at Berkeley. Traduzido para o português por Liz Ribeiro (IFCS-UFRJ / Ateliê de Humanidades)


Deixe uma resposta

por Anders Noren

Acima ↑

%d blogueiros gostam disto: