Na semana passada, um amador experimentou um novo modelo de síntese de imagem Flux AI Foi descoberto Eles são inesperadamente bons em fornecer versões de fontes especialmente treinadas. Embora existam métodos mais eficientes de renderização de fontes de computador há décadas, a nova tecnologia é útil para entusiastas de imagens de IA porque o Flux é capaz de renderizar visualizações de texto refinadas, e os usuários agora podem inserir palavras renderizadas com fontes personalizadas diretamente em gerações de imagens de IA. .
Temos a tecnologia para produzir linhas precisas e suaves desenhadas por computador em formas personalizadas desde a década de 1980 (e 1970 em pesquisa), portanto, criar uma fonte clonada com IA não é novidade por si só. Mas a nova tecnologia significa que você pode ver uma fonte específica aparecer em imagens geradas por IA de, digamos, um menu em um quadro-negro em um restaurante da vida real ou um cartão de visita impresso segurado por uma raposa robótica.
Pouco depois que os modelos de montagem de fotos de IA se tornaram populares, como Stable Diffusion em 2022, algumas pessoas começaram ImaginandoComo posso incluir meu produto, peça de roupa, personalidade ou estilo em uma imagem gerada por IA? Uma resposta que surgiu veio na forma de LoRA (adaptação de baixo escalão), uma técnica Foi descoberto Em 2021, foi lançado um modelo básico de IA que permite aos usuários aumentar o conhecimento no modelo básico de IA com extensões de benchmark especialmente treinadas.
Esses módulos LoRA, como são chamados os módulos, permitem que modelos de síntese de imagens criem novos conceitos que não foram originalmente encontrados (ou mal representados) nos dados de treinamento do modelo subjacente. Na prática, os entusiastas da síntese de imagens as utilizam para renderizar estilos únicos (por exemplo, tudo em… Arte em giz) ou tópicos (imagens detalhadas de Homem-Aranha(Por exemplo). Cada LoRA deve ser treinado especificamente usando exemplos fornecidos pelo usuário.
Antes do Flux, a maioria dos geradores de imagens de IA não eram muito bons em exibir texto preciso em uma cena. Se você pedir ao Stable Diffusion 1.5 para exibir uma tag que diz “queijo”, isso mostrará um disparate. O DALL-E 3 da OpenAI, lançado no ano passado, foi o primeiro grande modelo a fazer processamento de texto razoavelmente bem. O Flux ainda comete erros ocasionais de palavras e letras, mas é o modelo de IA de “texto no mundo” (você escolhe) mais capaz que já vimos.
Como o Flux é um modelo aberto disponível para download e microconversão, o mês passado foi a primeira vez que o treinamento da linha LoRA pode fazer sentido. Isto é exatamente o que Recentemente descoberto por um entusiasta de IA chamado Vadim Fedenko (que não respondeu a um pedido de entrevista até o momento). “Estou realmente impressionado com o resultado”, escreveu Fedenko em Compartilhar no Reddit“O Flux reconhece a aparência das letras em um estilo/fonte específico, tornando possível treinar Loras com fontes, estilos específicos, etc.
Para sua primeira tentativa, Fedenko escolheu um espumante Fonte estilo “Y2K” Uma reminiscência daqueles que eram populares no final dos anos 1990 e início dos anos 2000, o modelo resultante foi publicado na plataforma Civitai em 20 de agosto. Dois dias depois, um usuário Civitai chamado “AggravatingScree7189” postou uma segunda fonte LoRA que reproduzia uma fonte semelhante à de Cyberpunk 2077 Videogame.
“O roteiro era tão ruim antes de me ocorrer que você poderia fazer isso.” livros Um usuário do Reddit ligou para egg-benedryl ao responder à postagem de Fedenko sobre a linha Y2K. Outro usuário do Reddit livros“Eu não sabia que a revista Y2K era falsa até ampliá-la.”
É exagerado?
É verdade que usar uma rede neural profundamente treinada para sintetizar imagens e exibir uma linha simples em um fundo simples é provavelmente um exagero. Você provavelmente não deseja usar este método para substituir o Adobe Illustrator ao criar um documento.
“Parece bom, mas é engraçado que estejamos reinventando a ideia de fontes com arquivos LoRA de 300 MB,” livros Um comentarista no Reddit em um tópico sobre Cyberpunk 2077 Fonte.
A IA generativa é frequentemente criticada pelo seu impacto ambiental, o que é uma preocupação legítima para grandes centros de dados em nuvem. Mas descobrimos que o Flux pode inserir essas linhas em cenas geradas por IA enquanto é executado localmente no RTX 3060 em Quantificado (Tamanho reduzido) (O modelo de desenvolvimento completo pode ser executado em um RTX 3090). É um consumo de eletricidade semelhante ao de jogar videogame no mesmo PC. O mesmo vale para a criação de um LoRA:Constructor Cyberpunk 2077 Fonte treinador LoRA em três horas em uma GPU 3090.
Existem também questões éticas relacionadas ao uso de geradores de imagens alimentados por IA, como a forma como eles são treinados com base em dados coletados sem o consentimento do proprietário do conteúdo. Embora a tecnologia cause divisão entre alguns artistas, uma grande comunidade de pessoas a utiliza todos os dias Compartilhe os resultados on-line Através de plataformas de mídia social como o Reddit, levando a novas aplicações da tecnologia como esta.
No momento em que este livro foi escrito, havia apenas duas linhas dedicadas aos Flux LoRAs, mas já ouvimos falar de planos para criar mais enquanto escrevemos estas linhas. Embora esta tecnologia ainda esteja em seus estágios iniciais, ela poderá se tornar essencial se a síntese de imagens de IA for implantada de forma mais ampla no futuro. A Adobe, com seus modelos de síntese de imagens, provavelmente ficará de olho nisso.
“Entrepreneur. Professional music nerd. Beer evangelist. Avid tv aficionado. Social mediaholic.”