A Apple não é um dos principais jogadores no jogo de IA hoje, mas o novo modelo de IA de código aberto da empresa para edição de fotos mostra o que ela pode contribuir para o campo. O modelo é denominado MLLM Guided Image Editing (MGIE), que usa modelos multimodais de linguagem grande (MLLMs) para interpretar comandos baseados em texto ao processar imagens. Ou seja, a ferramenta tem a capacidade de editar imagens com base no texto que o usuário digita. Embora não seja a primeira ferramenta que pode fazer isso, “as instruções humanas às vezes são muito breves para serem capturadas e seguidas pelos métodos existentes”. Folha de projeto (PDF) Leia.
A empresa desenvolveu o MGIE com pesquisadores da Universidade da Califórnia, em Santa Bárbara. Os MLLMs têm a capacidade de transformar instruções de texto simples ou ambíguas em instruções mais detalhadas e claras que o próprio editor de imagens pode seguir. Por exemplo, se um usuário quisesse editar a imagem de uma pizza de pepperoni para “torná-la mais saudável”, os MLLMs poderiam interpretá-la como “adicionar coberturas vegetarianas” e editar a imagem como tal.
Além de fazer alterações significativas nas imagens, o MGIE também pode cortar, redimensionar e girar imagens, bem como melhorar o brilho, o contraste e o equilíbrio de cores, tudo por meio de instruções de texto. Ele também pode modificar áreas específicas da imagem e pode, por exemplo, modificar o cabelo, os olhos e as roupas da pessoa que está nela, ou remover objetos do fundo.
como venturebeat Notas, a Apple lançou o modelo através GitHubmas os interessados também podem experimentar um experimental Que está atualmente hospedado no Hugging Face Spaces. A Apple ainda não deixou claro se planeja usar o que aprendeu com este projeto em uma ferramenta ou recurso que possa integrar em algum de seus produtos.
“Entrepreneur. Professional music nerd. Beer evangelist. Avid tv aficionado. Social mediaholic.”