CATEGORIA: Tecnologia
DATA: 27/07/2025 – 14h20
TÍTULO: Google DeepMind Lança Modelo “Nano Banana” para Edição de Imagens no Gemini, Aprimorando Consistência
SLUG: google-deepmind-lanca-modelo-nano-banana-edicao-imagens-gemini-aprimorando-consistencia
CONTEÚDO:
O Google DeepMind, divisão de inteligência artificial da gigante tecnológica, anunciou o lançamento de um novo modelo de edição de imagens por inteligência artificial, conhecido como “nano banana”, para o aplicativo Gemini. Esta inovação, tecnicamente denominada Gemini 2.5 Flash Image, já está sendo implementada e promete revolucionar a forma como os usuários interagem com a edição de imagens baseada em IA, especialmente no que diz respeito à consistência dos resultados.
A chegada do “nano banana” ao cenário da inteligência artificial não passou despercebida. Antes mesmo do anúncio oficial do Google, o modelo já havia ganhado destaque, alcançando o topo do ranking LMArena, uma plataforma que avalia e compara o desempenho de diferentes modelos de IA. Este reconhecimento prévio sublinhou as capacidades avançadas do sistema, que agora se integra diretamente às ferramentas de edição do Gemini.
A Evolução da Edição de Imagens por IA
A edição de imagens por inteligência artificial representa um avanço significativo em relação aos métodos tradicionais, como o uso de softwares complexos como o Photoshop. Em vez de manipular pixels e camadas manualmente, os usuários podem simplesmente descrever as modificações desejadas por meio de comandos de texto, e a IA as aplica à imagem. O Google já havia introduzido recursos de edição no Gemini no início deste ano, demonstrando uma competência considerável desde o lançamento inicial.
No entanto, uma característica inerente aos sistemas generativos de IA é a sua natureza não determinística. Isso significa que, ao realizar edições, elementos da imagem podiam mudar de maneiras imprevisíveis. Essa variabilidade, embora parte da criatividade da IA, muitas vezes resultava em inconsistências, onde uma alteração específica poderia afetar outras partes da imagem de forma indesejada ou alterar a identidade de um sujeito.
A imprevisibilidade era um desafio comum. Ao solicitar uma série de modificações ou refinar uma edição, os usuários frequentemente se deparavam com a necessidade de refazer partes do trabalho, pois a IA “esquecia” detalhes anteriores ou introduzia novas variações a cada interação. Essa característica limitava a eficiência e a precisão em fluxos de trabalho que exigiam alta fidelidade e controle sobre o resultado final.
Consistência Inigualável com “Nano Banana”
O principal diferencial do modelo “nano banana”, ou Gemini 2.5 Flash Image, reside na sua capacidade de manter uma consistência inigualável entre as edições. O Google destaca que este novo modelo consegue “lembrar” os detalhes da imagem original e das edições anteriores, em vez de gerar novos elementos aleatoriamente a cada solicitação. Essa habilidade de retenção de informações é crucial para aprimorar a experiência do usuário e a qualidade dos resultados.
A capacidade de “lembrar” detalhes significa que, ao fazer uma alteração, o modelo não “joga os dados” novamente para decidir como outros elementos da imagem devem se comportar. Em vez disso, ele mantém a integridade visual dos componentes que não foram explicitamente solicitados para modificação. Isso contrasta com modelos anteriores, onde cada nova instrução poderia potencialmente reiniciar o processo generativo para certas partes da imagem, levando a variações indesejadas.
Essa inovação é particularmente relevante para cenários onde a identidade e as características de um sujeito precisam ser preservadas ao longo de múltiplas edições. A consistência aprimorada permite um controle mais preciso e uma maior previsibilidade nos resultados, tornando a ferramenta mais confiável para tarefas de edição complexas e iterativas.
Novas Possibilidades de Uso
A consistência aprimorada do “nano banana” abre diversas possibilidades interessantes para a edição de imagens por IA. Uma das aplicações sugeridas pelo Google envolve o upload de uma fotografia de uma pessoa e a alteração de seu estilo ou vestuário. Por exemplo, é possível reimaginar alguém como um toureiro ou um personagem de uma sitcom dos anos 90, mantendo a semelhança com a pessoa original.
A capacidade do modelo de manter a identidade do sujeito é fundamental aqui. Mesmo com mudanças drásticas no vestuário ou no contexto, a pessoa na imagem editada ainda parecerá a mesma pessoa da fotografia original. Isso elimina a preocupação de que a IA possa alterar características faciais ou corporais de forma que o sujeito se torne irreconhecível ou diferente do esperado.
Além disso, essa consistência se estende a múltiplas edições consecutivas. Os usuários podem realizar uma série de modificações em uma única imagem, e o modelo “nano banana” garantirá que os resultados permaneçam fiéis ao material de origem. Isso significa que, mesmo após várias etapas de edição, a imagem final ainda manterá a aparência e os detalhes essenciais do material original, proporcionando um fluxo de trabalho mais coeso e eficiente.
A promessa do Google é que, mesmo “ao longo do tempo”, os resultados das edições continuarão a se assemelhar ao material de origem. Isso sugere uma robustez na memória do modelo, que não apenas lida bem com edições imediatas, mas também mantém a coerência em projetos de longo prazo ou em sessões de edição que se estendem por períodos mais longos. A capacidade de manter a aparência do sujeito e a integridade da imagem através de múltiplas interações e ao longo do tempo representa um avanço significativo na usabilidade e confiabilidade das ferramentas de edição de imagens baseadas em inteligência artificial.
Com informações de Ars Technica
Fonte: https://arstechnica.com/ai/2025/08/google-improves-gemini-ai-image-editing-with-nano-banana-model/
Para seguir a cobertura, veja também improves.