New AI model turns photos into explorable 3D worlds, with caveats

TÍTULO: Tencent Lança Modelo de IA que Transforma Fotos em Mundos 3D Exploráveis
SLUG: tencent-lanca-modelo-ia-transforma-fotos-em-mundos-3d-exploraveis
CONTEÚDO:

A gigante tecnológica Tencent apresentou recentemente o HunyuanWorld-Voyager, um inovador modelo de inteligência artificial de código aberto. Esta nova ferramenta promete revolucionar a interação com imagens estáticas, permitindo a geração de sequências de vídeo com consistência tridimensional a partir de uma única fotografia. Com o HunyuanWorld-Voyager, os usuários ganham a capacidade de “pilotar” um caminho de câmera virtual, explorando cenas que antes eram meramente bidimensionais.

Uma das características mais notáveis deste modelo de IA 3D é sua capacidade de gerar simultaneamente vídeo RGB e informações detalhadas de profundidade. Essa funcionalidade é crucial, pois possibilita a reconstrução 3D direta sem a necessidade de recorrer a técnicas de modelagem tridimensional tradicionais, que geralmente são complexas e demoradas. Contudo, é importante ressaltar que, apesar de seu avanço tecnológico, o HunyuanWorld-Voyager não foi desenvolvido para substituir a experiência imersiva oferecida pelos videogames.

👉 Leia também: Guia completo de Noticia

A Essência da Exploração Virtual com o HunyuanWorld-Voyager

Os resultados gerados pelo HunyuanWorld-Voyager, embora não constituam modelos 3D verdadeiros no sentido tradicional, alcançam um efeito visual surpreendentemente similar. A ferramenta de IA é projetada para produzir quadros de vídeo bidimensionais que mantêm uma notável consistência espacial. Isso significa que, ao mover a câmera virtual, a percepção é de que se está navegando por um espaço tridimensional real, com objetos e cenários respondendo de forma coesa à mudança de perspectiva.

Cada sequência de vídeo gerada pelo sistema é composta por 49 quadros, o que se traduz em aproximadamente dois segundos de vídeo. No entanto, a flexibilidade do modelo permite que múltiplos clipes sejam encadeados, possibilitando a criação de sequências mais longas, que podem durar “vários minutos”, conforme indicado pela Tencent. Durante o movimento da câmera, os objetos presentes na cena mantêm suas posições relativas, e a mudança de perspectiva ocorre de maneira correta e esperada, tal como aconteceria em um ambiente tridimensional físico.

Da Imagem à Nuvem de Pontos 3D

A saída principal do HunyuanWorld-Voyager consiste em vídeo acompanhado de mapas de profundidade. Embora não seja um modelo 3D nativo, essa combinação de informações é extremamente valiosa. Os dados de profundidade, em particular, podem ser convertidos em nuvens de pontos 3D. Essa capacidade de conversão é fundamental para fins de reconstrução, abrindo portas para aplicações em diversas áreas que exigem a representação tridimensional de ambientes ou objetos a partir de dados bidimensionais.

A inovação por trás deste modelo de IA 3D reside na sua abordagem para simular a profundidade e o movimento, oferecendo uma ponte entre a fotografia estática e a exploração espacial dinâmica. A consistência visual e a fidelidade à perspectiva são elementos-chave que diferenciam o HunyuanWorld-Voyager, tornando-o uma ferramenta promissora para visualização e interação com conteúdo digital.

Mecanismo de Funcionamento: Como o Modelo de IA 3D Opera

O funcionamento do sistema HunyuanWorld-Voyager é baseado em uma interação direta com o usuário. O processo se inicia com a aceitação de uma única imagem de entrada, que serve como base para a criação do ambiente virtual. A partir dessa imagem, o usuário define uma trajetória específica para a câmera virtual. Essa trajetória é o que dita como a “exploração” do mundo 3D simulado irá ocorrer.

Através de uma interface intuitiva, os usuários têm a liberdade de especificar uma variedade de movimentos para a câmera. Isso inclui ações como avançar, recuar, mover-se para a esquerda ou para a direita, e realizar movimentos de giro. Essa capacidade de definir a trajetória da câmera confere ao usuário um controle significativo sobre a experiência de exploração, permitindo que ele navegue pela cena virtual de acordo com seus interesses e necessidades.

A Combinação de Dados e o “World Cache”

Para gerar as sequências de vídeo que refletem os movimentos de câmera definidos pelo usuário, o sistema HunyuanWorld-Voyager emprega uma combinação inteligente de dados. Ele integra as informações da imagem de entrada com os dados de profundidade que são gerados. Além disso, um componente crucial para a eficiência do modelo é o uso de um “cache de mundo” (world cache) que é otimizado para economia de memória.

Este “cache de mundo” desempenha um papel vital na manutenção da consistência espacial e na fluidez das sequências de vídeo. Ao armazenar e gerenciar informações sobre o ambiente virtual de forma eficiente, o sistema consegue produzir vídeos que respondem de maneira precisa e em tempo real aos comandos de movimento da câmera. Essa arquitetura permite que o modelo de IA 3D crie uma ilusão convincente de profundidade e movimento, transformando uma simples foto em uma experiência interativa e explorável.

A capacidade de processar e combinar esses diferentes tipos de dados de forma coesa é o que permite ao HunyuanWorld-Voyager entregar resultados que, embora não sejam modelos 3D tradicionais, oferecem uma funcionalidade e uma experiência visual que se aproximam muito da exploração em um ambiente tridimensional real.

📌 Confira também: artigo especial sobre redatorprofissiona

Em suma, o HunyuanWorld-Voyager representa um avanço significativo no campo da inteligência artificial e da visão computacional. Ao permitir a criação de mundos 3D exploráveis a partir de fotografias estáticas, ele abre novas possibilidades para a visualização de conteúdo, a criação de experiências imersivas e a reconstrução de ambientes, tudo isso com uma abordagem inovadora que dispensa a complexidade da modelagem 3D convencional.

Fonte: Ars Technica

Fonte: https://arstechnica.com/ai/2025/09/new-ai-model-turns-photos-into-explorable-3d-worlds-with-caveats/

Para seguir a cobertura, veja também explorable.