O Google continua expandindo os limites da inteligência artificial com o lançamento do Whisk, uma ferramenta experimental que transforma imagens em vídeos criativos e personalizados. Diferente de outras plataformas que se baseiam apenas em comandos textuais, o Whisk combina imagens e descrições para oferecer resultados detalhados e alinhados às preferências do usuário.
Como funciona o Whisk, passo a passo
O Whisk trabalha em três etapas principais, permitindo personalizar cada detalhe do vídeo:
- Sujeito do vídeo:
- Carregar uma imagem própria.
- Gerar uma imagem com IA na própria plataforma.
- Selecionar uma imagem do banco de opções disponíveis.
- Cena e estilo:
- O usuário insere uma descrição textual para definir a narrativa ou os elementos do vídeo.
- Ajustes e refinamento:
- Caso o resultado não atenda às expectativas, o Whisk oferece a opção “Refine”, onde é possível ajustar o vídeo adicionando uma nova descrição com as alterações desejadas.
Após finalizar a criação, o vídeo pode ser baixado diretamente clicando no ícone de download.
Como acessar o Whisk
De acordo com o Infobae, por enquanto, o Whisk está disponível apenas nos Estados Unidos. Para utilizá-lo, é necessário:
- Fazer login com uma conta pessoal do Google.
- Acessar a ferramenta por meio da página oficial: Google Labs Whisk.
Uma ferramenta criativa, não um editor tradicional
Segundo Thomas Iljic e Nicole Brichtova, responsáveis pelo projeto no Google Labs, o Whisk foi criado para oferecer uma exploração visual rápida, em vez de edições perfeitas. A ideia é permitir que os usuários experimentem múltiplas opções criativas e trabalhem de forma ágil em diferentes ideias.
“Trata-se de explorar ideias de formas novas e criativas, permitindo gerar e baixar as versões que você mais gostar”, afirmaram.
No entanto, os desenvolvedores alertam que o Whisk ainda está em fase experimental e que os resultados podem não corresponder completamente às expectativas do usuário.
Gemini 2.0: a IA avançada por trás do Whisk
O Whisk utiliza modelos avançados como o Gemini 2.0, a versão mais recente da inteligência artificial do Google, conhecida por sua capacidade de processar múltiplas tarefas simultaneamente.
O Gemini 2.0 não apenas organiza informações, mas também as torna úteis, integrando a geração de imagens, vídeos e áudios em tempo real. Entre suas funcionalidades destacam-se:
- Aceitação de entradas multimodais (texto, imagens, vídeo e áudio).
- Geração de resultados em formatos variados, como resumos, gráficos e apresentações.
- Interação com ferramentas externas e execução de programas.
Segundo Sundar Pichai, CEO do Google, o Gemini 2.0 representa um avanço significativo em direção a uma IA mais autônoma e eficiente, ideal para tarefas complexas, como resumir vídeos educacionais e criar conteúdos visuais interativos.
Um futuro promissor para a criação audiovisual
Com o Whisk, o Google não apenas facilita a criação de conteúdos visuais, mas também promove a exploração criativa por meio de ferramentas de IA generativa. À medida que a plataforma evoluir, promete se tornar um recurso essencial para artistas, criadores de conteúdo e profissionais, permitindo criar vídeos de forma rápida e personalizada.
Por enquanto, o Whisk é uma demonstração do potencial do Gemini 2.0 e de como a inteligência artificial está revolucionando a produção de conteúdo multimídia.