Atualmente, já existem algumas ferramentas e softwares de Inteligência Artificial capazes de transformar textos e frases em imagens, e com precisão cada vez maior. Agora, o Google deu um passo à frente nessa jornada e apresentou não uma, mas duas novas ferramentas que podem ir além, transformando frases em vídeos, como GIFs ou até animações.
Enquanto o primeiro é mais focado em trazer vídeos mais curtos e mais focados no realismo, o outro é mais focado em quem quer vídeos mais longos, ou seja, com mais duração. Saiba mais sobre ambos agora:
Leia também:
A inteligência artificial Dall-E 2 agora pode ser usada por qualquer pessoa; veja como tentar
Site usa Inteligência Artificial para transformar personagens em Pokémon
Inteligência Artificial – Google Image Video
A primeira ferramenta introduzida pelo Google é o Google Imagen Video, que é focado em vídeos mais curtos e mais parecidos com GIFs. A ferramenta não é exatamente nova, ela vem trabalhando na empresa há algum tempo e chegou com o objetivo de ser um concorrente direto de outros softwares similares, principalmente o DALL-E.
Ou seja, também tem a função de transformar frases em imagens, mas vai um passo além para transformá-las em vídeo. Para isso, a ferramenta utiliza uma técnica de Inteligência Artificial mais avançada, que é capaz de tirar uma imagem estática e criar várias semelhantes para trazer a sensação de movimento. E o resultado é muito interessante.
Os vídeos são curtos, por isso se assemelham aos GIFs tradicionais. Nas imagens divulgadas como exemplo, eles mostram várias situações e cenários diferentes, alguns com cenas mais reais e outros com conteúdo surreal, como um panda dirigindo um carro ou um ursinho patinando no gelo.
Embora algumas dessas imagens ainda pareçam um pouco falsas, há algumas que acabam se destacando por ter mais realismo, como a da pá movendo a neve, ou a mão pegando uma xícara e o broto de um vegetal.
Um dos pontos fracos do Google Imagen Video por enquanto são os movimentos de animais e pessoas, que até parecem mais falsos já que a ferramenta não foi aprimorada nessa parte. No entanto, mesmo assim, o resultado ainda é impressionante se você tiver em mente que essas imagens foram criadas a partir de frases em texto, por uma técnica de Inteligência Artificial e sem nenhum tipo de edição ou interferência humana.
Método de criação de imagem
Além de apresentar o Google Imagen Video, a empresa também falou um pouco sobre como essas imagens e vídeos são criados. No site oficial da ferramenta ao passar o mouse sobre um dos vídeos, é possível ver a frase que o originou, e com isso, você pode ver que não é necessário criar uma frase muito longa ou com grandes detalhes. Uma dica: toda vez que você atualiza o site, novos vídeos aparecem.
Prompt: “Gretos em forma de texto ‘Imagen Video’ saindo de um livro de conto de fadas.”
Saída do modelo: pic.twitter.com/FVgnM0UAAn— Durk Kingma (@dpkingma) 5 de outubro de 2022
Segundo eles, a Imagen Video produz um modelo com 16 frames de imagem e 3 fps, com resolução de 24 x 48 pixels. Depois disso, esse conteúdo de baixa resolução é aprimorado, ganhando um redimensionamento por meio de uma das ferramentas mais avançadas do software, que garante um GIF de 128 quadros de imagens com 24 fps e resolução de 1280 x 768.
Eles também falaram um pouco sobre a preocupação de que esse tipo de ferramenta seja utilizada para reproduzir preconceitos sociais, algo que acaba virando um debate em toda e qualquer forma de Inteligência Artificial. Por isso, os engenheiros responsáveis pela Imagen Video revelaram que já testaram alguns filtros para que esse tipo de coisa não aconteça, mas não disseram se vão implementar esses filtros ou não, nem como isso vai acontecer.
“Modelos de vídeo generativos podem ser usados para impactar positivamente a sociedade, por exemplo, amplificando e aprimorando a criatividade humana. No entanto, esses modelos generativos também podem ser mal utilizados, por exemplo, para gerar conteúdo falso, odioso, explícito ou prejudicial”.
Uma ferramenta como essa, seja criando imagens ou vídeos, sempre traz esse tipo de discussão, e isso vai além do preconceito. Eles podem ser usados para fins mais obscuros, como criar um deepfake de uma celebridade, ou até mesmo imagens e vídeos com cenas pornográficas, além de discurso de ódio contra grupos, racismo e incentivo à violência.
Portanto, é muito provável que esse tipo de software só seja utilizado pelo público após a empresa ter certeza de que não pode ser usado para esses fins. Para isso, geralmente implementa filtros e bloqueios de determinadas palavras ou frases, evitando assim que sejam utilizadas para criar conteúdo impróprio por Inteligência Artificial.
Inteligência Artificial – Google Phenaki
O segundo software apresentado pelo Google para esse fim foi o Phenaki. Nesse caso, difere do Imagen Videos porque seu foco é criar vídeos com maior duração, e para isso você precisa de legendas e frases mais detalhadas.
A intenção é, por exemplo, criar pequenas histórias animadas ou cenas rápidas. É como quando um designer pega um roteiro e cria uma história em quadrinhos em cima desse roteiro. Nesse caso, aqui na Phenaki a legenda é, na verdade, um roteiro para a história que será criada.
Exatamente para isso, essa ferramenta será mais voltada para o mercado profissional, pois dificilmente pessoas sem muito conhecimento conseguiriam criar um roteiro com detalhes suficientes e descrições importantes.
Claro que por isso acaba trazendo uma qualidade visual bem inferior quando comparado ao Imagen Video, que faz vídeos bem curtos e rápidos. Além da resolução menor, esses vídeos possuem um movimento mais lento e artificial, mas é bom lembrar que ainda está em desenvolvimento.
E, no entanto, é bastante impressionante pensar que você pode criar um roteiro de uma história, colocá-lo em um software, e ele te dá uma animação de 2 minutos e 21 segundos sem nenhum tipo de interferência humana. É um grande passo!
Para os interessados, você pode entrar no site oficial da ferramenta e veja alguns dos projetos já desenvolvidos por ela. Um exemplo é o seguinte script:
Muito tráfego na cidade futurista. Uma nave alienígena chega à cidade futurista. A câmera entra na nave alienígena. A câmera gira para mostrar um astronauta na sala azul. O astronauta está digitando no teclado. A câmera se afasta do astronauta. O astronauta sai do teclado e caminha para a esquerda. O astronauta sai do teclado e vai embora. A câmera passa pelo astronauta e olha para a tela. A tela atrás do astronauta mostra peixes nadando no mar. Dê um zoom no peixe azul. Seguimos o peixe azul enquanto ele nada no oceano escuro. A câmera aponta para o céu do outro lado da água. O oceano e o litoral de uma cidade futurista. Aumente o zoom em direção a um arranha-céu futurista. A câmera dá zoom em uma das muitas janelas. Estamos em uma sala de escritório com mesas vazias. Um leão corre sobre mesas de escritório. A câmera dá um zoom no rosto do leão, dentro do escritório. Diminua o zoom para o leão vestindo um terno escuro em uma sala de escritório. O leão vestindo olha para a câmera e sorri. A câmera se afasta lentamente para fora do arranha-céu. Timelapse do pôr do sol na cidade moderna.
O que deu origem ao seguinte vídeo:
A empresa revelou que esta ferramenta será capaz de criar vídeos com som e sem limite máximo de tempo, e que no futuro poderá ser utilizada por artistas para explorar a sua criatividade. A ideia de poder criar uma animação inteira com apenas palavras e sem nenhum tipo de edição de vídeo parece realmente interessante, e aparentemente é isso que eles pretendem para um futuro próximo.
Lembrando que o Google não é a única empresa de olho nesse tipo de software, pois a Meta também anunciou uma iniciativa com Inteligência Artificial capaz de transformar scripts de texto em vídeos curtos.
Fonte: A Beira
Leave a Reply