A criadora do ChatGPT, OpenAI, anunciou nesta quinta-feira (15) o lançamento de um modelo de inteligência artificial generativa capaz de gerar vídeos em alta resolução (1080p) de até um minuto a partir de pedidos feitos em texto.
Leia mais:
Doodle do Google celebra pipoca com jogo interativo no estilo battle royale
Duolingo recebe conversas em tempo real com IA para melhorar aprendizado
Londrinenses criam ferramenta digital para otimizar gestão de obras
Veja alternativas para pagar mais barato no novo iPhone 16
A plataforma chamada de Sora cria, de acordo com a OpenAI, cenas complexas com múltiplos personagens e diferentes movimentos. Modelos da concorrência trabalham com durações entre quatro e dez segundos.
A nova plataforma, por razões de segurança, ainda tem seu acesso restrito a avaliadores de riscos e a um número limitado de artistas visuais e produtores de vídeos. A empresa não divulgou projeção de lançamento.
Para evitar uso nocivo de vídeos falsos conhecidos como deepfakes, já usados para influenciar eleições e aplicar golpes financeiros, a OpenAI afirma que pretende adicionar um selo criptografado aos materiais gerados por Sora.
Além disso, a empresa pretende replicar o filtro de abusos já ativo no ChatGPT na nova plataforma geradora de vídeos. A empresa ainda afirma que desenvolveu um segundo classificador de imagens que avaliará a segurança de cada imagem.
O modelo, entretanto, falha em manter a coerência de efeitos físicos, como direção da luz e do vento, e em reproduzir relações de causa e efeito. Instruções espaciais, de direita e esquerda, por exemplo, também recebem respostas erradas.
Em um caso, os pesquisadores responsáveis pelo desenvolvimento da nova IA generativa mostram um vídeo de um homem correndo em uma esteira ao contrário.
Sora foi treinado a partir de uma coleção de vídeos para simular características do mundo real. Por isso, o nome faz referência a palavra japonesa para "céu", que também significa a "concha que envelopa o mundo".
Para conseguir manter a coerência dos vídeos por um minuto, a OpenAI adotou uma estratégia similar a usada no ChatGPT, que calcula qual seria a próxima palavra mais provável a aparecer em um texto. Sora prediz qual serão os próximos quadros mais prováveis em uma determinada sequência de imagens.
A Sora, segundo a OpenAI é um passo crucial para aumentar a compreensão de modelos de inteligência artificial sobre o planeta.
O objetivo máximo da OpenAI é construir um modelo de inteligência artificial geral, capaz de reproduzir todas as capacidades humanas.
No fim do mês passado, o Google lançou um modelo de inteligência artificial gerador de vídeos chamado de Lumiére. O material de apresentação mostra uma sequência de imagens surreais em qualidade surpreendente na comparação com aquelas geradas pelos outros modelos então disponíveis no mercado.
A IA do Google também ainda está sem data para chegar ao público.
De acordo com o artigo publicado por engenheiros do Google, as imagens geradas pela nova tecnologia mantém coerência ao longo do tempo, diferente de outras plataformas disponíveis do mercado, como a Runway, já testada pela Folha, por até cinco segundos (80 quadros a uma frequência de 16 quadros por segundo).
No caso do Google, a estratégia foi treinar a rede neural a partir de um vetor temporal, além da composição e cores do quadro. Assim, o fator tempo entra na conta.