
Photo by Ben Collins on Unsplash
A ByteDance apresenta o OmniHuman-1, uma das ferramentas DeepFake mais realistas do mercado
Pesquisadores da ByteDance, empresa controladora do TikTok, apresentaram esta semana uma nova ferramenta de IA chamada OmniHuman para gerar vídeos humanos com base em imagens e outras mídias.
Com pressa? Aqui estão os fatos rápidos!
- ByteDance apresentou sua mais recente ferramenta de IA, OmniHuman-1, que pode gerar vídeos com movimento, estilo e comportamento realistas a partir de uma única foto.
- A equipe de pesquisa compartilhou um artigo com mais detalhes da metodologia e estratégias aplicadas para alcançar deepfakes realistas.
- OmniHuman ainda não está disponível ao público.
A primeira versão da ferramenta de IA, OmniHuman-1, é capaz de gerar vídeos que suportam múltiplos estilos de imagem – variando de fotografia realista a animação e desenhos animados – bem como oferecer variações de áudio e música, vários formatos de tela e imagens em movimento realistas. Em várias demonstrações, a empresa chinesa apresentou as capacidades do modelo de IA.
“OmniHuman supera significativamente os métodos existentes, gerando vídeos humanos extremamente realistas com base em entradas de sinal fraco, especialmente áudio”, afirma o artigo publicado na segunda-feira pela equipe da Bytedance. “Ele suporta entradas de imagem de qualquer proporção, sejam elas retratos, meio corpo ou imagens de corpo inteiro, oferecendo resultados mais realistas e de alta qualidade em vários cenários.”
A equipe de pesquisa explicou que usou uma “estratégia de treinamento misto de condicionamento de movimento de multimodalidade” e forneceu vários exemplos das capacidades da ferramenta, incluindo a recriação de uma aula com Albert Einstein, simulação de discursos usando imagens de sites de imagens gratuitas e a geração de performances musicais a partir de mídia de áudio ou vídeo.
A equipe de pesquisa da ByteDance alertou sobre os riscos de fraude – eles ainda não lançaram a ferramenta de IA para o público e não compartilharam uma data – e outras preocupações éticas. A empresa garantiu que as imagens e vídeos usados para demonstrar o desempenho do modelo foram tirados de fontes públicas.
De acordo com a Forbes, a empresa chinesa usou 18.700 horas de dados de vídeo humano para treinar o novo modo. Vários especialistas já compartilharam suas opiniões sobre a nova ferramenta de IA.
“Criar algo a partir de apenas uma imagem e fazer parecer que está realmente falando e se movendo é fascinante do ponto de vista tecnológico, mas também pode ter muitas consequências negativas potenciais”, disse Samantha G. Wolfe, professora adjunta na Escola Steinhardt de Cultura, Educação e Desenvolvimento Humano da NYU e fundadora da PitchFWD em uma entrevista para a Forbes. “Versões falsas de líderes empresariais ou políticos dizendo algo que não é verdadeiro podem ter uma grande influência em uma empresa, ou uma grande influência em um país.”
As preocupações de Wolfe são compartilhadas por vários especialistas do setor. Especialistas em cibersegurança recentemente alertaram sobre uma nova onda de golpes com deepfakes gerados por IA sofisticada.
Deixe um comentário
Cancelar