Esta nova IA pode simular sua voz com apenas 3 segundos de som

O novo modelo de linguagem da Microsoft Vall-E Diz-se que é capaz de imitar qualquer voz usando apenas uma amostra de gravação de três segundos.

A ferramenta AI lançada recentemente foi testada em 60.000 horas de dados de fala em inglês. Ele pode replicar as emoções e o tom de um orador, disseram os pesquisadores em um artigo da Cornell University.

Esses resultados pareciam ser verdadeiros mesmo quando uma gravação de palavras nunca ditas por um falante nativo foi criada.

“O Vall-E destaca os recursos de aprendizado no contexto e pode ser usado para sintetizar fala personalizada e de alta qualidade usando-o Gravação gravada por apenas 3 segundos Do alto-falante invisível como um comando de voz. Os resultados do experimento mostram que o Vall-E é significativamente superior ao mais recente zero-shot [text to speech] sistema em termos de naturalidade da fala e semelhança do falante”, escreveram os autores. Além disso, descobrimos que o Vall-E pode manter afinado a emoção do locutor e o ambiente acústico da mesa de som. “

SOFTWARE ESPIÃO ANDROID ATACA NOVAMENTE PARA TOMAR INSTITUIÇÕES FINANCEIRAS E SEU DINHEIRO

A sinalização do estande corporativo da Microsoft é exibida na CES 2023 no Las Vegas Convention Center em 6 de janeiro de 2023, em Las Vegas, Nevada.
((Foto de David Baker/Getty Images))

amostras Val-E Shared no GitHub são estranhamente semelhantes às reivindicações do palestrante, embora variem em qualidade.

Em uma das frases compostas do banco de dados Emotional Voices, Val-E diz calmamente a frase: “Temos que reduzir o número de sacolas plásticas”.

Personagens da Disney chegando ao Amazon Alexa com o comando “Hey Disney”

No entanto, a pesquisa em IA de conversão de texto em fala Ele vem com um aviso.

“Como o Vall-E pode sintetizar a fala que preserva a identidade do falante, pode muito bem Possível risco de uso indevido do formulário, como representar a identificação de uma voz ou representar um falante específico”, dizem os pesquisadores nesta página da web. Executamos os experimentos assumindo que o usuário concorda em ser o locutor-alvo na síntese de fala. Quando o modelo é generalizado para falantes não vistos no mundo real, ele deve incluir um protocolo para garantir que o falante consinta o uso de sua voz e o modelo de detecção de fala sintetizada. “

A Microsoft Corp. assina no Microsoft India Development Center, em Noida, Índia, na sexta-feira, 11 de novembro de 2022.

A Microsoft Corp. assina no Microsoft India Development Center, em Noida, Índia, na sexta-feira, 11 de novembro de 2022.
(Fotógrafo: Prakash Singh/Bloomberg via Getty Images)

Clique aqui para acessar o aplicativo FOX NEWS

Atualmente, o Vall-E, que a Microsoft chama de “paradigma de linguagem de marcação neural”, não está disponível ao público.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *