Como Henry Higgins, o vocalista da peça “Pygmalion” de George Bernard Shaw, Marius Kotescu e Georgy Tenchev mostraram recentemente como seu aluno estava tentando superar suas dificuldades de articulação.
Os dois cientistas de dados, que trabalham para a Amazon na Europa, estavam ensinando Alexa, a assistente digital da empresa. Sua missão: ajudar Alexa a dominar o inglês com sotaque irlandês com a ajuda de inteligência artificial e gravações de falantes nativos.
Durante a demonstração, Alexa falou sobre uma noite memorável. “A festa ontem à noite foi tão louca”, disse Alexa por fim, usando a palavra irlandesa para se divertir. “Pegamos sorvete a caminho de casa e ficamos felizes em sair.”
O Sr. Tenchev balançou a cabeça. Alexa deixou cair o “r” na palavra “Party”, fazendo com que a palavra soasse monótona, como pah-tee. Ele concluiu que era muito britânico.
Os tecnólogos fazem parte de uma equipe da Amazon que trabalha em uma área desafiadora da ciência de dados conhecida como decodificação de áudio. É um problema desafiador que assumiu um novo significado em meio a uma onda de desenvolvimentos de IA, pois os pesquisadores acreditam que o quebra-cabeça da fala e da tecnologia pode ajudar a tornar os dispositivos, bots e sintetizadores de fala baseados em IA mais conversacionais – ou seja, capazes de atrair muitos jogadores regionais. sotaques.
Lidar com o desembaraço fonêmico envolve mais do que apenas compreender o vocabulário e a gramática. O tom, o timbre e o sotaque do orador muitas vezes dão significado exato às palavras e peso emocional. Os linguistas chamam esse recurso de linguagem de “exibição” e é algo que as máquinas tiveram dificuldade em dominar.
Somente nos últimos anos, graças aos avanços da inteligência artificial, dos chips de computador e de outros dispositivos, os pesquisadores avançaram na solução do problema da decodificação de áudio, transformando a fala gerada por computador em algo mais agradável ao ouvido.
Tal trabalho pode eventualmente convergir com uma explosão de “IA generativa”, disseram os pesquisadores, que é a tecnologia que permite que os chatbots gerem suas próprias respostas. Chatbots como ChatGPT e Bard podem um dia operar inteiramente com comandos de voz dos usuários e responder verbalmente. Ao mesmo tempo, assistentes de voz como Alexa e Siri, da Apple, se tornarão mais comunicativos, o que pode reavivar o interesse do consumidor em um setor de tecnologia que parece estagnado, disseram analistas.
Conseguir que assistentes de voz como Alexa, Siri e Google Assistant falem vários idiomas tem sido um processo caro e demorado. As empresas de tecnologia contrataram dubladores para gravar centenas de horas de fala, o que ajudou a criar vozes artificiais para assistentes digitais. Sistemas avançados de inteligência artificial conhecidos como “modelos de conversão de texto em fala” — porque convertem texto em fala sintética com som natural — Estou apenas começando a simplificar Este processo.
A tecnologia “agora é capaz de criar uma voz humana e uma voz sintética com base na entrada de texto em diferentes idiomas, dialetos e dialetos”, disse Marion Laborie, estrategista-chefe do Deutsche Bank Research.
A Amazon está sob pressão para alcançar concorrentes como Microsoft e Google na corrida pela inteligência artificial. Em abril, Andy Jassy, CEO da Amazon, disse: para analistas de Wall Street que a empresa planejava tornar o Alexa “mais ativo e falante” com a ajuda da IA generativa de ponta, disse Rohit Prasad, cientista-chefe da Amazon para o Alexa. ele disse à CNBC Em maio, ele viu o assistente de voz como uma “IA pessoal instantaneamente disponível” ativada por voz.
A Irish Alexa estreou comercialmente em novembro, após nove meses de treinamento para entender e depois falar o sotaque irlandês.
“O sotaque é diferente da linguagem”, disse Prasad em uma entrevista. As técnicas de IA devem aprender a extrair sotaque de outras partes do discurso, como entonação e frequência, antes de poderem replicar as características dos dialetos locais – por exemplo, talvez o “a” seja mais plano e os “ts” sejam pronunciados com mais força.
Esses sistemas precisam detectar esses padrões, disse ele, “para que possam criar um sotaque totalmente novo”. “isto é difícil.”
Mais difícil ainda é tentar fazer com que a tecnologia aprenda um novo sotaque por conta própria, a partir de uma forma de fala com som diferente. Isso é o que a equipe do Sr. Cotescu tentou construir o Alexa irlandês. Eles se basearam fortemente no modelo de fala existente, principalmente com sotaques ingleses britânicos – com uma seleção muito menor de sotaques americanos, canadenses e australianos – para treiná-los a falar inglês irlandês.
A equipe enfrentou vários desafios de idioma do idioma inglês-irlandês. Os irlandeses tendem a deixar cair o “h” no “th”, pronunciando as letras como “t” ou “d”, por exemplo, fazendo com que “bath” soe como “bat” ou mesmo “bad”. O inglês irlandês também é rhotic, o que significa que a letra “r” é pronunciada excessivamente. Isso significa que o “r” em “festa” será mais pronunciado do que você pode ouvir da boca de um londrino. Alexa teve que aprender e dominar esses recursos de fala.
O inglês irlandês é “difícil”, disse Kotescu, que é romeno e foi o principal investigador da equipe irlandesa do Alexa.
Os modelos de fala que suportam as habilidades verbais do Alexa evoluíram de forma mais avançada nos últimos anos. Em 2020, pesquisadores da Amazon ensinaram Alexa Ele fala espanhol fluentemente De um modelo de língua inglesa.
O Sr. Cotescu e a equipe viram os dialetos como a próxima fronteira para os recursos de fala do Alexa. Eles projetaram a Irish Alexa para confiar mais na IA do que nos atores para construir seu modelo de fala. Como resultado, o Alexa irlandês foi treinado em um grupo relativamente pequeno – cerca de 24 horas de gravações por dubladores que recitaram 2.000 discursos em inglês irlandês.
No início, quando os pesquisadores da Amazon apresentaram as gravações irlandesas para o Alexa irlandês ainda aprendendo, algumas coisas estranhas aconteceram.
Às vezes, letras e sílabas vazavam da resposta. Às vezes, os “S” estão grudados. Uma ou duas palavras, às vezes decisivas, foram inexplicavelmente murmuradas e ininteligíveis. Em pelo menos uma instância, a voz feminina de Alexa caiu algumas oitavas, soando mais masculina. Pior ainda, a voz masculina soava distintamente britânica, o tipo de brincadeira que poderia levantar as sobrancelhas em alguns lares irlandeses.
“Eles são grandes caixas pretas”, disse Tenchev, cientista búlgaro e chefe da Amazon no projeto, sobre os modelos de fala. “Você deve ter muitas experiências para sintonizar.”
Foi isso que os técnicos fizeram para corrigir o deslize “partidário” de Alexa. Eles desemaranharam a fala, palavra por palavra, som (a menor parte audível de uma palavra) por voz para identificar e ajustar onde o Alexa falha. Eles então alimentaram o modelo de fala irlandesa de Alexa com mais dados de áudio gravados para corrigir o erro verbal.
Resultado: “r” é retornado em “party”. Mas então o “p” desapareceu.
Então, os cientistas de dados fizeram o mesmo processo novamente. Eles finalmente se concentram no som que contém o “p” ausente. Em seguida, eles ajustaram ainda mais o modelo para que o som “p” retornasse e o “r” não desaparecesse. Alexa finalmente aprendeu a falar como um Dublin.
Desde então, duas linguistas irlandesas – Eileen Vaughan, que leciona na Universidade de Limerick, e Kate Tallon, uma estudante de doutorado que trabalha no Laboratório de Fonética e Fala do Trinity College Dublin – deram a Alexa notas altas no sotaque irlandês. Eles disseram que a maneira como a Alexa irlandesa enfatizou os “r’s” e suavizou o “t” parou, e a Amazon acertou o sotaque.
“Parece real para mim”, disse a Sra. Tallon.
Os pesquisadores da Amazon disseram que ficaram satisfeitos com o feedback amplamente positivo. Seus modelos de fala desvendaram o sotaque irlandês tão rapidamente, dando-lhes esperança de que os sotaques pudessem ser replicados em outros lugares.
E eles escreveram na língua de A trabalho de pesquisa de janeiro Sobre o Projeto Alexa irlandês.
“Entrepreneur. Professional music nerd. Beer evangelist. Avid tv aficionado. Social mediaholic.”