Jornal Estado de Minas

Voz feminina usada pelo serviço de tradução do Google vira mania na web

Não é de hoje que vozes femininas seduzem os ouvintes. O mais novo timbre a integrar esse grupo vem de um serviço do Google. A mulher que empresta sua fala ao sistema de áudio do tradutor on-line da empresa caiu nas graças dos internautas e está protagonizando uma série de montagens que invadiram a web. A maioria dos vídeos explora a fala sensual da moça, aliada a seu sotaque robotizado. Para que a brincadeira exista, porém, um batalhão de especialistas se esforça para melhorar a chamada text to speech (texto para ser falado), uma técnica que deve estar cada vez mais presente em diversas aplicações.



A moça do Google Translate virou uma celebridade depois de passar um trote para o padre Fábio de Melo, no programa Direção espiritual, da TV Canção Nova. O sacerdote ora por fiéis que entram em contato com a emissora e pretendia fazer o mesmo na ligação protagonizada pela voz do tradutor. Melo pergunta o nome da interlocutora, que prontamente respondeu: “É a sua mãe. Você não reconhece a minha voz!”. O padre logo percebe que há algo errado, mas leva a situação com bom humor. Antes disso, uma outra montagem envolvendo apresentadores de tevê virou febre no YouTube. Yudi Tamashiro, do infantil Bom Dia & Cia., teria sido vítima de uma brincadeira mais pesada, que envolveu palavrões. A ligação, contudo, não existiu — foi apenas uma montagem no site de vídeos.

Embora o sucesso da voz do Google Tradutor tenha começado depois de trotes a atrações televisivas, a criatividade dos usuários do serviço pipocou mesmo na internet (veja quadro). Os vídeos incluem interpretações de músicas e poemas e montagens sobre a fala de outros interlocutores. Em uma das peças, por exemplo, uma menina discute com a voz robótica, argumentando que não quer dormir. Outra brincadeira foi com a telefonista de uma pizzaria, que precisou ouvir do cliente o pedido de uma pizza com o som do “z” bastante marcado.

O atendente de telemarketing Fábio Leandro Barros, 19 anos, é autor de um dos vídeos mais populares. O jovem aproveitou uma entrevista que já estava no YouTube e sincronizou as imagens com a fala do moça do Google Tradutor. Na produção, um homem que confessou o assassinato da própria mãe xinga o jornalista que tenta perguntar o motivo do crime: “Não interessa para você, palhaço”, responde a voz sensual do programa. “Já tinha tentado colocar várias coisas engraçadas no YouTube, mas essa foi a que teve mais acessos. Ficou muito engraçado, e as pessoas procuram por humor na internet”, diz Barros.



No vídeo editado pelo jovem, parte da comicidade se deve à voz feminina estar por cima da fala de um homem muito exaltado. Em outros casos, o hilário está no simples fato de o sistema de áudio não conseguir reproduzir características da linguagem falada — perguntas, exclamações ou a fonética de expressões homógrafas, por exemplo. “Um dos principais problemas desse tipo de programa é que o texto pode ser potencialmente ambíguo. Palavras como ‘colher’ (substantivo que indica o talher) e ‘colher’ (verbo que se refere à colheita) têm sua pronúncia determinada apenas pelo contexto”, observa o professor Aldebaro Klautau, do Instituto de Tecnologia da Universidade Federal do Pará (UFPA).

Trabalhão
Para fazer com que a moça do Google Translate solte o verbo, há um longo processo. Primeiro, a locutora grava, em estúdio, diversas frases que deem boa cobertura dos diferentes sons de um idioma. Com esse material, os engenheiros criam os chamados difones, subunidades das palavras semelhantes às sílabas. Assim, em “abacate”, por exemplo, há um difone que representa a união do primeiro “a” com o “b”, outro difone para a junção da sílaba “ba”, com o “c” subsequente e assim por diante. “Grosso modo, um difone é um trecho entre dois fonemas, que é menor, em duração, do que uma sílaba”, explica Klautau.

Isso, contudo, não é suficiente para gerar todas as palavras de uma língua. O Google, então, adota um procedimento conhecido como prosódia. “Quando o serviço gera uma tradução, ele procura por padrões em centenas de milhões de documentos para ajudar a decidir sobre a melhor alternativa”, explica a companhia, em um site sobre o programa. Toda essa etapa faz parte do pré-processamento. Depois disso, resta ao sintetizador de som transformar os dados em áudio. “Na primeira etapa, o sistema cria fonemas e ‘marcas de entonação’ a partir do texto. A segunda parte é o som”, resume o professor da UFPA.



Segundo Klautau, as técnicas de text to speech devem ficar cada vez mais aprimoradas. Isso porque o imenso trabalho de codificação e decodificação não serve apenas aos tradutores, mas também a uma série de aplicações. Serviços de bank phone, por exemplo, nos quais uma máquina diz ao cliente qual é o saldo e o limite, adotam melhorias no método. Sistemas para pessoas com deficiência também utilizam vozes pré-gravadas para ler o que está escrito na tela. E há ainda mais possibilidades. “Nas guerras do Afeganistão e do Iraque, muitos soldados norte-americanos usavam recursos como esse para se comunicar em árabe”, diz Aldebaro Klautau.

Esforço brasileiro
Para a parte de pré-processamento, o Google adota uma técnica mais estatística, que, grosso modo, treina o sistema com exemplos, de forma quase automática. Há uma outra abordagem, “por regras”, que usa o conhecimento de especialistas para criar os padrões. “Esse método dá mais trabalho, mas permite tratar exceções”, diz o professor Aldebaro Klautau. É nesse sentido que muitas pesquisas brasileiras trabalham, entre elas, uma da UFPA, gratuita: www.laps.ufpa.br/falabrasil.

 

audima