Reconhecimento de voz sai da ficção

O primeiro (e último) contato com a tecnologia de reconhecimento de voz acontecia apenas quando o usuário acabava de comprar seu celular ou outro dispositivo e utilizava aplicações embarcadas neles para realizar operações por meio de voz. O funcionamento precário, no entanto, freava seu avanço. Mas o poder computacional da nuvem e os novos esforços para desenvolvimento estão tornando o recurso cada vez mais utilizável. E esse cenário só tende a melhorar.

De acordo com o gerente geral de Voz da Microsoft, Zig Serafin, um dos grandes motores da tecnologia é a computação em nuvem. Tanto, que um dos mais importantes sistemas de nuvem da companhia é dedicado justamente ao reconhecimento de voz. Isso porque são vários serviços reunidos. Talvez o mais essencial, do ponto de vista de faturamento, sejam os serviços telefônicos baseados em respostas de voz usados por grandes companhias como Orbitz e American Airlines. Mas entra também a tecnologia que possibilita aos usuários móveis do Bing fazer buscas por voz e ainda aos donos de automóveis Ford usar a voz para solicitar direções ao GPS do computador de bordo. Todos baseados na mesma nuvem.

A entrada da Microsoft nesse campo ocorreu em 2007, com a aquisição da empresa Tellme, na época em que a tecnologia era pouco usada. Mas, de acordo com a Microsoft, o avanço foi o suficiente para que 20% de todas as buscas oriundas de aparelhos móveis pelo Bing sejam feitas por voz. “Antes disso, tentar usar software de voz do próprio celular era doloroso, mesmo se a tentativa fosse em uma sala silenciosa”, relembra o analista da IDC, Will Stofega.

A nuvem é usada pela Microsoft também para coletar informações sobre como as pessoas usam o serviço, buscando melhorias. Um exemplo: se o usuário fala “restaurante italiano São Paulo” para o Bing, em seu dispositivo com Windows Phone 7, a empresa verifica se o usuário clica em um resultado, presumindo que ele encontrou a resposta. Em vez disso, é possível que ele tente a consulta outra vez, indicando que a Microsoft provavelmente não obteve reconhecimento preciso. As informações sobre a conectividade do telefone também são coletadas, já que problemas nesse aspecto, em muitos casos, podem ser culpados por resultados pobres. “Todos esses dados ajudam a basear a ciência do sistema”, diz Serafin.

É um processo parecido com o do Google, que tem serviço semelhante de busca por reconhecimento de voz e também realiza processamento de ponta a ponta das informações para aprender a forma como os usuários lidam com o serviço. Novamente, a nuvem entra como uma das protagonistas no processo.

Com todo seu sistema, a Microsoft recebe cerca de 11 bilhões de requisições de reconhecimento de fala ao ano. Nos novos dispositivos com Windows Phone 7, basta o usuário segurar o botão de início para abrir o mecanismo de fala, que além de buscas, pode ser utilizado para controlar muitas aplicações nos dispositivos.

Esse grande volume de informações é peneirado em um centro de operações de rede da Microsoft no Vale do Silício e boa parte das requisições é realizada por um mecanismo que processa informações de maneira automática. Uma parcela dos dados passa por olhar mais próximo de especialistas que podem pensar em realizar mudanças no sistema.

A habilidade em aprender com a massa de dados, na nuvem, é um dos fatores que vai permitir à Microsoft atingir a próxima etapa no reconhecimento de voz, patamar que a tecnologia chama de entendimento conversacional. “Nessa fase, as tecnologias de fala terão a possibilidade de interagir com aplicações múltiplas”, destaca o diretor sênior da Microsoft para Negócios, Ilya Bukshteyn.

A solução almejada é bastante ambiciosa. Bukshteyn cita um exemplo no qual ele poderia dizer :”Achar um lugar para eu e Serafin jantarmos na segunda-feira”. Em um estágio avançado, o sistema poderia automaticamente checar a agenda dos dois envolvidos para descobrir se eles estão na mesma cidade, se têm horários compatíveis e se já comeram sushi alguma vez na vida. O telefone poderia, então, sugerir a Bukshteyn um restaurante de sushi na cidade de ambos.

Enquanto não é alcançado a esse grau de sofisticação, o que a Microsoft quer é se manter à frente do Google, um competidor emergente nesse espaço na opinião de Serafin. A Microsoft defende que está na ponta porque possui um sistema capaz de apurar mais detalhes e informações, além de já ter ofertas baseadas na mesma plataforma para uma variedade de tipos de usuários, incluindo aficionados por jogos de console, usuários de telefones e motoristas.

Bern Elliot, analista do instituto de pesquisas Gartner, concorda que há uma vantagem clara. “Com a aquisição da Tellme, eles atingiram um grau de alcance de sistemas, tanto locais quanto em nuvem. Com isso, a Microsoft consegue entregar sistemas de busca para um número grande de mercados”, avalia.

Apesar de estar supostamente atrás, o Google não deixa de procurar avanços, tanto é que recentemente comprou uma empresa chamada Phonetic Arts, que talvez tenha o potencial de colocá-lo em condições de igualdade com a Microsoft. Foi o que deu a entender nos comentários que se sucederam à aquisição.

Mesmo assim, Sofega, da IDC, afirma que a Microsoft mantém a vantagem de ter soluções em andamento e conseguido oferecer boa experiência para o usuário. Ele cita um detalhe simples, que faz a diferença: em telefones com Windows 7 Mobile, o usuário consegue visualização do progresso de busca, por meio de pequenos pontos, enquanto a consulta é processada. “Não é tão tecnológico, mas do ponto de vista do usuário, é algo importante”, diz.

A interface do Windows 7 Mobile, que agradou Sofega, deve basear uma identidade a ser usada por todos os serviços da Microsoft relacionados ao reconhecimento de voz.  Dessa forma, os usuários entenderiam que a dinâmica de funcionamento é igual, seja usando Kinect, Windows Phone ou outro dispositivo que use a mesma tecnologia.

Embora a conversa concentre-se em Google e Microsoft, há um terceiro na arena: a Nuance, líder em um campo de desenvolvedores de tecnologia de reconhecimento de voz. “A companhia tem a reputação de possuir a melhor tecnologia do mercado”, diz Elliot. No entanto, a empresa pode ser comprada. E rumores do mercado apontam para um interesse da Apple, o que tornaria a briga por esse mercado ainda mais interessante.

De forma geral, os avanços na indústria do reconhecimento de voz são animadores, mas ainda existe trabalho a fazer. “Há alguns problemas, como a interferência provocada por ruídos de fundo, entre outros temas não resolvidos”, destaca Sofega.

O próximo passo
O avanço perseguido pela Microsoft em tecnologia conversacional é também a grande meta de qualquer pessoa envolvida na engenharia de tecnologias de fala. Pergunte a alguém qual é o próximo passo para uma tecnologia mais abrangente e de adoção em massa e a resposta será: processamento de linguagem natural.

O vice-presidente de Gestão de Marketing e Produtos da Nuance, Matt Revis, descreve isso como um sistema que entende o que você quer dizer, não somente o que você fala. E tudo isso sem limitações na forma como o usuário fala algo. Ele afirma que a meta é fazer o sistema ser capaz de entender frases tão complexas como “Mande uma mensagem de texto para Raquel dizendo que chegarei com 20 minutos de atraso”.

Na visão dos fornecedores, a oferta de tecnologias com esse grau de sofisticação representa desafio dobrado. “Primeiro, é necessário reconhecer as tarefas e depois interpretar o significado. A primeira parte está ficando mais fácil, mas a segunda ainda é algo distante. Significado depende de contexto e é um campo incerto, sendo que os próprios humanos têm dificuldades de interpretar frases de outras pessoas”, opina o gerente de Produtos do Google, Amir Mane.

O gerente de produto sênior do time da Microsoft, responsável pela incorporação da TellMe, Abhi Rele, acredita que os serviços adicionais típicos dos smartphones, como a bússula ou o GPS, são recursos que podem aumentar a exigência por processamento de linguagem natural, apesar da dificuldade de alcançar a tecnologia.

Muito a melhorar
Os fornecedores gostam de destacar as futuras possibilidades dos serviços de reconhecimento de voz, mas o fato é que eles ainda estão muito distantes de algo que possa ser aplicado cotidianamente e ainda desagradam bastante os usuários, mesmo os que mostram boa vontade em usar intensamente as aplicações.

O líder de ciências de computação da Universidade de Rochester, James Allen, diz que é excessiva a frustração que tais produtos geram do ponto de vista da experiência do usuário. Conquistá-lo por vezes é um desafio que supera a lógica e o entendimento sobre as tecnologias. Um exemplo são soluções de reconhecimento de voz utilizados por sistemas automatizados de help desk e outros tipos de atendimento de call center. Eles são relativamente eficientes e entendem o que os humanos dizem 98% das vezes. Mesmo assim, as pessoas ainda têm resistência em usar esse tipo de tecnologia.

E o motivo da resistência é o fato de esses sistemas não seguirem um rumo de conversa natural. Alguns centros de atendimento de grandes empresas implementaram as soluções e uma voz realiza perguntas que devem ser respondidas pelo usuário. Existe um roteiro por trás dessas questões e um número limitado de respostas que são entendidas, já que elas são dirigidas.“Não se trata de responder ao que a pessoa procura, mas de descobrir o que realmente ela precisa”, diz Allen.

Esses sistemas, na verdade, são um composto de tecnologias diferentes. Há o reconhecimento de voz, ou a habilidade do computador em entender e traduzir, de forma bem-sucedida, o que o interlocutor está dizendo. A outra tecnologia é o processamento de linguagem, que tenta converter o que o interlocutor está falando em um comando para o computador executar, ou resumir para um operador humano.

Grandes avanços foram feitos nessas duas tecnologias nos últimos anos, o que não significa que a experiência para o usuário sofreu grande reviravolta. “Quando ligamos para esses telefones, é porque já temos algum problema. E, para alguns, lidar com esses sistemas pode representar verdadeira batalha”, diz Allen, que lidera uma pesquisa acadêmica, em andamento, na qual procura formas de estabelecer uma conversa com a máquina da mesma maneira que seria com outro ser humano.

Mesmo respostas muito simples algumas vezes são complicadas para o sistema. Em suas pesquisas de campo, Allen gravou conversas em locais públicos, como estações de trem, por exemplo. Em uma delas, o interlocutor dizia para uma atendente somente “8:50 para Windor?”. Compreendendo a pergunta, a atendente logo disse “Portão 10, atraso de 20 minutos”. Para um ser humano, é muito fácil saber exatamente o que se pretende com essa pergunta, mas sistemas computadorizados não têm essa inteligência.

Na visão de Allen, dois elementos faltam para os sistemas modernos: a habilidade de analisar o que o interlocutor está dizendo e conversar com ele para obter mais informações que ajudem a chegar ao entendimento sobre o que quis dizer e chegar à resposta correta. “Várias das soluções de processamento de linguagem natural de prateleira tendem à superficialidade. Não há tecnologia que dê significado às sentenças”, diz Allen. Entre as ferramentas que teriam o potencial de melhorar os sistemas estão as de processamento estatístico e de definição de palavras que ajudem a encontrar relações e aproximem a máquina da resposta certa.

Outros cuidados que precisariam ser tomados: ao estabelecer uma conversa, a máquina precisa pedir mais informações para o interlocutor e ter grande capacidade para processar tudo cumulativamente, sem irritar os usuários com perguntas que já foram respondidas de alguma forma. “Esse é o futuro, é o que todos querem que os sistemas façam e creio que já estamos próximos de criar sistemas de diálogo nesse grau de complexidade”, atesta.

A ideia já está em protótipo. Allen e um grupo de pesquisadores projetaram um programa chamado Cardiac, que tenta reproduzir as questões que uma enfermeira perguntaria para o paciente com doença do coração. O programa foi criado com financiamento de um instituto de saúde do governo norte-americano. Allen garante que a tecnologia já conta com recursos para não repetir perguntas e para manter questionamentos somente sobre o que ainda é necessário.

Outro software de Allen e do seu time, chamado Plow, é capaz de dar ao computador capacidade de aprendizado no reconhecimento de voz. “É um sistema que possibilita ao usuário ensinar o sistema a fazer coisas por ele por meio do diálogo”, diz.

Como exemplo, Allen demonstrou o programa aprendendo como navegar por restaurantes próximos usando um browser. O usuário abre um navegador, visita um site de localização de restaurantes, digita o tipo de local buscado e onde fica e depois copia e cola os resultados em uma página em branco. Enquanto faz isso, descreve cada passo com a voz, ao mesmo tempo em que os realiza.

Nesse processo, o Plow reconhece e grava cada passo e responde por som toda vez que um passo é compreendido. Mais tarde, quando o usuário quiser buscar outro restaurante, o programa automaticamente realiza os mesmos passos, produzindo outra lista automaticamente em uma página. O desenvolvimento do programa foi financiado pelo departamento de defesa do governo norte-americano.

O que isso pode acrescentar? Quanto mais informações, mais fácil fica construir sistemas de processamento de linguagem humana, algo com o qual o cientista chefe da Microsoft, Larry Heck, concorda. “Se não houver dados, não interessa o grau de sofisticação dos algoritmos. Os sistemas simplesmente não vão funcionar adequadamente”, diz.

Para Heck, um caminho para encontrar mais informações seriam as pesquisas de mecanismos de buscas. As pessoas já estão treinadas a estruturar buscas em uma série de palavras-chave, em vez de escrever sentenças inteiras descrevendo o que precisam. Os conjuntos de resultados poderiam ajudar os sistemas no melhor entendimento sobre o que as pessoas procuram com determinados termos.

A previsão de Heck é que mais pessoas usem sistemas ativados por voz de diversos fornecedores, que aos poucos vão conquistar mais inteligência necessária para, com o tempo, melhorar os sistemas de processamento de linguagem natural.

Via Computerworld

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s