Empregados da Amazon ouvem o que você diz para a Alexa
Dezenas de milhões de pessoas usam alto-falantes inteligentes e seu software de comando por voz para jogar videogames, encontrar música ou buscar informações. Outros milhões de possíveis usuários relutam em permitir que os aparelhos e seus potentes microfones entrem em suas casas, com medo de que alguém esteja ouvindo.
E, às vezes, alguém está.
A Amazon emprega milhares de pessoas em todo o mundo para ajudar a melhorar o sistema de assistência digital Alexa, oferecido como parte da linha Echo de alto-falantes. O pessoal ouve gravações de voz capturadas nas casas e escritórios de usuários. Elas são transcritas, anotadas e usadas para alimentar o software, em um esforço para eliminar lacunas na compreensão da fala humana pelo Alexa, e ajudar o sistema a responder melhor a comandos.
O processo de revisão de gravações do sistema Alexa, descrito por sete pessoas que trabalharam no programa, destaca a participação humana, muitas vezes negligenciada, no treinamento de algoritmos de software. Em seus materiais de marketing, a Amazon afirma que o sistema Alexa "vive na nuvem e se torna cada vez mais inteligente". Mas como muitos instrumentos de software construídos para aprender com a experiência, parte do ensino é realizado por seres humanos.
A equipe é formada por uma mistura de prestadores de serviços e empregados diretos da Amazon, que trabalham em escritórios em Boston e na Costa Rica, na Índia e na Romênia, de acordo com as pessoas envolvidas, que assinaram acordos de confidencialidade que as proíbem de falar sobre o programa publicamente.
Elas trabalham nove horas por dia, e cada revisor ouve até mil gravações de áudio por turno de trabalho, de acordo com duas pessoas que trabalham no escritório da Amazon em Bucareste, que ocupa os três pisos superiores do edifício Globalworth, no bairro de Pipera, uma região em desenvolvimento na capital romena. As instalações modernas da companhia se destacam em meio à infraestrutura precária da área, e não existem quaisquer sinais visíveis de fora que revelem a presença da Amazon.
O trabalho realizado tende a ser simples. Um trabalhador em Boston disse que pesquisa os registros de voz em busca de frases específicas como "Taylor Swift", e faz anotações sobre elas para indicar que a pessoa estava realizando uma busca sobre a cantora.
Ocasionalmente, os ouvintes encontram informações que os usuários do Echo provavelmente prefeririam manter sigilosas: uma mulher muito desafinada cantando no chuveiro, por exemplo, ou uma criança gritando e pedindo ajuda. As equipes usam salas de chat internas da Amazon para compartilhar arquivos quando precisam de ajuda para interpretar uma palavra distorcida, ou quando encontram uma gravação engraçada.
Às vezes, os trabalhadores da Amazon ouvem gravações que consideram perturbadoras, ou em alguns casos possivelmente criminais. Dois deles disseram ter encontrado o que pensam ter sido uma agressão sexual. Quando algo assim acontece, a experiência pode ser compartilhada com outros empregados em salas de chat internas, como forma de aliviar o estresse.
A Amazon diz ter procedimentos em vigor para que os trabalhadores sigam quando ouvem algo de perturbador, mas dois deles, no escritório da Romênia, dizem que ao buscar orientação para casos desse tipo foram informados de que não era função da Amazon interferir.
"Levamos muito a sério a segurança e a privacidade das informações pessoais de nossos clientes", afirmou um porta-voz da Amazon via email. "Anotamos apenas uma amostra muito pequena das gravações de voz do Alexa, a fim de melhorar a experiência dos clientes. Esse tipo de informação nos ajuda, por exemplo, a treinar nossos sistemas de reconhecimento de fala e de linguagem natural, para que o Alexa compreenda melhor os pedidos dos usuários, garantindo que o serviço funcione bem para todos".
"Temos em vigor estritas salvaguardas técnicas e operacionais, e uma política de tolerância zero quanto a abusos de nossos sistemas. Os empregados não têm acesso direto a informações que possam identificar uma pessoa ou uma conta, como parte de seu fluxograma. Toda informação é tratada com alta confidencialidade e usamos sistemas de autenticação múltipla para restringir o acesso, e criptografamos os serviços e auditamos nosso ambiente de controle a fim de protegê-lo".
Em seus materiais de marketing e em suas normas de privacidade, a Amazon não informa explicitamente que seres humanos ouvirão gravações de algumas conversas registradas pelo sistema Alexa. "Usamos seus pedidos ao Alexa para treinar os sistemas de reconhecimento de fala e e compreensão de linguagem natural", a empresa informa em uma lista de respostas a questões frequentes.
Nos controles de privacidade do Alexa, a Amazon oferece aos usuários a opção de desabilitar a gravação de suas vozes para uso no desenvolvimento de novos recursos. A empresa diz que as pessoas que optam por não participar do programa ainda assim podem ter suas gravações analisadas por trabalhadores da empresa ao longo do processo de revisão. Uma imagem de tela examinada pela Bloomberg mostra que as gravações enviadas aos revisores da Amazon não revelam o nome completo e endereço de um usuário mas estão associadas a um número de conta, bem como ao prenome do usuário e ao número de série de seu aparelho.
O site noticioso The Intercept reportou algumas semanas atrás que empregados da Ring, uma empresa controlada pela Amazon, identificam manualmente pessoas e veículos em vídeos capturados pelas câmeras conectadas a campainhas da empresa, em um esforço para treinar o melhor o software para que cuide do trabalho de forma autônoma.
"Você não necessariamente imagina que outra pessoa ouvirá o que está dizendo ao seu alto-falante inteligente na privacidade de seu lar", disse Florian Schaub, professor da Universidade de Michigan que pesquisa sobre questões de privacidade associadas ao uso de alto-falantes inteligentes. "Creio que fomos condicionados [à suposição] de que o aprendizado por máquina desses sistemas acontece por mágica. Mas o fato é que ainda existe processamento manual envolvido",
"Que isso seja ou não uma preocupação de privacidade depende do grau de cautela da Amazon e de outras empresas quanto ao tipo de informação revisada manualmente, e da forma pela qual essas informações são apresentadas a alguém", ele acrescentou.
Quando o Echo foi lançado, em 2014, o alto-falante inteligente de formato cilíndrico rapidamente popularizou o uso caseiro de software de voz. Não demorou para que a Alphabet lançasse um produto semelhante, o Google Home, seguido pelo Apple HomePod. Diversas empresas chinesas também vendem produtos desse segmento. Os consumidores mundiais adquiriram um total de 78 milhões de alto-falantes inteligentes no ano passado, de acordo com o grupo de pesquisa Canalys. Milhões de outros usuários recorrem a assistentes pessoais com comando de voz em seus smartphones.
O software Alexa foi projetado para gravar trechos de áudio continuamente, quando ouve uma palavra que o ativa. O padrão da Amazon é a palavra "Alexa", mas os usuários podem alterar o padrão para "Echo" ou "computador". Quando a palavra de ativação é detectada, o círculo luminoso no topo do Echo fica azul, indicando que o aparelho está gravando, e transmitindo um comando aos servidores da Amazon.
A maioria dos sistemas de reconhecimento de fala dos alto-falantes inteligentes modernos depende de redes neurais que tomam o cérebro humano como padrão. O software aprende enquanto trabalha, detectando padrões em meio a vastos volumes de dados. Os algoritmos que acionam o Echo e os demais alto-falantes inteligentes usam modelos probabilísticos para fazer palpites informados. Se alguém pergunta ao Alexa se existe um grego por perto, o algoritmo sabe que o usuário provavelmente está em busca de um restaurante, e não de uma igreja ou centro comunitário.
Mas às vezes o sistema Alexa entende errado, especialmente ao lidar com novas gírias, coloquialismos regionais ou outros idiomas que não o inglês. Em francês, a expressão "avec sa" ("com seu" ou "com sua") pode confundir o software e ser entendido como a palavra de ativação. "Hecho", a palavra espanhola para um fato ou feito, às vezes é entendido como "Echo". E assim por diante. É por isso que a Amazon recorre a pessoal humano para cobrir as lacunas que os algoritmos deixam.
O sistema Siri, da Apple, também conta com ajuda humana, para determinar se a interpretação de pedidos pela assistente digital se alinha ao que o usuário realmente disse. As gravações revisadas não contêm informações de identificação e ficam armazenadas por seis meses, registradas sob um rótulo aleatório, de acordo com documentos da Apple sobre segurança. Depois, o identificador aleatório é removido dos dados, mas eles podem ser armazenados por mais tempo a fim de melhorar o reconhecimento de voz pelo sistema Siri.
No Google, alguns trabalhadores podem ter acesso a trechos de áudio do Assistant para ajudar a treinar o algoritmo e melhorar o produto, mas os arquivos não ficam associados a qualquer identificador pessoal e o áudio é distorcido, segundo a companhia.
Um recente anúncio de emprego da Amazon, que buscava um gerente de controle de qualidade para a Alexa Data Services, em Bucareste, descreve o papel dos empregados humanos: "A cada dia, ela [Alexa] ouve milhares de pessoas falando sobre diferentes tópicos e em diferentes linguagens, e o sistema precisa de nossa ajuda para compreender tudo aquilo". O anúncio continua: "É uma operação de big data como você jamais viu. Estamos criando, rotulando, selecionando e analisando vastas quantidades de material falado a cada dia".
O processo de revisão da Amazon quanto a dados de fala começa quando o sistema Alexa obtém uma pequena amostra de gravações de voz de um cliente, selecionada aleatoriamente, e envia os arquivos de áudio a empregados e prestadores de serviço em diversos locais, de acordo com uma pessoa que conhece o conceito do programa.
Alguns revisores do sistema Alexa têm a tarefa de transcrever os comandos dos usuários e comparar as gravações à transcrição automática, por exemplo, ou de fazer anotações sobre a interação entre usuários e máquina. O que a pessoa perguntou? A resposta fornecida pela Amazon é efetiva?
Outros anotam tudo que o alto-falante registra, incluindo conversações ouvidas ao fundo -, mesmo que haja crianças falando. Os ouvintes às vezes escutam usuários discutindo detalhes privados, que incluem seus nomes e dados bancários; em casos como esses, eles devem fazer uma anotação que identifica "dados críticos", e saltar para o próximo arquivo de áudio.
De acordo com o site da Amazon, nenhum áudio é armazenado a menos que o Echo detecte a palavra de ativação ou seja ativado por um botão. Mas o sistema às vezes começa a gravar sem qualquer comando, e o arquivo de áudio começa com o ruído de uma televisão ou com algum ruído ininteligível. Quer a ativação tenha acontecido por acaso, quer não, os ouvintes devem transcrevê-la. Uma das pessoas disse que os ouvintes transcrevem cada um cerca de 100 gravações ao dia em casos nos quais o sistema Alexa foi ativado sem comando ou por acidente.
Em lares de todo o mundo, os proprietários de alto-falantes Echo muitas vezes especulam sobre quem poderia estar ouvindo, de acordo com dois dos empregados da Amazon. "Você trabalha para a NSA [Agência de Segurança Nacional dos Estados Unidos]?", eles perguntam. "Alexa, alguém mais está nos ouvindo?"
Bloomberg, tradução de Paulo Migliacci