SITE DE BUSCAS

Google sofre vazamento de dados que mostra funcionamento de algoritmo

Os mais de 14 mil critérios considerados pela empresa para ordenar os resultados das buscas constam em um vazamento de 2.596 arquivos de códigos

Vazamentos indicam que o Google usa dados de navegação do Chrome e do Android para rankear buscas - (crédito: Josh Edelson / AFP)
crédito: Josh Edelson / AFP

O algoritmo de buscas do Google usa dados de navegação dos usuários, como a quantidade de cliques e tempo na página, para mostrar resultados; valoriza sites com mais reputação em determinados assuntos; favorece textos assinados por um autor e dá preferência a conteúdos acompanhados por vídeos.

Os mais de 14 mil critérios considerados pela empresa para ordenar os resultados das buscas constam em um vazamento de 2.596 arquivos de códigos do poderoso algoritmo da big tech, que joga luz sobre como rodam as engrenagens do maior buscador do mundo – e que confirma pontos que a empresa costumava negar publicamente.

Leia mais

As informações vieram à tona junto de outro vazamento relacionado à empresa, de uma série de alertas sobre violações de privacidade, emitidos por funcionários entre 2013 e 2018. As informações colocam em xeque as políticas de segurança da companhia.

Ambos os vazamentos indicam um descompromisso da empresa em manter seus usuários informados, na avaliação de um dos responsáveis pela divulgação das informações, o especialista em otimização para busca (SEO em inglês) Rand Fishkin.

Em pronunciamento, o Google afirmou que as informações vazadas estão desatualizadas e podem gerar confusão por estarem fora de contexto. Procurado pela reportagem, a big tech diz que trabalha para proteger a integridade de nossos resultados. Esse seria o motivo da cautela para divulgar informações sobre o algoritmo.

A primeira leva de vazamentos indica que o Google usa dados de navegação dos usuários no navegador Google Chrome e em smartphones Android para rankear as buscas, ou seja, escolher a ordem dos resultados apresentados. Anteriormente, a empresa havia dito que não usava essas informações no seu processamento de rankeamento.

Leia também: Waze libera atualização com voz de cantora; saiba qual

Embora esses dados estivessem disponíveis desde 13 de março na plataforma de código aberto GitHub, só passaram a repercutir junto à opinião pública após a divulgação de artigos dos especialistas SEO Fishkin e Mike King no fim de maio.

Além dos códigos com o algoritmo da plataforma, os pesquisadores receberam dicas de uma fonte anônima, que depois se identificou como o especialista em SEO turco Ergan Azimi. Nos últimos dias, pesquisadores têm se debruçado sobre os trechos de programação divulgados atrás de novas pistas.

Os textos divulgados por Fishkin e King mostram que, na busca do Google, há análise de número de cliques, tempo na página e o chamado "bounce back" – quando o usuário entra e sai da página em instantes, um índice de rejeição.

Sites com mais tempo na praça, com autoridade sobre certos assuntos, também são privilegiados pelo algoritmo. O Google negava que esses critérios fossem relevantes. Ganham destaque também textos com autor identificado e páginas com vídeos.

São mais de 14 mil critérios avaliados pelo algoritmo do Google, ao todo. O vazamento não mostra o peso de cada elemento na ponderação que dá ordem à lista de links.

À reportagem, Fishkin, diz que é uma "afirmação dura" dizer que o Google mentiu, porém "não há outra palavra para descrever o ocorrido". "Ao ser questionada sobre critérios que melhoram o desempenho de uma página no rankeamento do buscador, descobertos à base de tentativa e erro, a empresa negou afirmações verdadeiras."

Ele diz que, entre os critérios avaliados, não há menção se o conteúdo é feito por inteligência artificial ou não.

De acordo com o segundo vazamento, divulgado inicialmente pelo site especializado 404 Media nesta segunda-feira (3), a gigante das buscas gravou voz de crianças, armazenou a placa de carros fotografadas durante o desenvolvimento de visualização de ruas Street View e usou dados deletados por usuários.

Os problemas foram corrigidos, conforme milhares de relatórios que somam 2.700 páginas e datam de 2013 a 2016, mas o Google não divulgou as violações ao público, como é de praxe no mercado.

Cada vazamento atingiu, individualmente, poucas pessoas. Foram gravadas, por exemplo, a voz de 1.000 crianças. Por outro lado, são inúmeros incidentes não notificados.

Leia também: Como algoritmo e IA do Google estão transformando resultados de pesquisa

No caso das placas anotadas, o funcionário do Google que enviou o relatório diz que foi um acidente. "Usamos um algoritmo de inteligência artificial que detecta texto nas imagens e os transcreve. Por azar, placas de trânsito também são texto e foram transcritas em vários casos", diz o relatório. Para evitar essa falha, o Google também tinha um algoritmo de inteligência artificial de detecção de placas, que, aparentemente, não funcionou.

O Google confirmou que as informações levantadas pela 404 Media faziam sentido. Ao site americano o buscador disse: "No Google, funcionários podem apontar rapidamente potenciais problemas enviados para revisão de especialistas, com diversos níveis de prioridade."

"Os relatórios obtidos pela 404 Media são de ao menos seis anos atrás e todos foram avaliados e resolvidos naquele tempo", afirma a empresa. "Houve casos, em que não era sequer um problema", acrescentou.

Para a diretora da entidade em defesa da proteção de dados Mariana Rielli, os vazamentos jogam luz sobre os efeitos não vislumbrados da adoção rápida de novas tecnologias, como a inteligência artificial. "Isso pode ficar cada vez mais frequente com a corrida para o desenvolvimento de IA."

De acordo com a especialista, as informações divulgadas, como não há detalhes de localidade da ocorrência, não permite verificar se houve violação de algum lei de proteção de dados.

GLOSSÁRIO

1 - Algoritmo de busca

Conjunto de regras e procedimentos utilizados para determinar a relevância de uma página web nos resultados de busca.

2 - SEO

Otimização para mecanismos de busca, conjunto de técnicas para melhorar o posicionamento de um site nos resultados de busca.

3 - GitHub

Plataforma de hospedagem de código-fonte e colaboração para desenvolvedores.

4 - Big tech

Termo utilizado para se referir às grandes empresas de tecnologia.

5 - Bounce back

Quando um usuário entra e sai rapidamente de uma página web, indicando baixa relevância ou interesse.

6 - Streetview

Serviço do Google Maps que oferece vistas panorâmicas de ruas e estradas.