Quatro compras com o cartão bastam para identificar qualquer pessoa

Quatro gestos tão corriqueiros como pagar o bilhete de metrô, a comida do almoço, um par de tênis em uma loja de material esportivo ou as entradas do cinema permitem identificar quase qualquer pessoa. Embora não se saiba o nome ou o número da conta, um estudo com dados de compras de 1,1 milhão de pessoas revela a identidade em mais de 90% dos casos. É o poder dos metadados e do big data.

Quando estourou o caso Snowden nos Estados Unidos, aconteceu um grande escândalo com um dos programas de espionagem da NSA que compilava milhões de ligações telefônicas. As autoridades norte-americanas esclareceram em seguida que não espionavam o conteúdo das conversas em si, a não ser metadados como quem ligava para quem, a que horas ou durante quanto tempo. O Google e o Facebook também os usam para melhorar seus serviços ou oferecer publicidade mais personalizada. Em princípio, a reunião desse tipo de dados de forma anônima em grandes bases não seria uma grande ameaça à privacidade das pessoas. Agora, essa presunção se demonstrou falsa.

Um grupo de pesquisadores do Media Lab do Instituto Tecnológico de Massachusetts (MIT) criou alguns algoritmos matemáticos que permitem identificar uma pessoa baseando-se em seus hábitos de compra. Conseguiram que um grande banco de um país da OCDE (por razões óbvias, não dizem o nome do banco e nem de que país se trata) deixasse que aplicassem seus algoritmos a uma base de dados com as transações de pagamentos eletrônicos de 1,1 milhão de clientes em 10.000 lojas durante os meses de janeiro e março de 2014.

Dados de navegação

“Com uma média de quatro transações, o dia e a loja é suficiente para identificar de forma exclusiva as pessoas em 90% dos casos”, diz o pesquisador do MIT e coautor do estudo, Yves-Alexandre de Montjoye. “A lógica subjacente reside em que muitas pessoas compram algo em uma determinada loja (C&A, por exemplo) em um dia determinado (digamos, ontem). Entretanto, só algumas delas também comprarão em determinado Walmart nesse mesmo dia. E ainda menos irão comer no dia seguinte na mesma região. Quando você sabe quatro lugares ou lojas e dias, em 90% das vezes há uma e só uma pessoa em toda a base de dados que compra algo em quatro lugares nesses quatro dias”, explica.

Dos arquivos do banco usados para o estudo, os pesquisadores só dispunham do dia (renunciaram a registrar a hora, o que teria afinado ainda mais os resultados) e o estabelecimento comercial onde se realizou a compra. Como é lógico, cada transação também possui um identificador de usuário em forma de uma combinação alfanumérica de 8 dígitos, que permite à entidade bancária passar o pagamento a quem fez a compra. Isso serviu para que os pesquisadores confirmassem as porcentagens de acerto.

Há um quarto metadado que pareceria irrelevante, mas que, na realidade, dá pistas extras para identificar as pessoas. Trata-se da importância da compra. Os autores do estudo, publicado na revista Science, agruparam as importâncias em intervalos. Não necessitaram do preço exato para ampliar as possibilidades de voltar a identificar o comprador.

“Analisamos também o que acontece se sabemos o preço aproximado do que você comprou. Por exemplo, 30 dólares na C&A, 20 no Walmart, 7 para a comida… Isso, na prática, faz as pessoas inclusive mais únicas. Aqui, com apenas três pontos (lojas, dia e preço) há 94% de possibilidades de voltar a identificar um indivíduo”, comenta o pesquisador francês.

É o paradoxo dos dias de hoje. As bases com imensas quantidades de dados anonimizados servem para mostrar a unicidade do ser humano. Como diz Montjoye, não se trata tanto do aspecto previsível dos humanos, “mas de como nossa conduta (e nossos padrões de compra) nos fazem únicos em comparação com outros”.

Os autores do estudo também averiguaram o efeito do gênero ou o nível de renda na probabilidade da reidentificação. Embora as mulheres só fossem 24% da amostra analisada, comprovaram que elas são, em média, 1,2 vezes mais identificáveis. O mesmo fenômeno acontece com o nível de rendimento. Os compradores com maior média de gasto têm 1,7 vezes mais probabilidades de serem identificados.

O objetivo do estudo não era explicar por que as compras permitem identificar as pessoas, mas os pesquisadores lidaram com algumas possíveis variáveis para explicar essas diferenças. Viram que a forma como alguém divide o tempo entre diferentes lojas era o melhor indicador para saber se o comprador era mulher ou de alta renda. Esses dois grupos mostram um padrão de maior diversidade na hora de comprar que os homens ou as pessoas de menor renda.

Embora os cientistas do MIT afirmem que são necessários mais estudos em outros âmbitos, eles acreditam que os dados de navegação na internet, os movimentos bancários ou os dados de transporte e mobilidade também têm um alto grau de unicidade e permitiriam de forma inequívoca distinguir uma pessoa de outra. Em um país como a Espanha, por exemplo, onde segundo as estatísticas do Banco da Espanha há quase 70 milhões de cartões de crédito e débito com os quais se fazem operações de 100 bilhões de euros, a simples ideia de se possa identificar alguém pelo uso que faz de seu cartão causa espanto.

Dados pessoais

Felizmente, os autores do estudo tiveram de assinar um acordo de confidencialidade com o banco para poder usar sua base de dados, que se supõe bem custodiada. Mas, como concluem em seu trabalho, o problema fundamental que o estudo revela é que as leis sobre privacidade repousam sobre uma premissa que eles demonstraram estar incorreta. Por muito estrita que seja a norma, esta só é aplicável aos dados pessoais, ou seja, aqueles que permitem identificar um indivíduo. Os mais óbvios são seu nome, seu rosto, seu endereço e seu telefone. Mas, o que acontece com os metadados como a compra de um par de tênis em uma loja determinada?

“Os metadados podem ser dados pessoais e muitas vezes o são”, recorda o diretor da Agência Espanhola de Proteção de Dados, José Luis Rodríguez. “Para que não sejam dados pessoais têm de ser anônimos, com uma dissociação irreversível”, acrescenta. Se, como nessa pesquisa, é possível fazer o caminho inverso dos metadados à identidade da pessoa, então seria aplicada a legislação sobre privacidade. Para Rodríguez, o problema de fundo é que “na medida em que existe cada vez mais informação disponível, debilita-se a anonimização porque há mais possibilidades de combinar e, portanto, de identificar ou individualizar a pessoa”.

***

Tecnologia e privacidade, condenados a se entender

A revista Science traz um especial sobre as conflituosas relações entre a tecnologia e privacidade. Ao longo de uma série de artigos são analisadas novas ameaças como o reconhecimento facial ou as cada vez mais tortuosas maneiras que empresas e governos encontram para aproveitarem-se dos dados dos cidadãos. Também há um artigo revelador sobre o direito ao esquecimento.

Susan Landau, pesquisadora do Instituto Tecnológico de Worcester, afirma em um dos artigos que as pessoas perderam a capacidade de proteger seus dados pessoais e sua privacidade. Baseadas na facilidade que as máquinas têm para estabelecer conexões entre os dados, é cada vez mais fácil para empresas e governos recolher grandes quantidades de informação e tirar proveito delas. Landau menciona, por exemplo, uma velha pesquisa dela que demonstrou que um internauta médio necessitaria de 244 horas para ler todas as políticas de privacidade existentes nas páginas que visita. Para ela, os velhos métodos para proteger a privacidade já não servem.

O diretor da AEPD, José Luis Rodríguez, não acredita que seja preciso jogar tudo no lixo e renunciar ao direito à privacidade porque é cada vez mais complicado exercê-lo. “Manter uma esfera de privacidade é imprescindível para o desenvolvimento da pessoa”, recorda.

Mas ele está de acordo que os riscos são cada vez maiores. Por isso, coincide com Landau em relação a que, além de uma legislação firme, fazem falta soluções tecnológicas que protejam os dados pessoais. “Não é plausível que a tecnologia evolua apenas pelo lado da recopilação dos dados, deveria ir paralelamente com os sistemas que os protejam”, diz.

Outro trabalho publicado na Science fala do impacto que está tendo o chamado direito ao esquecimento depois da resolução da Justiça europeia sobre um caso espanhol. No artigo, o professor da Universidade de Georgetown Abraham Newman, desmonta dois mitos sobre os quais se apoiam aqueles que criticam a mera existência do direito ao esquecimento na internet.

Por um lado, nega que a desindexação de informação pessoal dos motores de busca fira a liberdade de expressão e o direito à informação. Por fim, a informação não se apaga, ela é apenas ocultada dos olhos do Google. Por outro lado, rechaça, como o Google, que o trabalho de eliminar milhares de links possa danificar a saúde econômica da companhia. E fornece um dado: nos primeiros cinco meses de aplicação da resolução judicial, o buscador revisou 180.000 petições de retirada, aceitando 40% delas. Entretanto, em um só mês, dezembro do ano passado, teve de atender petições de retirada de nove milhões de links por possível infração de direitos autorais.

******

Miguel Ángel Criado, do El País

Miguel Ángel Criado

Ver outras publicações do autor

Aos leitores

Os artigos publicados nesta página não refletem necessariamente a opinião do Observatório da Imprensa, já que somos um fórum de opiniões. Procuramos publicar os textos recebidos como parte de nosso compromisso com a diversificação das fontes de informação. Como ninguém é dono da verdade, a melhor forma de buscar a objetividade é através do contato com perspectivas e opiniões diferenciadas, o que nos permite neutralizar o discurso do ódio e da intolerância.