Sunday, 17 de November de 2024 ISSN 1519-7670 - Ano 24 - nº 1314

Wikipédia divulga lista dos termos mais procurados

Uma equipe de pesquisadores desenvolveu o Wikidata, o primeiro ranking aberto da Wikipédia.

Segundo o “Gizmodo”, o Laboratório de Algoritmos Web da Universidade de Milão, criado em 2002, desenvolveu o “Open Wikipedia Ranking”.

O ranking utiliza uma série de métricas — incluindo “centralidade harmônica” (um conceito matemático moderno), PageRank e page views — para medir a importância de cada página. O algoritmo empregado, desenvolvido pela mesma equipe, chama-se HyperBall.

Eis a lista dos dez termos mais procurados em inglês, classificados por centralidade harmônica, e devidamente traduzidos:

>> Estados Unidos

>> Segunda Guerra Mundial

>> Associação de futebol

>> Reino Unido

>> França

>> Primeira Guerra Mundial

>> Canadá

>> Alemanha

>> China

>> Índia

Qualquer um pode criar um filtro e criar uma lista de ranking a partir da Wikipédia. O endereço é http://wikirank.di.unimi.it/.

Por exemplo, para pesquisar quem são os dez brasileiros mais procurados na enciclopédia on-line, basta fazer uma busca por “citizenship:brazil” (sem as aspas). O resultado será:

>> Luiz Inácio Lula da Silva

>> Claude Lévi-Strauss

>> Dom Pedro I

>> Pelé

>> Dilma Rousseff

>> Fernand Braudel

>> Getúlio Vargas

>> Dom João VI

>> Dom Pedro II

>> Ayrton Senna

Sim, o resultado é um pouco estranho, e os próprios pesquisadores concordam que às vezes o algoritmo pode gerar resultados incorretos. Lévi-Strauss e Braudel são franceses, mas vieram ao Brasil em missão e participaram da fundação da Universidade de São Paulo. Já Dom João VI era de Portugal, mas trouxe a família real portuguesa para o Brasil.

Os pesquisadores explicam que o Wikidata é um projeto em andamento e algumas informações estão faltando ou estão incorretamente classificadas no próprio dataset, ou seja, na própria Wikipédia. No ranking das grandes cantoras de jazz, por exemplo, inicialmente não constava Billie Holiday, pois ninguém tinha informado o gênero musical dela como jazz. No entanto, essas incorreções acabam servindo para melhorar a qualidade dos próprios dados da enciclopédia.

Já uma busca por “emotion” (emoção) nos dá o seguinte ranking, também traduzido:

>> Ansiedade

>> Dor

>> Amor

>> Felicidade

>> Medo

>> Esperança

>> Raiva

>> Prazer

>> Inspiração artística

>> Confiança

Nesse caso, os resultados são bem mais consistentes.

Antecedentes

O laboratório inicialmente criou o UbiCrawler, um web-rastreador escalável, tolerante a falhas e totalmente distribuído desenvolvido em colaboração com o Instituto de Informática e Telemática da mesma universidade. Ele levou ao desenvolvimento de uma versão mais avançada, o BubiNG, um web-rastreador de código aberto de alto desempenho, escalável e distribuído.

Uma vez que parte da web é rastreada, o resultado é um grafo (estrutura matemática composta por vértices e arestas) muito grande, necessitando de uma representação compacta. Para isso, o laboratório criou o WebGraph, que usa algoritmos agressivos de compressão.

O estudo evoluiu e passou a analisar cuidadosamente grafos reais na web. Uma das pesquisas considerou a forma como o índice PageRank evolui paradoxalmente durante um rastreamento. A mais recente invenção da equipe foi o algoritmo chamado HyperBall (hiper-bola), que, entre outros resultados, foi usado para mostrar que o Facebook tem apenas quatro graus de separação.

O HyperBall também foi utilizado para calcular o primeiro ranking aberto da World Wide Web e o primeiro ranking aberto de Wikipédia, aqui descrito, e que pode ser explorado usando categorias Wikidata.

Muitas vezes, o propósito de um rastreamento é a construção de um índice de texto completo do texto contido nas páginas rastreadas. Esse índice está na base de todos os motores de busca comerciais existentes, como o Google.

A pesquisa sobre a construção de motores de busca é baseada no MG4J, um sistema de indexação de texto completo de coleções de documentos de grande escala.

Mais detalhes técnicos podem ser conhecidos em http://goo.gl/zdzeW5.