Buscadores, os novos gatekeepers | Observatório da Imprensa

Quando a internet saiu de seu confinamento nos meios acadêmicos e governamentais e passou a ser acessada pelo grande público, lá pelos idos dos anos 1990, os mais apressados rapidamente a exaltaram como’a libertadora da informação’. Clamava-se que as estruturas da velha mídia, naturalmente castradoras do livre fluxo de informação com seus poderosos gatekeepers – mecanismos institucionais que decidem qual informação vai e qual não vai ser publicada – seriam engolidas pela avalanche de conteúdo gerado e disponibilizado livremente.

De fato, a idéia de um ciberespaço nos moldes sonhados por William Gibson em seu Neuromancer – uma zona livre, em que todos podem ser produtores e consumidores de notícias – era, e ainda é, extremamente sedutora. Era um prato cheio para uma euforia tecnológica sem paralelo.

Milhares e milhares de páginas foram surgindo – e morrendo – ao longo dos primeiros anos de internet comercial. Aos poucos, a euforia foi dando lugar à triste constatação de que, ainda que fosse tecnologicamente bastante distinta de um jornal, de um rádio, de uma TV, a internet guardava uma regra fundamental de qualquer mídia: não é apenas do lado da oferta que está o livre fluxo de informações, mas também no da demanda. Se o leitor não sabe da existência do seu conteúdo, e se você não tem os recursos necessários para se fazer visível, então o seu destino é o ocaso.

Conteúdo irrelevante

E foi justamente por isso que a mesma concentração que já víamos na mídia tradicional foi se repetindo na internet. O caso brasileiro é, mais uma vez, exemplar: quase toda a audiência foi se aglutinando em grandes portais como UOL, Terra e, tardiamente, Globo.com, pertencentes aos mesmos grupos que já dominavam as comunicações tradicionais.

Mas ao mesmo tempo em que os grandes portais se consolidavam, também crescia a importância dos mecanismos de busca – e nascia a esperança de que eles fossem uma forma de driblar os grandes portais. Havia a promessa de que o internauta teria a possibilidade de achar nos vãos mais escondidos da rede a informação que desejasse, sem intermediários.

E no início, de fato, ocorreu algo parecido. Ainda com métodos bastante rudimentares de indexação, buscadores como World Wide Web Wanderer (1993-1995), Yahoo (1995-), Excite (1994-) e Altavista (1995-) ampliaram sobremaneira a visibilidade da rede. Tornavam-se acessíveis ao público conteúdos que, a exemplo dos próprios mecanismos de busca, eram criados em porões e garagens mundo afora.

Mas conforme aumentava o volume de informações disponíveis na internet, aumentava também o repertório de conteúdo irrelevante – ou ao menos de conteúdo julgado irrelevante por alguém picado pela mosca do gatekeeping. Para conseguir chegar a algum site que efetivamente dispusesse da informação que buscava, o internauta era obrigado a perder horas e mais horas filtrando centenas de páginas absolutamente inúteis. Foi então que surgiu o Google (1998-) para revolucionar o mercado de buscas na internet.

A importância segundo o PageRank

Gestado na Universidade Stanford por dois estudantes de computação, Sergey Brin e Lawrence Page, o Google trazia um revolucionário sistema de indexação que aumentava sobremaneira a capacidade do buscador de’enxergar’ as páginas na internet. Mas o real pulo do gato do Google não estava no número de páginas indexadas, e sim no modo como elas eram classificadas – os próprios Brin e Page ressaltavam mais a qualidade do que a quantidade dos resultados oferecidos pelo seu buscador [ver Brin, S. and L. Page (1998) The Anatomy of a Large-scale Hypertextual Web Search Engine, disponível aqui].

Os métodos de busca anteriores utilizavam um mecanismo bastante simples: se alguém fazia uma pesquisa pelos termos’observatório da imprensa’, por exemplo, o buscador checava quantas vezes esse termo se repetia nas páginas por ele indexadas e apresentava primeiramente os resultados com mais repetições (o que é chamado de’densidade de palavras-chave’). Então, para ser bem classificado na busca por um termo, bastava que algum espertalhão gerasse uma página sem qualquer conteúdo relevante – apenas com a palavra-chave escolhida repetida à exaustão. Criava-se um jogo de gato e rato, no qual os buscadores bloqueavam esse tipo de página e novas páginas de conteúdo irrelevante eram produzidas todos os dias.

O sistema do Google diminuiu a importância da classificação por densidade de palavras-chave e introduziu algo incrivelmente óbvio: se a qualidade de artigos científicos é em grande parte medida pelo número de vezes que estes são citados por outros artigos, por que o mesmo não poderia ser utilizado para classificar páginas na internet? E assim foi introduzido o mecanismo chamado’PageRank’, que classifica a importância de uma página de acordo com o número de’citações’ que recebe. Essa classificação vai de 0 a 10 e leva em conta o número de links vindos de outras páginas, o’PageRank’ das páginas que contêm esses links e os termos utilizados para a realização do link (textos-âncora).

O site mais acessado do país

Um exemplo prático: o Observatório da Imprensa é classificado com’PageRank’ 7 [o valor do PageRank varia para cada uma das páginas dentro do website; normalmente, a página principal do site é a que possui um maior PageRank por receber a maior concentração de links] pelo Google – classificação altíssima, fruto de 2.030 links para a página principal do site, muitos deles vindos de páginas com alto PageRank. Mas se fizermos uma busca por’cálculo estrutural’, com certeza o Observatório nem estará entre os resultados. Isso porque o algoritmo do Google faz uma relação entre PageRank, densidade de palavras-chave e textos-âncora das páginas que fizeram links para o OI, para determinar a pertinência temática em relação aos termos buscados.

Ora, então os buscadores estão funcionando tal qual os gatekeepers de antigamente? Os critérios de valor-notícia continuam existindo, mas agora na forma de algoritmos de classificação da relevância de conteúdos? Exatamente isso, e essa constatação já é um tanto quanto antiga. Em uma rápida revisão da literatura sobre mecanismos de busca, a primeira relação entre buscadores e o clássico papel desempenhado pelos gatekeepers que encontrei foi em um artigo de 2004 publicado no European Journal of Communication [Machill, M., C. Neuberger, W. Schweiger and W. Wirt (2004)’Navigating the Internet: A Study of German-language Search Engines’, European Journal of Communication 19(8): 321-47].

Com a sua classificação por PageRank e pertinência temática, o Google e todos os outros buscadores, que terminaram criando sistemas similares, estão funcionando de fato como’gatekeepers cibernéticos’. Acrescente-se que, segundo estudo de 2005 [Fallows, D. (2005)’Search Engine Users: Internet Searchers Are Confident, Satisfied and Trusting – But They Are Also Unaware and Naïve’, Pew Internet & American Life Project], 84% dos usuários de internet usam buscadores regularmente nos Estados Unidos e 56% acessam diariamente algum mecanismo de busca. No Brasil, as estatísticas do site Alexa mostram que a versão com.br do Google é o site mais acessado do país. Com um detalhe: a versão .com mundial do Google aparece em 7º, seguida do Yahoo, em 8º.

Códigos maliciosos

O fato é que os portais de busca são a fonte primária de acesso ao conteúdo na internet para a maioria dos seus usuários. Nos cerca de 10 minutos necessários para ler esse texto, aproximadamente 6 milhões de buscas foram realizadas, apenas no Google, sem contar as dos outros buscadores. E não estar bem posicionado nos resultados dos portais de busca é o mesmo que ser condenado ao ostracismo. Uma página que não aparece entre os 10 primeiros resultados de uma busca tem menos de 5% de chance de ser acessada. A partir da terceira página de resultados, a chance de ser clicado é irrisória, muito inferior a 1%.

Quando David Manning White trouxe para o jornalismo o conceito de gatekeeping, emprestado de uma teoria da psicologia social criada por Kurt Lewin, ele o definiu como’uma seleção de informação em `portões´ controladas por `porteiros´, havendo informação que passa e outra que fica retida’. A inspiração de White teria vindo da observação de Mr. Gates (Sr. Portões!), um jornalista que trabalhava para um jornal do interior norte-americano.

Algumas décadas depois, o porteiro se aposentou, e o portão’abre e fecha sozinho’. Ainda que a função do que é visível e do que é invisível esteja presente nos portais de busca na internet, o fato é que temos uma realidade bastante distinta do gatekeeping tradicional. Steve Jones, professor de Comunicação da Universidade de Illinois, em Chicago, e um dos fundadores da Association of Internet Researchers (Associação de Pesquisadores da Internet) alerta que’mecanismos de busca na internet representam gatekeepers muito diferentes dos que tínhamos até hoje (…). No passado, eram principalmente os editores dos jornais que desempenhavam essa função de conectar as pessoas às informações que eles procuravam. O gatekeeper de hoje é uma máquina. E essa é uma diferença interessante’.

Mas as máquinas responsáveis pelos mecanismos de busca estão longe da genialidade de um HAL 9000. Aos poucos, artifícios e mais artifícios de search engine optimization (SEO, ou otimização de sites em mecanismos de busca) – processos para a melhoria da classificação de sites nos mecanismos de busca – foram sendo desenvolvidos. Esses mecanismos incluem desde a parceria entre blogueiros, que trocam links entre si para melhorarem o PageRank de seus blogs, até o comércio de links e práticas de programação blackhat – estes últimos designam códigos maliciosos embutidos em páginas para gerarem um aumento artificial de seus PageRanks. Mas esse é um tema para o próximo artigo.

******

Jornalista, mestre em Comunicação pela Universidade de Brasília e consultor legislativo da Câmara dos Deputados; editor do blog Museu da Propaganda

Cristiano Aguiar Lopes

Ver outras publicações do autor

Aos leitores

Os artigos publicados nesta página não refletem necessariamente a opinião do Observatório da Imprensa, já que somos um fórum de opiniões. Procuramos publicar os textos recebidos como parte de nosso compromisso com a diversificação das fontes de informação. Como ninguém é dono da verdade, a melhor forma de buscar a objetividade é através do contato com perspectivas e opiniões diferenciadas, o que nos permite neutralizar o discurso do ódio e da intolerância.