Site reúne todas as notícias de TV desde 2009

Inspirado numa referência da Antiguidade, a Biblioteca de Alexandria, Brewster Kahle tem uma visão majestosa do gigante agregador e digitalizador de informações Internet Archive que fundou e dirige. Ele montou o sistema no depósito de uma empresa, em Richmond, no estado americano da Califórnia. “Queremos coletar todos os livros, músicas e vídeos que tenham sido produzidos por humanos ao longo do tempo”, disse Kahle.

A partir de terça-feira (25/9), a coleção online do arquivo irá incluir todos os trechos de notícias produzidos nos últimos três anos por 20 canais diferentes dos EUA, abrangendo mais de mil noticiários que resultaram em mais de 350 mil programas distintos de informação.

O último e ambicioso esforço a ser feito pelo arquivo, que já digitalizou milhões de livros e tentou coletar tudo o que foi publicado na internet durante os últimos 15 anos (o que significa mais de 150 bilhões de páginas digitais), dirige-se não apenas a pesquisadores, disse Kahle, mas também aos cidadãos comuns que, em número de dois milhões, visitam o site diariamente. “O foco é ajudar o eleitor americano a ser capaz de examinar melhor os candidatos e as propostas”, disse Kahle. “Se você quiser saber o que disse exatamente Mitt Romney sobre saúde em 2009, você conseguirá encontrá-lo.” É claro que se você quiser desacreditar ou satirizar um político baseado num clipe que mostra uma mudança de posição, isso também será fácil.

Inspiração na Biblioteca de Alexandria

Será possível acessar quaisquer veículos convencionais, incluindo CNN, Fox News, NBC News, PBS e qualquer provedor de notícias ao vivo em estações de televisão locais. O programa The Daily Show, de Jon Stewart, é um dos mil que fazem parte do novo arquivo de informações.

O Internet Archive vem gravando lentamente material de informação desses veículos, o que significa coletar não apenas todas as edições de 60 Minutes na CBS, mas também cada minuto, todos os dias, da CNN. Tudo isso será possível acessar a partir de terça-feira, gratuitamente, para quem visitar o arquivo. Segund Kahle, o método para a busca de informação consiste em palavras legendadas, codificadas [de acesso apenas ao visitante], que acompanharam os noticiários na TV. O usuário simplesmente entra com as palavras de busca e vários clipes de notícias irão aparecer. Kahle previu que poderia haver centenas de clipes em resposta à busca, mas o sistema tem uma interface que tornará fácil navegar rapidamente entre os clipes de 30 segundos e localizar o certo. Se o pesquisador quiser uma cópia do programa na íntegra, será enviado um DVD a título de empréstimo.

A inspiração na Biblioteca de Alexandria, o arquivo da sabedoria do mundo antigo no Egito, não foi fútil. Kahle disse que um esforço inicial para juntar os trabalhos coletados da civilização era seu pensamento quando concebeu a ideia de usar a capacidade quase infinita da internet para procurar um equivalente moderno. “Você poderia colocar todos os livros da Biblioteca do Congresso em CDs que caberiam numa sacola de supermercado”, disse. Ele avalia que atualmente o Internet Archive contém 9 mil terabytes de informação; a Biblioteca do Congresso, por seu lado, tem pouco mais de 300 terabytes, segundo uma avaliação feita este ano.

As convenções políticas de 1956

Kahle chama a si próprio de tecnólogo e diz que se dedicou ao projeto do arquivo após ter fundado, e vendido, duas empresas de leitura de bancos de dados, uma para a AOL e a outra para a Amazon. O projeto para noticiários de TV, como seus outros projetos para o arquivo, é basicamente financiado por bolsas, embora inicialmente Kahle tenha posto seu próprio dinheiro. Ele disse que bolsas dos Arquivos Nacionais, da Biblioteca do Congresso e de outras agências governamentais respondem pela maior parte do projeto. O orçamento anual gira em torno de US$ 12 milhões (cerca de R$ 24 milhões) e cerca 150 pessoas trabalham no projeto.

O ato de copiar todo esse material de mídia é protegido por um acordo federal de direitos autorais assinado em 1976. O acordo surgiu em reação a um desafio para um projeto de coletar informações iniciado pela Universidade Vanderbilt em 1968. O arquivo não tem a intenção de substituir ou concorrer com os veículos online de propriedade de organizações jornalísticas. Kahle disse que o material novo será adicionado até 24 horas após ter sido divulgado pela emissora. “Não pretendemos que isto substitua a CNN.com”, disse.

Por maior que seja esta coleta de informações jornalísticas, disse Kahle, é apenas o começo. O plano é “voltar”, ano a ano, e lentamente adicionar vídeos de notícias até o início da televisão. Isso exigirá uma nova, e talvez mais desafiadora, metodologia porque o uso das palavras codificadas (para a busca) só começou por volta de 2002. Kahle disse que talvez seja necessária uma nova técnica envolvendo o reconhecimento de palavras. “Precisamos de uma interface que seja suficientemente boa e não interrompa o comércio, pois eles não gostariam disso.” Mas as metas para o serviço de mídia continuam tão ambiciosas quanto os outros serviços em que embarcou o Internet Archive. “Sim, gostaríamos, por fim, de conseguir fazer a cobertura e tornar acessíveis, por exemplo, as convenções políticas de 1956”, disse Kahle. Informações de Bill Carter [New York Times, 17/9/12].

Ver outras publicações do autor

Aos leitores

Os artigos publicados nesta página não refletem necessariamente a opinião do Observatório da Imprensa, já que somos um fórum de opiniões. Procuramos publicar os textos recebidos como parte de nosso compromisso com a diversificação das fontes de informação. Como ninguém é dono da verdade, a melhor forma de buscar a objetividade é através do contato com perspectivas e opiniões diferenciadas, o que nos permite neutralizar o discurso do ódio e da intolerância.