Wednesday, 24 de April de 2024 ISSN 1519-7670 - Ano 24 - nº 1284

O guardião da web

Tudo o que foi dito em programas jornalísticos de 21 canais da TV dos EUA nos últimos três anos. Grátis, online e com sistema de busca. Esse é o recém-lançado TV News: site com 350 mil programas atualizado a cada 24 horas e aberto para ser pesquisado por qualquer pessoa. O serviço integra o Internet Archive (archive.org), instituição sem fins lucrativos criada em 1996 pelo nova-iorquino Brewster Kahle, 51. Pouco modesto, ele trata o portal como a reedição da Biblioteca de Alexandria, em referência à mítica coleção egípcia de livros que teria sido incendiada pelos romanos. “Nosso projeto é muito menor”, diz Kahle, em videoconferência com a Folha. “Mas, se o objetivo da internet for construir a nova Alexandria, podemos chegar bem perto.”

O Internet Archive possui toneladas de arquivos, além de registros históricos de páginas da web – uma “máquina do tempo” que é o serviço mais popular do site. Kahle diz que pensa grande e leva em conta o bem comum, princípios aprendidos durante um estágio no Laboratório de Inteligência Artificial do MIT (Instituto de Tecnologia de Massachusetts). Em 1982, graduado em ciência da computação e engenharia, começou a trabalhar com bancos de dados. Assim criou a Alexa, empresa de análise de informações que vendeu à Amazon, em 1999, por US$ 250 milhões.

Quando questionado sobre quanto investiu no Internet Archive, Kahle limita-se a dizer: “Milhões.” Há outras três fontes principais de dinheiro: usuários do site, a Fundação Alfred P. Sloan – criada por um ex-presidente da General Motors – e a Fundação Hewlett, de William Hewlett, cofundador da HP.

Igreja da informação

Uma parte do dinheiro foi gasta com uma antiga igreja em San Francisco que virou sede. Na entrada, estátuas ocupam bancos de madeira que antes serviam aos fiéis. Funcionários com mais de três anos de casa têm direito a uma escultura de seu rosto. “Nosso QG abriga principalmente pessoas”, diz. Elas ficam em um salão com piso de madeira, sem baias separando seus espaços de trabalho – o fundador fica em uma sala com porta de vidro. “Mas também temos aqui parte dos nossos servidores.” Na parede da igreja, em um recuo adornado por um arco romano, um computador preto com luzes azuis exibe o logotipo do Internet Archive.

Outros países abrigam servidores. Um deles fica, inclusive, na cidade de Alexandria. No Brasil, há um centro para escaneamento. Trata-se da biblioteca do Ministério da Fazenda, no Rio. Como em outras coleções parceiras, livros antigos são escaneados para depois serem postos na rede. “Enquanto conversamos, estou olhando para essas obras”, conta Kahle, referindo-se a um censo rural da Bahia, de 1920.

É assim que Brewster Kahle idealiza o acesso à informação no Internet Archive: rápido, integral e online.

***

Internet Archive já soma 150 bilhões de sites

O projeto mais ambicioso e que atrai mais visitantes ao Internet Archive é o Wayback Machine, espécie de radiografia do passado da web. Por meio de robôs, o site varre grande parte das páginas on-line e guarda cópias – 24 horas por dia, desde 1996. Hoje, é possível acessar pouco mais de 150 bilhões de sites antigos. O intuito, diz o fundador Brewster Kahle, é preservar a memória. “A internet é um registro de nosso tempo.” Páginas que impedem a varrição por robôs, como o Facebook, não aparecem na ferramenta.

O Wayback Machine é uma das divisões do Internet Archive, que separa seus sistemas de busca por tipo de arquivo. Há textos, vídeos, música ao vivo e, com o TV News, programas jornalísticos da televisão. No total, são 6 milhões de documentos.

Inspirado na biblioteca visual da Universidade Vanderbilt, em Nashville (EUA), o TV News é pioneiro ao disponibilizar jornalísticos de maneira organizada e online. “A Vanderbilt é a avó dos arquivos de TV nos Estados Unidos”, diz Kahle. No entanto, o acervo da universidade, gravado desde 1968, possui apenas um sumário na rede. Para assistir ao material é preciso pagar uma taxa para recebê-lo em DVD, pelo correio.

A experiência foi importante para definir legislação em relação a direitos autorais. Em 1972, a rede de TV CBS processou a Vanderbilt e foi derrotada. “Desde então, podemos disponibilizar os vídeos da TV, desde que o acesso seja público”, explica John Lynch, diretor da biblioteca.

Antiguidades

No caso dos livros, estão à disposição somente obras em domínio público segundo as leis americanas – ou seja, volumes com mais de 70 anos. Por meio de convênios com bibliotecas públicas e particulares, o Internet Archive financia a digitalização em troca de acesso às obras.

Desde 2010, outra iniciativa, a DPLA (Biblioteca Digital Pública da América, em inglês), negocia com donos de direitos autorais uma forma de acesso gratuito e online a ao menos parte de todas as obras lançadas nos EUA. “A ideia final é realizar uma aliança de associações privadas e fazer uma biblioteca disponível para todas as pessoas”, explicou o historiador Robert Darnton, diretor da biblioteca de Harvard e principal mentor do projeto, em visita à Folha em maio.

O processo de escaneamento de livros é custoso. Primeiro, é analisado o estado de conservação da obra. Em seguida, deve-se escolher o formato do arquivo para, então, começar a digitalização. Além da complexidade técnica, o custo é o principal empecilho para o aumento do número de bibliotecas digitais no Brasil. “À medida que surgirem softwares gratuitos [de digitalização], a tendência é que haja mais bibliotecas”, diz Fernando Modesto, professor do Departamento de Biblioteconomia e Documentação da USP.

Na própria instituição há um centro de escaneamento de obras antigas. A biblioteca Brasiliana surgiu a partir do acervo pessoal do empresário e bibliófilo José Mindlin, morto em 2010. Por meio do site brasiliana.usp.br, já é possível acessar e baixar parte dos livros.

***

Prateleiras digitais

>> Livros antigos – Os 3,6 milhões de arquivos são fonte rica para pesquisas. Há um bom número de autores americanos. É o caso de Francis Scott Fitzgerald, cuja obra está quase completa para download – como o romance Este Lado do Paraíso (bit.ly/fscottfitzgerald). Há também obras-primas como Tristes Trópicos (bit.ly/tropicos), do antropólogo francês Claude Lévi-Strauss, relato de uma viagem pelas tribos indígenas do Centro-Oeste brasileiro

>> Vídeos raros – São 989 mil registros em vídeo. Há desde comerciais antigos, como os do cigarro Chester King – dos intervalos da série Além da Imaginação –, até um demonstrativo da Apple, de 1985, sobre o computador Lisa (bit.ly/apple-lisa), parte do acervo da Universidade Stanford.

>> Wayback Machine – Composto por imagens capturadas por robôs que monitoram e “fotografam” todas as páginas da web, tem pouco mais de 150 bilhões de registros. O site é, como o nome diz, uma viagem no tempo: reproduz, por exemplo, a homepage do YouTube em abril de 2005, dois meses após seu lançamento.

>> Notícias da TV americana – Guarda todos os programas jornalísticos das principais emissoras de TV dos EUA dos últimos três anos. A principal vantagem é a busca por palavras: o TVNews permite procurar tanto em determinado período de tempo quanto por palavras ou redes específicas. Assim, dá para assistir a todos os programas que anunciaram a morte de Osama bin Laden (bit.ly/morte-osama).

>> Documentos históricos – Há documentos variados, como censos da população brasileira do início do século passado e a carta de Pedro Álvares Cabral ao rei de Portugal.

>> Música ao vivo – O catálogo possui raridades, como um show do Grateful Dead no Madison Square Garden, em 1979 (bit.ly/grateful1979).

***

[Alexandre Aragão, da Folha de S.Paulo]