Thursday, 21 de November de 2024 ISSN 1519-7670 - Ano 24 - nº 1315

Projeto avalia seis programas de extração de dados

Esta é a segunda de uma serie de cinco categorias de softwares avaliadas pelo projeto Volt Data Lab com o objetivo de facilitar as escolhas de programas por jornalistas que atuam na internet.  Depois da lista de avaliações sobre visualização de dados,  mostramos os resultados da pesquisa com softwares para extração de dados, ou seja,  identificação e classificação de dados em arquivos e bancos de dados.

São cinco listas no total: 1. Visualização de Dados; 2. Extração e Tratamento de Dados; 3. Plataformas para “storytelling”; 4. Ferramentas de Mapas; 5. D3 e visualizações avançadas.

O Volt Data Lab testou e classificou os programas com notas de 0 a 5, onde 0 é a pior nota e 5 a melhor. Dar notas às coisas não é um modelo infalível, claro, mas esperamos que isso lhe ajude na escolha de suas ferramentas no dia a dia.

Também há uma lista boa sobre outros recursos (para escrever, acompanhar notícias, montar blogs, cobrar por seu trabalho etc.) feita em inglês pela ReadThisThing, aqui. Se você não sabe bem como montar sua visualização, existe um excelente catálogo aqui.

Esclarecimento aos leitores: o Volt Data Lab não é patrocinado, financiado nem possui qualquer tipo de vínculo ou apoio financeiro, institucional ou comercial com quaisquer produtos ou empresas abaixo listados. Se um dia o projeto receber algum tipo de apoio financeiro, isto será comunicado imediatamente a todos os nossos usuários por meio de nossa página, onde você pode fazer também comentários, criticas e sugestões. .

Segue a lista dos seis programas avaliados na categoria extração de dados, softwares que permitem identificar e classificar dados publicados em sites da internet:

1) Kimono  — Uma jóia. Talvez uma das ferramentas mais úteis para jornalistas de dados. É uma extensão do Chrome que promete — e cumpre — entregar uma extração muito simples e fácil de dados de uma webpage, e inclusive construir seu próprio API para obter dados em tempo real. Eu era um tanto cético em relação a esse programa, não tinha experimentado em profundidade, e preferia utilizar o Import.io. Mas meu colega Marco Túlio Pires, da Escola de Dados, felizmente me alertou para as maravilhas do Kimono. Muito recomendável.    Gratuito — Avaliado pelo Volt (nota 5/5)

2) Import.io—  É uma boa ferramenta para extração de dados. Ouvi gente falando mal e que funcionava apenas em certos tipos de sites. Na verdade, o principal problemas desses caras é que eles têm vários tipos de soluções para fazer a mesma coisa, mas de maneiras diferentes que nem sempre dão o resultado desejado. Tem os modos “Magic”, “Extractor”, “Classic Extractor”, “Authenticated Extractor”, “Crawler”, “Connector” e “Authenticated Connector”. É simplesmente exagerado. O “Magic”, que é uma extensão para navegadores, tem sérias falhas e só funciona quando o HTML do site é bastante organizado. O “Extract”, o aplicativo deles para computadores, é decente, e funciona satisfatoriamente, embora dê um pouco de trabalho até você pegar a manha. Tem o “Crawler”, para pegar informações de diversas páginas ao mesmo tempo. O resto você vai ter que descobrir sozinho porque, sinceramente, eu não tenho paciência para ficar testando tudo, especialmente após começar a utilizar o Kimono.
Totalmente gratuito — Avaliado pelo Volt (nota 2,8/5)

3) Webscrapper — Versão mais complicada do Kimono, mas é verdade que dá conta do recado. No entanto, a eficácia perde aqui para a ruim interface de uso — algo que o competidor acima conseguiu tirar de letra.
Totalmente gratuito — Avaliado pelo Volt (nota 3/5)

4) twXplorer — Projeto do Knight Lab se vende como uma maneira mais inteligente de buscar no Twitter. De fato é muito útil para saber informações gerais de certo tópico no dia presente. Não tem grandes aspirações, nem busca em outras redes sociais. Histórico não é seu ponto forte, então, se precisar de buscas para outros dias, boa sorte.
Totalmente gratuito — Avaliado pelo Volt (nota 2,8/5)

5) WhatFont — Uma extensão para o navegador Chrome e que identifica as fontes utilizadas em páginas na web. Não tem muito mais o que falar. Funciona.
Totalmente gratuito — Avaliado pelo Volt (nota 3,0/5)

6) Newsbot — Também é uma extensão do Chrome. O Newsbot, quando instalado, permite que o usuário, sem precisar fazer nenhuma busca, obtenha resultados relacionados com a notícia que se está lendo. Rápido, elegante. Mas às vezes acha coisas totalmente sem relação com a notícia em questão. Mesmo assim vale a pena.
Totalmente gratuito — Avaliado pelo Volt (nota 3,5/5)

***

Sergio Spagnuolo é jornalista, aspirante a programador, apreciador de carpintaria e editor do projeto de jornalismo independente Volt (www.voltdata.info) / Twitter @ProjetoStock e @voltmediabr— Facebook Volt Data Lab