Wednesday, 24 de April de 2024 ISSN 1519-7670 - Ano 24 - nº 1284

Como as notícias de atualidade são editadas na Wikipédia

O gráfico mostra  as visitas à página selecionada, o total diário de alterações feitas ao artigo e, em destaque, os elementos-chave no desenvolvimento da matéria. Ilustração de Joe Sutherland, com autorização da CC BY-SA 4.0.

Clique para ver a imagem maior.
O gráfico mostra as visitas à página selecionada, o total diário de alterações feitas ao artigo e, em destaque, os elementos-chave no desenvolvimento da matéria. Ilustração de Joe Sutherland, com autorização da CC BY-SA 4.0.

Há quase quinze anos que a abrangência de temas cobertos pela Wikipedia vem crescendo continuamente. Atualmente, a enciclopédia gratuita online cobre tudo, desde música, filmes e vídeo games até geografia, história e ciências. Também contém artigos sobre tendências no noticiário, atualizadas por dezenas de milhares de editores voluntários assim que as notícias são divulgadas.

Para investigar alguns aspectos desse fenômeno, como, por exemplo, a velocidade com que notícias de última hora são cobertas pela Wikipedia, a comprovação da informação acrescentada depois de algum tempo e a distribuição de correções entre os editores da Wikipedia, selecionei um artigo para análise posterior na forma de dissertação.

O artigo selecionado foi Shooting of Michael Brown [Assassinato de Michael Brown], que cobria a morte de Michael Brown, de 18 anos de idade, em Ferguson, Missouri, pelo policial Darren Wilson. O incidente atraiu muita atenção da imprensa, estimulada por protestos locais, no subúrbio de St. Louis. Observei o histórico do artigo até 12 de janeiro de 2015.

Os dados obtidos foram divididos em dois “picos” no desenvolvimento da matéria: o atropelo inicial da mídia depois do começo dos protestos, em meados de agosto, e a decisão do grande júri de Ferguson de não indiciar Darren Wilson pela morte do adolescente, no final de novembro [https://blog.wikimedia.org/2015/08/17/wikipedia-breaking-news/#2]. Cada “pico” representou 500 “revisões” individuais do artigo em questão. Neste caso, o uso de picos permitiu uma análise cruzada – ou seja, uma comparação direta entre os dois casos estudados.

Velocidade de edição

O gráfico mostra a velocidade de edição nos dois picos de desenvolvimento. Ilustração de Joe Sutherland, com autorização da CC BY-SA 4.0.

O gráfico mostra a velocidade de edição nos dois picos de desenvolvimento. Ilustração de Joe Sutherland, com autorização da CC BY-SA 4.0.

É interessante ressaltar que as visitas à página e os índices de edição não coincidiram como era de esperar. Em vez disso, houve uma grande enxurrada de correções poucos dias depois do artigo ser publicado, provavelmente à medida que a comunidade de editores voluntários da Wikipédia  tomou conhecimento da existência do artigo ou ouviu falar do evento. A velocidade de edição foi incrivelmente rápida durante este período inicial de tumultos e atenção da imprensa, embora essa rapidez fosse muito inconsistente.  A média do índice de edição durante esse período foi de 18,75 correções por hora, mais de onze vezes mais do que a média para o artigo inteiro.

A cobertura da mídia, no entanto, parece ter um impacto muito mais penetrante nas visitas às páginas: por ocasião da decisão de não indiciar Darren Wilson, em novembro, quase meio milhão de pessoas visitaram o artigo num único dia. Uma observação um tanto surpreendente foi a de que este segundo pico resultou em índices de edição muito mais lentos. A média, para esse período, foi de 7,21 correções por hora, o que representa um ritmo duas vezes e meia mais lento do que no primeiro pico. É também muito inconsistente, tomando por base o primeiro pico – as velocidades de edição variaram amplamente durante os dois picos e foram, em grande parte, inesperadas.

Em termos do texto acrescentado ao artigo, o primeiro pico – que foi observado durante um período de tempo muito mais curto – viu uma média de 501,02 bytes de texto acrescentado por hora, cerca de 3,6 vezes mais rápido que o índice do segundo pico. Neste momento, no entanto, o artigo era muito mais longo e é provável que não sobrasse muito a ser acrescentado.

O uso de fontes

Opinar sobre a exatidão do artigo é uma tarefa muito difícil que, por sua natureza, seria subjetiva e exigiria um conhecimento profundo do que ocorreu em Ferguson naquela tarde. Com esse objetivo, optei por avaliar a comprovação do artigo – especificamente, o volume de fontes por kilobyte de texto, o que neste estudo é considerado a “densidade de referência” do artigo.

“Densidades de referência” de cada pico. Ilustração de Joe Sutherland, com autorização da CC BY-SA 4.0.

“Densidades de referência” de cada pico. Ilustração de Joe Sutherland, com autorização da CC BY-SA 4.0.

Foram tomadas para este estudo dez amostras de cada pico e suas referências correspondentes. Isso foi utilizado conjuntamente ao tamanho da página em kilobytes para achar a densidade de referência.

Em ambos os picos, a densidade de referência aumentou continuamente com o tempo. Foi significativamente mais alta no pico anterior como um todo, quando o artigo era mais curto e informações rapidamente alteráveis exigiam mais comprovação. Esse aumento na densidade de referência com o passar do tempo provavelmente indica o desejo dos editores da Wikipedia de impedir que as informações acrescentadas não fossem removidas,  dada a inviabilidade de uma verificação.

A maioria das fontes utilizadas no artigo foi de publicações focadas  na mídia impressa. Isto é mais óbvio no segundo pico do que no primeiro, onde o jornal local The St. Louis Post-Dispatch  tornou-se a fonte mais comum para o artigo estudado.

Origem das fontes utilizadas no artigo de acordo com o pico. Ilustração de Joe Sutherland, com autorização da CC BY-SA 4.0.

Origem das fontes utilizadas no artigo de acordo com o pico. Ilustração de Joe Sutherland, com autorização da CC BY-SA 4.0.

Em relação a isso, foi descoberto que um grande volume das fontes era de mídias sediadas no estado de Missouri. A proporção de fontes que se enquadravam nessa categoria na verdade aumentou no segundo pico, de pouco mais de 18% para pouco mais de 25% da totalidade das fontes. Outras fontes locais que foram continuamente utilizadas no artigo foram o jornal St. Louis American e as emissoras KTVI e KMOV.

No entanto, foi o estado de Nova York que forneceu a maioria das fontes; isso parece indicar que os editores têm uma tendência a fontes conhecidas e respeitáveis, como o New York Times e o USA Today, que ficaram entre os primeiros lugares nas listas de classificação. Excepcionalmente, o estado da Geórgia, que teve como representante quase exclusiva a emissora nacional CNN, ainda somou 10% do total das fontes utilizadas.

O alcance dos colaboradores

Por fim, foram examinados os padrões de edição dos usuários para avaliar a distribuição de correções feita entre vários grupos. Para fazê-lo, os usuários foram colocados em categorias baseadas em seus índices de edição – que, para os objetivos deste estudo, foram definidos como a média diária de suas correções. Foram selecionadas categorias para dividir os editores da maneira mais uniforme possível para a análise e foram excluídos seis bots ( N.R. robôs eletrônicos na internet) para evitar a distorção dos resultados.

tabela_jornalistas_correcoes
Analisando os dados acrescentados por categoria, os usuários extremamente ativos foram responsáveis pela grande maioria do total de conteúdo acrescentado ao artigo – quase a metade do total. No entanto, ao desmembrar esses dados pela média de conteúdo acrescentado por correção para cada categoria, surgiram alguns resultados intrigantes.Fica evidente que a maioria dos usuários nas categorias “extremamente ativos” e “usuários de poder” detêm algum tipo de status, seja a ferramenta de “retrocesso” dada pelos administradores, ou papéis escolhidos, como o de administrador ou burocrata. Isso pelo menos implica que mais correções diárias possam ser traduzidas, em termos aproximados, para experiência ou confiança no projeto.

Média do conteúdo acrescentado por correção, em bytes, por categoria de experiência. Ilustração de Joe Sutherland, com autorização da CC BY-SA 4.0.

Média do conteúdo acrescentado por correção, em bytes, por categoria de experiência. Ilustração de Joe Sutherland, com autorização da CC BY-SA 4.0.

Embora os usuários extremamente ativos também fiquem na frente neste quesito, é uma corrida muito mais equilibrada. Talvez por motivos não intuitivos, editores “eventuais” – aqueles com menos de uma correção por dia, mas mais de 0,1 – acrescentaram uma média de 95,81 bytes por correção e a categoria imediatamente abaixo dessa acrescentou 93,70 byes por correção. Isso sugere que a edição do artigo na Wikipedia não é exclusivamente feita por usuários muito ativos, mas por um amplo leque de usuários com estilos e experiência de edição amplamente diferenciados.

As correções ao artigo normalmente foram feitas por um grupo muito pequeno de usuários. Na verdade, 58% das correções foram feitas pelos dez principais colaboradores, enquanto mais da metade dos colaboradores fez apenas uma correção. O texto acrescentado ao artigo seguiu o mesmo padrão, embora ainda mais pronunciado: os mesmos dez principais colaboradores contribuíram com mais de dois terços do conteúdo do artigo. Isso fortalece as teorias de que os artigos da Wikipedia tendem a ser trabalhados por uma “equipe” essencial, enquanto outros editores individuais contribuem com correções menos importantes e com a neutralização do vandalismo.

No geral, o estudo mostra que a Wikipedia trabalha as notícias de última hora da mesma forma que as redações tradicionais – a comprovação é levada em alta consideração e um “grupo essencial” de editores tende a contribuir com a maior parte do conteúdo. No entanto, os índices de edição não correspondem de maneira óbvia aos picos de atividade da mídia, o que vale a pena investigar futuramente de modo mais qualitativo.

Notas

Outros pesquisadores trabalharam nesta área; seu trabalho, seus métodos e seus resultados tiveram grande influência neste estudo. O trabalho de Brian Keegan, em especial, foi significativo no sentido de orientar a direção desta pesquisa. Seu trabalho de 2013 sobre notícias de última hora, que contou com a participação de Darren Gergle e de Noshir Contractor, cobre uma abrangência muito mais ampla do que o fez esta tese.

O primeiro pico descrito refere-se às 500 correções feitas entre as 09:38 (Tempo universal coordenado- UTC) do dia 16 de agosto de 2014 e as 17:54 (UTC) de 18 de agosto de 2014 (um período de dois dias, oito horas e 16 minutos); o segundo pico é entre 00:57 (UTC) de 23 de novembro de 2014 e 22:36 (UTC) de 1º de dezembro de 2014 (um período de oito dias, 21 horas e 39 minutos).

***

Joe Sutherland, da Fundação Wikimedia