A nova batalha na guerra entre Big Techs e a grande imprensa

Ao iniciar, no final de dezembro, um processo por quebra de direitos autorais, o jornal norte-americano The New York Times (NYT) tenta a via legal para arrancar dinheiro das empresas Open AI e Microsoft como também abrir um precedente na complexa guerra entre a imprensa e empresas produtoras de tecnologia voltadas para a Inteligência Artificial (IA).

É um confronto complicado porque estão em jogo duas estratégias corporativas diferentes, ambas preocupadas com a lucratividade dos respectivos modelos de negócios (1). A batalha entre o NYT e a OpenAI, ligada à Microsoft, marca um novo episódio da corrida das empresas de alta tecnologia em busca de informações arquivadas em bancos de dados digitalizados e que se encontram, em sua maioria, sob controle de empresas estruturalmente analógicas. A Inteligência Artificial depende da existência de bancos de dados volumosos porque se baseia na busca de informações por meio de algoritmos (robôs eletrônicos) pré-programados.

Foram justamente os algoritmos de inteligência artificial usados pela OpenAI/Microsoft que bisbilhotaram o banco de dados do NYT sem pagar nada, numa operação classificada como de treinamento de buscas. O jornal já tinha chegado a acordos de aluguel de seu banco de dados com as empresas Meta (Facebook), Google e Apple, mas a falta de diálogo com a OpenAI acabou levando a questão para os tribunais norte-americanos.

Veja abaixo uma comparação entre textos publicados originalmente pelo NYT e reproduzidos posteriormente pelo GPT:

(Printscreen publicado por Jason Kint no X (ex Twitter, comparando textos do NYT e do GPT)

A disputa pelo ‘necrotério’

O banco de dados de informações digitalizadas do NYT, também conhecido como Morgue (necrotério em inglês) contém 13 milhões de textos e oito milhões de fotos, gráficos e desenhos, todos produzidos a partir de 18 de setembro 1851, data de fundação do jornal. A maior parte do banco de dados está hospedada na nuvem digital da empresa Alphabet, dona do Google. Não há informação oficial sobre o custo da digitalização de todo o arquivo de edições impressas, mas há estimativas de que o total pode ter chegado a 40 milhões de dólares.

O acúmulo de estatísticas, números, cifras, fatos, ilustrações e notícias publicadas na imprensa ao longo de décadas fez com que um número restrito de empresas jornalísticas passasse a controlar a quase totalidade dos bancos de dados contendo informações gerais. As que digitalizaram seus arquivos jornalísticos achavam que iriam recuperar o milionário investimento feito vendendo informações para empresas e governos, mas acabaram agora descobrindo uma mina de ouro na inteligência artificial. Os bancos de dados de empresas jornalísticas estão no centro da batalha com as Big Techs porque eles contêm dados, fatos e eventos contextualizados, o que facilita a tarefa dos algoritmos da inteligência artificial.

Por seu lado, as grandes plataformas digitais que controlam redes sociais manejam diariamente uma quantidade de dados infinitamente maior do que a de uma edição diária de um grande jornal. Mas as plataformas têm menos de 20 anos, logo seu arquivo é muito recente comparado com o de jornais com mais de um século de existência, o que gera uma situação paradoxal de dependência mútua, apesar da disputa financeira. A inteligência artificial não prospera sem os bancos de dados jornalísticos e a imprensa, sem a IA, não perde a corrida no processo de ‘datificação’ (2) na produção de notícias.

A inteligência artificial é atualmente um território desregulamentado, o que sempre acontece no início da implantação de qualquer inovação tecnológica, criando condições para abusos e ações inescrupulosas. As empresas de tecnologia digital já esqueceram o idealismo inicial quando prometiam um mundo melhor e agora põem o lucro acima de tudo como qualquer grande multinacional. Basta ver como as redes sociais toleram as notícias falsas e a desinformação para garantir um faturamento crescente.

Colonialismo de dados

Não é a primeira vez que grandes empresas resistem às inovações tecnológicas na área da comunicação. No rádio isto aconteceu há 90 anos, como mostra o trabalho America’s Press-Radio War of the 1930s, de Gwenyth Jackaway, da Fordham University, publicado em 1994 (3). Os grandes jornais da época tentaram, durante 10 anos, impedir a transmissão radiofônica de notícias, temendo perder receitas publicitárias. O mesmo bloqueio de uma inovação aconteceu na década de 40 do século passado quando a empresa RCA retardou durante quase uma década a introdução da FM (Frequência Modulada) em suas transmissões radiofônicas para preservar a lucratividade da programação em AM (Modulação ampliada), surgida no início do século XX.

Tudo indica que, como no passado, a batalha entre big techs e imprensa deve terminar empatada porque as partes envolvidas vão acabar descobrindo que é preferível ‘perder os anéis para salvar os dedos’. O processo do NYT é uma jogada para ganhar posições de força quando o acordo de convivência se tornar inevitável. As principais armas da imprensa serão o conservadorismo e lentidão da justiça e do poder legislativo. Já as big techs se aproveitarão do desconhecimento e falta de intimidade de seus desafetos no manejo de ferramentas tecnológicas para avançar na exploração de novos aplicativos baseados na inteligência artificial.

Mas há um problema grave que não é tocado pelos grandes conglomerados da comunicação e nem pelas cinco maiores empresas de tecnologia digital (Meta, Alphabet, Apple, Microsoft e Twitter). Os dados que estão no centro da briga em torno da inteligência artificial na verdade não são de nenhuma das partes envolvidas e se a questão dos direitos fosse respeitada, teriam um dono original. Os dados em questão foram extraídos de nossas conversas, pesquisas, transações comerciais, textos, imagens e sons, sem que nós recebessemos o pagamento dos mesmos direitos autorais que agora são disputados pela imprensa e pelas big techs. Esta apropriação já foi batizada de “colonialismo de dados”. (4)

Mais detalhes sobre o processo do NYT em https://ankurraina.medium.com/new-york-times-vs-microsoft-openai-quick-d-ac7bd579bb50
Datificação é o processo de produção de notícias jornalísticas a partir da interpretação e processamento de dados digitalizados. (Mais detalhes em /(Datification of Journalism: Strategies for data Driven Storytelling and Industry)
Ver Jackaway, Gwenyth. (1994). <i>America’s press-radio war of the 1930s: a case study in battles between old and new media</i>. Historical Journal of Film, Radio and Television, 14(3), 299–314. doi:10.1080/01439689400260211

Colonialismo de dados é uma expressão criada pelo sociólogo britânico Nick Couldry. Ver em https://www.sup.org/books/title/?id=28816

***

Carlos Castilho é jornalista com doutorado em Engenharia e Gestão do Conhecimento pelo EGC da UFSC. Professor de jornalismo online e pesquisador em comunicação comunitária. Mora no Rio Grande do Sul.

Tags: Carlos Castilho colonialismo de dados datificação direitos autorais inteligência artificial microsoft NYT OpenAI The New York Times treinamento de buscas

Carlos Castilho

Jornalista com doutorado em Engenharia e Gestão do Conhecimento pelo EGC da UFSC. Professor de jornalismo online e pesquisador em comunicação comunitária. Mora no Rio Grande do Sul.

Ver outras publicações do autor

Aos leitores

Os artigos publicados nesta página não refletem necessariamente a opinião do Observatório da Imprensa, já que somos um fórum de opiniões. Procuramos publicar os textos recebidos como parte de nosso compromisso com a diversificação das fontes de informação. Como ninguém é dono da verdade, a melhor forma de buscar a objetividade é através do contato com perspectivas e opiniões diferenciadas, o que nos permite neutralizar o discurso do ódio e da intolerância.