Os mais apocalípticos acreditam que a Inteligência Artificial substituirá seres humanos em muitas tarefas. Uma vertente mais integrada vê os sistemas de IA como potencialidades para aprimorar e otimizar as atividades a partir da integração entre seres humanos e computadores. Eu tendo a ver este movimento como algo parecido com o que ocorreu com o Metaverso. Muitos disseram que estávamos diante de uma revolução. Hoje, pouca gente se interessa pelo assunto.
A história da humanidade mostra que o avanço científico e tecnológico não é feito de grandes saltos. O desenvolvimento de uma nova tecnologia é resultante de pequenos passos (alguns à frente outros para trás). A IA, uma tecnologia iniciada nos anos 1940, só se tornou popular agora, graças a uma série de fatores que incluem aspectos culturais e sociais. Mas há fortes evidências de que ainda não estamos preparados para o uso deste recurso.
Em um contexto marcado pelo caos da oferta excessiva e indiscriminada de conteúdos, cresce a necessidade de tratamento adequado das informações. Os geradores de textos como ChatGPT, Bard e Bing, são pouco claros, quando não dispersivos, sobre as fontes de informação consultadas. Em praticamente todos os casos, também se percebe a ausência de princípios éticos básicos como o reconhecimento da autoria sobre um determinado texto, já que estes sistemas não citam ou não parafraseiam os trechos cujas informações foram publicadas por outras pessoas, como faz o jornalismo profissional.
Os pesquisadores João Canavilhas e Bárbara Biolchi, da Universidade da Beira do Interior (Portugal), apontam em artigo publicado recentemente na revista Mídia & Cotidiano a transparência na origem dos dados como um dos maiores problemas da IA na geração automática de conteúdos.
Um dos valores primordiais do jornalismo está na verificabilidade das informações publicadas em uma notícia. Ou seja, é a evidência de que um jornalista conversou com determinada fonte de informação, consultou determinados documentos, esteve em determinados locais, que dão alguma garantia para o público de que aquilo que está sendo publicado tem veracidade. Claro, o jornalismo, uma atividade humana, não é infalível e carrega suas fragilidades.
3 níveis de fragilidade
O problema dos dados é o principal problema dos geradores de linguagem natural e é o que torna estes sistemas falhos e, em muitos casos, reprodutores ou produtores de informações falsas. A fragilidade precisa ser compreendida em três níveis principais: primeiro, sobre a base de dados utilizada; segundo, sobre a adulteração de dados por humanos; e terceiro, sobre a adulteração de dados programada.
A primeira fragilidade se dá no nível da geração de conteúdos a partir de informações falsas, uma vez que a geração de textos por IA considera os conteúdos disponibilizados na rede como fonte de informação. O ambiente virtual, sem grande regulação, tende a ser pouco restritivo e, portanto, suscetível a gerar bases de informações falsas que são utilizadas pelos geradores artificiais. E não adianta dizer que os dados são coletados de bases científicas. No período da pandemia não foram poucos os casos de artigos publicados em revistas científicas desqualificadas.
A NewsGuard, organização estadunidense dedicada a fornecer ferramentas de inteligência artificial para combate à desinformação, atestou o problema. Em 2023, eles identificaram 49 sites com conteúdos gerados por IA, sendo que muitos continham informações falsas. Nestes casos, o problema está na incapacidade dos sistemas diferenciarem o que é verdadeiro ou o que é falso na ambiente digital.
Um segundo nível que pode, inclusive, se associar ao primeiro, diz respeito ao uso de IA para produção aprimorada de conteúdos falsos como vídeos, áudios e imagens, a partir do que se chama comumente de deepfake.
Aplicativos como TikTok e editores de dublagem automática, como Lovo, Maestra, Speechify, dentre vários outros, oferecem recursos fáceis de usar e acessíveis pelo celular para o público. Os chamados “prosumers” inundam as redes com vídeos e áudios muito realistas e capazes de confundir até os mais críticos. O uso deste recurso para inserir falas ou imagens que nunca existiram é mais comum com pessoas influentes como atores e políticos. Um destes casos ocorreu com o presidente dos Estados Unidos Joe Biden, que teve sua fala adulterada em um vídeo sobre a invasão do Capitólio, em 2022, e que viralizou nas redes.
Por fim, em um nível mais complexo e ainda pouco conhecido, se dá a programação e uso de algoritmos para que a IA gere conteúdos capazes de inventar ou distorcer informações. Neste mesmo grupo, também são perceptíveis os casos chamados de “alucinação”, em que a programação dos algoritmos utilizados pela IA não está muito bem aprimorada, provocando a geração de textos fora da realidade.
No ano passado o jornal The New Tork Times testou o ChatGPT, Bard e Bing, fazendo uma série de perguntas para os sistemas. Ao ler os textos produzidos pelos geradores, os jornalistas perceberam uma série de inconsistências. Erros em datas, nomes e fatos foram observados nos resultados. As empresas responsáveis por estes sistemas têm se manifestando sobre as “alucinações”, informando que trabalham para reduzir os erros e indicam que a tendência é uma redução dos problemas, uma vez que se trata de sistemas dotados de machine learning, algo como máquinas que aprendem. Este recurso permitiria que os assistentes virtuais aprimorassem as construções de textos, na medida em que os bancos de dados forem ampliados e quanto mais forem requisitados pelos usuários.
Em todos os casos, o problema recai sobre um ambiente não regulado. Nos últimos anos, a proliferação de fake news, teorias conspiratórias e negacionismo transformou um problema segmentado em um problema generalizado. Sem regras claras e a serviço de big techs, a tecnologia de inteligência artificial tende a ser também pouco criteriosa, contribuindo, a exemplo do que aconteceu com as redes sociais, não para ser um espaço de democratização e geração de conhecimento, mas para a polarização extremada de pensamento e proliferação de desinformação. Neste ritmo, será questão de tempo para que se perceba que os sistemas de geradores de linguagem natural não são tão confiáveis.
***
Guilherme Carvalho é Doutor em Sociologia, com pós-doutorado em Jornalismo. É professor de Jornalismo do Centro Universitário Internacional Uninter e do Programa de Pós-Graduação em Jornalismo da UEPG, membro do Comitê de Ética em Pesquisa da Uninter e atual diretor de comunicação da Associação Brasileira de Ensino de Jornalismo (ABEJ).