A era das máquinas inteligentes, ano 1 | Observatório da Imprensa

JORNALISTAS-ROBÔS

Nilson Lage (*)

Quando, na década de 1950, os primeiros computadores ? máquinas enormes ? foram apresentados às pessoas comuns, uma coisa aborrecia particularmente os entendidos no assunto: o hábito que os jornalistas tinham de chamar a engenhoca de "cérebro eletrônico". Os ciberneticistas ? esse era o nome ? faziam questão de explicar que se tratava apenas de uma espécie de ábaco, só que para contar números extensos, relativos a entidades muito pequenas, como as partículas dos átomos, ou muito grandes, como a energia liberada pela fissão desses mesmos átomos. Não serviriam para mais nada.

Mas já em 1956 um grupo de cientistas reunia-se em torno de um projeto mais impensável, na época, do que o próprio conceito de "cérebro eletrônico": a inteligência artificial. Os estudos que então iniciaram estão desembarcando, menos de meio século depois, nas mesas de trabalho dos jornalistas. E são estes os que procuram, agora, minimizar as prováveis conseqüências do fato. "Nenhum desses sites é realmente capaz de eliminar a tradicional função editorial", escreve Joshua Macht, um dos mais renomados jornalistas especializados em tecnologia, em artigo sobre os robôs-redatores. "O que eles fazem é reembalar o produto do trabalho de repórteres e editores."

Será? E o que fazem repórteres e editores senão reembalar (repack) os discursos uns dos outros, ou das fontes; transformar imagens, de mundos reais ou de mundos possíveis (no cinema, nas batalhas encenadas do Kosovo), em enunciados lineares; ou extraí-los de tabelas e gráficos, compondo-os com outros enunciados, outras tabelas e outros gráficos.guardados na memória individual ou na memória coletiva ? arquivos, bancos de dados ou bibliotecas? O que é o discurso jornalístico senão a articulação inteligível de suposições sobre o mundo?

Claro que Joshua não perderá seu emprego nas próximas semanas ou meses. Prosseguirá por anos, adaptando-se às circunstâncias que se alteram rotineiramente sem que ele perceba: o movimento uniforme é tão imperceptível quanto a inércia. Mas, mantido o ritmo atual do avanço tecnológico, chegará o tempo, talvez antes da metade deste século, em que só o que é muito sofisticado, aquilo que está no limite da invenção em ciência ou arte, precisará da intervenção humana.

E, depois…

As estruturas básicas

A inteligência artificial baseia-se em alguns procedimentos. O primeiro deles é o cálculo seqüencial, que decorre, em última análise, da lógica clássica: "e, ou, se…então, equivale a…"

A partir daí, complicando o cálculo, utilizando ao máximo seu caráter recorrente, chega-se aos sistemas especialistas, que copiam o comportamento humano para, por exemplo, compor letras e espaços para formar sentenças e distribuí-las na área retangular das páginas ou nas colunas da diagramação, competindo com imagens que se estendem, pixel por pixel, nas dimensões pretendidas.

Depois, as redes neurais artificiais, que se desenvolveram recentemente a ponto de reconhecer padrões e, assim, diagnosticar tumores; denunciar pessoas quando as vêem (bandidos, por exemplo), ainda que envelheçam, mudem o penteado ou a barba etc.; estabelecer, enfim, semelhanças entre coisas não-idênticas. Uma característica interessante das redes artificiais é sua capacidade de aprender, quer por tutoria, quer com a experiência.

Em terceiro lugar, a lógica difusa, inventada na década de 60 por Lutfi, e que é capaz de dar conta da natureza vaga das palavras em línguas naturais ? do fato, por exemplo, de que alguém de 7 anos é tipicamente criança e alguém de 16 já não é tanto, embora seja um pouco; ou que há um contínuo entre os conceitos de "árvore" e "arbusto", dependendo da natureza do objeto, da região e do observador.

Finalmente, os algoritmos genéticos, que imitam as leis de Mendel ou a teoria de Darwin, cruzando seqüências aproximadas para, quando não há condições de obter, de saída, um cálculo exato, selecionar, dentre os filhotes, os que mais se encaixam no que se pretende; novamente cruzando esses itens para encontrar outros, até que se chegue à estabilidade, no melhor resultado possível.

A combinação desses mecanismos permite não apenas operar inteligentemente (a inteligência é definida não como atributo exclusivamente humano, mas como comportamento de uma infinidade de sistemas naturais), mas também produzir agentes inteligentes, em regra softwares que atuam à distância ? na internet, por exemplo ? de maneira que só pode ser descrita com palavras geralmente aplicadas a pessoas: eles têm objetivos, são capazes de negociar, de cooperar uns com os outros, de contornar obstáculos etc.

É disso que estamos falando. De algo que se está usando para compreender ou modelar o funcionamento do cérebro humano, respeitadas as diferenças entre o suporte físico e o suporte biológico; entre criaturas que têm passado e órgãos de sentidos, por um lado, e, por outro, entidades que só sabem ? e, portanto, só podem considerar ? aquilo que lhes é informado, direta ou indiretamente. Computadores estão, por ora, no segundo caso.

Pesquisas acadêmicas

Em 1997, redigi um texto acadêmico sobre a possibilidade de se estruturar automaticamente enunciados rotineiros ? boletins do tempo e da bolsa, cotações de mercadorias e câmbio, notícias de fatos isolados ? utilizando as técnicas do lead jornalístico. Apresentei o trabalho em um congresso, não o traduzi para o inglês por preguiça e ele esperou um ano que alguém no Brasil se dispusesse a publicá-lo; saiu, afinal, em 1998, na revista Vozes & Diálogo, da Univali, em Itajaí (SC).

A dra. Kathy McKeown, do Departamento de Ciência da Computação da Universidade de Colúmbia, dedica-se ao assunto há muito mais tempo, perto de 20 anos. Ela é a líder do grupo de pesquisa que desenvolveu o Newsblaster (espalhador de noticias) e do qual fazem parte os doutorandos (em 2001; provavelmente já se terão doutorado) Regina Barzilay e Barry Schiffman, este um veterano jornalista.

O Newsblaster [veja remissão abaixo] opera inicialmente como uma ferramenta de busca, percorrendo as páginas de notícias de pelo menos 17 fontes ? americanas, principalmente, mas também inglesas e canadenses. Usando técnicas de inteligência artificial, examina as notícias publicadas online, seleciona algumas e as sintetiza, usando técnicas de processamento de linguagem natural para redigir e publicar sínteses jornalísticas.

Para atribuir relevância aos fatos, o programa considera fatores tais como o número de matérias a respeito deles e o quanto são repetidas as referências, bem como a existência de dados mensuráveis ? por exemplo, o número de mortos ou a extensão dos danos. No estágio atual da tecnologia, é inviável considerar questões conjunturais como a importância do fato nos universos particulares da política, das artes, da cultura ou da economia ? temas sobre os quais o sistema não detém informações.

Para contornar, em parte, essa deficiência, as notícias são distribuídas automaticamente em editorias por assunto: "Estados Unidos", "Mundo", "Finanças", "Entretenimento" e "Esportes". Dezenas de notícias são condensadas em cada item reportado. A competência redacional do equipamento está sendo testada desde setembro de 2001, quando o Newsblaster entrou na web.

As principais restrições feitas até agora ao Newsblaster referem-se ao peso que ele dá (eqüitativo, presume-se) a diferentes fontes, à capacidade de lidar com dados conflitantes nas matérias em que se baseia e, principalmente, ao que Dan Dubno, da CBS News, chama de "tendência conservadora do texto final" ? particularmente quando, baseando-se em notícias de mais de um dia, deve efetuar escolhas no terreno das versões dos fatos. Uma das razões disso é a incapacidade de registrar nuanças da realidade que propõem dúvidas quanto à confiabilidade ou a não-confiabilidade de uma asserção.

Mas o Newsblaster não está sozinho. A Universidade de Michigan desenvolveu um programa, ou conjunto de programas, chamado News in Essence (remissão abaixo) que coleta e resume notícias sobre um tópico solicitado, em diferentes sítios noticiosos. Quem encontra um texto interessante e deseja saber mais a respeito pode usar o endereço do artigo para listar outros sobre o mesmo assunto. É possível estabelecer parâmetros como número de linhas, grau de semelhança etc. Durante a busca, é acionado o NewsTroll (roteador de notícias), que percorre as páginas da BBC, CNN, MSNBC, USA Today e Yahoo. Fornecendo o e-mail, o internauta pode receber em casa os resumos ou íntegra dos artigos solicitados.

Descrição técnica
do sistema

Segundo os criadores do Newsblaster, a arquitetura do sistema é de processamento sucessivo (pipeline). Na fase de pré-processamento, extraem-se as imagens e os textos são normalizados. Em seguida, agrupados num primeiro e num segundo nível, distribuem-se pelas seis editorias.

No processo de captação (gathering), considera-se notícia o texto com mais de 512 caracteres (cerca de oito linhas). Depois da distribuição pelas categorias, os textos são selecionados em dois níveis: o inferior, dos "que tratam do mesmo evento", e o superior, dos "que tratam de eventos relacionados". Para a seleção dos textos do nível inferior usa-se método heurístico (analítico); o título do artigo irá destacado, em azul. Para o nível superior, o peso é distribuído conforme avaliação estatística de nomes próprios e denominações genéricas.

A chave e grande inovação do sistema é o sumarizador, que sintetiza e redige as informações. Na verdade, ele obedece a estratégias diferentes conforme a editoria. Há uma classificação dos documentos segundo a referência a eventos simples (ocorridos em lugar, aproximadamente ao mesmo tempo, envolvendo os mesmos agentes e ações); biográficos ou centrados-em-pessoa, que se referem a uma pessoa e envolvem informação de background sobre ela; multi-eventos, que juntam ocorrências de diferentes lugares, momentos, ações e/ou pessoas; e outros.

Um dispositivo chamado MultiGen integra técnicas estatísticas e de aprendizado pela máquina com o objetivo de identificar sentenças similares em temas que, grosso modo, irão corresponder às sentenças da matéria final. Estas são constituídas por locuções que o sistema identifica nas sentenças do input mediante a distribuição em árvore por um analisador sintático.

Para documentos biográficos, é utilizado um sistema alternativo, o DEMS (Dissimilarity Engine for Multidocument Summariazation), que seleciona sentenças que contêm informação suficientemente relevante para serem incluídas no sumário. Usa a freqüência de conceitos (conjuntos de designações incluídas em seu campo semântico), opondo-a a palavras uniconceituais.

Google News

A informação de que a Universidade de Colúmbia desenvolvera um sistema chamado de Newsblaster, capaz de coletar informações em várias fontes da internet e redigi-las em padrões jornalísticos, foi recebida e tratada, em meados de fevereiro passado, pela imprensa brasileira como fait-divers: o site Comunique-se <www.comunique-se.com.br> deu à matéria o título "Agora até robô pode ser jornalista", aludindo à liminar judicial que permitiu temporariamente o exercício profissional a pessoas sem formação universitária específica..

No entanto, com o Google News (veja abaixo), um produto industrial e competitivo, a reação foi diferente. Mas ninguém reparou que entre a primeira experiência acadêmica divulgada e sua realização profissional passaram-se apenas alguns meses ? menos de um ano.

O Google News é atualizado de quinze em quinze minutos. Há uma seleção de histórias principais (top news) e, em seguida, as editorias "Mundo", "Estados Unidos", "Negócios", "Ciência e Tecnologia", "Esportes", "Entretenimento", Saúde" e mais histórias principais. No final, a advertência: "Esta página foi gerada inteiramente por algoritmos sem editores humanos".

O algoritmo do Google News vasculha mais de 4.000 publicações noticiosas, as distribui em categorias e subordina a assuntos. Leva pouquíssimo tempo para fazer isso e informa aos leitores: "aconteceu há x minutos". Os critérios de avaliação considerados saltaram para 150. Os defeitos, ainda assim, são registrados e difundidos por analistas que, em regra, torcem para que a coisa não dê certo.

Há algumas semanas, jornalistas americanos denunciaram que o equipamento havia selecionado para publicação matéria promocional da agência oficial do Irã. Mas eles mesmos têm sido incapazes de perceber quão parecidos são os discursos fundamentalistas do Islã e as falas fundamentalistas do governo Bush ? qual a diferença sutil entre expressões como "o grande satã" e o "eixo do mal"?

Chaves para o futuro

O que explica o avanço das pesquisas americanas nesse campo ? e sua rápida transferência à indústria da informação ? é não apenas o fluxo maior e mais constante de recursos para pesquisa, mas, principalmente, as ligações entre o setor produtivo e a pesquisa acadêmica, particularmente aquela voltada para o desenvolvimento de produtos. Em suma, trata-se do resultado do brilho e da persistência de equipes de pesquisadores como a da dra. McKeon, mas também da decisão empresarial da Google, que viu na aplicação do sistema um diferencial importante no mercado altamente competitivo das ferramentas de busca.

Essa é uma questão delicada que o Brasil terá que enfrentar. Nossas universidades não estão atrasadas nesse campo. Sistemas de representação do conhecimento contextualizada dinamicamente (RCCD) e de pesquisa contextual estruturada (PCE), em que se consideram os diferentes ambientes em que um conceito pode ser considerado (água, por exemplo, é um insumo alimentar, um instrumento de motricidade na geração de energia, um recurso econômico), têm-se desenvolvido no Brasil ao lado de outras tecnologias da engenharia do conhecimento, objetivando o ensino/aprendizagem e a instrumentação da pesquisa em vários campos.

Sistemas como os desenvolvidos na pós-graduação na Engenharia de Produção da Universidade Federal de Santa Catarina permitem o acesso imediato a súmulas jurídicas, mediante a inscrição de uma sentença que tipifique o caso para o qual se buscam parâmetros de julgamento(Alpha Themis); a proteção de arquivos do Conselho de Segurança das Nações Unidas (Olimpo); a captação de dados em textos puros e sua estruturação em gráficos; ou ainda a combinação de critérios de semelhança, localização e interseção de informações (IOO) que permitiriam encontrar, numa grande cidade, por exemplo, "a farmácia mais próxima que funcione 24 horas por dia, tenha pessoal autorizado para aplicar injeções intravenosas e sistema de tele-entrega".

O que falta? Interessados. Gente que não considere o computador mera máquina de calcular ou de escrever eletrônica e que pretenda, desenvolvendo tecnologia, estar à frente dos concorrentes e no ritmo de seu tempo. Empresas e instituições interessadas em tomar a chave, rodar o mecanismo e abrir a porta para o futuro.

Leia também

Newsblaster

News
in Essence

Google
News

(*) Jornalista,professor titular do Departamento de Jornalismo da Universidade Federal de Santa Catarina (UFSC)

lgarcia

Ver outras publicações do autor

Aos leitores

Os artigos publicados nesta página não refletem necessariamente uma opinião do Observatório da Imprensa, já que somos um fórum de opiniões. Procuramos publicar os textos recebidos como parte de nosso compromisso com a diversificação das fontes de informação. Como ninguém é dono da verdade, a melhor forma de buscar a objetividade é através do contato com perspectivas e opiniões diferenciadas, o que nos permite neutralizar o discurso do ódio e da intolerância.