INTELIGÊNCIA ARTIFICIAL
"Um papo com Nilson Lage sobre IA", copyright Comunique-se (www.comuniquese.com.br), 1/06/03
"Uma boa notícia para você: nesta semana, não escreverei muito. O dono do show será o meu mestre Nilson Lage, hoje professor da Universidade Federal de Santa Catarina, mas que – sempre agradeço a Deus por isso – me deu aula na Universidade Federal Fluminense, de Niterói, nos anos bons e queridos anos 80.
O assunto desta semana começou em fins de dezembro, quando da visita de Nilson ao Rio para assistir à formatura de sua filha mais nova (em jornalismo, o que mais?). Num almoço no CCBB, meu mestre falou – no seu estilo metralhadora que desnorteia qualquer um que não tenha a sua profundidade de conhecimento, o que inclui quase todo mundo – sobre as possibilidades da aplicação no jornalismo das já quase cinqüentenárias pesquisas em Inteligência Artificial.
Claro que levei muito tempo para digerir as informações e raciocínios de Nilson. E quanto mais o fazia, mais perplexo ficava. ?Será que estava mais alucinado do que de costume e entendi errado o que ele disse??, me perguntava. Até que resolvi fazer a pergunta diretamente ao meu caro ex-professor. A resposta foi: ?Não. Você estava no seu nível normal de alucinação, o que significa ?em perfeitas condições de anormalidade?.
Para me tranqüilizar de vez sobre as minhas avariadas condições mentais, Nilson me enviou um texto que confirmava o que eu achava que tinha ouvido: que já estão sendo desenvolvidas pesquisas – com protótipos já em funcionamento – de robôs que, em uns 20, 30 anos, substituirão os humanos-jornalistas no papel de escolher e hierarquizar informações em reportagens e distribui-las por páginas e telas de computador.
O texto que Nilson me mandou você pode ler a seguir:
?A era das máquinas inteligentes, Ano I
Quando, na década de 50, os primeiros computadores – máquinas enormes – foram apresentados às pessoas comuns, uma coisa aborrecia particularmente os entendidos no assunto: o hábito que os jornalistas tinham de chamar a engenhoca de ?cérebro eletrônico?. Os ciberneticistas – esse era o nome – faziam questão de explicar que se tratava apenas de uma espécie de ábaco, só que para contar números extensos, relativos a entidades muito pequenas, como as partículas dos átomos, ou muito grandes, como a energia liberada pela fissão desses mesmos átomos. Não serviriam para mais nada.
Mas já em 1956 um grupo de cientistas reunia-se em torno de um projeto mais impensável, na época, do que o próprio conceito de ?cérebro eletrônico?: a inteligência artificial. Os estudos que iniciaram então estão desembarcando, menos de meio século depois, nas mesas de trabalho dos jornalistas. E são esses os que procuram, .agora, minimizar as prováveis conseqüências do fato. ?Nenhum desses sites é realmente capaz de eliminar a tradicional função editorial?, escreveu em meados de 2002 Joshua Macht, jornalista especializado em tecnologia, em artigo sobre os robôs-redatores. ?O que eles fazem é reembalar o produto do trabalho de repórteres e editores?.
Será? E o que fazem repórteres e editores senão reembalar (repack) os discursos uns dos outros, ou das fontes? Ocupam-se de quê mais, além de transformar imagens, de mundos reais ou de mundos possíveis (no cinema, nas batalhas encenadas do Kosovo, nos releases em vídeo dos bombardeios ao Afeganistão, ao Iraque – não será difícil ir acrescentando lugares para esse artigo estar sempre atualizado), em enunciados lineares; ou extraí-los de tabelas e gráficos, compondo-os com outros enunciados, outras tabelas e outros gráficos.guardados na memória individual ou na memória coletiva – arquivos, bancos de dados ou bibliotecas? O que é o discurso jornalístico senão a articulação inteligível de suposições sobre o mundo?
Claro que Joshua não perderá seu emprego em futuro previsível. Prosseguirá por anos, adaptando-se às circunstâncias que se alteram rotineiramente sem que ele perceba: o movimento uniforme é tão imperceptível quanto a inércia. Mas, mantido o ritmo atual do avanço tecnológico, chegará o tempo, talvez antes da metade do século, em que só o que é muito sofisticado, aquilo que está no limite da invenção em ciência ou arte, precisará da intervenção humana.
E, depois, …
As estruturas básicas
A inteligência artificial baseia-se em alguns procedimentos.
O primeiro deles é o cálculo seqüencial, que decorre, em última análise, da lógica clássica: ?e, ou, se…então, equivale a…? A partir daí, utilizando ao máximo o caráter recorrente das contas, chega-se aos sistemas especialistas, que copiam o comportamento humano para, por exemplo, compor letras e espaços para formar sentenças e distribuí-las na área retangular das páginas ou nas colunas da diagramação, competindo com imagens que se estendem, pixel por pixel, nas dimensões pretendidas.
Depois, as redes neurais artificiais, que se desenvolveram recentemente a ponto de reconhecer padrões e, assim, diagnosticar tumores; denunciar pessoas quando as vêem (Bin Laden, Saddam Hussein, George W. Bush, por exemplo), ainda que envelheçam, mudem o penteado ou a barba etc.; estabelecer, enfim, semelhanças entre coisas não-idênticas. Uma característica interessante das redes artificiais é sua capacidade de aprender, quer por tutoria, quer com a experiência..
Em terceiro lugar, a lógica difusa, inventada na década de 1960 por Lutfi, e que é capaz de dar conta da natureza vaga das palavras em línguas naturais – do fato, por exemplo, de que alguém de sete anos é tipicamente criança e alguém de 16 já não é tanto, embora seja um pouco; ou que há um contínuo entre os conceitos de ?árvore? e ?arbusto?, dependendo da natureza do objeto, da região e do observador.
Finalmente, os algoritmos genéticos, que imitam as leis de Mendel ou a teoria de Darwin, cruzando seqüências aproximadas para, quando não há condições de obter, de saída, um cálculo exato, selecionar, dentre os filhotes, os que mais se encaixam no que se pretende; novamente cruzando esses itens para encontrar outros, até que se chegue à estabilidade, no melhor resultado possível.
A combinação desses mecanismos permite não apenas operar inteligentemente (a inteligência é definida não como atributo exclusivamente humano, mas como comportamento de uma infinidade de sistemas naturais), mas também produzir agentes, em regra softwares, que atuam à distância – por exemplo. na Internet – de maneira que só pode ser descrita com palavras concebidas para serem aplicadas a pessoas: eles têm objetivos; são capazes de negociar, de cooperar uns com os outros, de contornar obstáculos etc.
É disso que estamos falando. De algo que se está usando para compreender ou modelar o funcionamento do cérebro humano, respeitadas as diferenças entre o suporte biológico e o suporte físico; entre criaturas que têm passado, hormônios, enzimas e órgãos de sentidos, por um lado, e, por outro, entidades que só sabem – e, portanto, só podem considerar – aquilo que lhes é informado, direta ou indiretamente. Computadores estão, por ora, no segundo caso.
Pesquisas acadêmicas
Em 1997, redigi um texto acadêmico sobre a possibilidade de se estruturar automaticamente enunciados rotineiros – boletins do tempo e da bolsa, cotações de mercadorias e câmbio, notícias de fatos isolados – utilizando as técnicas do lead jornalístico. Apresentei o trabalho em um congresso, não o traduzi para o inglês por preguiça e ele esperou um ano que alguém no Brasil se dispusesse a publicá-lo; saiu, afinal, em 1998, na revista Vozes & Diálogo, da Univali, em Itajaí, Santa Catarina.
A Dra. Kathy McKeown, do Departamento de Ciência da Computação da Universidade de Columbia, dedica-se ao assunto há muito mais tempo: perto de vinte anos. Ela é a líder do grupo de pesquisa que desenvolveu o Newsblaster (espalhador de noticias) e do qual fazem parte os doutorandos (em 2001; provavelmente já se terão doutorado) Regina Barzilay e Barry Schiffman, este um veterano jornalista.
O Newsblaster (www.cs..columbia.edu/nlp/newsblaster) opera inicialmente como ferramenta de busca, percorrendo as páginas de notícias de pelo menos 17 fontes – americanas, principalmente, mas também inglesas e canadenses. Usando técnicas de inteligência artificial, examina as notícias publicadas online, seleciona algumas e as sintetiza, usando técnicas de processamento de linguagem natural para redigir e publicar sínteses jornalísticas.
Para atribuir relevância aos fatos, o programa considera fatores tais como o número de matérias a respeito deles e o quanto são repetidas as referências, bem como a existência de dados mensuráveis – por exemplo, o número de mortos ou a extensão dos danos. No estágio atual da tecnologia, é inviável considerar questões conjunturais, como a importância do fato nos universos particulares da política, das artes, da cultura ou da economia – temas sobre os quais o sistema não detém informações.
Para contornar, em parte, essa deficiência, as notícias são distribuídas automaticamente em editorias por assunto: ?Estados Unidos?, ?Mundo?, ?Finanças?, ?Entretenimento? e ?Esportes?. Dezenas de notícias são condensadas em cada item reportado. A competência redacional do equipamento está sendo testada desde setembro de 2001, quando o Newsblaster estreou na web.
As principais restrições feitas até agora ao Newsblaster referem-se ao peso que ele dá (eqüitativo, presume-se) a diferentes fontes, à capacidade de lidar com dados conflitantes nas matérias em que se baseia e, principalmente, ao que Dan Dubno, da CBS News, chama de ?tendência conservadora do texto final?, particularmente quando, baseando-se em notícias de mais de um dia, deve efetuar escolhas no terreno das versões dos fatos. Uma das razões apontadas é a incapacidade de registrar nuanças da realidade que propõem dúvidas quanto à confiabilidade ou a não-confiabilidade de uma asserção.
Mas o Newsblaster não está sozinho. A Universidade de Michigan desenvolveu um programa, ou conjunto de programas, chamado News in Essence, que coleta e resume notícias sobre um tópico solicitado, em diferentes sites noticiosos.. Quem encontra um texto interessante e deseja saber mais a respeito pode usar o endereço do artigo para listar outros sobre o mesmo assunto. É possível estabelecer parâmetros como número de linhas, grau de semelhança etc. Durante a busca, é acionado o NewsTroll (roteador de notícias), que percorre as páginas da BBC, CNN, MSNBC, Usa Today e Yahoo. Fornecendo o e-mail, o internauta pode receber em casa os resumos ou íntegra dos artigos solicitados. O endereço é www.newsinessence.com.
Descrição técnica do sistema
Segundo os criadores do Newsblaster, a arquitetura do sistema é de processamento sucessivo (pipeline). Na fase de pré-processamento, extraem-se as imagens e os textos são normalizados. Em seguida, agrupados num primeiro e num segundo nível, distribuem-se pelas seis editorias.
No processo de captação (gathering), considera-se notícia o texto com mais de 512 caracteres (cerca de oito linhas). Depois da distribuição pelas categorias, os textos são selecionados em dois níveis: o inferior, dos ?que tratam do mesmo evento? e o superior, dos ?que tratam de eventos relacionados?. Para a seleção dos textos do nível inferior, usa-se método heurístico (analítico); o título do artigo irá destacado, em azul. Para o nível superior, o peso é distribuído conforme avaliação estatística de nomes próprios e denominações genéricas.
A chave e grande inovação do sistema é o sumarizador, que sintetiza e redige as informações. Na verdade, ele obedece a estratégias diferentes conforme a editoria. Há uma classificação dos documentos segundo a referência a eventos simples (ocorridos em lugar, aproximadamente ao mesmo tempo, envolvendo os mesmos agentes e ações); biográficos ou centrados-em-pessoa, que se referem a uma pessoa e envolvem informação de background sobre ela; multi-eventos, que juntam ocorrências de diferentes lugares, momentos, ações e/ou pessoas; e outros.
Um dispositivo chamado MultiGen integra técnicas estatísticas e de aprendizado pela máquina com o objetivo de identificar sentenças similares em temas que, grosso modo, irão corresponder às sentenças da matéria final. Estas são constituídas por locuções que o sistema identifica nas sentenças do input mediante a distribuição em árvore por um analisador sintático.
Para documentos biográficos, é utilizado um sistema alternativo, DEMS (Dissimilarity Engine for Multidocument Summariazation), que seleciona sentenças que contêm informação suficientemente relevante para serem incluídas no sumário. Usa a freqüência de conceitos (conjuntos de designações incluídas em seu campo semântico), opondo-a a palavras uniconceituais.
O Google News
A informação de que a Universidade de Colúmbia desenvolvera um sistema chamado de Newsblaster, capaz de coletar informações em várias fontes da Internet e redigi-las em padrões jornalísticos, foi recebida e tratada, pela imprensa brasileira, em meados de fevereiro de 2002, como fait-divers: o site www.comunique-se.com.br, do Rio de Janeiro, deu à matéria o título ?Agora até robô pode ser jornalista?, aludindo à liminar judicial que permitiu temporariamente o exercício profissional a pessoas sem formação universitária específica..
No entanto, com o Google News (www.news.google.com), um produto industrial e competitivo, a reação foi diferente. Mas ninguém reparou que, entre a primeira experiência acadêmica divulgada e sua realização profissional, passaram-se apenas alguns meses – menos de um ano.
O Google News é atualizado de quinze em quinze minutos. Há uma seleção de histórias principais (top news) e, em seguida, as editorias ?Mundo?, ?Estados Unidos?, ?Negócios?, ?Ciência e Tecnologia?, ?Esportes?, ?Entretenimento?, Saúde? e mais histórias principais. No final, a advertência: ?Esta página foi gerada inteiramente por algoritmos sem editores humanos?.
O algoritmo do Google News vasculha mais de quatro mil publicações noticiosas, as distribui em categorias e subordina a assuntos. Leva pouquíssimo tempo para fazer isso e informa aos leitores: ?aconteceu há x minutos?. Os critérios de avaliação considerados saltaram para 150. Os defeitos, ainda assim, são registrados e difundidos por analistas que. em regra, torcem para que a coisa não dê certo.
Jornalistas americanos denunciaram, na época, que o equipamento havia selecionado para publicação matéria promocional da agência oficial do Irã. Mas eles mesmos têm sido incapazes de perceber quão parecidos são os discursos fundamentalistas do islã e as falas fundamentalistas ou neoconservadoras do governo Bush – qual a diferença sutil entre expressões como ?o grande satã? e o ?eixo do mal?.
As chaves para o futuro
O que explica o avanço das pesquisas americanas nesse campo – e sua rápida transferência à indústria da informação – é, não apenas o fluxo maior e mais constante de recursos para pesquisa, mas, principalmente, as ligações entre o setor produtivo e a pesquisa acadêmica, particularmente aquela voltada para o desenvolvimento de produtos. Em suma, trata-se do resultado do brilho e da persistência de equipes de pesquisadores como a da Dra. McKeon, mas também da decisão empresarial da Google, que viu na aplicação do sistema um diferencial no mercado, altamente competitivo, das ferramentas de busca.
Essa é uma questão delicada, que o Brasil terá que enfrentar. Nossas universidades não estão atrasadas nesse campo. Sistemas de representação do conhecimento contextualizada dinamicamente (RCCD) e de pesquisa contextual estruturada (PCE), em que se consideram os diferentes ambientes em que um conceito pode ser considerado (água, por exemplo, é um insumo alimentar, um instrumento de motricidade na geração de energia, um recurso econômico) têm-se desenvolvido no Brasil, ao lado de outras tecnologias da engenharia do conhecimento, objetivando o ensino/ aprendizagem e a instrumentação da pesquisa em vários campos.
Sistemas desse tipo, desenvolvidos na Universidade Federal de Santa Catarina, permitem o acesso imediato a súmulas jurídicas, mediante a inscrição de uma sentença que tipifique o caso para o qual se buscam parâmetros de julgamento (Alpha Themis); a proteção de arquivos do Conselho de Segurança das Nações Unidas (Olimpo); a captação de dados em textos puros e sua estruturação em gráficos; ou ainda a combinação de critérios de semelhança, localização e interseção de informações (IOO) que permitiriam encontrar, numa grande cidade, por exemplo, ?a farmácia mais próxima que funcione 24 horas por dia, tenha pessoal autorizado para aplicar injeções intravenosas e sistema de tele-entrega?. Podem-se efetuar buscas não mais por palavras, mas por conceitos, isto é, por grupos de palavras que se associam por semelhança ou contigüidade semântica.
O que falta? Interessados. Gente que não considere o computador mera máquina de calcular ou de escrever eletrônica e que pretenda, desenvolvendo tecnologia, estar à frente dos concorrentes e no ritmo de seu tempo. Empresas e instituições interessadas em tomar a chave, rodar o mecanismo e abrir a porta para o futuro; que prefiram desenvolver barato, aqui, agora, o que, de outra forma, comprarão, inevitavelmente, amanhã, por uma fortuna, em segunda mão.
Um recuo na História
Não se trata de estudos que tenham surgido ontem. O processamento de linguagem natural e suas aplicações (por exemplo, o diálogo amigável entre usuário e computador) tem sido o objetivo velado ou explícito, , há quase meio século, de projetos que vão da engenharia de sistemas à lingüística.
Por algum tempo, imaginou-se reproduzir o processamento mental de informações com os recursos lineares da lógica booleana; por essa época, a ênfase na descrição lingüística era dada à sintaxe. Com a constatação de que as possibilidades por esse caminho eram limitadas, surgiram, na década de 1980, as teorias de modelagem analógica e as que dão ênfase à inferência de sentidos a partir da mensagem contextualizada.
Já em 1991, antes, portanto, de existir a Internet para o comum dos mortais, o Projeto Lexis, da PUC do Rio Grande do Sul iniciava uma trajetória de seis anos em que alcançou vários objetivos: dicionários eletrônicos especializados; corretores ortográficos; um gerador de variedades morfológicas; um analisador sintático; e um componente léxico-semântico.
O passo seguinte foi o projeto Nalamas (Natural Language Multi-Agente Systems), iniciado em 1996 por, um consórcio de universidades (PUC do Rio Grande do Sul, Unicamp, USP e universidades federais do Rio Grande do Sul e de Santa Catarina, além da Universidade Nova de Lisboa, Portugal), que cuidou do tratamento de fenômenos relativos à linguagem natural, particularmente em português.
Atualmente, entre muitos outros, estão sendo realizados na PUC de Porto Alegre os projetos Contexto e Sema. O primeiro deles trata da influência dos contextos no entendimento das mensagens e na coerência lingüística; o segundo, da indexação automática de documentos, apoiada em árvores de acessamento temático, ou thesaurus.
O jornalismo cultural
Qual a utilidade dessas pesquisas, consideradas do ângulo de um usuário específico, o jornalista, analista ou crítico de assuntos de cultura?
Em primeiro lugar, elas já têm resultados expressivos quando se tratar de recuperar informações sobre obras, escolas, manifestações culturais, artistas, museus e instituições culturais. Nesse sentido, a Internet tem sido uma ferramenta notável e os instrumentos de busca já existentes proporcionam informações antes quase inacessíveis.
Podemos imaginar, em futuro próximo, sistemas mais apurados que, por exemplo, diante de uma série de pedidos como ?Bach, Variações Goldberg, histórico, criação?, nos forneçam um breve texto que retome o ambiente de Leipzig, onde Johan Sebastian era solista, em 1742, e o complete com uma série de indicações bibliográficas e iconográficas pertinentes.
O desenvolvimento de ferramentas a tal ponto sofisticadas é incompatível, em muitos casos (na reprodução de músicas, por exemplo), com os mecanismos atuais de direito autoral, bem como com as restrições que, embora inconfessadas, continuam existindo à veiculação de objetos de cultura. Quem tiver dúvida, tente a consulta a obras interessantes de ficção do cinema nazista ou stalinista, ou simplesmente busque nas videotecas exemplares daqueles westerns produzidos em série em que índios eram mortos como moscas, filmes do tempo da Segunda Guerra Mundial em que alemães eram mortos como moscas ou japoneses baixinhos e feios comportavam-se como animais enfurecidos antes, também, de serem mortos como moscas.
Mas o obstáculo maior são os próprios conceitos de ‘crítica’, ‘cultura’ e ‘jornalismo cultural’. Centrados no ‘direito de informar’, eles remetem à figura-tipo de um intelectual que, possuidor de acervo de conhecimentos e opiniões pessoais, se arroga o direito de orientar os simplórios espectadores – a audiência, o público – , recomendando alguns itens e rejeitando outros.
O amplo acesso à informação básica aponta noutro sentido, o do ‘direito de ser informado’: o crítico, o analista, passa a ser um prestador de serviço – alguém que reúne informações cabíveis para que os demais possam apreciar uma obra ou produto. Sua sabedoria é a competência de indexar, de fazer perguntas ao sistema, de modo a obter respostas adequadas.
Que ainda vivemos a primeira situação é claro: prefere-se a filmografia iraniana, centrada no indivíduo, à filmografia egípcia, centrada no contexto social; rejeita-se o cinema indiano, quase sempre, como incompatível com valores europeus, quando a Índia tem seus próprios valores. Avaliam-se obras segundo protótipos e preconceitos: dificilmente uma peça literária ou cinematográfica que se reporte à paisagem exasperante dos eucaliptos clonados do Espírito Santo ou à vida atribulada dos projetistas da Embraer seria aceita como obra representativa do Brasil, embora cá estejam a floresta e a fábrica de aviões; mais tranqüilizadores, porque reiteram valores etnocêntricos que tudo explicam, são as favelas, os cortiços, os alagados e o polígono das secas.
Essas questões, de que tanto se foge, são fundamentos para a construção do que, no futuro, se poderá chamar de cultura – algo que poderá conviver com ampla democratização da informação ou, pelo contrário, resultará de formas ainda mais sofisticadas de controle. Porque, no que se refere à inteligência artificial e a seus artefatos, vale a pena lembrar um momento do diálogo que Douglas Hofstadter imaginou em seu livro Gödel, Escher, Bach (página 746 da tradução brasileira de José Viegas Filho, Editora UnB, 2001). Alguém pergunta à Especulação se, quando fizermos um programa inteligente, compreenderemos o que são inteligência, consciência, livre-arbítrio e ‘eu’, e a Especulação responde:
Mais ou menos – tudo depende do que se quer dizer com ?compreender?. Em nível visceral, cada um de nós provavelmente tem uma compreensão tão boa quanto possível dessas coisas, para começar. É como ouvir música. Você realmente compreende Bach pelo fato de tê-lo desmontado? Ou você entendeu tudo naquela vez em que sentiu a satisfação em cada nervo de seu corpo? Nós compreendemos como a velocidade da luz é constante em cada moldura de referência inercial?
Em suma: no momento em que a crítica ou o jornalismo cultural voltar-se para a produção da sensibilidade, que se aprende, e a fruição (sensível e, portanto, intelectual) da obra – que será, então, considerada boa ou má em seu contexto por aquele que a contempla, não pelo que a indica -, aí estaremos na era da informação. O problema está mais no mundo dos homens do que na capacidade das máquinas.
Na próxima semana, a gente continua esta conversa, ligando ao que escrevi na semana passada. Até lá.
Lula dixit – E Lula falou! Agora, a imprensinha vai parar de fazer birrinha, não vai? Isso… Imprensinha bonitinha…Bilu-bilu-bilu…
Palavras, palavras, palavras… – Em palavra de patrão não se confia. As demissões na Folha foram apenas mais uma confirmação dessa verdade eterna."