INTELIGÊNCIA ARTIFICIAL
“Este mundo é uma ervilha!”, copyright Comunique-se (www.comuniquese.com.br), 16/6/03
“Se você acessa a Rede há muito tempo, quase certamente já recebeu aquela corrente sobre ?Os seis graus de Kevin Bacon?. Nela o gaiato do autor ?prova? que todos os atores do cinema, da década de 20 para cá, trabalharam com alguém, que trabalhou com alguém, que trabalhou com alguém, que trabalhou com alguém, que trabalhou com alguém, que trabalhou com Kevin Bacon. Pois a crença de que ?o mundo é uma ervilha? acaba de ganhar mais um defensor: euzinho.
Você lembra do texto do Nilson Lage sobre Inteligência Artificial aplicada ao jornalismo, não? Se teve a disposição de encará-lo, leu a citação que o meu antigo professor faz de dois projetos para a construção de algoritmos de análise de linguagem natural levados a cabo no Brasil, o Lexis e o Nalamas. Pois bem. Um dos principais programadores dos dois projetos foi Ivan Santa Maria Filho, um velho amigo com quem só tenho me comunicado por emeio desde a última vez que ele veio ao Rio, há uns dois anos e meio, aproveitando folga concedida pela Microsoft, onde trabalha desde 2000, após de ter sido escolhido num concurso realizado pela gigante reunindo programadores de toda a América Latina.
Soube disso depois de ter pedido a avaliação profissional de Ivan sobre os algoritmos citados pelo Nilson no texto, o Newsblaster e o News in Essence. Depois da avaliação (que reproduzo abaixo), mandei para o meu amigo informata o texto do Nilson, para que ele também desse uma opinião de craque no assunto (que também reproduzo abaixo). Nesta segunda opinião, ele faz uma observação, que casa com aquela coluna sobre Jayson Blair, a qual me levou a falar sobre as idéias do Nilson (aliás, Ivan não leu a coluna porque não vem ao C-se). Assim, fecha-se o círculo…
Bom, primeiro a opinião de um bamba sobre o Newsblaster e o News in Essence:
Eu achei o Newsblaster muito interessante. Eu não sei qual algoritmo eles usam pra fazer categorização automática, mas parece funcionar bem. As notícias que eles estão colocando em destaque hoje [4 de junho] são as que a maioria dos jornais está falando mesmo. Mas tome cuidado porque todo algoritmo de sumarização tem uma métrica embutida e uma visão pré-concebida de como as matérias foram organizadas. Olhe esse exemplo na edição de hoje: http://www1.cs.columbia.edu/nlp/newsblaster/summaries/2003-06-04-08-29-40-033.html. Enquanto o título mostra que os EUA merecem mais tempo, o tom geral dos jornais é de que eles não merecem mais tempo e que essa desculpa das armas de destruição é balela. O que provavelmente aconteceu, como em todo caso onde alguém é acusado, os jornais dedicaram um espaço bem razoável para as explicações de quem se defende. E nesse caso a ladainha do governo americano enganou o algoritmo, que considerou as desculpas como o foco da matéria enquanto na realidade a novidade é que os meios de comunicação estão criticando o governo abertamente.
No caso do http://www.newsinessence.com/nie.cgi aparentemente eles têm que rever o algoritmo de relevância. Hoje, por exemplo, o destaque da página é pra uma daquelas notícias que todo jornal publica. Até o Jornal Nacional deve ter falado sobre o acidente de trem que consome 30% da página inicial deles. De qualquer forma ele é mais honesto porque mostra os clusters e pode ser menos tendencioso que o outro site.
Eu acho que o Newsblaster tem mais potencial que o Newsinessence. Mas por enquanto eu fico com o serviço do Google (http://news.google.com/). Eles usam como critério de relevâcia quantas pessoas citaram ou usaram links para o artigo e, provavelmente, uma listagem reduzida de fontes. Ou seja, se a CNN, a Fox, a CNBC, a ABC, etc. estão se referindo a um artigo da Associated Press então esse artigo deve ser importante. A hierarquia dos sites que se referem ao artigo tb é usada. Se foi referenciado na primeira página o artigo deve ser mais importante do que se for referenciado a 10 clicks de distância.
De qualquer forma a tecnologia é interessante pra caramba.
Agora, o que ele achou do artigo do Nilson:
De uma forma geral eu concordo com o artigo, minha objeção principal é a linha de tempo. Inteligência artificial é uma área onde a regra dos 80/20 se aplica muito claramente: 80% dos resultados se consegue com 20% do trabalho, e os 20% finais tomam 80% do trabalho. Captar sutilezas no texto ou o grande contexto externo das notícias vai demorar. Isso se um dia vier a funcionar. Nos anos 60, os pesquisadores achavam que compreensão e processamento automático de texto estaria disponível em menos de 5 anos e que difícil mesmo era fazer um computador jogar xadrez. Hoje em dia o campeão mundial de xadrez toma surras de um computador e ainda não se processa texto direito.
Ivan, porém, vai além e toca no ?fulcro da questão?, como diriam os antigos:
O grande problema do jornalismo brasileiro é a falta de qualidade. Desculpe a franqueza, mas a maioria dos meios de comunicação e dos jornalistas digere qualquer coisa que as agências de notícia principais produzem, sem crítica ou um contraponto local. E sem entender a língua de origem direito. Na internet então o nível é vergonhoso. Com o Brasil se integrando no mercado internacional, o espaço para jornalistas não associados a essas ?centrais de notícias? (Associated Press, Reuters, etc.) vai diminuir consideravelmente.
O meu amigo exagera um pouco aqui por conceder demasiada relevância ao noticiário internacional, mas a observação sobre a falta de espírito crítico me parece perfeita, como você sabe.
Ivan termina fazendo um comentário sinistro, principalmente para quem trabalha no rádio:
Várias rádios nos EUA têm programação centralizada operada por computador com notícias locais previamente gravadas. As notícias locais são gravadas por um locutor na central e transmitidas por computador previamente. Computadores sobrepõem o sinal original com a programação diferenciada (como previsão do tempo ou esportes) nos momentos adequados, mais ou menos como a televisão substitui os comerciais durante os intervalos [para os mercados locais]. O resultado é assustadoramente bom e reduz os custos locais às equipes que cuidam das notícias de emergência locais (?breaking news?). Na maioria dos casos nem isso.
Parabéns, mestre! – Por falar em Nilson Lage, ele foi nomeado semana passada diretor do Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT), órgão do Ministério de Ciência e Tecnologia.
Fim de mistério – O Pedro Aurélio, um dos mais assíduos leitores do meu blog, assistiu à palestra do Ricardo Kotscho na UniverCidade e pescou três frases que, para mim, explicam porque alguns coleguinhas estrilam tanto com a política de comunicação do Governo Lula. As três frases ditas por Kotscho, segundo o Pedro Aurélio, foram:
Não ligo para jornalistas para dar exclusivas. Acabei com alguns privilégios que existiam antes.
Prefiro reunir grupos de jornalistas em vez de dar exclusivas.
Uns jornalistas estrangeiros vieram me falar que FHC dava entrevista pra eles antes de viajar e eu respondo: O governo FHC acabou, o governo Lula tem outro estilo.”
INTERNET
“A revolução permanente”, copyright Folha de S. Paulo, 14/6/03
“Uma autêntica revolução está alterando, embora por enquanto só no mundo de língua inglesa, o modo como circulam as notícias. Trata-se da assim chamada blogosfera, termo derivado de ?blog?, que é uma corruptela de ?web log?, ou seja, na sua forma mais simples, um ?site? pessoal ou diário on-line acessível ao público que alguém (um ?blogger?) mantém na internet. Se no Brasil os blogs ainda se confinam majoritariamente a essa definição, na anglosfera eles ganharam asas e, convertendo-se numa nova instituição, são a principal inovação nos meios de comunicação desde que, com a TV a cabo, surgiram os canais dedicados ao noticiário ininterrupto.
A chuva radiativa que, fertilizando o solo virtual, gerou essa safra mutante de cogumelos, foi a que desabou sobre os EUA em 11 de setembro de 2001. Entre as populações do ocidente industrializado, se são, por um lado, as da Europa continental as que mais respeitam a autoridade do Estado e as instâncias educacionais, partidárias ou midiáticas que lhes dizem o que pensar, é, por outro, nas nações anglo-saxãs que se encontrarão as que, mais desconfiadas, rejeitam as relações hierárquicas e unidirecionais de poder.
Nos casos mais extremos, tal desconfiança desemboca na paranóia de anarquistas que, sem ideologia definida, vêem em toda parte os helicópteros negros de um poder estatal que conspira contra as liberdades individuais. Para a maioria dos anglo-saxões, porém, ela se traduz tanto no hábito saudável de contrapor uma instituição a outra, de modo que, sob a supervisão dos cidadãos, elas se limitem e equilibrem mutuamente, como no costume de conferir, em fontes diversas e mesmo contraditórias, as informações recebidas.
O que jornalistas e comentaristas profissionais ou amadores descobriram é que, diferentemente do que sucede no universo do papel impresso, os internautas são capazes de ?acessar? com a mesma facilidade o site de um grande jornal e o de um indivíduo desconhecido. Assim, é quase como se todos tivessem voltado ao ponto de partida e a competição geral recomeçasse do zero. Se a situação não chega a ser tão democrática, é verdade que, na ?world wide web?, os desníveis de poder e influência minguaram bastante. Não que isso vá necessariamente durar, mas o momento, propício aos espíritos empreendedores, é de redefinições e de reajustes. Nos EUA, o terreno para a blogosfera foi preparado por outra singularidade nacional: os comentaristas radiofônicos que, sobretudo de manhã, hora dos engarrafamentos, ocupam as extremidades do espectro político deixadas vagas pela grande mídia eletrônica.
A facilidade de acesso, no entanto, não explica tudo. A imprensa dos EUA está passando há anos por uma crise de credibilidade cuja gota d?água foi o caso Clinton/Monica Lewinski. Em vez de simplesmente aceitar ou rejeitar a versão do escândalo fornecida pela TV e pelos jornais, o americano médio começou a suspeitar das intenções destes, sem que isso o levasse a acreditar no presidente. E, como o próprio tamanho das empresas fornecedoras de notícias as tornava refratárias ao ?feedback? de consumidores individuais, salvo nas raras ocasiões em que estes conseguiam formar um grupo de pressão, criou-se a demanda, logo satisfeita pela tecnologia, de um recurso que, mais do que supervisionar o noticiário, permitisse-lhes interagir com ele.
Se, além de sua capacidade investigativa, uma das vantagens daquelas organizações era seu acesso quase exclusivo a um dispendioso repertório informativo que se materializava em pesquisadores, arquivos etc., a internet, por seu turno, colocou à disposição de quem quer que seja um gigantesco banco de dados que está, ao mesmo tempo, em toda parte e em parte alguma, podendo, ademais, ser consultado, de forma prática e econômica, 24 horas por dia. Ainda há pouco, o leitor ou espectador não tinha outra opção que a de aceitar passivamente o grosso das informações, fosse porque não havia onde conferi-las, fosse porque, mesmo quando houvesse, fazê-lo com cada detalhe era demasiadamente trabalhoso. Mas agora, com os mecanismos de busca (?search engines?) disponíveis, não há minúcia cuja fidedignidade não possa ser avaliada em minutos, e o sistema de ?links ?, que permitem, com um ?click? do mouse, acessar a fonte original, dissipam muito do ?ruído? gerado em outros meios pelo ?diz-que-diz? e por informações de terceira ou quarta mão sucessivamente filtradas e deformadas.
Se bem que o assunto seja vasto (e pretendo continuar a abordá-lo na próxima coluna), o essencial é o seguinte: há hoje, escrevendo quase sempre em inglês, centenas de bloggers políticos que, amigável, crítica ou antagonicamente interconectados, debatem, informam, desinformam e opinam sobre os temas do presente numa rede da qual jornais e organizações como o ?New York Times? e a CNN se sentem forçados a participar em pé de relativa e talvez temporária igualdade. Os blogs dos americanos Glenn Reynolds (Instapundit), Steven Den Beste (USS Clueless), Charles Johnson (Little Green Footballs ou LGF), do inglês radicado nos EUA Andrew Sullivan e do australiano Tim Blair, para ficarmos nos mais famosos (e trate, caro leitor, de usar seu ?search engine? para acessá-los), são frequentados diariamente por centenas de milhares de leitores. Que as chaves para o sucesso ou, pelo menos, para a sobrevivência na blogosfera sejam credibilidade e agilidade instaura nela um ambiente darwiniano de seleção natural, também conhecida como mercado livre de idéias, cuja única constante é a perpétua mudança, ou melhor, a revolução permanente.”
“Nova tecnologia pode fazer internet virar a mesa contra o spam”, copyright Cidade Biz (www.cidadebiz.com.br), 16/06/03
“As catastróficas previsões de que o e-mail está fadado a morrer devido ao fluxo cada vez mais freqüente de spams na internet é que estão com os dias contados. Uma nova tecnologia, baseada em um sistema inteligente, que ?aprende? com o usuário a identificar e barrar e-mails indesejados, promete acabar com a farra das mensagens que adentram as caixas postais sem pedir licença.
No Brasil, o internauta pode recorrer a pelo menos três empresas para se ver livre da enxurrada de lixo digital: as companhias especializadas em segurança Trend Micro e Symantec e a provedora Mandic, do empresário Aleksandar Mandic, que fornece acesso à web, mas elegeu o serviço de correspondência online como seu carro-chefe para voltar a atuar no mercado.
Pelo serviço da Mandic, o usuário dá cerca de cinco ?aulas? ao programa de correio eletrônico, o que garante uma filtragem de 95% dos spams receptados pelo programa de e-mail. A aula é simples: basta transferir para a pasta chamada ?É spam? todas as mensagens que não deseja mais receber. O serviço ?nota? as características-padrão do spam e passa a enviá-lo direto para a lixeira.
Pode acontecer de o sistema capturar mensagens pessoais. Aí, o usuário a descola para a pasta ?Não é spam?, e vai ensinando seu programa.
?A troca de mensagens eletrônicas é responsável por cerca de 80% do tráfego da internet em todo o mundo?, afirma Mandic, que foi buscar no Massachussets Institute of Technology (MIT) uma solução para oferecer um produto sem vender, no pacote, dor de cabeça aos clientes. O empresário pediu licença para utilizar a tecnologia e adaptou-a para o seu sistema.
Os serviços da Trend Micro e Symantec funcionam de semelhante. Todos contam com tecnologia heurística, que usa de regras e métodos para chegar à descoberta e à resolução de problemas. O produto da Symantec soma à tecnologia heurística o filtro mecânico de spams, que o usuário precisa alimentar, manualmente, com assuntos de mensagens e endereços de remetentes indesejados. O serviço mecânico ajuda, mas é menos eficaz.
?Extinguir o e-mail é difícil?, diz o engenheiro de suporte de produto da Symantec, Marco Antonio Bicca. ?Há novas tecnologias surgindo que, se não resolvem completamente, amenizam a carga do spam.? De acordo com um estudo recente realizado pelo instituto Osterman Research, o spam é hoje a principal praga dos administradores e dos sistemas de e-mail, superando até mesmo os vírus.
?O spam começou a crescer exponencialmente em 2002, inundando a internet com bilhões de mensagens indesejadas por dia?, afirma Orlando Barbieri, diretor-geral da Symantec do Brasil. ?Além de ser um incômodo, essa avalanche impacta no armazenamento de correspondência e na produtividade dos funcionários.?
Segundo Marco Antonio Bicca, o spam se propaga, na maioria das vezes, através de falhas em servidores, no qual são forjados endereços de remetentes. Alguém de fora do provedor UOL, por exemplo, se aproveita de uma má configuração no servidor de correio eletrônico do portal e cria endereços com o domínio UOL.com.br, que envia para uma lista de pessoas com contas em diferentes provedores. É o spam de origem e destino externos.
Caso o internauta receba spams com a terminação UOL.com.br, deve encaminha-los para o endereço abuse@uol.com.br, a partir do qual a empresa controla seu fluxo de correspondências. Quase todos os provedores contam com este serviço. Outra forma de combater o spam é pelo site www.abuse.net, onde é possível fazer testes para verificar se determinado servidor está vulnerável à ação de pessoas externas a ele.
É também comum o dispersor do spam usar seu próprio servidor, já que, apesar de ser crime, a prática corre solta, devido à parca fiscalização na web. Há ainda casos de hackers que invadem servidores de empresas para praticar spam. Mas representa risco à toa para quem tem a impunibilidade garantida.”
“Número de usuários e tempo de permanência na internet brasileira batem recorde em maio”, copyright Último Segundo (www.ultimosegundo.com.br), 11/6/03
“Maio foi marcado por recordes na internet brasileira. De acordo com o Ibope eRatings.com, o número de usuários ativos cresceu 2,5% em maio em relação ao mês anterior, chegando a 7,97 milhões de internautas. O tempo médio de navegação dos usuários residenciais também aumentou para 11 horas e 26 minutos, 3,7% a mais em relação a abril.
A quantidade de internautas ativos foi o maior desde o início das medições do Ibope, em setembro de 2000. Já o número de pessoas com acesso à internet nas residências continua em torno de 14,3 milhões. Para Alexandre Sanches Magalhães, analista de internet do Ibope eRatings.com, ?estamos vendo a conversão de pessoas com acesso a internet em internautas?. Magalhães acredita que esse fenômeno deve se acentuar nos próximos anos.
Quanto ao aumento do tempo de permanência, o destaque ficou entre os homens de 25 a 34 anos, que navegaram em média 18 horas e 37 minutos no mês de maio. O analista não vê esse aumento como uma novidade. ?Somos líderes mundiais de navegação de crianças e jovens e usamos cada vez mais a web, em todas as faixas etárias. Este crescimento é fortemente influenciado pela adoção crescente de banda larga, que permite que o internauta navegue muito mais horas, veja mais páginas e faça mais visitas?, diz.
Outro recorde de maio foi o de compras por meio de sites de eCommerce. Pela primeira vez, 44% usuários ativos usaram o serviço, o que representa 3,5 milhões de pessoas. Esse número foi 6% maior do que em abril e 19% maior do que em maio de 2002. De acordo com Magalhães, esse aumento é explicado pelo dia das mães. ?Tradicionalmente, o brasileiro atinge novos patamares na procura pelo eCommerce em maio (dia das mães), patamar que é superado em agosto (dia dos pais) e volta a ser superado em dezembro (natal)?, afirma.
De acordo com o Ibope, o ranking de propriedades e de domínios não apresentou alterações nas três primeiras colocações em relação ao levantamento de abril. O iG segue na liderança na categoria portal (domínios) com 5,3 milhões de visitantes únicos em maio e atingiu seu maior alcance entre os usuários ativos (66,6%). A vantagem para o 2? colocado é de 58 mil visitantes únicos. O iG também mantém a liderança em propriedades com 5,35 milhões de visitantes únicos, crescimento de 3,4%.”