Cientistas desenvolvem simulador de mídias sociais

O poder de difusão e a velocidade de propagação das informações nas mídias sociais têm despertado o interesse de empresas e organizações em realizar ações de comunicação em plataformas como Twitter e Facebook. Um dos desafios com os quais deparam ao tomar essa decisão, no entanto, é prever o impacto que as campanhas terão nessas mídias sociais, uma vez que elas apresentam um efeito altamente “viral” – as informações se propagam nelas muito rapidamente e é difícil estimar a repercussão que terão.

“Se antes uma pessoa divulgava uma informação no boca-a-boca para mais três ou quatro pessoas, agora ela possui uma audiência que pode chegar aos milhares de seguidores por meio da internet. Daí a dificuldade de prever o impacto de uma ação em uma mídia social”, disse Claudio Pinhanez, líder do grupo de pesquisa em sistemas de serviços da IBM Research-Brazil – o laboratório brasileiro de pesquisa da empresa norte-americana de tecnologia da informação – à Agência Fapesp.

Para tentar encontrar uma resposta a esse desafio, o grupo iniciou um projeto em parceria com pesquisadores do Departamento de Computação do Instituto de Matemática e Estatística (IME) da Universidade de São Paulo (USP) a fim de desenvolver um simulador capaz de prever o impacto das ações de comunicação em mídias sociais com base nos padrões de comportamento dos usuários.

Um modelo de simulação agentes

Os primeiros resultados do projeto foram apresentados no início de maio durante o 14th International Workshop on Multi-Agent-Based Simulation, realizado na cidade de Saint Paul, no estado de Minnesota, nos Estados Unidos e, posteriormente, no Latin American eScience Workshop 2013, que ocorreu nos dias 14 e 15 de maio no Espaço Apas, em São Paulo. Promovido pela Fapesp e pela Microsoft Research, o segundo evento reuniu pesquisadores e estudantes da Europa, da América do Sul e do Norte, da Ásia e da Oceania para discutir avanços em diversas áreas do conhecimento possibilitados pela melhoria na capacidade de análise de grandes volumes de informações produzidas por projetos de pesquisa.

Segundo Pinhanez, para desenvolver um método inicial para modelar e simular as interações entre os usuários de redes sociais, foram coletadas mensagens publicadas por 25 mil pessoas nas redes no Twitter do presidente dos Estados Unidos, Barack Obama, e de seu adversário político, Mitt Romney, em outubro de 2012, último mês da recente campanha eleitoral presidencial norte-americana. Os pesquisadores analisaram o conteúdo das mensagens e o comportamento dos usuários nas redes de Obama e Romney, de modo a identificar padrões de ações, a frequência com que postavam mensagens, se eram mais positivas ou negativas e qual a influência dessas mensagens sobre outros usuários.

Com base nesse conjunto de dados, desenvolveram um modelo de simulação de agentes – um sistema por meio do qual cada usuário avaliado é representado por programas individuais de computador que rodam integrados e ao mesmo tempo – que indica as probabilidades de ação na rede de cada uma dessas pessoas, apontando qual o momento do dia mais provável para publicar uma mensagem positiva ou negativa com base em seu histórico de comportamento.

Adaptar tecnologias para o português

Uma das constatações nos experimentos com o simulador foi que a retirada dos dez usuários mais engajados nas discussões realizadas no Twitter do presidente teria mais impacto na rede social do que se o próprio Obama fosse excluído. “Esses resultados são preliminares e ainda não temos como dizer que são válidos, porque o modelo ainda é inicial e muito simples. Servem, contudo, para demonstrar que o modelo é capaz de mostrar situações interessantes e que, quando estiver pronto, será muito útil para testar hipóteses e responder a perguntas do tipo ‘será que a frequência com que o presidente Obama publica uma mensagem afeta sua rede social?’”, disse Pinhanez.

A IBM já possuía um sistema que permite a análise de “sentimento” – como é denominada a classificação do tom de uma mensagem – de grandes volumes de textos em inglês e em fluxo contínuo (em tempo real de informação), que a empresa pretende aprimorar para disponibilizá-la no Brasil.

“Estamos trabalhando para trazer uma série de tecnologias e adaptá-las para a língua portuguesa e à cultura brasileira, uma vez que o Brasil é o segundo país mais engajado em redes sociais no mundo, atrás apenas dos Estados Unidos”, afirmou Pinhanez.

Desafios

Segundo os pesquisadores, um dos principais desafios para a análise de sentimento de mensagens publicadas nas redes sociais no Brasil é que o português usado nessas novas mídias costuma não seguir as normas cultas da língua portuguesa, e isso não se deve, necessariamente, ao fato de o usuário não dominar o idioma. “Existem convenções de como se escrever de maneira cool nas redes sociais”, disse Pinhanez. Por causa disso, um dos desafios no Brasil será o de incorporar o novo vocabulário surgido nesses fóruns.

Além disso, os textos são mais curtos e informais do que os publicados em sites de avaliações de filmes, por exemplo, como o do Internet Movie Database, em que os comentários são mais longos, mais bem formatados e rotulados. “Com base nesse tipo de critério, podemos saber, de antemão, qual o sentimento do texto: se o usuário deu muitas estrelas para o filme é que ele está falando bem. E se deu poucas estrelas é porque sua avaliação foi negativa”, disse Samuel Martins Barbosa Neto, doutorando do IME e participante do projeto.

“A linguagem usada no Twitter é muito mais natural. Há muita expressão e variações de palavras, o que torna muito mais complicada a classificação das mensagens. Às vezes não se tem informação suficiente para assegurar que, de fato, um determinado tweet é positivo ou negativo, uma vez que ele não tem um rótulo que permita compará-lo com outros. Por isso, muitas dessas mensagens precisam ser rotuladas manualmente”, explicou Barbosa Neto.

Outro desafio é extrair dados das redes sociais. No início, o acesso aos dados das mensagens de redes, como o Twitter, era totalmente aberto. Hoje, é limitado. Além disso, o número de informações geradas por redes sociais cresceu exponencialmente, impondo aos pesquisadores o desafio de extrair mostras significativas de grandes volumes de dados para validar suas pesquisas. “A rede do Obama no Twitter deve ter chegado aos 25 milhões de seguidores. Como podemos apenas extrair uma pequena parte desses dados, o desafio é garantir que eles não sejam enviesados – representando, por exemplo, apenas um nicho de seguidores – para gerar um resultado válido”, explicou Barbosa Neto.

Colaboração de pesquisa

Roberto Marcondes Cesar Junior, professor do IME-USP e orientador do trabalho de doutorado de Barbosa Neto, conta que o projeto de desenvolvimento do simulador de rede social é o primeiro realizado por seu grupo em colaboração com a IBM Research-Brazil.

O grupo do IME trabalha há dez anos no desenvolvimento de projetos de análise de dados usando modelos estatísticos em áreas como Biologia e Medicina, para descobertas de novos genes e de redes gênicas, por exemplo. E, mais recentemente, começou a desenvolver pesquisas para a aplicação de modelos matemáticos em Ciências Sociais. “Ingressamos nessa área com o intuito de aplicar as mesmas técnicas matemáticas e computacionais em situações em que os dados provêm de alguma atividade humana, especificamente, em vez da ação de um gene ou de uma proteína, por exemplo, e vimos a oportunidade de trabalhar essas técnicas em redes sociais, que, do ponto de vista abstrato, têm muitas semelhanças com uma rede gênica, porque são redes que conectam elementos”, comparou Marcondes Cesar, que é membro da Coordenação Adjunta de Ciências Exatas e Engenharias da Fapesp e coordena o Projeto Temático “Modelos e métodos de e-Science para ciências da vida e agrárias”. “Enquanto em uma rede gênica os elementos são os genes, que trocam informação bioquímica, em uma rede social os integrantes são os usuários, que trocam mensagens de texto”, disse.

A parceria com a IBM Research-Brazil, segundo Marcondes Cesar, possibilita implementar as ferramentas desenvolvidas na universidade. Para facilitar a realização do projeto, o estudante de doutorado orientado por ele foi contratado como estagiário pela empresa. “Temos feito muitos projetos em parceria com universidades e instituições de pesquisa. Acreditamos muito em inovação aberta e atuamos bastante dessa forma”, disse Pinhanez.

Segundo Pinhanez, poucos grupos de pesquisa no mundo tentaram desenvolver um simulador de mídias sociais, em grande parte pela dificuldade de se montar uma equipe multidisciplinar de pesquisa. “Acho que, pela primeira vez, a comunidade científica tem algo parecido com o mapa de quem conhece quem no mundo. É um mapa ainda incompleto, cheio de erros e enviesado, mas o nosso trabalho é uma das primeiras simulações de comportamento de um número tão grande de pessoas”, afirmou. “Antes, quando se fazia isso era, no máximo, com 300 pessoas, e era preciso ficar coletando dados por anos.”

O artigo “Large-Scale Multi-Agent-based Modeling and Simulation of Microblogging-based Online Social Network”, de Pinhanez e outros, pode ser lidonos anais do 14th International Workshop on Multi-Agent-Based Simulation.

******

Elton Alisson é repórter da Agência Fapesp

Elton Alisson

Ver outras publicações do autor