O Google apresentou na revista mensal Wired (26/6) um robô conversador que, de acordo com o artigo publicado, é capaz de “debater o significado da vida”. O autômato aprendeu a ‘conversar’ depois de analisar uma “enorme quantidade de diálogos de filmes antigos”, informou a publicação. O título afirma que a máquina é capaz de compreender uma questão existencial que ainda intriga a filósofos, pensadores e a humanidade inteira. A idéia de um autômato filósofo soou como bobagem. Uma insensatez que não merecia atenção. Mas, como títulos por vezes enganam, fui investigar de perto o assunto.
O robô conversador do Google não recebeu instruções de programadores para responder perguntas. Em vez disso, empregou um recurso sofisticado chamado de “rede neural” para aprender por si mesmo e responder a questões propostas a ele por humanos e outras máquinas inteligentes. Rede neural é uma “grande rede de máquinas que aproximam a web dos neurônios do cérebro humano”, explicou a Wired em uma definição superficial.
Os conceitos básicos das redes neurais surgiram nos anos de 1950 e 1960 por Frank Rosenblatt, que se baseou em trabalho anterior de Warren McCulloch e Walter Pitts nos anos de 1940. O principal conceito deles é o perceptron, um conjunto de informações binárias convertidas em um único resultado binário. É um neurônio artificial capaz de “avaliar evidências e tomar decisões”, ensinou o pesquisador e cientista Michael Nielsen, em seu livro online “Neural Networks and Deep Learning” (Redes Neurais e Aprendizado Profundo, 12/2014, web).
As redes neurais trabalham com diferentes camadas de abstração em sequência: cada uma passa adiante o conhecimento que acumulou a outra, que prossegue com o trabalho e acrescenta mais dados em um nível de abstração maior, em uma sucessão linear, aprofundando o processo de tomada de decisões ‘inteligentes’ sobre vários assuntos e atividades. As redes neurais e a inteligência artificial ganharam impulso depois que o poder de computação disponível aumentou nas últimas décadas, ampliando bastante os avanços neste campo específico da ciência da computação. Hoje, a inteligência artificial é usada em reconhecimento facial de pessoas, objetos postados nas redes sociais, identificação da fala e tradução online de conversas telefônicas, comentou o pesquisador.
Ciência da computação e neurociência
Quando uma câmera de identificação visual é capaz de identificar e atribuir um nome a uma determinada figura ou pessoa, ela usa inteligência artificial. Mesmo que a máquina erre e atribua o nome errado para aquilo que filmou ou fotografou. Apesar de todos os avanços que o Google vem fazendo na área da inteligência artificial, um fato bizarro e afrontoso acabou por demonstrar que a inteligência artificial ainda está longe de poder realizar sonhos de ficção científica, como a habilidade de replicar a complexidade do cérebro humano e as condições peculiares da existência humana.
O periódico popular carioca “O Dia” (1/7) publicou matéria informando que um software do Google havia identificado e rotulado fotos de negros como gorilas. A notícia correu mundo, e consumiu páginas de desculpas do gigante das buscas pelo seu erro. O chefe do departamento social do Google, Yonatan Zunger, foi ao Twitter responder ao programador do Brooklin Jacky Alcine, que foi classificado pelo programa “Google Photos” como gorila em uma foto. Acabou encurralado por uma multidão virtual de gente ofendida ou curiosa: jornalistas, programadores, pesquisadores, militantes dos direitos civis e ativistas da web.
Zunger é uma mistura de porta-voz e tecnologista que soube tratar do assunto com paciência e tolerância. A reação contra o erro veio com força por todos os lados. O Google, através de seu engenheiro-porta-voz, tentou vender a idéia de um suposto “erro de aprendizado da máquina”. Veja abaixo a explicação do porta-voz ao programador e dois amigos no Twitter:
“Mas o erro em si foi apenas um ordinário problema de aprendizagem da máquina”, ele afirmou (2/7). O Google vem pesquisando e trabalhando com inteligência artificial há muito tempo. Através dos trabalhos do cientista da computação Andrew Ng, iniciados em 2006, ele iniciou o projeto “Google Brain”, um experimento que reúne uma coleção gigantesca de processadores que tentam imitar alguns aspectos do cérebro humano. É uma mistura de ciência da computação com neurociência que vem produzindo resultados animadores ao longo dos anos e está presente atualmente em vários produtos e serviços do Google.
O sistema FaceNet
Em 2012, o New York Times (25/6) publicou uma reportagem sobre o supercérebro da web onde ficou claro que ainda estamos muito distantes de conseguir simular o funcionamento do cérebro humano. Este possui uma quantidade de neurônios e conexões neurais tão grande que reduzem o esforço do Google a um simples início promissor. Nada mais. Mas o pessoal da companhia de Brin e Page é persistente: acabaram por descobrir e adotar uma nova tecnologia mais avançada que as redes neurais tradicionais. Uma evolução delas, que vai além do já mencionado neurônio artificial chamado perceptron – o multilayer perceptron, ou neurônio artificial multicamada vem sendo usado pelo gigante das buscas de Moutain View.
O perceptron é um tipo de neurônio artificial que processa informação binária e linear. Sua evolução atual é o perceptron multicamadas (multilayer perceptron), que é um neurônio artificial que reprograma e ensina a rede ou sistema por sua capacidade em distinguir dados além do linear neurônio artificial simples ou perceptron. Ele processa informação além das possibilidades limitadas do sistema binário. Parece complicado, mas não é. Nossos cérebros não são binários ou lineares.
Somos ambíguos, dissimulados, maliciosos, contraditórios e imprevisíveis. Por isso o neurônio artificial das redes neurais antigas precisou evoluir para um modo de operar mais próximo do cérebro de uma pessoa. Mais orgânico e capaz de entender ambiguidades, improvisos, mentiras, dúvidas e aprender por si mesmo. É um esforço gigantesco, mesmo com toda a tecnologia disponível em nossos dias.
A turma do maior motor de buscas da web acreditava até bem pouco tempo ter o melhor sistema de reconecimento facial do mundo, e que estava perto de mimetizar o funcionamento do hcérebro humano. A revista quinzenal Fortune (17/3) explicou que o Google agora usa um novo sistema de inteligência artificial conhecido como FaceNet, que é mais eficiente que as redes neurais conhecidas até o momento. Ele funciona aprendendo a mapear o rosto humano através de pontos-chave que produzem uma imagem em espaço geométrico euclidiano. Esta tecnologia supostamente é capaz de distinguir um rosto em uma multidão e atribuir um nome a ele.
“Fotografando gente de cor”
O FaceNet foi testado pelos engenheiros do Google, que afirmou ter um sistema quase infalível para reconhecer rostos. Ela utiliza máscaras 3D criadas por pontos que, unidos, formam a figura de um crânio humano genérico. Daí se parte para aos detalhes que separam os diferentes tipos de encéfalo de nossa espécie. O treinamento com a nova tecnologia envolveu mais de 13 mil figuras de rostos na web e um banco de dados com 260 milhões de imagens, informou a Fortune. A turma de Sergey Brin e Larry Page (e Eric Schmidt) acreditava, até o início deste mês, possuir o melhor e mais perfeito sistema de reconhecimento facial do planeta. Até o dia em que um app ‘inteligente’ do Google classificou pessoas negras como gorilas.
O Google reconheceu o erro na criação da máscara digital de pontos que formam a geometria do crânio humano. É impossível comparar qualquer um deles, de qualquer grupo étnico conhecido com o grosseiro e pequeno encéfalo do animal. O erro foi colossal e o bug foi o pior que seu projeto ambicioso poderia antecipar. Seu porta-voz reconheceu isso no Twitter.
Reconhecimento facial não é coisa simples e fácil. Iluminar pessoas pode ser traiçoeiro quando se trabalha em alta definição (HD). Uma tela em alta definição muda de contraste drasticamente com maior ou menor exposição à luz. Isso pode ser comprovado por qualquer um que tenha um laptop, tablet ou smartphone com tela em HD. Experimente virar a tela, mudar o ângulo de exposição da luz de sua tela, leitor (a), e observe a cor das pessoas e das coisas. Tudo muda do claro ao mais escuro, o contraste é maior ou menor de acordo com a luz que recebe quando a tela gira em ângulos que refletem a luz em maior ou menor grau.
O New York Institute of Photography, em 2011publicou um artigo (29/3) intitulado “Fotografando gente de cor” (Photographing people of color), escrito pelo fotógrafo Monte Zucker, que esclareceu um pouco a situação. Desassombrado, o profissional explicou que “a única coisa a fazer é usar a luz vinda do lado e ao redor do sujeito. O que nós precisamos fazer quando fotografamos uma pessoa negra é trazer luz extra em um ângulo de 90 graus”. O FaceNet, anunciado com o mais perfeito projeto de reconhecimento facial pelo Google não aprendeu isso.
A questão não é de fácil resolução. Embora o Google e o programador do Brooklin tenham concordado que não houve racismo deliberado, o bug no app do Google expôs a pretensão e o fiasco da empresa, que investiu muito em tecnologia de reconhecimento facial, fartou-se em divulgar a perfeição de seu sistema, e acabou exposta à imprecação pública nas redes sociais. O sistema ‘perfeito’ para reconhecer rostos do Google falhou feio.
“A megaplataforma foi exposta ao público nas redes sociais, acusada de não ser diversa o suficiente e não ter trabalhado como devia no aperfeiçoamento de seu software de reconhecimento facial. O engenheiro porta-voz tentou amenizar o embaraço e disse no Twitter que sua companhia “estava contratando”. Só não teve a coragem de dizer quem estavam a contratar. O bug do Gorila foi além de um embaraço ou ofensa: foi bravata de gente acostumada a pensar que pode mudar o mundo e a sociedade a partir do poder e do valor de mercado de suas corporações tecnológicas.
A pretensão ingênua do Google foi intragável e seus executivos pagaram caro pela prepotência. Seu projeto de inteligência artificial saiu maculado e o Google não tem o melhor sistema de reconhecimento facial do mundo. Ainda não compreendemos completamente como funciona, do ponto de vista fisiológico, funcional e biótico, o cérebro humano. Pouco sabemos dele e acreditamos poder replicá-lo. O atrevimento juvenil da maior empresa de buscas na web saiu “queimado” em seu experimento em inteligência artificial e reconhecimento facial. O bug já foi consertado, mas não deveria acontecer no “maior e mais perfeito sistema de reconhecimento facial do mundo”.
O erro básico e simples do supostamente “perfeito” sistema de reconhecimento facial do Google demonstra que ainda erramos em coisas tão simples como a diferença imensa entre os crânios de gorilas e humanos; ainda estamos muito longe de produzir um simulacro de cérebro capaz de compreender a ansiedade e a incerteza do ser humano diante do mistério de uma existência inexplicável.”
Aos leitores: Por um erro grave de edição deixamos de publicar os três parágrafos finais do texto do nosso colaborador Sergio da Motta e Albuquerque, a quem pedimos desculpas pelo ocorrido e eventuais danos à imagem do seu trabalho. Os três últimos parágrafos que estavam faltando foram inseridos em 9/7/2015. Mais uma vez nossas desculpas a Sérgio.