No pântano das estatísticas, quem atola é o leitor

Em uma democracia funcional, há um diálogo tácito ou explícito entre os governantes e os governados. Os governantes têm suas fontes internas de informação. Mas os governados precisam ser informados, e esse papel tradicionalmente cabe à imprensa. Daí que boas democracias têm boa imprensa. Como soe acontecer, nem nossa democracia nem nossa imprensa são tão boas. Felizmente, estamos avançando em ambas as dimensões.

Uma observação curiosa é que os cientistas também usam a grande imprensa para saber o que seus colegas andam fazendo. Isso porque a comunicação científica se tornou tão opaca e chata que é mais fácil saber das novidades lendo jornais e revistas plebeias. Não deveria ser assim, mas é.

A oposição entre papel e bites é demonstravelmente falsa. Dá na mesma. O real conflito é entre a imprensa confiável e a outra, onde a mentira é instantânea e a impunidade eterna. Dados os custos incompressíveis da produção tradicional de notícias, se a grande imprensa não for confiável, seu futuro está em perigo.

Nossa melhor imprensa é sólida e tende a ser responsável, quando noticia os fatos. Mas logo, logo, tropeça nos números.

O desapreço pelos dados

Um bom amigo, mineirão do interior, foi fazer intercâmbio nos Estados Unidos, sendo acolhido na casa de um engenheiro. Com toda a riqueza da experiência, o que mais ficou marcado na sua memória foi o fato de que o engenheiro tinha números para tudo. Não dizia nada sem a contagem, a medida ou a pesagem do que estava sendo descrito. Longe é tantas milhas. Pesado é tantas libras. Rápido é 60 milhas por hora.

Quando os brasileiros começaram a viajar para os Estados Unidos, o que mais impressionava eram as estatísticas na ponta da língua dos guias: Aquela estátua pesa 5.735 libras. É o contraste com a nossa cultura de substituir números por adjetivos.

Tais factoides são metáforas para o nosso descaso com as quantidades, do que quer que seja. Ora, se a sociedade pouco liga para números, a imprensa não pode deixar de tender para o mesmo desapreço. Mas, obviamente, é pernicioso, pois torna as discussões vagas ou equivocadas.

Isso já foi percebido por Aristóteles. Ele admite que há um limite para o que se pode fazer com números. Contudo, ainda mais importante é o limite ao que se pode fazer sem números. Nesse segundo limite, jaz a nossa fraqueza.

Como falar com autoridade, sem medir o que pode e deve ser medido? Uma pitada ou um punhado pode até funcionar na cozinha. Mas, para discutir inteligentemente os problemas da nação, sem números, não vamos muito longe. O país tem gente demais? A inflação está muito alta?

Como os governados precisam da imprensa para se informar, as fraquezas do jornalismo ao lidar com números têm consequências funestas para a qualidade da discussão.

O presente ensaio ilustra, com exemplos reais, a fragilidade do nosso jornalismo, quando chega a hora dos números. Avançam as técnicas estatísticas, ficam mais complicadas, com a introdução do raciocínio probabilístico, dos testes de hipótese e dos modelos multivariados. Comentaremos exemplos de erros ao interpretar essas estatísticas. Contudo, observamos erros grosseiros mesmo ao reportar medidas estatísticas elementares.

Tropeços grosseiros

Os exemplos abaixo ou são de aritmética, de lógica ou de medidas estatísticas aprendidas no ensino fundamental.

As proezas do e-commerce

Em coluna de um jornal sério, discutindo e-commerce, o autor afirma que nas “compras via e-commerce, no Natal de 2012, 123,43% dos consumidores brasileiros já tiveram problemas em compras pela internet”.

Trocando em miúdos, de cada 100 brasileiros, 123 tiveram problemas. Quem serão esses misteriosos 23?

Que estrago faz uma vírgula!

Noticiando o crescimento da produção, o jornal indica uma taxa de 1,7%. Mais adiante, quando cita os números, vemos que o valor quase dobrou. Culpa da vírgula! Deveria ser 170% do valor inicial. Ou então, um crescimento de 1,7 vez.

O que é mesmo uma média aritmética?

“Provão revela: metade dos alunos estão abaixo da média”. Essa manchete, em um dos melhores jornais de São Paulo, prefacia um tom acusatório. Mas é uma tolice sem tamanho.

A média é um número cuja fórmula de cálculo permite encontrar o meio da distribuição. Portanto, próximo da metade das escolas, obrigatoriamente, estará abaixo da média, qualquer que seja a distribuição (não cabe aqui entrar nas diferenças entre média e mediana). Se tomarmos a média das dez melhores escolas do Enem (Exame Nacional do Ensino Médio), cinco estarão abaixo dela. E isso não é só para educação. Metade dos jogadores de vôlei tem estatura abaixo da média do time. Nem por isso, são baixinhos.

É bom “estar na média”?

Há um erro em se supor que a média contém algum valor normativo – ou seja, que as pessoas “devessem” estar na média. No fundo, implicaria que a média corresponde a um valor desejável.

Isso até pode ser o caso. Quando pesamos uma população, podemos dizer que aqueles muito acima da média estão obesos – e, portanto, com risco de saúde. Isso é verdade, pois um indivíduo com boa saúde e que se cuida terá um peso próximo da média.

Mas o exemplo nada tem a ver com avaliações de desempenho. Os números que medem os resultados foram influenciados pela cabeça dos formuladores da prova que não têm qualquer autoridade para ditar normas de conhecimento. Se incluem muitas perguntas difíceis, as médias serão baixas. Vice-versa, se há muitas fáceis.

Ou seja, desse mato não sai cachorro. Médias de avaliações nada dizem. Só quando comparadas é que se tornam úteis.

Germes ou pólvora?

Segundo um colunista conhecido, “apenas na América Latina ou no Caribe, a presença colonial deixou um lastro de, pelo menos, 18 milhões de indígenas mortos (outras fontes calculam em 100 milhões)”. Faltou dizer que até 90% dessas mortes foram devidas a doenças, para as quais as populações locais não tinham resistência. Mas, com os conhecimentos da época, os colonizadores não sabiam disso. Portanto, a culpa principal é dos germes e não dos arcabuzes imperialistas.

Se o autor desconhece esse fato, não deveria escrever sobre assuntos que não domina. Se sabia mas omitiu, é intelectualmente desonesto, pois é uma maneira injustificável de vender sua ideologia.

A saúde das estatísticas de saúde está comprometida

Diz a manchete de um jornal respeitado: “Metade dos brasileiros não tem plano de saúde. Preço alto faz com que 49% das pessoas não possuam convênio no país”. Mas, vejamos, o próprio texto menciona que existem apenas 44 milhões de segurados em planos de assistência privada (e é disso que a matéria fala). Dividindo pelos 193 milhões de brasileiros, apenas 23% da população pertence a eles. Se fosse 49% seriam 90 milhões. Ao que parece, o jornalista confundiu dados de uma amostra de segurados com os dados globais.

Quando tudo cresce…

Discutindo acidentes de trânsito, a matéria do jornal não comete erros. Contudo, não é fácil interpretar o que está acontecendo. Afirma-se que as motos foram responsáveis pelo crescimento da mortalidade nas vias públicas. Não há como questionar o número. Mas, como nenhuma categoria de veículos se expandiu tão rápido quanto as motos, a questão interessante é saber se há mais acidentes, simplesmente, porque há mais motos ou se a letalidade desse veículo aumentou. Isso não foi dito.

“Muito”, comparado com quê?

Outra pérola: “O Brasil cresceu muito… Estimativas do IBGE mostram que o Brasil ganhou 3,2 milhões de moradores, em dois anos, com um crescimento de 1,6% em relação ao Censo de 2010”. “Milhões” sempre sugerem abundância. Contudo, desde que há estimativas de crescimento populacional, essa taxa é a menor jamais observada. É da ordem de 0,8% ao ano. Faz algumas décadas, era três vezes mais.

Estatístico morre do coração?

Em uma matéria de capa sobre incidência de problemas cardíacos, “estudo mostra que 44% da população de MG sofrem ao menos de duas doenças crônicas”. O problema é que, também em destaque, afirma-se que “33,9% têm, pelo menos, uma doença crônica”.

O grupo de 33% com, pelo menos, uma doença crônica inclui todos os que têm uma doença, duas ou mais. Logo, o grupo com, pelo menos, duas está contido nesse primeiro grupo. Se está contido, não pode ser maior, tem que ser menor! É causa de estatístico morrer fulminado ao abrir o jornal pela manhã.

Ruim não é o mesmo que pior

Cada vez que saem os resultados do Enade (Exame Nacional de Desempenho de Estudantes) – que antes era o Provão –, a imprensa crucifica aquelas faculdades que tiram as piores notas. São acusadas de oferecer um ensino imoralmente ruim, por isso, deveriam ser fechadas pelo MEC (Ministério da Educação).

Para entender, vamos imaginar um exemplo fictício, mas com dados verdadeiros. Suponhamos que o MEC passasse a ser responsável por um grupo de dez universidades, espalhadas no mundo inteiro. De posse dos resultados, mandaria fechar as que são de má qualidade. Suponhamos também que se trata das dez melhores universidades do mundo.

Usando um dos indicadores mais respeitados, descobriria, por exemplo, que a Universidade da Califórnia em Berkeley, é a penúltima da lista. Usando as suas regras, mandaria congelar a matrícula, até que atendesse às exigências de melhoria indicadas por um corpo de consultores.

Vejam só que curioso, Berkeley, considerada a melhor universidade pública do mundo, seria punida pelo MEC!

Onde está a confusão? É simples, há um oceano de diferença entre ruim e pior. Berkeley é a segunda pior da lista de dez, mas nada tem de ruim, pelo contrário.

De volta à pátria amada, as faculdades com Enade mais baixos, de fato, são piores do que as outras. Até aqui, estamos bem. Mas quem disse que são ruins? O MEC deveria fechar as ruins ou, também, as que são menos boas do que as outras?

Entendamos a essência da dificuldade. A carteira de motorista, o brevê de piloto e o concurso da OAB (Ordem dos Advogados do Brasil) aprovam quem atingir os níveis mínimos. Já as provas do Enade não são formuladas pensando no que os alunos deveriam saber minimamente. De fato, no Enade não há critério para passar ou ser reprovado. Quem formula a prova busca um conjunto de perguntas que vão do muito fácil ao muito difícil. Dessa forma, o teste consegue diferenciar um aluno muito ruim de outro quase muito ruim. E o mesmo dentre os ótimos.

A notas são atribuídas de forma relativa (na verdade, usando uma curva de Gauss, mas não precisamos entrar em tais tecnicalidades). Sempre haverá faculdades mais fracas. Por convenção, as 12% piores ganham a nota mais baixa. Salvo mudanças de regras, até o dia do juízo final, haverá uma mesma proporção de faculdades com as notas mínimas, são as 12% piores. Como no caso de Berkeley, não é possível dizer se são ruins. Podem ser ou podem não ser.

E, o que é igualmente importante, não há como dizer se o ensino está melhorando ou piorando, pois as perguntas, de ano a ano, não têm um nível comparável de dificuldade.

O raciocínio acima pode ser muito técnico, mas que fique clara uma diferença: pior não é o mesmo que ruim. Pode ser ruim e não ser pior e pode ser pior e não ser ruim.

“Que horror, os alunos só acertaram metade das questões!”

Quando uma prova é construída, manda a técnica, é preciso adicionar perguntas difíceis, para separar os sabidos dos muito sabidos. A maioria não vai acertar, pois foram pensadas apenas para os mais preparados. Também é preciso ter perguntas muito fáceis. Em uma prova formulada refletindo esses critérios, planeja-se que próximo da metade das perguntas serão acertadas. Se isso acontecer, é uma prova bem-feita, sob medida para a sua clientela.

Sendo assim construída, a proporção de acertos nada diz sobre a suficiência ou insuficiência do aprendizado dos alunos. Resulta de uma tecnicalidade requerida para dar precisão aos resultados, nas caudas da distribuição. As autoridades ou o consenso podem definir uma dada proporção de acertos, como sendo o mínimo aceitável de desempenho. A Prova Brasil é calibrada pelos níveis esperados em cada série. Portanto, os números mostram se os resultados são bons ou maus. Mas o Enade não é calibrado, os números nada mostram. Só dizem quem é melhor e quem é pior.

Não se pode comparar alhos com bugalhos

Comparar quem com quem?

Em uma pesquisa noticiada na imprensa, falando de negros, a manchete afirma: “a renda continua desigual, em relação a um branco”. Outras afirmativas de mesmo teor aparecem ao longo do texto.

Certo ou errado? Ambíguo e enganoso. Como os negros têm níveis educativos mais baixos do que os brancos, especialmente nas gerações mais velhas, se estimarmos as médias para todos os brancos e todos os negros, é inevitável que a dos brancos seja maior, pois a escolaridade é o maior determinante dos rendimentos individuais. O próprio artigo menciona algo nessa direção.

Contudo, do ponto de vista de políticas públicas, não diz nada de novo ou interessante. A comparação que importa é outra: para negros e brancos de mesma idade e escolaridade, haverá diferenças de salário? Essa é a informação que pode ou não revelar discriminação. Infelizmente, o artigo não responde a essa pergunta.

O lobby das mulheres em ação

Na mesma linha e no mesmo jornal: “Estudo do IBGE mostra que [as mulheres] passam muito mais tempo na escola que [os homens], mas ganham menos…”. Trata-se do mesmo erro, de agregar demais os dados e terminar com banalidades. Isso mascara os temas realmente críticos.

As mulheres levaram tempo para atingir a mesma escolaridade dos homens. Portanto, as mulheres mais velhas são menos educadas. Além disso, sua participação na força de trabalho, por nível de idade e nível de educação, não é a mesma que a dos homens. A maior presença de mulheres menos qualificadas e menos experientes afeta profundamente as médias de rendimento. Portanto, só faz sentido comparar rendimentos quando emparelhamos mulheres e homens de mesma idade e mesma escolaridade. Isso não ficamos sabendo.

A olimpíada do Enem

“O Enem prova, o colégio A é pior do que o B”. Suponha-se que A é um colégio excelente e que todos os alunos fazem o Enem. O colégio B é medíocre e somente os melhores 10% se animam a fazer a prova. É possível que A tivesse mais pontos do que B se apenas forem considerados os seus melhores 10%. Ou, se todos do colégio B tivessem que fazer a prova. Isso porque a presença dos alunos mais fracos puxa a média para baixo. Ou seja, as comparações entre colégios apenas são válidas quando a proporção de quem faz o teste é parecida.

Ainda sobre o Enem, os erros de interpretação não param aí. “Enem indica queda na qualidade do ensino médio”. “As médias nacionais do Enem afundaram!”. “O ensino piorou!”.

Tais afirmativas ressoam na mídia. A primeira aponta para os dados em queda livre, mostrado pela simples comparação da média anterior com a atual. Conclui-se então que o ensino piorou. Tão simples, parecem deduções do Conselheiro Acácio.

Mas o Conselheiro Acácio também erra. Por conta de uma característica essencial do Enem, não podemos afirmar que o ensino piorou. Trata-se de uma prova cuja participação é voluntária. Se, de um ano para outro, mudam as decisões individuais de fazer ou não a prova, estamos comparando alhos com bugalhos.

Para entender melhor, imaginemos um grupo de Vigilantes do Peso que, obstinadamente, segue seu regime e consegue perder algumas míseras gramas. Mas, no meio do ano, a campanha publicitária atrai um bando de pessoas ainda mais gordinhas, mas que, também, conseguem aparar algumas gramas. Ao fim do ano, a média do grupo vai mostrar um aumento de peso, pois os novos gordinhos puxaram a média para cima. Houve um real aumento da média. Não obstante, todos emagreceram. Como assim? Simplesmente, a segunda média é de um grupo diferente.

O mesmo pode acontecer com o Enem. No caso, como o Prouni (Programa Universidade para Todos) passou a usar o Enem para escolher os seus bolsistas, houve uma corrida a ele, por parte dos candidatos enquadrados nas regras do programa – e que são mais pobres. Esses alunos tiveram um ambiente familiar e uma experiência escolar que prejudica o desempenho acadêmico. Portanto, são mais fracos do que os candidatos que já faziam essa prova. Portanto, puxaram a média para baixo.

É logicamente possível que a qualidade do ensino se mantenha. Simplesmente, o Enem passou a incluir candidatos mais fracos no universo dos concluintes do médio.

De fato, sendo o Enem uma prova voluntária, não pode ser usado para comparar cidades ou estados. Mesmo as comparações entre escolas são duvidosas.

O Saeb diz que a educação piorou

Um outro artigo mostra uma queda nos escores do Saeb (Sistema de Avaliação da Educação Básica), entre 1995 e o presente. Várias tabelas indicam curvas decrescentes para as pontuações. Em particular, os gráficos parecem não deixar dúvidas quanto à queda.

Em 1954, Darrell Huff publicou um livro que tornou-se um clássico. Há novas edições à venda e os cursos de estatística aplicada e métodos de pesquisa repetem as ideias dele derivadas. O livro chama-se How to Lie with Statistics(há uma edição portuguesa de 2013, chamada Como Mentir com a Estatística, lançada pela Gradiva). Seu principal objetivo é mostrar como são manipuladas as apresentações gráficas das estatísticas, com o objetivo de demonstrar aos incautos a tese do autor, seja para dar a impressão de grandes variações, seja para minimizá-las.

Um dos principais truques é redefinir a escala dos eixos. Se usamos uma escala na qual as variações são medidas por distâncias pequenas, a curva é quase plana, parece que houve pouca mudança. Se são medidas por espaços grandes, sugerem-se alterações dramáticas nos dados.

No caso, as tabelas usualmente apresentadas amplificam as variações observadas, mediante o estratagema de apresentar uma escala expandida no eixo vertical. É fácil desmascarar o truque, bastando notar que o rendimento zero não aparece na tabela. Na altura do eixo horizontal, a pontuação já é de 170. Se o eixo horizontal fosse deslocado para baixo, até chegar ao zero, a tabela se espicharia pela página inteira do jornal. A tabela seria sumariamente vetada pelo editor.

Essa tabela gigantesca – ou outra menor com a mesma proporcionalidade – mostraria uma cara bem diferente. Uma queda de dez pontos no Saeb significa uma queda de apenas 5% na pontuação. Visualmente, a distribuição é quase plana. E é dessas ordens de variações que estamos falando. Oscilações de 5% estão dentro das margens de erro, resultantes da imprecisão dos testes, de flutuações amostrais e dos algoritmos de comparabilidade intertemporal. Ou seja, quem conhece tecnicamente o Saeb não aceita uma queda estatisticamente significativa.

Quem causa o quê?

Trabalho infantil ou interpretação infantil?

Segundo um jornal, pesquisa do Unicef (Fundo das Nações Unidas para a Infância) alerta para a persistência do trabalho infantil. Acrescenta que esses jovens trabalhadores representam 1,3% da população nessa faixa etária (entre 5 e 14 anos). Em seguida, afirma que o trabalho infantil é uma “causa significativa” do abandono escolar.

Desde as pesquisas de Sérgio Costa Ribeiro, na década de 1970, sabemos que a evasão nessa faixa etária é mínima. Portanto, não há muito que explicar. Todavia, ainda mais tola é a afirmativa de que um grupo incluindo apenas 1,3% do total vai ser causa significativa da evasão nessas idades.

Ofensas racistas

Fomos também brindados com uma matéria mostrando como as “ofensas racistas afetam o desempenho escolar”. O artigo sumaria uma pesquisa da Unesco (Organização das Nações Unidas para a Educação, a Ciência e a Cultura). Como leitor do jornal, julgamos o que foi publicado. Não é nosso papel descobrir se os erros porventura encontrados são da Unesco ou da resenha. Em resumo, os seguintes argumentos foram apresentados.

As crianças negras são alvos de “apelidos, comentários discriminatórios e ofensas” nas escolas brasileiras. A matéria cita exemplos de tais situações.

Como resultado, há uma diferença de pontuação entre brancos e negros nos testes escolares, com ampla desvantagem para os negros. Ou seja, a discriminação causa prejuízos nos resultados escolares dos negros.

Os manuais de metodologia científica nos advertem contra o erro conhecido como post hoc,ergo propter hoc, que significa simplesmente “se vem depois terá sido causado por”. Como encontraram-se indícios de racismo, este será o culpado pelas diferenças, também encontradas entre brancos e negros.

O erro é que associações desse tipo não demonstram causação. Um exemplo clássico: um estudo do início do século 20, em Moscou, demonstrou que quanto mais carros de bombeiros acorriam a um incêndio maior o prejuízo resultante. É o excesso de atendimento que aumenta o prejuízo? Ou o fato de que em incêndios grandes mais carros são enviados?

Ou seja, a causa pode estar em outras bandas. É hipoteticamente possível que as ironias e ofensas possam levar a um desempenho inferior dos negros. Mas há que demonstrar que é isso e não muitas outras possíveis causas. Como tal não foi feito, não ficou demonstrada a tese.

Uma das possíveis hipóteses é mencionada – e desprezada. Sabemos que o mais forte determinante dos resultados escolares pode ser capturado pela educação dos pais. É a qualidade da experiência escolar prévia, é o “capital intelectual” da família e diversas outras variáveis que militam para reduzir o rendimento acadêmico dos pobres. Quando comparamos alunos cujos pais têm a mesma escolaridade, as diferenças de pontuação entre brancos e negros diminuem enormemente ou quase desaparecem. Isso porque, em média, os pais dos alunos negros têm menos escolaridade do que os dos brancos. Portanto, grande parte das perdas de rendimento dos negros não são devidas ao tratamento que recebem dos colegas, mas ao fato de serem pobres e seus pais serem pouco educados.

Mas as diferenças não desaparecem apenas controlando escolaridade dos pais. O que sobra, bem menos, pode resultar dos apelidos e comentários. Pode também resultar de uma autoimagem negativa herdada dos pais ou de muitos outros fatores. E, também, pode resultar da nossa incapacidade estatística para medir toda a “cultura da pobreza”, devido às imperfeições de medidas, como educação dos pais. Por exemplo, verificou-se nos Estados Unidos que, quando controlamos não a escolaridade mas a pontuação dos alunos em testes de rendimento escolar (SAT), as diferenças entre raças desaparecem.

Em outras palavras, a afirmativa de que “ofensas racistas afetam o desempenho escolar” é uma excelente manchete de jornal. Infelizmente, não é uma afirmativa confirmada pela evidência mostrada. Pode ser verdade ou não. Tal como apresentada a pesquisa, há falhas inaceitáveis na argumentação. Esses erros de interpretação têm consequências graves para desenhar políticas visando melhorar o desempenho dos negros. Pelo que sabemos das pesquisas, devemos nos preocupar mais com educação e menos com discriminação. Mas isso é o que esperaríamos aprender com a pesquisa citada.

******

Claudio de Moura Castro é economista e especialista em educação. É graduado em Economia pela Universidade Federal de Minas Gerais, mestre pela Universidade Yale e doutor pela Universidade Vanderbilt

Claudio de Moura Castro

Ver outras publicações do autor