Crescimento, correlação e causalidade

Esta aula foi elaborada pelo Prof. Alex Holcombe, e traduzida para o Português por Roberto de Pinho e Beto Boullosa. A original em inglês está disponível aqui. Ao final da aula, talvez queira experimentar este gráfico interativo com dados sobre a Covid-19: https://tinyurl.com/vizcovid-at-uesc Este tutorial está sendo hospedado em colaboração com: NBCGIB/CCAM/PPGMC/UESC

O gráfico a seguir mostra o número de casos confirmados de infecção por COVID-19 em cada dia no estado de Nova Gales do Sul (em inglês: New South Wales, abreviado como NSW), na Austrália, desde o dia 4 de março.

A regressão linear é frequentemente usada para prever uma variável com base em outra, mas assume que os dados ficam perto de uma linha reta, somados ou decrescidos de pequenos valores aleatórios.

A linha que melhor se ajusta aos dados é mostrada acima em vermelho escuro. O ajuste não é muito bom! A relação entre número de casos e dias não é linear - eles não se enquadram em uma linha reta. Aqui, a regressão linear não é muito útil.

Em seguida, vamos considerar o arranjo dos dados com mais atenção.

Abaixo, alguns pontos azuis foram adicionados ao gráfico.

Se o número de casos aumentasse 20% a cada dia, os pontos pretos (os dados reais) estariam exatamente por cima dos pontos azuis. Em outras palavras, os pontos azuis mostram o número de casos que teriam ocorrido se houvesse um aumento de 20% nos casos a cada dia. O acréscimo numérico bruto (não percentual) no total de casos é maior a cada dia. Isso ocorre porque os 20% de um número maior é maior que os 20% de um número menor. Por exemplo, 20% de 5 é 1, mas 20% de 10 são 2. Como resultado, o gráfico se torna cada vez mais acentuado à medida que o número de casos aumenta.

Se o número de casos cresce na mesma porcentagem todos os dias, temos o chamado “crescimento exponencial”. É o que aconteceria se cada pessoa infectada infectasse, em média, mais de uma outra pessoa. Cada pessoa infectada pode transmitir a infecção para um certo número de outras pessoas. Assim, a mudança de casos reflete o número de pessoas que já estão infectadas, gerando um aumento percentual a cada dia, em vez de um aumento constante nos casos diariamente.

Crescimento exponencial

“Crescimento exponencial” refere-se a quando algo aumenta na mesma porcentagem ao longo de momentos sucessivos. Abaixo, os dados foram replotados com o eixo vertical indicando o aumento percentual em relação ao dia anterior, em vez do número total de casos.

Os pontos azuis agora formam uma linha horizontal, porque foram criados calculando um aumento de 20% em comparação com o dia anterior. A razão pela qual as infecções por vírus podem crescer dessa maneira é que cada nova pessoa infectada contribui com um número adicional de casos para o dia seguinte, passando o vírus para mais de uma pessoa (em média). Portanto, o novo número de casos é múltiplo (porcentagem adicionada) dos casos do dia anterior.

Para os dados reais (os pontos pretos), o gráfico mostra que, a partir de (aproximadamente) 23 de março (quando os vôos do exterior foram bastante reduzidos e o distanciamento social foi estabelecido), o aumento percentual de cada dia tendeu a ser inferior ao do dia anterior.

O gráfico abaixo mostra, para cada dia, o aumento percentual nos casos confirmados em relação ao dia anterior.

Um eixo vertical logarítmico

Embora o eixo vertical de aumento percentual(%) seja útil, infelizmente não mostra o número acumulado de casos, apenas a alteração desde o dia anterior. Como resultado, a partir desse gráfico, não se pode ver o quão alto o número de casos está. Essa é uma das razões pelas quais as pessoas costumam usar um eixo vertical logarítmico em situações de crescimento percentual constante (ou mesmo aproximadamente constante).

Em um eixo não logarítmico (linear), um aumento constante em número (não em porcentagem) de casos resulta em uma linha reta. Quanto maior o aumento diário, maior a inclinação da linha. Em outras palavras, a adição constante a cada dia resulta em uma inclinação constante no gráfico.

Quando o crescimento é exponencial, estamos interessados em saber em quanto o número de casos está sendo multiplicado a cada dia, e não o quanto está sendo adicionado a ele. No caso de um crescimento de 20%, por exemplo, em cada dia o número de casos é o número anterior mais 20%, que pode ser calculado multiplicando o número de casos do dia anterior por 1,2.

Os logaritmos transformam a multiplicação em adição, o que significa que, em um eixo logarítmico, crescer em uma quantidade constante não significa que o número de casos tenha aumentado igualmente a cada vez, mas sim que foi multiplicado pelo mesmo número a cada vez.

Como resultado, nossos 20% de pontos de crescimento caem em uma linha reta, porque cada ponto sucessivo é resultado da multiplicação (em vez de adição) por uma constante, ou seja, 1,2.

No gráfico, observe que os rótulos dos eixos verticais não marcam intervalos iguais. Ou seja, ao subir um passo no eixo vertical, não o fazemos adicionando repetidamente um número que corresponda ao tamanho daquele passo. Em vez disso, a cada passo para cima multiplicamos por um número que reflete o tamanho do passo. Observe o intervalo entre os rótulos sucessivos do eixo y, por exemplo - é o rótulo anterior multiplicado por aproximadamente três.

O gráfico acima mostra que qualquer taxa de crescimento diário específica (multiplicação por um fator específico) resulta em uma linha reta de inclinação correspondente.

Adicionando os dados reais de NSW (pontos pretos), podemos ver que eles cresceram exponencialmente em quase 20% ao dia por algum tempo. Após 28 de março, o crescimento foi mais lento. Os dados após 28 de março não aumentam mais tão acentuadamente quanto os pontos que indicam um crescimento de 20% ao dia.

Crescimento exponencial nem sempre é ruim. Os investimentos geralmente geram crescimento exponencial, porque, em média, seu valor aumenta um certo percentual a cada ano. Por exemplo, o mercado de ações dos EUA aumentou em média 14% ao ano entre 2000 e o final de 2019. Se seus pais tivessem investido $2000 em seu nome no ano de 2000, no início de 2020, você teria cerca de $27,000.

Outra maneira de entender o que significa uma determinada taxa de crescimento é perceber que a cada taxa de crescimento corresponde a duplicação do valor toda vez que um determinado número de dias decorre. A taxa de crescimento de 14% do mercado de ações durante os primeiros vinte anos do século, por exemplo, significou uma duplicação do valor investido aproximadamente a cada cinco anos. Aqui, adicionei os tempos de duplicação aos crescimentos de 10, 20 e 30%.

Densidade populacional e mortalidade por gripe

Hoffman & Cox registraram dados da pandemia de gripe de 1918. O gráfico abaixo mostra a taxa de mortalidade em relação à densidade populacional, com um ponto de dados para cada município do Kansas e Missouri.

Neste gráfico, não apenas o eixo vertical é logarítmico, mas também o horizontal. Mas você não precisa se preocupar com isso para responder às seguintes perguntas.

Causalidade

Inferindo causalidade

Quando uma correlação é evidente a partir de um gráfico de dispersão de Y contra X, as pessoas tendem a inferir que X causou Y.

A correlação de Y com X e X com Y é, por definição, a mesma; portanto, em princípio, um gráfico como o descrito acima é tão consistente com Y causando X quanto com X causando Y. No entanto, em alguns casos, um elo causal é muito mais plausível em um sentido do que no outro. Por exemplo, é plausível que uma maior densidade populacional cause uma maior taxa de mortes por gripe. Um modelo causal mais detalhado é que a densidade populacional causa contato físico mais frequente entre as pessoas, causando mais transmissão de gripe, causando mais mortes.

Mas Y poderia causar X? Ou seja, as mortes por gripe poderiam causar maior densidade populacional? Não parece muito plausível. Isso ilustra que, com alguns pares de variáveis, a causalidade somente é provável em um sentido, e não no outro.

Existe ainda a possibilidade de uma terceira variável, Z, causar X e Y.

Muitos pontos significam mais evidências

Idealmente, um gráfico de dispersão terá muitos pontos de dados. Quando esses pontos mostram um padrão bastante consistente de Y aumentando ou diminuindo em relação a X, tem-se então uma forte evidência de correlação. É um passo importante. No entanto, ainda é necessário um grande salto para se determinar a existência de uma relação de causalidade.

Um gráfico da mídia

Este gráfico foi produzido por John Burn-Murdoch, do Financial Times.

O gráfico possui um eixo vertical logarítmico, portanto, subir uma distância específica corresponde à multiplicação por um fator específico. Uma característica que você talvez não tenha visto antes é que os rótulos dos eixos não estão em intervalos de multiplicação iguais, para posicioná-los em números redondos.

A duplicação a cada dois dias, como ocorrido com os casos dos EUA nas duas primeiras semanas neste gráfico, corresponde a uma taxa de crescimento diário de 41%.

Aqui está outra versão do gráfico com anotações feitas sobre ele por alguém no Twitter.

Inferência causal

A pessoa que rabiscou essa figura está incentivando as pessoas a fazer a inferência causal de que usar uma máscara reduz a propagação da infecção por COVID-19.

Para ter certeza de que uma correlação estatística existe entre duas coisas, geralmente são necessários muitos pontos de dados, que geralmente são plotados em um gráfico de dispersão. Depois de estabelecer uma correlação estatisticamente significante, pode-se dar um salto adicional para um modelo causal, tendo em mente as armadilhas de inferir causalidade a partir da correlação.

A inferência é feita a partir deste gráfico de que máscaras causam menos disseminação da infecção com base em apenas quatro instâncias de países que usam máscaras. Quanto menor o número de instâncias, maior a probabilidade de uma terceira variável possa explicar a diferença entre os dois conjuntos de países.

Houve muitas respostas dadas ao autor da imagem, como, por exemplo, esta que mostra algumas das variáveis que influenciam na comparação entre os dois conjuntos de países.

*"Não tão simples assim: países asiáticos que tiveram sucesso também adotaram: 1) testagem, 2) quarentena estrita dos infectados, 3) rastreamento de contatos para testar pessoas com alto risco de estarem infectadas"*

“Não tão simples assim: países asiáticos que tiveram sucesso também adotaram: 1) testagem, 2) quarentena estrita dos infectados, 3) rastreamento de contatos para testar pessoas com alto risco de estarem infectadas”

Há quase sempre muitas diferenças potencialmente relevantes entre países, sejam genéticas, culturais, ambientais ou governamentais. Como resultado, a explicação mais provável para a reduzida taxa de crescimento do contágio dos países circulados em azul é uma combinação de causas, umas das quais talvez seja o uso de máscaras.

Outra pessoa teve uma explicação mais criativa das diferenças entre os dois grupos de países:

Este gráfico parece sugerir que a ingestão de Bubble tea inibe o vírus!

Embora isso seja improvável, ressalta que normalmente existem muitas diferenças entre dois grupos de países, apenas algumas delas merecem ser investigadas.

Eis aqui uma outra resposta:

*"Quem circulou estes países com "Sem máscara" e "Máscaras"? A Itália as tem usado há semanas e a curva ainda não está achatando-se."*

“Quem circulou estes países com”Sem máscara" e “Máscaras”? A Itália as tem usado há semanas e a curva ainda não está achatando-se."

Dario argumenta que, além dos países em azul, também na Itália o uso de máscaras é bastante intenso. Apesar disso, a taxa de contágio do país não se reduziu. Outras pessoas apontaram que a população da China também utilizou máscaras em grande quantidade, mas a taxa de contágio do país só se reduziu bem mais tarde.

Estes comentários mostram que devemos tomar muito cuidado com afirmações aleatórias encontradas na internet, mesmo que as mesmas se ajustem à nossa intuição.

As pessoas tendem a supor que os números colocados no mesmo eixo significam a mesma coisa. Mas a contagem de casos de um país pode realmente ser comparada tão diretamente à de outro país?

*"Minha questões com o gráfico são duas: nõs não sabemos quantas pessoas estão sendo testadas em cada área e nós não sabemos as características / demografia daqueles que estão sendo testados."*

“Minha questões com o gráfico são duas: nõs não sabemos quantas pessoas estão sendo testadas em cada área e nós não sabemos as características / demografia daqueles que estão sendo testados.”

Como Christophe Toukam sugere acima, os países tem comportamentos distintos em suas políticas de teste. Além disso, essas políticas de teste mudam com o tempo, o que pode contribuir para diferentes taxas de crescimento para diferentes países.

Uma quarta resposta ao gráfico não questiona a tese, mas afirma que há uma outra razão para acreditar que as máscaras reduzam a taxa de contágio:

*"Lógica básica. Se a doença é espalhada por gotículas vindas de tosses e espirros. E todo mundo usa uma máscara para capturar essas gotículas. Isto irá reduzir o R0. Por que não fazê-lo? Idiotamente simples."*

“Lógica básica. Se a doença é espalhada por gotículas vindas de tosses e espirros. E todo mundo usa uma máscara para capturar essas gotículas. Isto irá reduzir o R0. Por que não fazê-lo? Idiotamente simples.”

Esta é uma importante consideração, pois, ao se tomar uma decisão, é razoável incorporar múltiplos tipos de evidência. Como já discutido, o gráfico sugere apenas uma tênue evidência de que máscaras sejam efetivas.

Ainda assim, há de se levar em conta que, durante uma pandemia de crescimento exponencial, não há tempo para esperar por uma evidência forte. Na prática, devem-se tentar muitas coisas que potencialmente sirvam para debelar a crise. O uso de máscaras é um fator potencial para reduzir o contágio, e, portanto, pode ser uma boa política a ser adotada, mesmo que a evidência empírica seja ainda insuficiente.

É importante sempre seguir as orientações das autoridades de Saúde.

Parabéns! Você chegou ao final!

Talvez queira experimentar este gráfico interativo com dados sobre a Covid-19: https://tinyurl.com/vizcovid-at-uesc

Este tutorial foi elaborado pelo Prof. Alex Holcombe, e traduzido para o Português por Roberto de Pinho e Beto Boullosa. O original em inglês está disponível aqui.

Este tutorial está sendo hospedado em colaboração com: NBCGIB/CCAM/PPGMC/UESC Núcleo de Biologia Computacional e Gestão de Informações Biotecnológicas, Centro de Computação Avançada e Modelagem, Programa de Pós-Graduação em Modelagem Computacional em Ciência e Tecnologia Universidade Estadual de Santa Cruz Bahia, Brazil.