Dizia Mark Twain - “mentirinhas, mentiras deslavadas e mentiras estatísticas”. Hoje, a frase é usada quando queremos apontar o uso mal intencionado de estatísticas, para justificar argumentos tendenciosos.

Estamos imersos no mundo “hiper”, especialmente quando o assunto conectividade e informação. Os smartphones, o 4G e as mídias sociais nos transformaram em repórteres, em que “ganha” mais quem é mais criativo, ou chama mais a atenção, o que faz com que até mesmo as notícias - que passam por uma curadoria - ainda sofrem desse viés, o que muitas vezes interfere na qualidade dos dados que chegam até nós. Isso nos faz perceber como há temas em que as pessoas têm uma visão enviesada da realidade.

Quer saber o quanto você a sua visão da realidade está (ou não) distorcida? Recomendo para isso o livro “Factfulness – o hábito libertador de só ter opiniões baseadas em fatos”, de Hans Holing et al. e sugiro que você vá diretamente para teste de 13 questões, que vai te mostrar o quanto você está sendo afetado pelos filtros, ou instintos, que fazem com que se internalize uma visão distorcida do mundo.

Chocante não é mesmo?

Agora, imagine o tamanho do choque para quem, como eu, trabalha com modelagem e solução de problemas. Temos uma necessidade, urgente, de obter dados confiáveis, vindos de organismos de elevada reputação – pois os nossos resultados dependem da qualidade das informações com as quais iremos trabalhar.

Com esse pano de fundo, quero te convidar a olhar com carinho para o assunto do momento: a vacina Coronavac. As notícias, em ordem cronológica de divulgação, foram:

- nos primeiros dias após o anúncio da vacina: eficácia de 78% para casos que necessitaram de alguma atenção médica

- alguns dias depois: que a eficácia geral fora de 50,38%.

Sabendo as definições e tendo uma tabelinha com o número de casos em cada categoria, não é difícil calcular alguns resultados: Como o que temos são amostras, os riscos são estimados pelas frequências relativas de incidência da doença nas amostras não vacinada (placebo) e vacinada.

Como acabei de falar sobre a busca de dados, estes citados acima não são do site do Butantan, e sim da BBC_BR que citava como fonte o Butantan e que são reproduzidos aqui.

Há duas formas usuais de se estimar a eficácia de uma vacina a partir dos testes, que convergiriam para o mesmo resultado se houvesse um tempo mais longo para o acompanhamento dos grupos de teste.

1- A fórmula básica a ser usada é:

Eficácia = (RNV-RV)/RNV = 1 – RV/RNV, onde RNV é o risco dos não vacinados e RV é o dos vacinados.

Com os dados que dispomos, só podemos calcular da forma menos precisa em que os riscos são estimados diretamente pela frequência relativa da incidência da COVID-19 em cada grupo.

RNV = 167/4599 = 3,631%, RV = 85/4653 = 1,827% e Eficácia = 1- RV/RNV = 49,693%

Ou seja, analisando os dados por este método, teríamos uma eficácia de 49,693%

2 – O outro método é o Hazard Ratio – HR, que faz um cálculo mais elaborado e precisa da razão de riscos, que tem como objetivo corrigir o fato que o tempo de teste não pode ser longo. Nessa abordagem, a proporção da taxa de risco da população vacinada em relação à não vacinada (RV/RNV), é estimada considerando como os eventos datados ocorreram durante o tempo de teste e projetando o HR através de uma regressão de Cox para estimar o valor a longo prazo.

Continuando, vamos estimar a eficácia contra casos que necessitam de atenção médica (Eficácia_SL). Antes o evento era a incidência da COVID-19, agora o evento é mesmo contraindo ter apenas a incidência de apenas sintomas leves que demandaram atenção médica.

Designando RSLV e RSLNV como os riscos de ter sintomas leves para o grupo vacinado e não vacinado e combinado com os riscos de contrair a covid-19, obtemos:

RSLNV = 31/4599 = 0,1504%, RV = 7/4653 = 0,67406% e Eficácia_SL = 1- RV/RNV = 77,68%

Ou seja, analisando os dados por este método, teríamos uma eficácia de 77,68%

Notem que nossos resultados estão muito próximos dos oficiais e creio que, se tivéssemos acesso aos dados completos, chegaríamos aos mesmos resultados.

É comum expressar o poder estatístico por meio do “p-value”, que estima qual é a chance do resultado ter sido obtido por mero acaso, portanto quanto menor o valor p mais confiantes ficamos.

Os eventos considerados são dicotômicos (pegar / não pegar COVID-19). Isso dá origem a distribuições binomiais na população. Se a amostra for suficientemente representativa da população, aqueles valores RNV e RV já determinam a distribuição binomial para a população toda. O p-value quantifica qual a superposição dessas duas distribuições.

Esse cálculo foi feito usando a linguagem R, no R-Studio e aplicando o teste exato, para um nível de confiança de 95%. Obtive o p-value = 6,064e-16, ou seja, a probabilidade é zero de nossa estimativa da eficácia geral ter sido obtida por mero acaso. Plotei um gráfico, com 4500 pontos para mostrar como as distribuições são separadas.

Finalmente para a Eficácia_SL, o poder estatístico diminui, mas ainda é muito bom, p-value = 2,563e-05.

Nesse texto, com base nos poucos dados disponíveis publicamente, foi possível modelar a questão em tela com precisão razoável para se ter uma opinião baseada em fatos. A modelagem e análise realizadas são uma pequena analogia com o que fazemos na LaraiaTech. Traduzimos as questões do cliente em modelos úteis e com a precisão desejada e minerando fatos, dados e informações alimentamos nossos modelos trazendo subsídios para o cliente tomar as melhores decisões. Contem conosco!

Antonio C. O. Barroso, PhD

Diretor de Inovação e Tecnologia (CInnO e CTO)

LARAIATECH

Fatos, Dados, Notícias, Vieses e uma Pitada de Estatística

Utilitários e caminhões leves seriam um bom ponto de partida para uma cultura de mobilidade elétrica?

Os automóveis na estrada do tempo