*Por Benedict Carey

Ao julgar quando restringir ou relaxar, a economia local se tornou o jogo de adivinhação mais importante do mundo, e cada autoridade tem seu próprio instinto e seus valores de referência. Quando os hospitais atingem 70 por cento da capacidade, entra-se na fase vermelha, por exemplo; o mesmo acontece com o aumento na contagem de infectados e de mortos pelo coronavírus.

Continua depois da publicidade

Mas, como os governadores de estados como a Flórida, a Califórnia e o Texas descobriram nos últimos dias, esses valores formam um sistema de alarme falho. Assim que o coronavírus encontra uma brecha na população, ele ganha duas semanas de vantagem sobre as autoridades de saúde, circulando e se multiplicando rapidamente antes que seu ressurgimento se torne aparente nos hospitais, nas clínicas de testes e em outros lugares.

Agora, uma equipe internacional de cientistas desenvolveu um modelo – ou, pelo menos, um padrão para um modelo – que poderia prever surtos cerca de duas semanas antes de sua propagação, a tempo de implementar medidas eficazes de contenção.

Em um artigo publicado na quinta-feira no site arXiv.org, a equipe liderada por Mauricio Santillana e Nicole Kogan, de Harvard, apresentou um algoritmo que registrou o perigo 14 dias –ou mais – antes que a contagem de casos começasse a aumentar. O sistema usa o monitoramento em tempo real do Twitter, pesquisas do Google e dados de mobilidade de smartphones, entre outros fluxos de dados.

Continua depois da publicidade

Segundo os pesquisadores, o algoritmo poderia funcionar “como um termostato em um sistema de refrigeração ou de aquecimento, orientando a ativação ou o relaxamento intermitentes de intervenções em saúde pública” – ou seja, uma reabertura mais suave e segura.

“Na maioria dos modelos de doenças infecciosas, projetam-se diferentes cenários com base em suposições anteriores. O que estamos fazendo aqui é observar, sem fazer suposições. A diferença é que nosso método responde a mudanças imediatas de comportamento e podemos incorporá-las”, disse Santillana, diretor do Machine Intelligence Lab no Hospital Infantil de Boston e professor assistente de pediatria e epidemiologia em Harvard.

Especialistas externos que tiveram acesso à nova análise, ainda não revisada por pares, afirmaram que ela demonstrou o crescimento dos dados em tempo real, a exemplo das mídias sociais, na melhoria dos modelos existentes.

“O estudo mostra que fontes alternativas de dados de próxima geração podem fornecer sinais precoces do aumento da prevalência da Covid-19, particularmente se a contagem de casos confirmados estiver defasada por conta da demora na busca por tratamento e na obtenção do resultado de testes”, explicou Lauren Ancel Meyers, bióloga e estatística da Universidade do Texas, em Austin.

Continua depois da publicidade

coronavírus
(Foto: Tony Luong / The New York Times)

O uso da análise de dados em tempo real para medir a progressão da doença remonta, pelo menos, a 2008, quando os engenheiros do Google começaram a estimar o agendamento de consultas médicas para casos de gripe, monitorando a tendência de pesquisa por palavras como “sentindo-se exausto”, “articulações doloridas” e “dosagem de Tamiflu”, entre outras.

O algoritmo do Google Tendências de Gripe, como é conhecido, teve um desempenho ruim. As avaliações posteriores apontaram, por exemplo, que ele superestimou continuamente as consultas médicas devido à limitação de dados e à influência de fatores externos, como a exposição na mídia, que podem impulsionar pesquisas não relacionadas a doenças reais.

Desde então, os pesquisadores fizeram diversos ajustes, combinando as pesquisas do Google com outros tipos de dados. As equipes da Universidade Carnegie-Mellon, da University College London e da Universidade do Texas, entre outras, possuem modelos que incorporam algumas análises de dados em tempo real.

“Sabemos que nenhum fluxo de dados é útil quando analisado de forma isolada. A contribuição desse novo estudo é que eles usaram uma boa e ampla variedade de fluxos”, afirmou Madhav Marathe, cientista da computação da Universidade da Virgínia.

Continua depois da publicidade

No novo artigo, a equipe analisou dados em tempo real de quatro fontes, além do Google: postagens no Twitter com marcador de localização relacionadas à Covid; busca por médicos em uma plataforma médica chamada UpToDate; dados de mobilidade anônima de smartphones; e leituras do Termômetro Inteligente Kinsa, que são enviadas para um aplicativo. A equipe integrou esses fluxos de dados a um sofisticado modelo de previsão desenvolvido na Northeastern University, baseado na forma como as pessoas se movem e interagem nas comunidades.

A equipe testou o valor preditivo das tendências no fluxo de dados, observando como cada uma delas se correlacionou com a contagem de casos e de mortes nos meses de março e abril, em cada estado.

Em Nova York, por exemplo, um acentuado crescimento no número de postagens no Twitter relacionadas à Covid teve início mais de uma semana antes que a contagem de casos explodisse em meados de março; as pesquisas relevantes do Google e as medições com o Kinsa também dispararam vários dias antes.

A equipe combinou todas as suas fontes de dados, medindo o peso que cada uma tem em relação ao aumento no número de casos. Os pesquisadores descobriram que esse algoritmo “harmonizado” anteviu os surtos em 21 dias, em média.

Continua depois da publicidade

Ao olhar para o futuro, ele prevê que Nebraska e New Hampshire provavelmente verão os casos aumentar nas próximas semanas se nenhuma medida for tomada, embora a contagem de casos esteja atualmente estável.

“Acho que veremos um alerta antecipado de pelo menos uma semana ou mais, de forma conservadora, levando em conta que a epidemia está em constante mudança”, disse Santillana. Entre os coautores do artigo estão cientistas da Universidade de Maryland, no Condado de Baltimore, da Universidade Stanford e da Universidade de Salzburgo, bem como da Northeastern University.

Ele acrescentou: “E não vemos esses dados substituindo a vigilância tradicional, mas confirmando-a. É o tipo de informação que pode permitir que os tomadores de decisão digam: ‘Não esperaremos mais uma semana, agiremos agora.'”

Apesar de todo o seu apelo, a análise de big data não pode antever mudanças repentinas no comportamento em massa melhor do que outros modelos tradicionais, afirmaram os especialistas. Não existe um algoritmo que possa ter previsto os protestos em todo o país após o assassinato de George Floyd, por exemplo – aglomerações que podem ter gerado novos surtos, apesar das precauções adotadas pelos manifestantes.

Continua depois da publicidade

Mídias sociais e ferramentas de pesquisa também podem se tornar menos sensíveis com o tempo; quanto mais familiarizadas com o patógeno as pessoas estiverem, menos pesquisas serão realizadas com as palavras-chave.

Agências de saúde pública como o Centro de Controle e Prevenção de Doenças, que também consultam dados em tempo real de mídias sociais e de outras fontes, não colocaram esses algoritmos no centro de suas previsões.

“Esses são dados extremamente valiosos para nós. Mas eu não gostaria de entrar no negócio de previsão com eles; o dano que se pode causar é muito grave. Precisamos que esses modelos sejam verificados e validados ao longo do tempo”, disse Shweta Bansal, bióloga da Universidade de Georgetown.

Com base nos desafios persistentes e reiterados do coronavírus e na inadequação da atual infraestrutura de saúde pública, é provável que isso aconteça, observou a maioria dos especialistas. Temos uma necessidade urgente e não há falta de dados.

Continua depois da publicidade

“O que vimos é o que consideramos ser o melhor fluxo de dados disponível. Estamos ansiosos para ver o que a Amazon ou a Netflix poderiam nos oferecer”, afirmou Santillana.

The New York Times Licensing Group – Todos os direitos reservados. É proibido todo tipo de reprodução sem autorização por escrito do The New York Times.