Como funciona o Google Tendências da Gripe

Dec 12 2014
Você desenvolve uma tosse e pula online para procurar informações sobre a gripe. O Google rastreia essas pesquisas para prever ondas de doenças geograficamente. Mas quão precisas são essas previsões?
É uma parte natural de viver na era da informação: você começa a se sentir doente, então pesquisa seus sintomas no Google.

Tanto o resfriado comum quanto a gripe farão com que você se sinta infeliz e, como ambos são infecções respiratórias com sintomas semelhantes – tosse, dor, dor de cabeça, você sabe o que fazer – pode ser difícil saber qual deles o domina.

Todos os anos, de cinco a 20 por cento da população dos EUA contrai a gripe, principalmente durante o período de inverno entre dezembro e fevereiro, mais ou menos alguns meses [fonte: CDC ]. Embora muitos doentes encontrem alívio em medicamentos de venda livre, a gripe pode ser grave. As complicações relacionadas à gripe podem exigir hospitalização e, às vezes, as complicações podem ser fatais. A gripe, juntamente com a pneumonia (ambas são infecções respiratórias inferiores), foi classificada como a oitava principal causa de morte nos EUA em 2010, e as infecções respiratórias foram a terceira principal causa de mortes em todo o mundo naquele ano (até 3,2 milhões de pessoas) [fonte : CDC , CNBC ].

Como a gripe sazonal pode causar complicações graves, os Centros de Controle e Prevenção de Doenças (CDC) monitoram doenças semelhantes à gripe (ILI) nos EUA, rastreando e analisando a atividade da gripe para obter uma boa imagem da taxa de incidência, proporção de prevalência e taxa de ocorrência de ILI ao longo do ano [fonte: Harvard Health Publications ]. Para fins de rastreamento, o CDC considera uma febre de pelo menos 100 graus Fahrenheit (37,8 graus Celsius) com tosse e/ou dor de garganta como ILI.

O CDC monitora esses números com dados coletados por várias fontes, incluindo departamentos de saúde locais e estaduais, 122 escritórios de saúde pública e estatísticas vitais, quase 3.000 unidades de saúde ambulatoriais, mais de 270 laboratórios e relatórios do sistema de vigilância FluSurv-NET [fonte : CDC ]. Todas essas peças são divididas em cinco categorias de informações úteis:

  1. Vigilância viral - relatórios de laboratório sobre o número de amostras respiratórias colhidas naquela semana e qual porcentagem foi, de fato, confirmada de gripe
  2. Mortalidade — dados sobre a proporção de mortes relacionadas à pneumonia e influenza (P&I) e notificações de mortes pediátricas associadas à influenza
  3. Hospitalizações – hospitalizações relacionadas à gripe confirmadas
  4. Vigilância Ambulatorial de Doenças — rastreando o número de consultas ambulatoriais para ILI
  5. Propagação geográfica da doença - o nível estimado de atividade da gripe por estado, que pode ser generalizada, regional, local, esporádica ou nenhuma atividade

A partir da 40ª semana do ano – que é o início da temporada de gripe de outubro a maio – o CDC distribui relatórios semanais de atividade da gripe.

As informações que o CDC circula destinam-se a ser um instantâneo das tendências atuais da gripe, não números específicos de pessoas que contraíram a gripe durante essa temporada ou ano de gripe. O foco está em saber se os surtos de gripe estão ocorrendo, onde a gripe está sendo relatada, quando foi relatada e quais vírus da gripe são os culpados.

Embora os dados divulgados pelo CDC forneçam uma imagem precisa das tendências da gripe, esses dados, uma vez compilados e analisados, também têm uma a duas semanas. Ele não pode dizer se um novo bolsão de gripe surgiu em uma cidade específica no fim de semana anterior, mas é bom para medir o impacto geral da gripe na população dos EUA, além de fazer recomendações de saúde pública relacionadas à gripe.

Por exemplo, ao monitorar quais cepas de influenza estavam circulando na temporada de gripe de 2014, os epidemiologistas do CDC foram capazes de dizer com dados coletados entre 1º de outubro e 22 de novembro que uma das três cepas escolhidas incluídas na vacina contra a gripe daquele ano havia sofrido mutação, e a vacina seria menos eficaz naquela temporada.

Mas e se você quiser saber mais sobre aquela epidemia de gripe que está se espalhando por uma cidade próxima? O Google gostaria de ajudar com isso.

Sobre o Google Tendências da Gripe

Quase três quartos dos americanos pesquisaram informações de saúde on-line no ano passado.

Cerca de 72% dos adultos americanos admitem que pesquisaram informações de saúde on-line no ano passado – cerca de 90 milhões de pessoas, principalmente procurando informações sobre condições específicas, como tosse ou gripe, ou tratamentos como antibióticos. E mais de três quartos daqueles que pesquisam informações de saúde on-line iniciam suas pesquisas no Google, Bing ou Yahoo [fontes: Fox , Ginsberg ]. Pense no tipo de informação que está nos bancos de dados dos mecanismos de busca. Bem, o Google fez.

O Google Flu Trends (GFT) é uma ferramenta de vigilância da gripe baseada na Internet que usa dados de consulta de pesquisa agregados para prever tendências da gripe em mais de 25 países, incluindo os EUA. depois que a ideia surgiu de picos sazonais observados de certos tipos de termos de pesquisa.

Por exemplo, quando as alergias da primavera atacam, é mais provável que procuremos anti-histamínicos do que durante a temporada de gripe do inverno, quando é mais provável que procuremos informações sobre nossos sintomas de resfriado e gripe, como febre ou calafrios.

Os engenheiros do Google usaram cinco anos de big data histórico - e queremos dizer grande. Eles usaram seu banco de dados de 50 milhões das consultas de pesquisa pré-filtradas mais usadas para estabelecer uma linha de base da atividade geral da gripe. O algoritmo inicial para a ferramenta de previsão dependia apenas de dados de consulta de pesquisa regionais relacionados à gripe (regional com base no endereço IP), incluindo tópicos abrangentes, como sintomas gerais de gripe, remédios para resfriado e medicamentos antivirais.

O algoritmo compara dados de consulta de pesquisa em tempo real - a palavra ou frase que você usou como termo de pesquisa, como "dor de garganta" - com a linha de base para determinar os níveis de atividade regional da gripe, variando entre cinco classificações, de mínima a intensa. Teoricamente, a GFT poderia fornecer relatórios atuais (quase em tempo real) da atividade da gripe e prever surtos de gripe semanas antes do CDC compilar um relatório.

De acordo com os inventores da GFT, porém, os relatórios em tempo real da GFT devem ser usados ​​como informações complementares aos dados clínicos e virológicos na vigilância tradicional (o CDC e suas redes). A detecção rápida do GFT destina-se a ajudar na detecção precoce não apenas de epidemias de gripe, mas também na identificação de cepas virais e no potencial de pandemias.

GFT: Atualizações de Modelos, Precisão e Armadilha de Big Data

Um dos problemas com a análise de dados de pesquisa para determinar tendências de doenças é que ele não leva em conta as pessoas que não estão doentes, mas estão preocupadas com a possibilidade de encontrar alguma coisa.

Antes da temporada de gripe de cada ano novo, o modelo Google Flu Trends é atualizado com 45 das consultas mais úteis relacionadas à gripe de anos anteriores (esses termos de pesquisa especiais são escolhidos usando regressão logística, mas as consultas exatas e como elas são ponderadas outros são mantidos em segredo).

Além disso, as estimativas de pós-temporada da GFT são avaliadas em relação aos relatórios tradicionais de vigilância de dados usados ​​pelo CDC para ver quão bem os dois combinam. Com base na capacidade da ferramenta de previsão de estimar com precisão quando a temporada de gripe desse ano começa, quando a temporada atingirá o pico e quão grave será, o modelo pode ser atualizado. Quando foi lançada em 2008, a GFT tinha uma correlação média de 97% com os dados do CDC [fonte: Ginsberg ].

Em setembro de 2009, o modelo para a versão americana do Google Flu Trends recebeu sua primeira atualização para incluir dados de consulta de pesquisa do surto de H1N1. Isso porque o modelo da GFT havia subestimado completamente a pandemia de gripe suína H1N1 (que aconteceu no verão). E então continuou a errar o alvo.

Durante a temporada de gripe 2011/2012, a GFT superestimou a prevalência da gripe em 50%. A GFT também superestimou a temporada de gripe 2012/2013, prevendo o dobro do número de consultas ambulatoriais relacionadas ao ILI que o CDC realmente relatou. No auge da temporada de gripe 2013/2014, a GFT estimou que até 11% da população dos EUA estava gripada. Se isso parece muito, é porque é – o CDC, em comparação, relatou 6% naquela temporada. Pesquisadores relatam que a precisão da ferramenta pode ser muito pior; eles descobriram que a partir de agosto de 2011 a GFT havia superestimado em 100 das 108 semanas [fontes: Hodson , Walsh , Lazer ].

A explicação mais comum para a superestimação da prevalência de gripe do Google não é nada mais do que nossa própria agitação quando a temporada de gripe chega - você sabe, quando você pesquisa a palavra "tosse" em um esforço para descobrir se está ficando gripado, um resfriado ou, talvez, espere, pode ser pneumonia? O uso da mídia de frases como "a pior temporada de gripe em anos" e reportagens da mídia sazonal da gripe também contribuem para nossas buscas obcecadas por tosse. O problema é que a GFT não sabe se você está doente ou apenas preocupado em ficar doente; considere que apenas cerca de 10 por cento de todas as pessoas que procuram atendimento médico para a gripe realmente têm gripe [fonte: Salzberg ]. As pesquisas do Google não têm contexto e não conhecem sua intenção.

Mas essa pode não ser a resposta completa.

Além do hype da mídia relacionado ao ILI que infla as pesquisas de gripe, trabalhar com big data pode levar a correlações que podem não ser precisas. É a armadilha do big data. Embora os resultados da mineração dos dados possam mostrar uma relação entre as consultas de pesquisa sazonais e, digamos, as visitas ao médico, a enorme massa do conjunto de dados sugere que a precisão da correlação não pode ser confiável.

Outra questão sobre a superestimação da GFT está nas atualizações do algoritmo do próprio mecanismo de busca do Google. Os pesquisadores propõem que a introdução do recurso de sugestão automática na Pesquisa do Google mudou o comportamento do usuário para o potencial de superestimação no GFT; os usuários que procuravam por um sintoma de gripe agora estavam sendo incentivados a procurar mais termos relacionados à gripe (recomendados pelo Google), influenciando as pesquisas gerais relacionadas ao ILI.

Em 2012, o mecanismo de busca começou a incluir possíveis condições relacionadas aos sintomas consultados, também potencialmente aumentando o problema de superestimação.

No entanto, após um fraco desempenho novamente na temporada de gripe 2012/2013, o algoritmo da GFT foi novamente atualizado. Ele agora minimizaria quaisquer irregularidades causadas pela mídia e faria suas previsões com base em um método estatístico chamado ElasticNet (que é um modelo linear generalizado de regressão regularizada). Mas ainda havia espaço para melhorias; o algoritmo revisado ainda superestimou em até 30% [fonte: Lohr ].

Em 2014, os engenheiros da GFT atualizaram a ferramenta GFT para incluir não apenas dados de pesquisa atualizados, mas também os chamados pequenos dados clínicos e virológicos tradicionais do CDC para a temporada de gripe 2014/2015. Tanto engenheiros quanto cientistas concordam que uma combinação dessas informações deve levar a resultados mais precisos.

Muito Mais Informações

Nota do autor: como funcionam as tendências da gripe do Google

Que semana para mergulhar na gripe; o dia em que escrevi sobre como o CDC monitora e analisa os dados da gripe foi o mesmo dia em que as autoridades de saúde do CDC anunciaram que a temporada de gripe deste ano poderia ser grave - porque uma das cepas de vírus (e a mais dominante até agora nesta temporada) usada na vacina deste ano sofreu mutação. Fique de olho no Google Tendências da Gripe.

Artigos relacionados

  • Devo tomar uma vacina contra a gripe?
  • Como o Google funciona
  • Por que o algoritmo do Google é tão importante?
  • Como a gripe se espalha?
  • 14 remédios caseiros para a gripe

Mais ótimos links

  • Google.org - Tendências da gripe (GFT)
  • CDC - Relatório Semanal de Vigilância da Gripe nos EUA
  • CDC - Gripe Sazonal: Fundamentos da Gripe

Origens

  • ARC, Nicole. "O Google Flu Trends errou: a ferramenta de previsão de gripe é atualizada." Tempos Tecnológicos. 1º de novembro de 2014. (5 de dezembro de 2014) http://www.techtimes.com/articles/19247/20141101/google-flu-trends-got-it-wrong-flu-prediction-tool-gets-updated .htm
  • Artur, Carlos. "O Google Flu Trends não é mais bom em prever a gripe, descobriram os cientistas." O guardião. 27 de março de 2014. (5 de dezembro de 2014) http://www.theguardian.com/technology/2014/mar/27/google-flu-trends-predicting-flu
  • Butler, Declan. "Quando o Google errou na gripe." Natureza. 13 de fevereiro de 2013. (5 de dezembro de 2014) http://www.nature.com/news/when-google-got-flu-wrong-1.12413
  • Centros de Controle e Prevenção de Doenças. "Mortes: dados finais para 2011." (5 de dezembro de 2014) http://www.cdc.gov/nchs/data/nvsr/nvsr63/nvsr63_03.pdf
  • Centros de Controle e Prevenção de Doenças. "Gripe (gripe)." 4 de dezembro de 2014. (5 de dezembro de 2014) http://www.cdc.gov/flu/
  • CNBC. "As 10 principais causas de morte do mundo." (5 de dezembro de 2014) http://www.cnbc.com/id/101388499/page/1
  • Copeland, Patrick. "Tendências de doenças do Google: uma atualização." Google.org. (5 de dezembro de 2014) http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/pubs/archive/41763.pdf
  • Fox, Susana. "A vida social da informação em saúde." Centro de Pesquisa Pew. 15 de janeiro de 2014. (5 de dezembro de 2014) http://www.pewresearch.org/fact-tank/2014/01/15/the-social-life-of-health-information/
  • Fung, Kaiser. "O fracasso do Google Flu Trends mostra bons dados > Big Data." Harvard Business Review. 25 de março de 2014. (5 de dezembro de 2014) https://hbr.org/2014/03/google-flu-trends-failure-shows-good-data-big-data/
  • GINSBERG, Jeremy. "Carta: Detectando epidemias de gripe usando dados de consulta do mecanismo de pesquisa." Natureza. Vol. 457. Páginas 1012-1014. 19 de fevereiro de 2009. (5 de dezembro de 2014) http://www.nature.com/nature/journal/v457/n7232/suppinfo/nature07634.html
  • Goldschmidt, Debra. "CDC: A vacina contra a gripe é menos eficaz este ano porque o vírus atual sofreu uma mutação." CNN. 4 de dezembro de 2014. (5 de dezembro de 2014) http://www.cnn.com/2014/12/04/health/flu-vaccine-mutated-virus/
  • Google.org. "Tendências da gripe." 2014. (5 de dezembro de 2014) http://www.google.org/flutrends/
  • Harvard Medical School - Universidade de Harvard. "10 mitos da gripe." (5 de dezembro de 2014) http://www.health.harvard.edu/flu-resource-center/10-flu-myths.htm
  • Hodson, Hal. "O Google Flu Trends erra três anos seguidos." NewScientist. 13 de março de 2014. (5 de dezembro de 2014) http://www.newscientist.com/article/dn25217-google-flu-trends-gets-it-wrong-three-years-running.html
  • Lazer, David. "O Google Flu Trends ainda parece doente: uma avaliação da temporada de gripe 2013-2014." Rede de Pesquisa em Ciências Sociais. 13 de março de 2014. (5 de dezembro de 2014) http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2408560
  • Lazer, David. "A Parábola do Google Flu: Armadilhas na Análise de Big Data." Ciência. Vol. 343, No. 6176, Páginas 1203-1205. 14 de março de 2014. (5 de dezembro de 2014) http://www.sciencemag.org/content/343/6176/1203
  • Lohr, Steve. "Tendências da gripe do Google: os limites do Big Data." O jornal New York Times. 28 de março de 2014. (5 de dezembro de 2014) http://bits.blogs.nytimes.com/2014/03/28/google-flu-trends-the-limits-of-big-data/
  • Oremus, Will. "Tornando-se viral." Ardósia. 9 de janeiro de 2013. (5 de dezembro de 2014) http://www.slate.com/articles/technology/technology/2013/01/flu_shot_time_google_flu_trends_predicts_worst_season_on_record.html
  • Salzberg, Steven. "Por que o Google Flu é um fracasso." Forbes. 23 de março de 2014. (5 de dezembro de 2014) http://www.forbes.com/sites/stevensalzberg/2014/03/23/why-google-flu-is-a-failure/
  • Stefansen, Cristiano. "O Google Flu Trends ganha um novo mecanismo." Blog de pesquisa do Google - Google. 31 de outubro de 2014. (5 de dezembro de 2014) http://googleresearch.blogspot.com/2014/10/google-flu-trends-gets-brand-new-engine.html
  • Stromberg, Joseph. "Por que o Google Flu Trends não consegue rastrear a gripe (ainda)." Revista Smithonian. 13 de março de 2014. (5 de dezembro de 2014) http://www.smithsonianmag.com/ist/?next=/science-nature/why-google-flu-trends-cant-track-flu-yet-180950076/
  • Walsh, Bryan. "O Projeto Flu do Google mostra as falhas do Big Data." Tempo. 13 de março de 2014. (5 de dezembro de 2014) http://time.com/23782/google-flu-trends-big-data-problems/