KNIMEMachine Learning

Acompanhe a expansão do COVID-19 com KNIME

Mostrar a expansao do virus

Ao acompanhar a situação mundial conseguimos observar o quão rápido é a expansão do COVID-19 em todo mundo. A alta taxa de contágio é visível ao se acompanhar vários países como China, Itália, Coréia do Sul, EUA entre outros, isso apesar das severas medidas de contenção.

Um informativo detalhado destes números pode ser encontrado no artigo muito popular – “Coronavírus: Por que você deve agir agora” – de Tomas Pueyo  , que aborda a importância da tomada de ações rápidas, para a contenção do COVID-19.

A diferença impressionante de disseminação da doença fora da China comparada à taxa de disseminação dentro da China mostra quão eficazes foram as medidas de contenção adotadas nos país. Ao mesmo tempo, isso também evidencia o perigo que o vírus representa ao resto do mundo. 

Quais são os países mais afetados?

Países como a Coréia do Sul, Irã, Itália e EUA são os países mais afetados fora da China. Entretanto, a situação tem mudado consideravelmente toda semana. 

Reproduzimos esse gráfico de linhas e outros gráficos gratuitos em uma aplicação web para download, detalhando a situação atual dos cados de COVID-19 ao redor do mundo. Dividimos esses dados para explorar a situação por continente e por país.  Vamos começar pela:

Ásia

continente asiático representação

Vamos começar com um detalhamento dos dados da Ásia, onde a epidemia começou. Os números acumulados de casos confirmados de COVID-19 por país na Ásia, atualizados em 30 de março de 2020 são mostrados na figura 2.a;

 fig.2a Números cumulativos de casos confirmados de COVID-19 por dia nos países da Ásia.
fig.2a Números cumulativos de casos confirmados de COVID-19 por dia nos países da Ásia.

A figura 2a mostra o alto número de casos na China, Coréia do Sul e Irã. O achatamento da curva da China e da Coréia do sul dá esperança a todos os outros países que ainda combatem o vírus. 

Medidas de bloqueio  e rastreamento de pessoas foram aplicadas na Coréia do Sul desde 20 de fevereiro. Aparentemente demorou cerca de duas semanas para que os efeitos de tais medidas aparecessem na trama. 

O alto número de casos na China, Coréia do Sul e Irã dificultam a visualização do que está acontecendo em outros países. Para melhor visibilidade dos detalhes, esse mesmo gráfico de linhas foi movido para uma escala logarítmica no eixo Y (Fig. 2b). 

Aqui as tendências para todos os países e não apenas a China, Coréia do Sul e Irã podem ser vistas com mais facilidade. Observe que em uma escala logarítmica tudo se torna menos dramático. 🙂

Curvas exponenciais se tornam linhas e o crescimento mais lento se torna mais evidente.

Por exemplo, podemos ver que o crescimento do número de casos confirmados na Coréia do Sul diminuiu muito mais do que no Japão, mesmo que os dois intervalos de números acumulados sejam bastante distintos. 

Observando quem tem mais experiência com o COVID-19

A investigação das curvas para os países asiáticos é uma peça muito importante do quebra-cabeça, já que esses países foram afetados pela epidemia mais cedo e, portanto, têm mais experiência em lidar com ela. 

Ao verificar estas curvas, podemos aprender mais sobre a propagação da doença e a eficácia das medidas de contenção. 

Para a Coréia do Sul, o início da epidemia pode ser datado de 20 de janeiro; um grande aumento ocorreu em meados de fevereiro até o início da desaceleração, no início de março. Isso confirma o número de duas semanas antes das medidas de contenção entrarem em vigor. 

A curva do Japão começa um pouco mais cedo, cresce de forma semelhante à curva da Coréia do Sul no início, acelera no início de fevereiro, mas continua a crescer de forma constante. Não há nenhum sinal de desaceleração como na Coréia do Sul. 

 Fig. 2b . Escala logarítmica de números cumulativos de casos confirmados de COVID-19 por dia em países da Ásia.
Fig. 2b . Escala logarítmica de números cumulativos de casos confirmados de COVID-19 por dia em países da Ásia. 

No oeste vemos o crescimento do COVID-19 no oriente médio, principalmente no Irã. A propagação da doença aqui começa mais tarde do que no extremo Oriente, mas segue a mesma tendência dramática, sem sinais de desaceleração por enquanto. 

EUROPA 

representação continente Europeu

A figura 3a, abaixo mostra a dramática situação da Europa onde a Itália lidera com os números mais alarmante de casos confirmados. Medidas severas de bloqueio foram implementadas na Itália a partir do início de março, inicialmente de forma mais branda,  depois de forma mais rígida a partir de 9 de março. 

Embora podemos ver o início de uma desaceleração do aumento no número de casos confirmados para a Itália, ainda é cedo para afirmar que os efeitos de tais medidas entraram na curva de gráfico. 

 Fig. 3a. Números cumulativos de casos confirmados de COVID-19 por dia em todos os países da Europa.
Fig. 3a. Números cumulativos de casos confirmados de COVID-19 por dia em todos os países da Europa. 

No entanto, os números sobre a disseminação de contágio não contam toda a história. A outra face de uma epidemia é a sua mortalidade, ou seja, o número de mortes. Um gráfico semelhante ao da figura 3a é mostrada na figura 3b. 

Desta vez no eixo Y, vemos o número acumulado de mortes por COVID-19 em oposição ao número de casos confirmados. Esse gráfico é semelhante ao da figura 3a, com a Itália pagando o maior preço. 

Até agora a doença está começando a reivindicar seu preço também na Espanha. Em outros países, com início posterior da epidemia, a doença ainda não aparece tão letal. 

 Fig 3b. Números acumulados de mortes por COVID-19 por dia nos países da EUROPA
Fig 3b. Números acumulados de mortes por COVID-19 por dia nos países da EUROPA

O tumulto dramático da curva da Itália para o número de casos confirmados não é o único fato preocupante da trama na figura 3a. Observe que a Alemanha, a França e a Espanha são os próximos países na fila para a expansão exponencial do contágio. Sua curva parece esta seguindo de perto a curva da Itália, apenas atrasando o tempo em termos de números.

Medidas de contenção foram aplicadas nesses países nas últimas semanas, seguindo a a decisão que os lideres italianos aplicaram há algumas semanas. Definitivamente, é muito cedo para qualquer efeito nas parcelas.

Aprendendo com a experiência anterior

Outro gráfico popular que esteve visível na internet nos últimos dias foi produzido por Mark Handley e está disponível em sua conta no Twitter. É um gráfico de linhas de números cumulativos em que o tempo no eixo X foi normalizado como o número de dias desde o início da epidemia no país. 

Considerando o tempo zero como o momento em que os primeiros casos de COVID-19 foram confirmados no país, a curva é posteriormente plotada ao longo do número de dias a partir desse momento zero. 

A vantagem dessa visão é a sobreposição de curvas como se elas estivesse evoluindo ao mesmo tempo. É uma maneira de os países aprenderem agora com a experiência dos países que foram afetados anteriormente (Fig 4). 

Fig 4. Números acumulados de casos confirmados de COVID-19 por dia em 10 dos países mais afetados. O tempo no eixo x foi normalizado como o número de dias desde o início das epidemias no país, que definimos como o primeiro dias com pelos menos 20 casos.
Fig 4. Números acumulados de casos confirmados de COVID-19 por dia em 10 dos países mais afetados. O tempo no eixo x foi normalizado como o número de dias desde o início das epidemias no país, que definimos como o primeiro dias com pelos menos 20 casos.

Mark Handley usou esse gráfico no início de março para mostrar o que estaria por vir para países como Alemanha, EUA ou França se eles não adotassem medidas urgentes de contenção. 

De fato, muitos países europeus mostraram o mesmo início de curva que o início na Itália; o que poderia indicar uma evolução semelhante se nenhuma medida anterior de contenção for tomada. 

Aqui podemos ver que, até agora, os EUA alcançaram e superaram rapidamente a Itália em números de casos confirmados, mesmo que alguns dias antes no eixo do tempo. Alemanha, França e Espanha devem seguir a tendência inicial estabelecida pela Itália. 

Situação na Itália

Comparando a Itália com a China, podemos ver que o início precoce da epidemia nos dois países é semelhante, embora a China tenha começado a ver uma limitação  no crescimento de casos confirmados cerca de um mês após o início. 

De acordo com este gráfico e assumindo que as medidas de contenção têm os mesmos efeitos nos dois países, podemos esperar que o crescimento diminua na Itália na próxima semana. 

Observe que “supor que as medidas de contenção tenham os mesmos efeitos nos dois países” é uma suposição amplamente não verificada, uma vez que a Itália não implementou o rastreamento de sua população. 

Também é digno de menção o fato de que a demografia dos dois países é bastante diferente, assim como o tamanho e o sistema de saúde. 

América do Norte 

representação continente e América do norte

A tendência mais preocupante para a América do Norte é a dos EUA ( Fig 5a ). A  rápida disseminação da doença se assemelha aos primeiros pontos de dados para os países europeus ( Fig. 4). 

O Canadá tem um número menor de casos confirmados de COVID-19 em comparação com os EUA. No entanto, se inspecionarmos a curva logarítmica, podemos ver que a agressividade da propagação da doença é semelhante ( Fig 5b).

 Fig 5a. Números cumulativos de casos confirmados de COVID-19 na América do Norte.
Fig 5a. Números cumulativos de casos confirmados de COVID-19 na América do Norte. 

 Fig 5b. Escala logarítmica de números cumulativos de casos confirmados de COVID-19 na América do Norte.
Fig 5b. Escala logarítmica de números cumulativos de casos confirmados de COVID-19 na América do Norte. 

África, Oceania e América do Sul

Em 30 de março de 2020, não havia relatos de um número significativo de caso confirmados na África, América do Sul e Central e também na Oceania, embora a rápida disseminação do vírus também proponha de medidas de isolamento. 

Geral no mundo

Virus para ilustrar artigo
Os números de casos confirmados pelo COVID-19 mudam todos os dias

Os números acumulados e o achatamento da curva não contam toda a história. Podemos analisar mais detalhadamente a situação verificando o número de novos casos confirmados, dia após dia, nos países mais afetados ( Fig. 6)

Aqui podemos ver um salto dramático no número de casos confirmados de COVID-19 em todo o mundo em 19 de março de 2020. O dia 12 de março possui dados incompletos, e é por isso que os números são menores que o esperado. 

Pesquisando país por país, não vemos dados – isto é, número desprezível de casos confirmados – para a China e a Coréia do Sul. Pelo contrário, vemos o grande aumento diário do número de casos confirmados nos EUA ( azul mais escuro ). Também podemos ver o aumento relativamente constante dia a dia na Itália ( azul claro), Espanha (Laranja), Alemanha (verde mais escuro) e França (verde mais claro), que, dada a situação, podem se dizer em estado otimista mais requerem cautela.. 

 Fig 6. Números diários de novos casos confirmados de COVID-19 nos países mais afetados
Fig 6. Números diários de novos casos confirmados de COVID-19 nos países mais afetados

A aplicação web

Por fim, vamos abandonar o triste campo de contágio e morte e simplesmente ver como implementamos esta aplicação web usando, análises guiadas. 

Consiste em duas páginas onde a primeria mostra o gráfico geral de casos confirmados de mortes em todo o mundo (exibido na Fig 1). Aqui também podemos selecionar o tipo de análise que queremos realizar: em todo o mundo ou para um continente específico; contando o número de casos confirmados e óbitos. 

 Fig 7. Primeira página do aplicativo da web para visualizar dados do COVID-19 em todo o mundo. Aqui você pode selecionar se deseja exibir o número de casos confirmados, mortes e recuperações para um continente específico nas próximas páginas.
Fig 7. Primeira página do aplicativo da web para visualizar dados do COVID-19 em todo o mundo. Aqui você pode selecionar se deseja exibir o número de casos confirmados, mortes e recuperações para um continente específico nas próximas páginas. 

Ao clicar em “Avançar” no canto inferior direito da página, passamos para a segunda página do aplicativo web (Fig 8). É aqui que você encontrará todos os sub-gráficos que mostramos nas Figuras 2, 3, 4, 5 e 6, além de um mapa coroplético mundial.

Todas as views são interativas. Você pode adicionar e remover países de/para a lista, aumentar e diminuir o zoom das seções do gráfico, selecionar pontos de dados e mostrar os mesmos pontos de dados em todos os outros gráficos também.

Uma ferramenta que democratiza a análise de dados

 Fig 8. Segunda página da aplicação web para visualizar dados do COVID-19 em todo o mundo. É aqui que as plotagens e gráficos descritos acima são exibidos. Nesse caso, vemos o painel apenas para países europeus.
Fig 8. Segunda página da aplicação web para visualizar dados do COVID-19 em todo o mundo. É aqui que as plotagens e gráficos descritos acima são exibidos. Nesse caso, vemos o painel apenas para países europeus. 

Nenhuma codificação foi necessária para desenvolver essa aplicação, pois ele foi desenvolvido usando a plataforma KNIME Analytics de código aberto. 

O fluxo de trabalho (workflow knime) que implementa esta aplicação chama-se “COVID-19 Live Visualization using Guided Analytics” e é gratuito, podendo ser baixado no KNIME hub.

Fig 9. O Workflow KNIME que implementa a aplicação web para visualizar dados do COVID-19 em todo o mundo e que pode ser baixado no KNIME hub e executado na plataforma KNIME analytics.
Fig 9. O Workflow KNIME que implementa a aplicação web para visualizar dados do COVID-19 em todo o mundo e que pode ser baixado no KNIME hub e executado na plataforma KNIME analytics. Direitos de imagem CC-BY -4.0

O workflow obtém os dados fornecidos por este repositório do Github via API REST. Os serviços de API verificam o 2019-nCov Data Repositoroy por Johns Hopkins CSSE e armazenam em cache os dados mais recentes a cada hora. Cada vez que o fluxo de trabalho é executado, obtemos mais dados em cache da API.

Consumindo Dados via API

Se a API for interrompida por qualquer motivo, o fluxo de trabalho do KNIME mesmo assim exibira os dados já armazenados por meio de um node simples chamado Table Reader. O arquivo .table do KNIME é armazenado no fluxo de trabalho e atualizado toda vez que fluxo de trabalho é executado no KNIME Analytics Platform. 

Em seguida, o fluxo de trabalho processa os dados estruturados em JSON usando uma extensão KNIME apropriada, anexa uma coluna com o nome do continente a cada registro, adiciona o timestamp correto, reconhece valores missing e finalmente visualiza a primeira página do aplicativo usando o component “COVID-19 Visão geral”. 

Usando os single selection widgets,  o usuário pode selecionar a categoria de casos de pacientes (por exemplo, casos confirmados) e continente (por exemplo, Europa) a serem visualizados. No próximo componente, chamado de “Foco de COVID-19”, mais informações sobre a respectiva seleção podem ser visualizadas via Plotly e Google GeoChart e outros nodes javascript para KNIME. 

O fluxo de trabalho pode ser implementado no KNIME WebPortal via KNIME Server como um aplicativo baseado na Web, onde toda essa complexidade está oculta aos olhos do usuário. 

O usuário pode acessar as visualizações combinadas (ou painéis) através de um link simples a partir de qualquer navegador da Web e interagir com ele para visualizar os dados disponíveis mais recentes sobre a crise do coronavírus.

Por exemplo, alguns fluxos de trabalho estão disponíveis no KNIME Hub, fluxo de trabalho de Paolo Tamagnini, visualizando dados de vírus COVID-19 para a região da Itália por região. 

Sinta-se à vontade para baixar os fluxos de trabalho, personalizar, compartilhar de novo nas mídias sociais e comentar no Fórum do KNIME .

Conclusão

A plataforma KNIME é uma incrível ferramenta open source, que automatiza e facilita qualquer processo baseado em dados – desde a extração e transformação dos dados, seguido pela aplicação de técnicas de análise e machine learning até a entrega dos resultados por meio de reporting.

O projeto que você acabou de conhecer é só mais uma das incríveis aplicações possíveis de serem construídas em KNIME. O uso da plataforma KNIME possibilita focar diretamente no que é mais importante que é: “extrair resultados e insights de forma ágil dos dados”.

Nós da Hupdata somos os representantes oficiais do KNIME no Brasil. Conte com a gente para conhecer esta ferramenta que tanto vai aumentar a produtividade de suas análises e automatizar muitos processos em sua empresa.

Acompanhe nossos posts que sempre trazemos casos novos de soluções baseadas em dados. Todos juntos torcemos para que estes tempos difíceis passem o mais rápido possível. Você sempre pode entrar em contato conosco.


Referências

O projeto acima foi desenvolvido por Paolo Tamagnini e explanado em forma de artigo, originalmente por Rosaria Silipo no post original do toward data science onde ela compartilha e descreve este projeto de monitoramento do COVID-19 usando KNIME, desenvolvido por Paolo Tamagnini.

link original: https://towardsdatascience.com/following-the-spread-of-coronavirus-23626940c125

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *