Automatização de DadosExcelNegociosTransformação Digital

Como automatizar 5 tarefas de dados do dia a dia com KNIME

Como auotmatizar 5 tarefas de dados com KNIME

Neste artigo, vamos mostrar como você pode automatizar 5 tarefas de dados para simplificar seu dia a dia na empresa. Utilizaremos KNIME Analytics Platform, que é uma ferramenta de código aberto, que permite acessar, combinar e visualizar dados sem qualquer codificação.

1 – Importação de Dados

Antes de trabalhar com seus dados, você deve garantir que eles sejam consistentes. A importação eficiente de dados, mesmo que sejam de fontes diferentes, garante que as informações relevantes estejam rapidamente disponíveis para análise.

Fontes de dados ou formatos de arquivo que não são diretamente suportados ou facilmente integrados à sua planilha são normalmente chamados de fontes incompatíveis. Por exemplo, dados armazenados em plataformas de nuvem como o Google Drive requerem uma série de etapas adicionais para serem
importados para a planilha.

Escrever uma “macro única” para importar dados é um desafio devido à variabilidade nas estruturas de dados. Por exemplo, ao importar um arquivo CSV, ele pode usar diferentes tipos de delimitadores (vírgulas, ponto e vírgula e assim por diante) ou alguns arquivos possuem uma linha de cabeçalho
que rotula as colunas.

Uma alternativa é usar técnicas de ciência de dados, que são projetadas especificamente para facilitar a importação de dados de várias fontes. Vamos imaginar que a cada mês você tenha acesso a dois arquivos diferentes, informações de faturas armazenadas em um arquivo Excel e uma lista de produtos mantida centralmente em uma Planilha Google.

Na imagem abaixo, você pode ver um fluxo de trabalho KNIME que acessa o Planilhas Google e o arquivo Excel para importar os dados. KNIME oferece mais de 300 fontes de dados suportadas e você pode acessar dados de qualquer lugar. Possui nodes específicos que permitem carregar dados, tornando a importação de dados fácil e acessível.

Exemplo de Fluxo de trabalho para importar dados automaticamente.

2 – Limpeza e Formatação de Dados

Dados precisos, consistentes e limpos são essenciais para qualquer processo analítico. Você pode apostar que, se os seus dados apresentarem inconsistências ou erros, isso vai refletir nos resultados.

Macros para limpeza de dados são muito populares porque o processo manual é doloroso. Seus dados contêm datas, horários, preços, quantidades de lote e muito mais, mas tudo precisa ser convertido do formato de texto no seu arquivo .csv para o formato correto.

 problema com a macro, no entanto, é que todo mês, quando novos registros chegam  e são importados automaticamente para a planilha, você ainda precisa se certificar de que a macro está abrangendo as células dos seus dados novos. Se a macro só funciona até a linha 11.000 e seus novos
dados vão além, ela não será mais aplicada.

No KNIME, a formatação de dados é feita arrastando e soltando “nodes” em um fluxo de trabalho. Executamos o processo enviando os dados por ele. Podemos rodar esse processo em qualquer quantidade de dados porque o fluxo de trabalho considera facilmente quaisquer alterações feitas na fonte.

No exemplo abaixo, você pode ver como converter automaticamente os valores iniciais de string do seu arquivo csv para os formatos corretos das datas dos pedidos e datas de envio. Graças ao ambiente intuitivo de baixo código, o processo é transparente; você pode adicionar documentação adicional, se desejar, e compartilhar facilmente essa “macro” – o fluxo de trabalho do KNIME – com colegas ou simplesmente continuar usando a cada mês quando seus novos dados de vendas chegarem. 

Abaixo um fluxo de trabalho para converter e reformatar datas. Usando uma ferramenta de ciência de dados, você pode combinar e processar automaticamente todos os diferentes tipos e volumes de dados – strings, números inteiros, imagens, texto, redes, áudio, moléculas e muito mais.

Ilustração da detecção automática de tipo e formato de dados.

Ao usar “Adivinhar tipo e formato de dados”, o fluxo de trabalho KNIME detecta automaticamente os tipos de dados (esquerda) e os formata corretamente (direita)

Dica: 2 recursos úteis para usar quando estiver limpando e formatando dados de data e hora:    

3 – Remover Duplicatas

Duplicatas podem criar inconsistências em seu conjunto de dados. Isso pode afetar a confiabilidade da sua análise de dados e a qualidade dos seus resultados. Duplicatas também podem gerar viés ao distorcer os resultados e fazer com que certos valores ou observações pareçam mais frequentes e importantes do que realmente são.

Por isso, remover duplicatas dos dados garante que cada ponto de dados seja único. Ou seja, seu conjunto de dados consistiria em um único ponto de dados consolidado.

Em sua planilha, você teria que percorrer todas as linhas de dados e excluir as duplicatas manualmente, o que pode ser difícil ao trabalhar com um conjunto de dados grande, ou escrever uma macro para fazer isso por você.

No entanto, a experiência mostra que usar uma macro pode resultar em perda de dados. Ou seja, a macro pode excluir permanentemente as linhas duplicadas, e você não poderá desfazer a ação e recuperá-las sem recriar os dados manualmente.

No KNIME, existe um node específico chamado “Duplicate Row Filter” (Filtro de Linhas Duplicadas) que mantém um histórico claro do fluxo de dados, permitindo que você retroceda, revise ou desfaça qualquer operação, incluindo a remoção de duplicatas.

Isso fornece uma rede de segurança para recuperar dados em caso de erros acidentais. Abaixo está um fluxo de trabalho simples onde você pode escolher remover ou apenas sinalizar linhas duplicadas. Além disso, existem opções sobre quais linhas serão removidas: a primeira, a última, o mínimo ou o máximo.

Exemplo de fluxo de trabalho para remover ou sinalizar duplicatas

Experimente este exemplo de fluxo de trabalho usando o filtro de linha duplicada (Duplicate Row Filter) em seus próprios dados.

4 – Unindo Planilhas

Para qualquer processo ETL, juntar planilhas é uma tarefa comum. Quando você tem dados armazenados em várias tabelas relacionadas entre si com um valor-chave comum, uni-las antes da análise economizará muito tempo e esforço a longo prazo.

Em outras palavras, aprender a unir tabelas corretamente é uma habilidade importante para gerenciar e analisar dados. Existem várias maneiras de unir duas tabelas, cada uma com seu caso de uso e funcionalidade específicos.

Escrever uma macro para unir tabelas pode ser uma tarefa complicada. Isso ocorre porque, na maioria das vezes, as tabelas podem não se alinhar corretamente devido a discrepâncias na estrutura, nos nomes das colunas ou nos tipos de dados. Um simples erro de digitação na macro, por exemplo, “Planilha3” em vez de “Planilha 3”, resulta em erro. Se você precisar realizar diferentes tipos de junção, terá que passar por várias etapas extras para colocar os dados no formato desejado.

Em nosso exemplo KNIME, você pode escolher facilmente como deseja unir seus dados selecionando a respectiva configuração do Joiner Node , por exemplo, Inner Join, Left Join, Right Join e Full Outer Join. O fluxo de trabalho abaixo é um exemplo simples de união de dois conjuntos de dados diferentes, um arquivo de texto e um arquivo CSV usando o Joiner.

Exemplo de fluxo de trabalho para unir dois conjuntos de dados

Que tal tentar replicar este exemplo de fluxo de trabalho usando o node Joiner?

5 – Gere gráficos a partir de dados brutos

O processo de criação de gráficos a partir de dados tem uma importância significativa quando se trata de transmitir insights de forma eficaz por meio da visualização. Digamos que você seja um analista de marketing e queira avaliar o desempenho de uma campanha publicitária on-line.

Você precisa coletar dados sobre várias métricas, como quantas pessoas estão clicando no anúncio, quantos cliques estão se transformando em vendas reais e quanto dinheiro é gasto nesta campanha publicitária.

Ao converter essas linhas de números em representações visuais coloridas, como gráficos de linhas, gráficos de barras ou gráficos de pizza, você pode comunicar tendências e insights de maneira eficaz à sua equipe. Esses gráficos ajudam a identificar quais canais de publicidade apresentam melhor desempenho, onde ajustes são necessários e onde a alocação orçamentária deve ser otimizada.

Escrever uma macro para produzir uma boa visualização geralmente envolve uma curva de aprendizado acentuada e não justifica os esforços e a complexidade que usuários sem experiência em programação teriam que fazer.

Além disso, uma grande desvantagem das macros do Excel é que elas geralmente criam visualizações estáticas sem recursos interativos. Ou seja, elas só conseguem criar uma imagem e você não poderia interagir ou explorá-la.

Com o KNIME, você pode criar painéis limpos, rápidos e diretos. Abaixo está um exemplo de um painel interativo para seus dados no KNIME Analytics Platform. Você pode clicar, ampliar, selecionar e muito mais.

Exemplo de painel interativo (clique na imagem para ampliá-la)

KNIME permite que você explore seus dados com visualizações de dados interativas, escolhendo entre dezenas de gráficos e tabelas, incluindo gráficos de barras, linhas, curvas ROC, gráficos de dispersão e muito mais. Você também pode estender as opções de visualização com outras ferramentas, como Tableau e PowerBI.

Simplifique e automatize suas tarefas de dados

Cada vez mais é importante simplificar nossas atividades envolvendo dados. A jornada para encontrar a melhor solução é importante. A cada etapa de organização de dados, você pode ganhar confiança para tirar suas conclusões dos dados. Aqui exploramos como automatizar 5 tarefas de dados mais comuns de que podem ser simplificada com o KNIME Analytics Platform.

Saiba mais como a HupData tem ajudado empresas de diversos setores a aumentar sua produtividade e eficiência operacional, por meio de automatização de dados.

Adaptação do artigo de Swetha Kannan – Cientista de Dados no KNIME

https://www.knime.com/blog/how-automate-5-common-data-tasks


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *