Ebook

EXCEL : 10 problemas comuns em operações de dados

Eu sei que você ainda usa planilhas do Excel para transformar e / ou analisar seus dados, certo? Bem, a maioria de nós ainda usa até certo ponto. E não há nada de errado em usar o Excel. 

As planilhas do Excel são uma ótima ferramenta para coletar e transformar pequenas quantidades de dados. No entanto, quando o jogo se torna mais difícil e requer maiores quantidades de dados, o Excel começa a mostrar suas limitações.

Você não acredita em mim? Então, vou te mostrar a lista dos problemas mais comuns ao trabalhar com uma planilha do Excel para transformar dados.

Para este post, usei respostas fornecidas por colegas cientistas de dados neste tópico no LinkedIn. Obrigado a todos por contribuir!

Dez problemas comuns com o Excel para operações de dados

1. Sem controle de erros

Um dos principais problema que surgiu de muitas conversas com colegas cientistas de dados: as planilhas do Excel não têm controle de erros e, portanto, são propensas a erros.

De acordo com Meta Browne Karen Hardie, “É fácil alterar inadvertidamente uma célula ou cometer erros. Vi pessoas repentinamente perceberem que uma macro estava errada por uma célula, depois de usar o processo por um longo período , ter que voltar e descobrir quando isso aconteceu”.

Não há ferramenta de depuração nem quadro de teste para inspecionar se todas as células continuam funcionando como esperado, por exemplo, após uma alteração. 

John Peck também comentou que “o Excel é ótimo para cálculos simples e ad hoc, mas sua falta de estrutura e dificuldade em automatizar e documentar o conteúdo tornam seu uso propenso a erros. As análises construídas no Excel tendem a crescer e se expandir, dificultando a validação e o uso em tarefas repetitivas. ”

Esta última dica sobre a dificuldade de usar planilhas do Excel para tarefas repetitivas nos leva à edição # 2.

2. Pouca reutilização no Excel

Este problema vem do conjunto dos meus próprios erros pessoais ao usar planilhas do Excel para gerenciamento de dados profissional e está relacionado à entrada de dados. 

Geralmente os dados são armazenados em uma ou mais colunas de origem em uma planilha do Excel, enquanto as outras colunas contêm macros e fórmulas para o processamento. 

Ao reutilizar a planilha para a análise do mês atual, frequentemente copiamos e colamos os dados manualmente nas colunas de origem dedicadas. 

No entanto, como as linhas de dados do mês atual geralmente são maiores do que a do mês anterior (ex qtd vendas, pedidos) a cópia/colagem pura dos dados acaba cobrindo regiões da planilha que as macros ainda não haviam sido definidas, gerando assim resultados incorretos.  

A falta de uma forma confiável e repetitiva de coletar dados de várias fontes torna a reutilização limitada a processos muito simples.

E se você estiver pensando em usar o Excel como fonte de dados: Roger Fried adverte contra isso!

3. Escalabilidade problemática

Em projetos profissionais de organização de dados, geralmente lidamos com grandes quantidades de dados. Portanto, a escalabilidade costuma ser uma preocupação ao avançar com o projeto. As planilhas do Excel mostram suas deficiências quando grandes quantidades de dados estão envolvidas.

David Langer lista a “velocidade da iteração das análises” como um dos principais problemas do uso de uma planilha do Excel para transformações profissionais de dados. 

Ele diz: “Minha experiência foi que as atuais limitações de linha do Excel (estou ignorando o PowerPivot aqui) não são uma preocupação na grande maioria dos casos. O que me tira do Excel na maioria das vezes é a velocidade da iteração. Por exemplo, na modelagem de regressão linear. ” 

Para Giovanni MaranoDegradação do desempenho e falhas ao executar operações em grandes conjuntos de dados” são uma grande limitação para o uso profissional sério das planilhas do Excel, enquanto Anna Chaney confirma que “o Excel não tem memória suficiente para carregar conjuntos de dados maiores”

David Montfort aponta para o limite em número de linhas processáveis: “O Excel possui um limite de linhas que pode ser um problema com conjuntos de dados muito grandes. Além disso, outros programas oferecem melhores ferramentas estatísticas e de visualização de dados ”.

Portanto, falta de memória, limite de número de linhas, velocidade lenta geral na execução e degradação do desempenho representam um sério problema de escalabilidade ao implementar projetos profissionais de gerenciamento de dados e wrangling. 

4. Baixa cobertura de operações de dados  no Excel

Novamente, as planilhas do Excel funcionam bem em pequenos conjuntos de dados e em um conjunto reduzido de operações de dados. No entanto, quando os projetos se tornam maiores e exigem operações de dados mais sofisticadas, algumas não estão disponíveis no Excel. 

Alessio Nicolai e seu colega Giovanni Marano concentre-se em análises “ad-hoc” (que não exigem um processo escalável). Eles identificaram as seguintes limitações nas operações de dados disponíveis para uma planilha do Excel:

  • As operações em um conjunto de dados filtrado são limitadas (os dados filtrados são apenas “ocultos”)
  • Não há etapas intermediárias na preparação dos dados (por exemplo, ao filtrar)
  • Limitações de fórmulas (por exemplo, sem MAXIFS / MINIFS sem usar fórmulas de matriz computacionalmente caras)
  • Contagem distinta em tabelas dinâmicas não está disponível 
  • O equivalente a Joiner (Vlookup) é desajeitado e não permite a junção Full Outer
  • Marceneiros com várias teclas / marcadores externos completos não são possíveis sem soluções alternativas
  • Ferramentas de análise (como regressões, correlações) são muito básicas
  • O número de linhas na planilha é limitado

Amit Kulkarni acrescenta a dificuldade em referenciar conjuntos filtrados para funções say vlookup e Sayed Bagher Nashemi Natanzi (Milad) gostaria de ter mais opções para classificação e filtragem.

5. Falta de automação no Excel

Totalmente conectado com a falta de reutilização está a falta de automação, como apontado por Tyler Garrett abaixo.

As operações de copiar e colar são comuns ao usar planilhas do Excel, para introduzir novos dados, novas células e novas funções. Todas estas operações não podem ser automatizadas, porque exigem o início da GUI da ferramenta e um certo grau de especialização.

Ou seja, sempre que for preciso calcular novos valores será necessário reabrir o Excel, executar estas operações manuais e recalcular.

“É ótimo para prototipagem, documentação e entrada de nível básico para iniciar um processo de ETL, análise ou ciência de dados, mas realmente o valor começa a desaparecer quando o computador está offline. A “disponibilidade” depende de os computadores estarem LIGADOS, a “validade” só é relevante se os usuários são especialistas (mas até eles cometemos erros) .”

6. Não está aberto

Nós nos referimos a uma ação Copiar e Colar frequentemente até agora. Obviamente, essa não é a única maneira de inserir dados no Excel. Você pode se conectar a bancos de dados e algumas outras ferramentas externas.

No entanto, existe uma infinidade de fontes, tipos e formatos de dados que geralmente são necessários no escopo de um projeto de organização de dados. 

Uma ferramenta de código aberto, geralmente permite conectar, importar e processar várias fontes e tipos de dados diferente, além de integrar scripts fluxos de trabalho de outras ferramentas populares. 

Transparência é outra grande vantagem de uma ferramenta aberta. A possibilidade de entender rapidamente as fórmulas e operações em um piscar de olhos é um recurso importante para passar seu trabalho para outra pessoa ou para interpretar o trabalho de seu colega. 

Alberto Marocchino indicou isso como outra falha no uso de planilhas do Excel na análise de dados. Em particular, ele apontou que: 

  • Você não sabe se uma célula contém uma fórmula ou um valor (dados e análises são mesclados) 
  • As fórmulas estão ocultas nas células 
  • Não há pipeline direto para exportação do painel 
  • Empurra a correção de dados de volta para um banco de dados 

“O Excel pode ser uma ferramenta maravilhosa, depende do uso. É de uso geral e, como a maioria dos usuários de computadores adere ao Windows, é uma maneira nativa de interagir visualmente com o CSV. Mas provavelmente ‘ferramenta geral’ não é necessariamente sinônimo de qualidade quando se trata de análise de dados grave. ”

Essa dificuldade em documentar e comunicar o que acontece na planilha do Excel nos leva diretamente à próxima edição.

7. Colaboração difícil 

Atualmente, nenhum cientista ou engenheiro de dados trabalha mais sozinho. Todos fazemos parte de laboratórios maiores ou menores e todos precisamos nos comunicar com os aplicativos que criamos. 

Depuração de equipe, discussões de recursos, práticas recomendadas e documentação são tarefas necessárias no trabalho diário. O Excel realmente não foi criado para colaboração em grandes equipes.

Ele reside em sua máquina local, preferencialmente hospedando um sistema operacional Windows. Já exportar a planilha para um Mac pode exigir algum esforço extra.

David Springer indica que o “principal problema do Excel é processar dados em um formato proprietário padrão não portátil”. 

A documentação é uma grande parte da colaboração. Michael Reithel observa que “as modificações manuais em uma planilha geralmente não são documentadas e, consequentemente, perdem-se com o tempo, dificultando a reprodução dos resultados”.

Esses são apenas alguns problemas que dificultam a implementação da colaboração em torno do Excel ”.

8. Consome Tempo

A falta de escalabilidade, as operações manuais, as limitações na quantidade de dados tornam todo o processo em torno de uma planilha do Excel bastante demorado, conforme relatado por Hrvoje Gabelica e Tyler Garrett.

Ambos são encorajadores a investigar outras soluções que permitem automação, programação, abertura e melhor escalabilidade.

9. Não é fácil de usar

Em suma, uma planilha do Excel não é fácil de usar. Parece fácil de usar no início, ao dar os primeiros passos no mundo do processamento de dados. No entanto, quando são necessárias operações mais complexas, quando a colaboração é útil, verifica-se que, afinal, não é tão fácil de usar.

Giovanni Marano lista duas razões principais para isso: 

  • As macros do Excel para processos repetidos não são fáceis de usar e difíceis de codificar / depurar no VBA 
  • Quando várias fórmulas / operações são configuradas em uma planilha, você não tem uma visão geral fácil das dependências entre si e, a menos que use codificação VBA complexa, é necessário executar toda a execução ao mesmo tempo

Evert Homan diz que os dados dinâmicos no Excel são complicados. Eu acrescentaria que a falta de visão geral e a dificuldade de apresentar documentação tornam o processamento de dados no Excel bastante hostil ao usuário, mesmo para tarefas simples.

Podemos concluir com Davide Imperati que declara: “É o dispositivo perfeito para gerar dados corrompidos”, pois nem sempre entendemos as funções de processamento.

10. Produzir é difícil

Finalmente, após a implementação, precisamos mover nosso aplicativo para produção. 

Sem agendamento (scheduling), a importação automática de novos dados, de diversas fontes de dados, a redefinição automática de macros antes da reexecução, a mudança para a produção pode ser uma tarefa bastante difícil. 

Isso deixa o Excel como uma excelente ferramenta para conjuntos de dados pequenos e talvez prototipagem, mas inadequada para projetos profissionais de gerenciamento de dados.

Uma poderosa ferramenta em alternativa ao Excel

Os itens listados aqui são apenas os 10 problemas mais comuns que os engenheiros de dados precisam lidar ao trabalhar com planilhas do Excel para armazenar, limpar e transformar seus dados.

Se você ainda está viciado no Excel e luta para obter os dados no formato certo, tente investigar algumas soluções alternativas para análise de dados. Saiba quem nem todas as ferramentas de ciência de dados exigem habilidades de programação ou script. 

Alguns deles são baseados em programação visual, onde arrastar e soltar ícones visuais e sua conexão em um pipeline substitui o script. 

A Plataforma KNIME Analytics é um software de código aberto para análise de dados, com mais de 3000 operações de dados. Ele pode levar seus dados da maioria das fontes e dos formatos para a forma que você precisar e exportar seus resultados na maioria dos formatos disponíveis na maioria das plataformas disponíveis (aberta). 

Ele se baseia em uma GUI (Interface Gráfica com o Usuário), onde você pode arrastar e soltar facilmente um pipeline de operações (chamado “workflow”), que pode ser reutilizado a qualquer momento. 

Graças à sua GUI, é fácil combinar documentação e funcionalidade dentro do mesmo projeto. Juntamente com o KNIME Server, ele também permite fácil produção, colaboração, compartilhamento, agendamento e automação. 

Basta baixar o KNIME Analytics Platform gratuitamente no site do KNIME , instalá-lo em sua máquina e começar a montar workflow imediatamente! 

Presente da Hupdata para você

Para fazer a transição rápida de suas planilhas existentes para fluxos de trabalho repetíveis e confiáveis, você pode contar com o e-book gratuito “From Excel to KNIME” e começar a migrar!

A boa noticia é que nós da Hupdata recentemente traduzimos e disponibilizamos uma versão deste e-book, escrito por Kathrin Melcher, para você.

Baixe já a sua unidade em:

>>> BAIXAR E-BOOK “FROM EXCEL TO KNIME” pt-BR <<<

Caso precise de ajuda em questões específicas pergunte à comunidade KNIME no Fórum KNIME para perguntas técnicas, no KNIME Hub por exemplo, e nos eventos do KNIME, para aprender mais com a experiência de outras pessoas.


Este post é uma livre tradução do post original de Rosaria Silipo (KNIME) no original Ten commom issues when using Excel for data operations.

Traduzido por Natanael Domingos | Data Analyst at Hupdata

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *