Autor: Fabio Rebecchi
Neste artigo vou te mostrar como criar um pipeline de Ciência de Dados passo a passo usando um fluxo de trabalho visual e sem código com KNIME.
KNIME é um software de código aberto em que é possível reunir, organizar dados ou entendê-los por meio de técnicas de modelagem e visualização (arraste e solte).
Isso permite que o usuário esqueça a codificação e se concentre nos dados, modelos e conceitos de Ciência de Dados.
Além disso, um fluxo de trabalho visual no KNIME pode ser eficaz para aumentar a capacidade de leitura e manutenção do pipeline a tempo.
1 – Quem deve ler este artigo?
Não apenas cientistas de dados que querem aprender uma maneira diferente de criar e fornecer produtos de ciência de dados, mas também analistas de dados, desenvolvedores ou analistas de negócios que querem realizar ciência de dados sem a necessidade de codificar.
Ou seja, serve para quem tiver pouca ou nenhuma habilidade de programação.
2 – Conjunto de dados e modelo preditivo
Neste tutorial, vamos usar um conjunto de dados Kaggle. Este é um conjunto de dados fictício criado por cientistas de dados da IBM, contendo 50 colunas descrevendo 1470 funcionários, com dados sobre idade, distância do trabalho, renda mensal, total de anos de trabalho e assim por diante.
Um campo-chave é aquele denominado Atrito, contendo um “Sim” se o funcionário deixou a empresa e um “Não” caso contrário.
O objetivo do tutorial será carregar o conjunto de dados, processá-lo, explorá-lo para reunir insights úteis e construir um modelo preditivo capaz de entender se uma pessoa pode deixar a empresa ou não.
3 – Instalação KNIME
Para iniciar nosso tutorial, precisamos ter uma cópia do KNIME em nosso laptop. O KNIME é gratuito e pode ser baixado e instalado em https://www.knime.com/downloads .
4 – Configuração de ambiente local
Durante a instalação, observe o ambiente local KNIME, por exemplo, no meu MacBook ele está em / Users / mac / knime-workspace.
Antes de iniciar o KNIME, crie um diretório (ex: EmployeeChurn) no ambiente local e cole lá os arquivos EmployeeAttritionLabels.csv e EmployeeData.csv . (Por exemplo, o caminho do primeiro arquivo, no meu caso, será /Users/mac/knime-workspace/EmployeeChurn/EmployeeAttritionLabels.csv).
5 – Instalação de extensão KNIME
Abra KNIME e em Arquivo-> Instalar extensões KNIME … selecione as extensões destacadas na Figura 1 para instalar as extensões que vamos usar (as extensões contêm ferramentas, nós e recursos adicionais além da versão padrão).
5.1 – Criação de fluxo de trabalho
Agora é hora de criar nosso fluxo de trabalho KNIME, selecionando Arquivo-> Novo-> Novo Fluxo de Trabalho KNIME (Figura 2) e nomeando-o KNIME-Employee-Churn.