Integrando o KNIME com serviços da Azure, é possível analisar e modelar grandes quantidades de dados através de uma interface gráfica amigável.
Com as ferramentas disponíveis hoje, não é necessário ser proficiente em programação para analisar a enorme quantidade de dados gerados pelas organizações. Existem diversos softwares que possuem uma interface gráfica amigável para construir workflows analíticos, o que pode ser chamado de ‘no-code data science’.
O KNIME é uma ferramenta open source, líder em Data Science & Machine Learning segundo a consultoria Gartner. Ele permite que usuários de negócios, que não dominam a arte da programação, analisem os dados nos quais são os verdadeiros experts.
Esse software pode ser baixado gratuitamente e instalado na máquina do usuário, que se torna o principal gargalo para a quantidade de dados que pode ser trabalhada.
Na era do Big Data, muitas organizações estão migrando suas operações de TI para a nuvem, pois a capacidade de processamento se torna escalável e o investimento inicial é baixo.
Neste artigo darei exemplos de como aproveitar o potencial do Analytics na nuvem integrando KNIME com serviços da Azure (Microsoft).
1 – Armazenamento, combinação e transformação de dados em larga escala
Se a sua organização já é cliente Microsoft para serviços na nuvem, você deve ter acesso a dados estruturados no Banco de Dados SQL escalável da Azure, além de armazenamento de larga escala com BlobStorage/Azure Data Lake storage.
O KNIME possui conectores tanto para o bancos de dados SQL da Microsoft quanto para o BlobStorage da Azure, e pode orquestrar a movimentação e transformação de dados entre um e outro, permitindo a realização de operações ‘in-database’.
Esse processamento ‘in-database’ é implementado via nodes de SQL específicos que utilizam uma interface gráfica para configuração, permitindo ao usuário realizar operações sem precisar escrever código em SQL. Caso desejado, também é possível escrever SQL no node SQL Query.
2 – Big Data Analytics
O Databricks é uma ferramenta de análise de dados baseada em nuvem para gerenciamento de big data e processamento de dados em grande escala.
Desenvolvido pelo mesmo grupo por trás do Apache Spark, a plataforma em nuvem é construída em torno do Spark, permitindo uma ampla variedade de tarefas, desde o processamento de grandes quantidades de dados, construção de pipelines de dados em sistemas de arquivos de armazenamento, até a construção de modelos de aprendizado de máquina em um sistema distribuído, tudo em uma plataforma de análise unificada.
Uma vantagem do Databricks é a capacidade de dividir automaticamente a carga de trabalho em várias máquinas com escalonamento automático sob demanda.
O KNIME inclui um conjunto de nodes para conexão com o Databricks. Este conjunto de nodes é chamado de integração KNIME Databricks e permite que você se conecte ao seu cluster Databricks em execução na Azure. Uma vez conectado, você poderá acessar e gravar dados no Databricks File System e utilizar os nodes de Big Data do KNIME para realizar operações em contexto Spark, como por exemplo, treinamento de modelos de Machine Learning.
Tudo isso sem precisar escrever código. E os resultados das análises podem ainda ser visualizados em Dashboards criados com a ferramenta Power BI, que também pode ser integrada ao processo pelo KNIME.
Em suma, ao integrar o KNIME aos serviços da Azure, podemos utilizá-lo como o orquestrador de diversos processos de Big Data realizados na nuvem, que por sua vez são configurados e comandados através de uma única interface gráfica amigável em um computador pessoal.
É perfeito para analistas de negócio e prático para cientistas de dados.
Quer saber mais?
O nosso próximo webinar no dia 10.09 vai tratar exatamente desse tema – “Analytics e AI com Databriks & KNIME” – uma abordagem prática e simples para democratizar o uso de Big Data Analytics
Link: https://hupdata.com/academy/
Por Roberto Caffaro, Data Analysis Leader da HupData