AnalyticsazureBig DataCientista de DadosdatabricksKNIME

Como aproveitar todo potencial do Analytics na nuvem sem programar?

integração knime e databricks

Integrando o KNIME com serviços da Azure, é possível analisar e modelar grandes quantidades de dados através de uma interface gráfica amigável.

Com as ferramentas disponíveis hoje, não é necessário ser proficiente em programação para analisar a enorme quantidade de dados gerados pelas organizações. Existem diversos softwares que possuem uma interface gráfica amigável para construir workflows analíticos, o que pode ser chamado de ‘no-code data science’.

O KNIME é uma ferramenta open source, líder em Data Science & Machine Learning segundo a consultoria Gartner. Ele permite que usuários de negócios, que não dominam a arte da programação, analisem os dados nos quais são os verdadeiros experts.

Esse software pode ser baixado gratuitamente e instalado na máquina do usuário, que se torna o principal gargalo para a quantidade de dados que pode ser trabalhada.

Na era do Big Data, muitas organizações estão migrando suas operações de TI para a nuvem, pois a capacidade de processamento se torna escalável e o investimento inicial é baixo.

Neste artigo darei exemplos de como aproveitar o potencial do Analytics na nuvem integrando KNIME com serviços da Azure (Microsoft).

1 – Armazenamento, combinação e transformação de dados em larga escala  

Se a sua organização já é cliente Microsoft para serviços na nuvem, você deve ter acesso a dados estruturados no Banco de Dados SQL escalável da Azure, além de armazenamento de larga escala com BlobStorage/Azure Data Lake storage.

O KNIME possui conectores tanto para o bancos de dados SQL da Microsoft quanto para o BlobStorage da Azure, e pode orquestrar a movimentação e transformação de dados entre um e outro, permitindo a realização de operações ‘in-database’.

Esse processamento ‘in-database’ é implementado via nodes de SQL específicos que utilizam uma interface gráfica para configuração, permitindo ao usuário realizar operações sem precisar escrever código em SQL. Caso desejado, também é possível escrever SQL no node SQL Query.

2 – Big Data Analytics

O Databricks é uma ferramenta de análise de dados baseada em nuvem para gerenciamento de big data e processamento de dados em grande escala.

Desenvolvido pelo mesmo grupo por trás do Apache Spark, a plataforma em nuvem é construída em torno do Spark, permitindo uma ampla variedade de tarefas, desde o processamento de grandes quantidades de dados, construção de pipelines de dados em sistemas de arquivos de armazenamento, até a construção de modelos de aprendizado de máquina em um sistema distribuído, tudo em uma plataforma de análise unificada.

Uma vantagem do Databricks é a capacidade de dividir automaticamente a carga de trabalho em várias máquinas com escalonamento automático sob demanda.

O KNIME inclui um conjunto de nodes para conexão com o Databricks. Este conjunto de nodes é chamado de integração KNIME Databricks e permite que você se conecte ao seu cluster Databricks em execução na Azure. Uma vez conectado, você poderá acessar e gravar dados no Databricks File System e utilizar os nodes de Big Data do KNIME para realizar operações em contexto Spark, como por exemplo, treinamento de modelos de Machine Learning.

Tudo isso sem precisar escrever código. E os resultados das análises podem ainda ser visualizados em Dashboards criados com a ferramenta Power BI, que também pode ser integrada ao processo pelo KNIME.

Em suma, ao integrar o KNIME aos serviços da Azure, podemos utilizá-lo como o orquestrador de diversos processos de Big Data realizados na nuvem, que por sua vez são configurados e comandados através de uma única interface gráfica amigável em um computador pessoal.

É perfeito para analistas de negócio e prático para cientistas de dados.

Quer saber mais?

O nosso próximo webinar no dia 10.09 vai tratar exatamente desse tema – “Analytics e AI com Databriks & KNIME” – uma abordagem prática e simples para democratizar o uso de Big Data Analytics

Link: https://hupdata.com/academy/webinarcoulddataanalytics/

Por Roberto Caffaro, Data Analysis Leader  da HupData

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *