Ciência de DadosData ScienceEngenharia de DadosVisualização de Dados

De ponta a ponta – como criar e produzir Ciência de Dados?

banner

Criar e produzir ciência de dados com êxito requer um ambiente abrangente e colaborativo que permita que todos, desde o cientista de dados até o dono da empresa, trabalhem juntos e incorporem o feedback do usuário de maneira fácil e rápida em todo o ciclo de vida da ciência de dados.

Os quatro estágios da ciência de dados de ponta a ponta precisam ser fortemente acoplados e, no entanto, suficientemente flexíveis para permitir a eficácia desse feedback.

1 – Definição, acesso e disputa de dados

Esse é o domínio clássico de cientistas e engenheiros de dados, onde o foco está na definição de onde o como armazenar dados. O desafio aqui é fornecer maneiras reprodutíveis de acessar dados antigos e novos, extrair e combinar os dados certos para um projeto específico e transformar os dados finais corretamente. O sucesso de muitos projetos de dados depende de rápidos ajustes nas alterações dos repositórios e na disponibilidade de novas fontes de dados.

2 – Análise e visualização de dados

É aqui que entram os tópicos que atualmente estão no radar de todos, como a Inteligência Artificial, o Aprendizado de Máquina e a Automação. No entanto, a análise de dados estatísticos e as técnicas de visualização padrão ainda devem fazer parte da caixa de ferramentas de análise. O objetivo permanece o mesmo: criar agregações / visualizações, encontrar padrões ou extrair modelos que possamos usar para descrever ou diagnosticar nosso processo ou predizer eventos futuros, para assim prescrever ações apropriadas.

3 – Organizando a prática de ciência de dados:

O grande desafio na prática de ciência de dados não é apenas possuir uma equipe de especialistas, mas garantir que essa equipe trabalhe bem em conjunto e que seus resultados sejam colocados em produção com facilidade e confiabilidade.

Um ambiente integrador permite que diferentes tecnologias sejam combinadas e que os especialistas colaborem em vez de competir. Exigir compatibilidade com versões anteriores, controle de versão e capacidade de auditar análises passadas é essencial para estabelecer uma prática de ciência de dados e evoluir das “soluções únicas” que ainda prevalecem. Idealmente, a implantação de resultados deve ser possível dentro do mesmo ambiente que foi usado para criar a análise em primeiro lugar. (está parte achado que não precisa)

4 – Criando valor comercial:

No final, o objetivo é transformar os resultados em valor real. Permitir a captura da experiência do usuário do domínio previamente a afetar de forma direta a construção do serviço analítico é essencial, de preferência sem demora para a implantação da nova configuração.

A capacidade dessa combinação permite que a equipe de ciência de dados ofereça um aplicativo cada vez mais flexível, perfeitamente ajustado às necessidades dos negócios. O feedback do usuário final precisa realmente direcionar o que está sendo desenvolvido e implantado.

Padronização, automação ou ciência de dados personalizada?

O ambiente ideal de ciência de dados deve fornecer flexibilidade de combinações. Talvez a ingestão de dados precisa ser automatizada ou definida apenas uma vez com a ajuda de consultores externos, enquanto sua equipe interna fornece informações críticas de negócios que precisam ser refinadas, atualizadas e ajustadas diariamente.

Investir em uma plataforma que cubra todo o ciclo de vida da ciência de dados, quando chegar a hora, prepara o terreno para futuras ambições. E mesmo que, no momento, você seja o cientista de dados, o analista ou o usuário da organização – preparar-se para o momento em que você adiciona colegas para aspectos mais especializados pode ser uma atitude inteligente.

Por Michael Berthold, KNIME

https://www.knime.com/blog/data-science-how-to-successfully-create-and-productionize-across-the-enterprise

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *