AnalyticsAprendizagem de MáquinaCientista de DadosData Science

Qual a melhor abordagem de Ciência de Dados?

A melhor abordagem de Ciencias de Dados

Automação, APIs ou Ciência de Dados Personalizada? Eis o dilema da Ciência de Dados

Entender qual é a melhor abordagem de Ciência de Dados a adotar exige clareza das necessidades da sua organização, assim como o que se espera alcançar através dos dados. Não há uma resposta direta e única.

Porém, nos últimos anos, as discussões estão sob três abordagens principais. Vale a pena dar uma olhada nos prós e contras de cada uma delas.

Quando se trata de Ciência de Dados, o recurso humano é essencial. Pois quanto mais pesquisadores, programadores e cientistas de dados sua organização possuir, mais opções estarão disponíveis para você.

Existem soluções projetadas para aqueles que podem ter apenas um grupo de usuários casuais que provavelmente não conseguiriam criar um pipeline analítico do zero, mas que poderiam usar algo como modelo para começar.

E, às vezes, as organizações conduzem a ciência de dados apenas para usuários de negócios, que não desejam ou não precisam criar nada ; eles só querem resolver ou melhorar um caso real de negócios, geralmente como parte de um aplicativo existente.

Agora vamos nos aprofundar para entender qual a melhor abordagem de Ciência de Dados para os seus negócios.

1 – Ciência de dados empacotada para usuários de negócio

Há cerca de um ano e meio, vimos um impulso das empresas que tentavam automatizar a ciência de dados. Esse movimento foi desenvolvido para usuários de negócios e basicamente dizia que as organizações não precisavam de nenhum dos outros grupos; uma solução automatizada diria magicamente o que eles queriam saber. Se você é um usuário de negócio, isso soa maravilhoso, certo?

Não é tão simples assim. Primeiro, você precisa esperar que quem quer que seja o fornecedor da caixa preta, acompanhe a melhor e mais recente tecnologia. Isso precisa ser feito para que o sistema cresça com você e continue a fornecer as informações que você deseja.

Segundo, e mais importante, seus dados precisam estar em forma para executá-los através desse sistema. Por mais surpreendente que pareça, esse ainda é um dos maiores obstáculos à ciência de dados moderna.

Falamos sobre o desafio da manipulação de dados desde a última década e ainda não o resolvemos. A menos que você tenha tipos muito comuns de configurações, os dados não estarão prontos nem poderão ser executados no sistema sem esforço extra.

No entanto, suponha que seus dados estejam em ótima forma. Talvez você não precisa de desempenho de ponta e o que você está interessado em descobrir não é essencial para os resultados da sua empresa; tudo bem se os resultados estiverem uma pequena porcentagem abaixo do ideal. Nesse caso, soluções automatizadas podem ser fantásticas – desde que você reconheça as suas limitações.

2 – Modelos pré-configurados e treinados para lidar com problemas básicos

As APIs de ciência de dados se referem à prática de usar modelos treinados pré-configurados. APIs de ciência de dados funcionam extremamente bem para problemas padrão pré-definidos, por exemplo: classificação de texto ou imagem.

Se você estiver interessado em classificar imagens, por exemplo, não gaste seu tempo e energia para coletar milhões de imagens para criar seu próprio sistema de classificação. Isso você deve comprar na Amazon ou Google. Apenas verifique se o formato de dados exigido pela API é suportado.

Você também precisa ter clareza de que o modelo faz o que você realmente precisa; ou seja, ele foi treinado no tipo certo de dados com o objetivo certo em mente. Se não for esse o caso, você poderá obter resultados que serão apenas parecidos com o que você pensou que queria. Isso talvez não seja suficiente para o problema em questão. Por exemplo, um modelo treinado em animais europeus ainda reconhecerá cães e gatos na Austrália. Porém pode ter dificuldade com um coala.

Além disso, se você estiver usando APIs em produção, provavelmente desejará garantir que os resultados sejam estáveis e reprodutíveis. Seria terrível se, de repente, um de seus clientes fosse classificado como “O pior de todos”, apenas porque a tecnologia subjacente mudou. Com as APIs externas de ciência de dados, muitas vezes você não pode contar com atualizações contínuas e compatíveis com versões anteriores.

3 – Personalização e tudo o que a acompanha

A ciência de dados personalizada basicamente inverte tudo isso. Nesta abordagem, os sistemas podem aproveitar dados realmente brutos e confusos; novos campos, fontes e tipos podem ser acessados para fornecer o que você deseja.

Isso é particularmente útil se você trabalha em um ambiente em que quase todo mês alguém diz: “Provavelmente poderíamos melhorar o desempenho se adicionarmos esse tipo de análise ou usarmos esse outro tipo de dados”. A ciência de dados personalizada é adaptável à constantes mudanças.

Um benefício adicional da abordagem personalizada é que você pode obter dados de diferentes fontes de dados – sistemas antigos, locais, na nuvem etc. Você não precisa ficar parado esperando que alguém apareça e forneça todos os seus dados limpos. Pode ser uma verdadeira mistura.

Uma coisa que geralmente é ignorada na parte inicial de um projeto, é o desejo de colocá-lo em produção. É uma sensação terrível executar algo em um ambiente de teste e dizer: “Treinei este modelo – ele é validado nos meus dados de teste. Tudo isso parece bom” e, de repente, precisa ser reprogramado e entregue a outro departamento , para ser colocado em produção. Em vez disso, você deve poder usar o mesmo ambiente para colocá-lo em produção imediatamente.

O que é necessário?

E para que a ciência de dados personalizada funcione bem, você precisa de conhecimento do negócio e expertise em ciência de dados. Você precisa de pessoas que entendam muito bem o problema a ser resolvido, que possam trabalhar com cientistas de dados e colocar o modelo em produção.

Afinal, você não quer que os cientistas de dados criem um aplicativo e nunca o refinem ou aprendam com ele. Essas equipes devem poder colaborar de forma consistente para obter um desempenho de ponta.

Você também precisa de resultados confiáveis e reprodutíveis. Esse é outro ponto que muitas vezes é ignorado, mas em produção, você quer ter certeza de que o que você fez ontem está relacionado com o que você fará amanhã. Da mesma forma, você quer compatibilidade com versões anteriores; portanto, se você quiser usar o que criou há dois anos, ainda poderá.

Com o tempo, os pacotes podem mudar e, sem compatibilidade com as versões anteriores, não é mais possível executar o programa original (ou pior, resultados totalmente diferentes serão produzidos silenciosamente). Além disso, ajustá-lo para resolver um problema semelhante com base no modelo original é quase impossível.

A ciência de dados personalizada permite que você faça isso e muito mais.

4 – Juntando tudo

Há muito o que se considerar na decisão de escolher a melhor abordagem de ciência de dados para sua organização. Mas, lembre-se dessas diretrizes básicas:

  • A automação ajuda a otimizar a seleção de modelos. Se você não quiser fazer tudo sozinho, isso pode economizar muito tempo.
  • As APIs de ciência de dados ajudam a reutilizar o que é comprovado. Não é necessário criar um sistema de classificação de imagem ou texto – para isso existem serviços disponíveis para ajudá-lo. Use e incorpore as APIs como parte de sua rotina analítica.
  • A Ciência de Dados personalizada fornece o poder do mix. É a abordagem mais flexível e poderosa, mas você precisa incorporar o seu conhecimentos de negócio. Ao mesmo tempo, ela automatizar as partes maçantes e permite que as interações se concentrem nas partes mais complexas e diferenciadas.

Enfim, escolher a melhor abordagem de Ciência de Dados não é tão simples. A automação ou a ciência de dados empacotada é adequada para problemas bem definidos onde o desempenho padrão é suficiente.

Porém, se a obtenção dos melhores resultados é essencial para o seu negócio e oferece vantagem competitiva, você precisa investir em Ciência de Dados Personalizada. Não existe almoço grátis. A ciência de dados de ponta requer conhecimentos avançados de cientistas de dados aplicados especificamente ao seu problema e aos seus dados.

Autor: Michael Berthold – KNIME

Tradução: Roberto Caffaro Filho- HupData

Disponível em: https://www.knime.com/blog/how-to-pick-the-best-approach-to-data-science

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *