Ciência de DadosData MiningKNIMEMachine Learning

Mineração de Texto – O que é? Como aplicar?

O conceito de Mineração de Dados ou Data Mining já é bastante consolidado e conhecido. Já o  conceito de Mineração de Texto ou Text Mining é mais recente e é disso que vamos tratar nesse artigo.

Você sabia que aproximadamente 80-90% de todos os dados corporativos apresentam-se em algum tipo de formato não-estruturado (ex. texto)? Além disso, estima-se que o volume de dados corporativos não-estruturados dobra de tamanho a cada 18 meses!

Por isso,  extrair insights e conhecimento dessa enorme fonte de informações não é uma opção. É necessidade vital para manter a empresa competitiva.

1 – O que é Mineração de Texto?

A Mineração de Texto, também conhecida por Text Mining, Text Processing ou ainda Text Analytics, é um processo semi-automatizado para extração de conhecimento de fontes de dados não-estruturados.

O processo consiste em criar datasets de documentos (chamados ‘corpus’) e transformar a informação contida nos mesmos em uma matriz numérica.

A partir daí, segue-se o caminho usual da Mineração de Dados, utilizando os diversos modelos de Machine Learning disponíveis, de acordo com o problema abordado.

2 – Mineração de Texto x Mineração de Dados

Tanto a Mineração de Texto quanto a Mineração de Dados são processos semi-automatizados e buscam por padrões úteis e desconhecidos.  

A diferença está na natureza dos dados analisados: enquanto os dados estruturados encontram-se em tabelas de bancos de dados, os dados não-estruturados apresentam-se em forma de documentos de Word, arquivos PDF, fragmentos de texto, arquivos XML, etc.

Ou seja, para realizar Mineração de Texto, primeiro é preciso estruturar os dados e depois extrair os insights.

3 – Aplicações da Mineração de Texto 

Os benefícios da Mineração de Texto são óbvios em ambientes com abundância de dados em formato textual, como por exemplo, no direito (sentenças judiciais), pesquisa acadêmica (artigos científicos), finanças (relatórios trimestrais), medicina (relatórios de alta), tecnologia (depósitos de patentes), marketing (avaliações de clientes), etc.

Essas técnicas também são utilizadas em serviços de e-mail para filtrar spams, categorizar e priorizar mensagens e gerar respostas automáticas.

4- Aprendendo e praticando Mineração de Texto

Ao contrário do que possa parecer, analisar dados textuais não é muito mais complicado do que analisar dados estruturados.

A Plataforma Analítica KNIME possui uma extensão para Text Processing, com nodes específicos para as rotinas de preparação e transformação de dados não-estruturados em matrizes numéricas. Vale a pena aprender a utilizar essa poderosa ferramenta!

Seguem algumas dicas de recursos disponíveis:

  • Livro dedicado ao tema de Data Mining usando o KNIME – From Words to Wisdom; Autores: Vincenzo Tursi e Rosaria Silipo

https://www.knime.com/knimepress/from-words-to-wisdom

  • Curso online pratico de Data Mining usando o KNIME (maio de 2020)

Introduction to Text Processing

https://www.knime.com/about/events/l4-tp-introduction-to-text-processing-online-may-18-2020

Autor: Roberto Caffaro Filho, Data Analysis Leader da HupData

2 comentários sobre “Mineração de Texto – O que é? Como aplicar?

  1. Muito bom!! Deve agregar muito de fato. A busca por insigths num mar de dados ainda desconhecido deve trazer muitas oportunidades.
    Quando falamos em volume de dados para Text Analytics, o que pode ser ideal? Existe uma recomendação para seleção da amostra a ser analisada? Por exemplo, um % sobre o volume de atendimento realizado, considerando o tipo de atendimento como SAC, Cobrança, etc., qual a recomendação para que se tenha um bom resultado?

    1. Olá Lizandra. A questão de volume ideal está sempre relacionada a cada caso. No exemplo que deu, de um SAC, usar 100% dos atendimentos para treinamento de um modelo seria o ideal. Mas aí a pergunta principal se torna: “qual minha capacidade de processamento computacional?”. Nem sempre você terá a capacidade para processar tudo. Então entra a estatística, para determinar qual seria uma amostra mínima para se realizar alguma inferência. Isso não é definido a priori, e sim depois de uma análise exploratória nos dados. Enfim, a prática da ciência de dados nunca pode prescindir do método científico para obtermos sucesso.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *