Atualizado em Janeiro/ 2022
O conceito de Mineração de Dados ou Data Mining já é bastante consolidado e conhecido. Já o conceito de Mineração de Texto ou Text Mining é mais recente e é disso que vamos tratar nesse artigo.
Você sabia que aproximadamente 80-90% de todos os dados corporativos apresentam-se em algum tipo de formato não-estruturado (ex. texto)? Além disso, estima-se que o volume de dados corporativos não-estruturados dobra de tamanho a cada 18 meses!
Por isso, extrair insights e conhecimento dessa enorme fonte de informações não é uma opção. É necessidade vital para manter a empresa competitiva.
1 – O que é Mineração de Texto?
A Mineração de Texto, também conhecida por Text Mining, Text Processing ou ainda Text Analytics, é um processo semi-automatizado para extração de conhecimento de fontes de dados não-estruturados.
O processo consiste em criar datasets de documentos (chamados ‘corpus’) e transformar a informação contida nos mesmos em uma matriz numérica.
A partir daí, segue-se o caminho usual da Mineração de Dados, utilizando os diversos modelos de Machine Learning disponíveis, de acordo com o problema abordado.
2 – Mineração de Texto x Mineração de Dados
Tanto a Mineração de Texto quanto a Mineração de Dados são processos semi-automatizados e buscam por padrões úteis e desconhecidos.
A diferença está na natureza dos dados analisados: enquanto os dados estruturados encontram-se em tabelas de bancos de dados, os dados não-estruturados apresentam-se em forma de documentos de Word, arquivos PDF, fragmentos de texto, arquivos XML, etc.
Ou seja, para realizar Mineração de Texto, primeiro é preciso estruturar os dados e depois extrair os insights.
3 – Aplicações da Mineração de Texto
Os benefícios da Mineração de Texto são óbvios em ambientes com abundância de dados em formato textual, como por exemplo, no direito (sentenças judiciais), pesquisa acadêmica (artigos científicos), finanças (relatórios trimestrais), medicina (relatórios de alta), tecnologia (depósitos de patentes), marketing (avaliações de clientes), etc.
Essas técnicas também são utilizadas em serviços de e-mail para filtrar spams, categorizar e priorizar mensagens e gerar respostas automáticas.
4- Aprendendo na Prática
Ao contrário do que possa parecer, analisar dados textuais não é muito mais complicado do que analisar dados estruturados.
A Plataforma Analítica KNIME possui uma extensão para Text Processing, com nodes específicos para as rotinas de preparação e transformação de dados não-estruturados em matrizes numéricas. Vale a pena aprender a utilizar essa poderosa ferramenta!
Seguem algumas dicas de recursos disponíveis:
- Livro dedicado ao tema de Data Mining usando o KNIME – From Words to Wisdom; Autores: Vincenzo Tursi e Rosaria Silipo
https://www.knime.com/knimepress/from-words-to-wisdom
- Curso online pratico de Data Mining usando o KNIME (maio de 2020)
Introduction to Text Processing
https://www.knime.com/about/events/l4-tp-introduction-to-text-processing-online-may-18-2020
Quer saber como o KNIME funciona? Clique aqui e fale com o nosso consultor.
Autor: Roberto Caffaro Filho, Data Analysis Leader da HupData