Mineração de Texto - O que é? Como aplicar?

Início » Mineração de Texto – O que é? Como aplicar?

Mineração de Texto – O que é? Como aplicar?

Atualizado em Janeiro/ 2022

O conceito de Mineração de Dados ou Data Mining já é bastante consolidado e conhecido. Já o conceito de Mineração de Texto ou Text Mining é mais recente e é disso que vamos tratar nesse artigo.

Você sabia que aproximadamente 80-90% de todos os dados corporativos apresentam-se em algum tipo de formato não-estruturado (ex. texto)? Além disso, estima-se que o volume de dados corporativos não-estruturados dobra de tamanho a cada 18 meses!

Por isso, extrair insights e conhecimento dessa enorme fonte de informações não é uma opção. É necessidade vital para manter a empresa competitiva.

1 – O que é Mineração de Texto?

A Mineração de Texto, também conhecida por Text Mining, Text Processing ou ainda Text Analytics, é um processo semi-automatizado para extração de conhecimento de fontes de dados não-estruturados.

O processo consiste em criar datasets de documentos (chamados ‘corpus’) e transformar a informação contida nos mesmos em uma matriz numérica.

A partir daí, segue-se o caminho usual da Mineração de Dados, utilizando os diversos modelos de Machine Learning disponíveis, de acordo com o problema abordado.

2 – Mineração de Texto x Mineração de Dados

Tanto a Mineração de Texto quanto a Mineração de Dados são processos semi-automatizados e buscam por padrões úteis e desconhecidos.

A diferença está na natureza dos dados analisados: enquanto os dados estruturados encontram-se em tabelas de bancos de dados, os dados não-estruturados apresentam-se em forma de documentos de Word, arquivos PDF, fragmentos de texto, arquivos XML, etc.

Ou seja, para realizar Mineração de Texto, primeiro é preciso estruturar os dados e depois extrair os insights.

3 – Aplicações da Mineração de Texto

Os benefícios da Mineração de Texto são óbvios em ambientes com abundância de dados em formato textual, como por exemplo, no direito (sentenças judiciais), pesquisa acadêmica (artigos científicos), finanças (relatórios trimestrais), medicina (relatórios de alta), tecnologia (depósitos de patentes), marketing (avaliações de clientes), etc.

Essas técnicas também são utilizadas em serviços de e-mail para filtrar spams, categorizar e priorizar mensagens e gerar respostas automáticas.

4- Aprendendo na Prática

Ao contrário do que possa parecer, analisar dados textuais não é muito mais complicado do que analisar dados estruturados.

A Plataforma Analítica KNIME possui uma extensão para Text Processing, com nodes específicos para as rotinas de preparação e transformação de dados não-estruturados em matrizes numéricas. Vale a pena aprender a utilizar essa poderosa ferramenta!

Seguem algumas dicas de recursos disponíveis:

Livro dedicado ao tema de Data Mining usando o KNIME – From Words to Wisdom; Autores: Vincenzo Tursi e Rosaria Silipo

https://www.knime.com/knimepress/from-words-to-wisdom

Curso online pratico de Data Mining usando o KNIME (maio de 2020)

Introduction to Text Processing

https://www.knime.com/about/events/l4-tp-introduction-to-text-processing-online-may-18-2020

Quer saber como o KNIME funciona? Clique aqui e fale com o nosso consultor.

Autor: Roberto Caffaro Filho, Data Analysis Leader da HupData

Simon.AI

IA Generativa

Analytics & Data Science Service

Nossos Treinamentos

Workshops HupData

Auditoria

Energia

ESG

Nossas Redes Sociais

Mineração de Texto – O que é? Como aplicar?

1 – O que é Mineração de Texto?

2 – Mineração de Texto x Mineração de Dados

3 – Aplicações da Mineração de Texto

4- Aprendendo na Prática

Menu Principal

Serviços

Contato

Brasil:

Estônia:

Termos de Uso

Política de Privacidade