Está en la página 1de 15

MINERÍA DE TEXTOS

(Text Mining)
MINERÍA DE TEXTOS
 Con billones de páginas en la red, se requieren de
nuevas tecnologías para encontrar, clasificar y
detectar particulares patrones en la información
disponible.
 La esencia de los métodos de la minería de datos
aplicados a los datos numéricos, puede también
ser aplicada a datos de texto.
 Estudios recientes indican que el ochenta por
ciento de la información de una compañía está
almacenada en forma de documentos.
MINERÍA DE TEXTOS
 Este campo de estudio es muy vasto, por
lo que técnicas como la categorización de
texto, el procesamiento de lenguaje
natural.
 La extracción y recuperación de la
información o el aprendizaje automático,
entre otras, apoyan al Text Mining
(minería de texto).
MINERÍA DE TEXTOS
 El Text Mining se refiere a examinar una
colección de documentos y descubrir
información no contenida en ningún
documento individual de la colección.
MINERÍA DE TEXTOS
 Es una tecnología emergente cuyo objeto es la
búsqueda de conocimiento en grandes colecciones
de documentos no estructurados.
 Se refiere al proceso de derivar información nueva de
textos.
 Consiste en descubrir, a partir de cantidades de texto
grandes, el conocimiento que no está literalmente
escrito en cualquiera de los documentos.
 Esto incluye buscar tendencias, promedios,
desviaciones, dependencias, etc.
MINERÍA DE TEXTOS
 Este campo de estudio es muy vasto. Las
técnicas usadas tenemos :
 La categorización de texto
 El procesamiento de lenguaje natural
 La extracción y recuperación de la
información
 El aprendizaje automático
UTILIDAD DE LA MINERÍA DE
TEXTOS
 Cuando hacemos una consulta en Internet, como
respuesta de los buscadores, recibimos una gran
cantidad de información y quizás deseamos
solamente quedarnos con los aspectos más
relevantes de dicha información.
 Por esta razón, se ha buscado desarrollar
herramientas computacionales que permitan
identificar los aspectos que nos son importantes de
los textos y con ellos obtener la información deseada.
UTILIDAD DE LA MINERÍA DE
TEXTOS
 Por estos motivos, los lingüistas han
adoptado perspectivas de análisis
basadas en sus conocimientos de la
estructura del idioma.

 Por ejemplo usando análisis léxico y


sintáctico de los textos y, con ello,
determinar los aspectos relevantes del
mismo. 
ANÁLISIS LÉXICO Y
SINTÁCTICO

Letras, Palabras Oraciones,


signos, etc. discurso
ANÁLISIS LÉXICO Y SINTÁCTICO
UTILIDAD DE LA MINERÍA DE
TEXTOS

 Otra perspectiva es la extracción de palabras o


frases claves, que en su parte más simple son
proporcionadas por los interesados para luego
ser comparadas con los textos. 

 Estas dos formas de abordar el problema


generan códigos computacionales complejos, o
que requieren la intervención de expertos en
cada campo para extraer la información.
Software y Herramientas de
Text Mining
1. POAUTONOMY:
Este software (propiedad de HP actualmente) ofrece
herramientas para realizar text mining, clustering y
categorización a través de la búsqueda y el procesamiento de
texto tomado de datos estructurados e información humana no
estructurada.

2. SAS TEXT ANALYTICS:


Este software se utiliza para descubrir patrones y tendencias en
cualquier texto. Esta herramienta se utiliza tanto para la minería
de textos como para el análisis de sentimientos, la clasificación
de contenidos y la extracción de conceptos a partir de un texto.
Software y Herramientas de
Text Mining
3. POLYANALIST:
Este software está preparado para trabajar con volúmenes
muy grandes de texto y datos estructurados. Permite realizar
categorización, clustering, predicción, análisis de enlaces,
descubrimiento de patrones y detección de anomalías en
grandes volúmenes de texto.

4. WORDSTAT:
Se utiliza para realizar análisis de competencia en sitios web,
análisis de sentimientos y contenido en preguntas abiertas.
Software y Herramientas de
Text Mining
5. ESTEATTENSITY:
Este software de análisis y minería de texto se utiliza para
analizar la información y la inteligencia colectiva en redes
sociales y foros.

6. AEROTEXT:
Es una herramienta o biblioteca con aplicaciones de
minería de textos para realizar análisis de contenido para
textos en diversos idiomas.
Software y Herramientas de
Text Mining
7. PIMIENTO:
Esta herramienta en desarrollo esta siendo elaborada por
la Universidad del Pais Vasco.

No se comercializa, pero se puede obtener una licencia


para su uso o su investigación.

No se la puede considerar software ya que realmente es


una biblioteca o marco para aplicaciones desarrolladas en
java para realizar text mining. Sus aplicaciones son:
Clustering de documentos, Identificación de idioma en
textos, Análisis de similitud entre textos.

También podría gustarte