Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Minera de Texto
Problema: Y si el minado y descubrimiento
de conocimientos se realiza a partir de
informacin textual?
Solucin:
Text
Definicin
Minera de Texto es un proceso de:
La extraccin de nuevos conocimientos, vlida y
aplicable en documentos de texto dispersos.
DM v/s TM
Minera de Datos
Minera de Texto
Objetivo de
investigacin
Numricas y datos
categorizados
Textos
Estructura
Meta
Predecir futuras
situaciones
Recuperar informacin
pertinente, extraer el significado,
categorizar y ofrecer alternativas
Metodos
Clasificacin, Asociacin,
agrupamiento, regresin.
Indexacin, procesamiento
especial de redes neuronales, la
lingstica, las ontologas
Madurez
Implementacin desde
1994
Implementacin comenzada en
el ao 2000
4
Minera de Texto
La minera de textos analiza textos en lengua natural
mediante procedimientos automticos para:
Extraer los temas
Determinar la estructura de un texto: localizacin de
las rupturas
Visualizar la proximidad entre documentos y/o entre
trminos
Indexar los documentos (multi-indexacin)
Construir bases de documentos para una bsqueda
automtica posterior
Minera de Texto
Bsqueda de informacin (BI) versus
Extraccin de informacin (EI)
de
Extraccin de informacin
Extraccin de informacin vs
Recuperacin de informacin
Extraccin de informacin.
Arquitectura
10
10
Aspectos Claves
Representacn (Cmo representar la informacin
textual (lenguaje natural)?)
Descubrimiento/Minado (Qu conocimiento se puede
descubrir y cmo?)
Evaluacin (Qu tan novedoso e interesante es el
conocimiento descubierto?)
Presentacin
(Cmo
se
puede
presentar
comprensiblemente el conocimiento descubrimiento?)
11
Problemas ...
Lenguaje Natural es ambigo.
Texto en lenguaje natural conlleva conocimiento sintctico,
semntico y retrico que es implcito y a la vez complejo de
capturar.
La minera de textos implica usar grandes masas de
informacin textual para reunir evidencia que soporte las
hiptesis que se han descubierto.
La evaluacin del conocimiento descubierto implica
(hipotticamente) cognitivamente el uso de recursos
conceptuales que representen lo que ya es actualmente
conocido en el dominio de los documentos textuales.
12
Ambigedad?
13
14
15
Textos
Extraccin
Terminolgica
Operaciones de KDD
Visualizacin
17
18
Combustible
Petrleo
?
Pas Arabe
Iran
Egipto
19
20
21
22
Por ejemplo:
Vendo Peugot 205 con 100.000 km. 6500 mill de pesos. Tef
981123456. Llamar despus 20:00.
23
- Extraccin
relevantes
terminolgica:
identicacin
de
trminos
24
Tratamiento de la variacin
morfolgica: stemming
Reducir de una palabra a su stem o raz
supuesta eliminando su terminacin segn una
lista de sujos
- Stem o raz contiene semntica bsica
Tratamiento de la variacin
morfolgica: stemming
Ventajas
Simplicidad
Desventajas.
- Problemas con idiomas de morfologas compleja. Ej. espaol:
- Adjetivos/nombres: +20 grupos variacin genero +10
grupos nmero
- Verbos: 3 grupos regulares, 40 irregulares; 118 formas
exivas cada grupo
- Prdida de informacin de cara a procesamiento futuro.
Tratamiento de la variacin
morfolgica: stemming
Desventajas.
- Sobre-stemming: palabras no relacionadas dan igual stem
-Sub-stemming:
diferentes
palabras
relacionadas
dan
stems
Tratamiento de la variacin
morfolgica: otras aprox.
Expansin de la consulta con variantes.
Google: busca simultneamente el trmino en masculino y
femenino, singular y plural
Lematizacin: sustituir palabra por su lema
- Ejemplo: decir es el lema de dije, pero tambin
de dir odijramos; guapo es el lema de guapas; mesa es el
lema de mesas.
- Mejora resultados con idiomas de morfologa compleja
- Reduce la prdida de informacin
Problema:
Sintcticas
Sustantivomodicador
Sujetoverbo
VerboObjeto
..
32
relacionadas
33
Ejemplo:
sistema
(http://start.csail.mit.edu)
START
del
MIT
Estadstica
(statistical):
tcnicas
empleando corpus paralelos bilinges.
estadticas
40
EJEMPLO:
Los nios y la lectura
Encuesta Lectura
Preguntas cerradas
1. En la escuela, leemos
2. En casa, tenemos
3. Leo
4. Leo
5. Libros dados por maestro
6. Leo cuando
7. Prefiero leer
8. Leer los libros escolares
Ejemplos de respuestas
----A130
es un rollo porque hay muchas letras
++++
si no sabes leer no sabes escribir
----D214
como vivir otra clase de vida, aprendo, me divierto y
me entrego, no s como explicarlo, pero me gusta leer
++++
aprendes cosas nuevas
ABIERTO y
J127
CERRADO
Respuestas cerradas: leo bastante, leo muy fcilmente
Respuestas abiertas:
---- para m, leer es
es muy interesante porque te puedes ir al mundo de la fantasa.
por ejemplo puedes viajar a la edad media o estar en la
prehistoria
++++ Leer es importante por que
sin la lectura no podra viajar
N314
Respuestas cerradas: leo bastante, leo muy fcilmente
Respuestas abiertas:
---- para m, leer es
aprender
++++ Leer es importante por que
se aprenden cosas nuevas
Primer plano
factorial:
Individuos
3.0
Axis 2
Factor 2
l2=1.2; 1.7%
N314
1.5
Axis 1
l1=1.4; 2%
-1.5
-3.0
-2
J127
Factor 1
importantes
1.50
roll
aprende
interesante
divierto
divertido
divertirme
0.75
aburrido
Ieo poco
aprendo
aprender NOTA GLOBAL: EXCELENTE
Leo mucho
aprendes
NOTA GLOBAL:
importante
SUSPENSO
0
importante
fantasia
diversion
-1
PADRE.: SIN ESTUDIOS 1
imaginacin
aventuras
diviertes
aventuras
saber
Leo bastante
leo fcilmente
imaginacion
ensea
aventura -0.75
mundo
entrar
divertida
-1.50
sino
2
eje 1
( l =1.4, 2%)
1
3
GRUPO
220 NIOS
CERRADAS
PALABRAS SOBRE-REPRESENTADAS
pasar (pasar un buen rato), diversin, aventura, rato
tiempo, divertirme, mundo, libro entrar, fantasia,
forma
MEDIA: 8.8 PALABRAS
RESPUESTAS MODALES
-Entrar en el libro que estoy leyendo y pasar las
aventuras que hay en el libro
-Entrar en el libro, ser el protagonista y pasar
aventuras leyendo
MEDIA EN LA MUESTRA
6.8 PALABRAS
Pregunta
Coef. de Cramer
2
V
n min( r 1,c 1 )
0.52
0.44
0.41
0.38
0.35
0.27
0.26
0.20
0.20
0.14
GRUPO
168 NIOS
CERRADAS
CATEGORIAS SOBREREPRESENTADAS
LEO MUCHO (82%; 28%)
LEO MUY FCILMENTE (93%; 58%)
PALABRAS SOBRE-REPRESENTADAS
NINGUNA
MEDIA EN LA MUESTRA
6.8 PALABRAS
RESPUESTAS MODALES
-Se aprende
-Se aprende
Pregunta
Leo (cantidad de lectura)
Leo con (facilidad de lectura)
Leo cuando (contexto de lectura)
Los libros dados por el maestro
Leer los libros escolares
En la escuela, leemos (cantidad)
I prefer reading (manera de leer)
At home, we have (cantidad de libros)
For me, to read means (open-ended)
Reading is important because (openended)
Coeficiente de
Cramer
0,62
0.50
0.45
0.43
0.39
0.39
0.32
0.30
0.17
0.15
TEMAS
-Anlisis de Datos Exploratorio
- Clustering Conceptual
- Information Extraction
-Anlisis Lxico-sintcticos
-Question Answering
- Ontologa
- Stemmer de Porter
-Information Retrieval
- Lematizacin
Minera de Texto