Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Anlisis Documental
Informacin
La produccin y crecimiento del volumen de informacin digital, en los ltimos aos ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cmputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes.
Problema
El crecimiento en la produccin de la informacin digital y los diferentes formatos que se utilizan para su almacenamiento, hacen difcil el acceso a la informacin, dado que los contenidos no se encuentran indizados y organizados.
Anlisis documental
Indizacin
La indizacin consiste en dos puntos, el primero es identificar los trminos dentro de un documento y segundo en determinar la importancia del trmino dentro del documento a travs de su frecuencia de ocurrencia.
Minera de texto
Es el rea ms reciente de investigacin del procesamiento automtico de la informacin. Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la coleccin de textos en formato digital.
Minera de texto
La minera de texto es el proceso encargado del descubrimiento de conocimientos que no existan explcitamente en ningn texto de la coleccin, pero que surgen de relacionar el contenido de varios de ellos. (Swanson, 1991, p. 280-289)
Minera de texto
El descubrimiento de informacin significativa y esencial de los documentos en grandes corpus textuales electrnicos, estructurados y no estructurados.
Minera de texto
Clasificar y organizar documentos segn su contenido; es decir, preseleccionar automticamente grupos de documentos con un tema especfico.
Categoras
Categoras
Minera de texto
El procesamiento de texto
Los textos son representados en estructuras que permitan su anlisis automtico
01 01 01 01 01 01 01 01 01 01 D N N N N N N N N F end_punctuation compress to_blank comma del_subfield_code char_conv del_lead_space to_lower pack_spaces char_conv ##### ##### ##### ##### # # # # :,=;/. '[]| !"()-{}<>;:.?/\@*%=^_`~
FILING-KEY-10
Extraccin de palabras
Anlisis
Consiste en realizar una cuantificacin de las caractersticas (es decir, de los trminos) de los documentos.
Modelo vectorial
Una de las tcnicas utilizadas en la minera de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensin n y es representado de la siguiente manera:
,
D (t t ,..., t )
i i1, i 2 it
FREQ IK
Frecuencia total
b) Se calcula la frecuencia total del trmino K en todos los documentos
TOTALFRECQ
FREQ IK
I 1
Frecuencia de palabras
Anlisis documental informacin textual Lenguajes documentales 2 2 1 1 1 1 0 1 0 0 2 0 2 2 3 0 1 0 0 0 1 3 3 3 3 3 3 3 3 3 3 3 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0 0 0 0 0 0 0 0 0 0 0 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0 0 0 0 0 0 0 0 0 0 0 0.477 0.477 1 2 3 3 1.5 0.477 0.477 0.176 0.477 0.477 0.176 0 0 0.352 0 0 0 1 0 0 0 0 2 1.5 0.176 0.352 0 0.352
herramienta
libres controlados proceso indizacin procesamiento automtico texto orgenes padre
1
0 0 0 0 0 0 0 0 0
0
1 1 1 1 1 1 1 0 0
0
1 0 0 0 0 0 1 0 0 1 1 1 1 1 1 1 1 1 1
indizacin
Palabras significativas
Ley de Zipf
Texto en lenguaje natural. Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparicin, F
F=K/R
FxR=K
La frecuencia , F, de aparicin de una palabra en un texto es inversamente proporcional a su rango, R. Frecuencia por el rango igual a constante (k)
Frecuencias de Stopword
Posicin 1 2 3 4 5 6 7 8 9 10 Frecuencia 18205668 10821113 7190346 6946343 6769416 6459010 5030018 4505566 3675272 3225267 Palabras de la y en el que a los se del
Ley de Zipf
Frecuencias de Stopword
Ley de Zipf
Semejanza de documentos
Matriz de documentos
a) Si se realiza el clculo de similitud entre renglones se pude determinar la semejanza entre documentos.
T1 T2 Tt
Matriz de documentos
b) Si se realiza el clculo de similitud entre columnas se pueden obtener las relaciones entre trminos.
T1 T2 Tt
Palabras/Diccionario