Está en la página 1de 31

Minera de texto

Anlisis Documental

Informacin
La produccin y crecimiento del volumen de informacin digital, en los ltimos aos ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cmputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes.

Problema
El crecimiento en la produccin de la informacin digital y los diferentes formatos que se utilizan para su almacenamiento, hacen difcil el acceso a la informacin, dado que los contenidos no se encuentran indizados y organizados.

Anlisis documental

Indizacin
La indizacin consiste en dos puntos, el primero es identificar los trminos dentro de un documento y segundo en determinar la importancia del trmino dentro del documento a travs de su frecuencia de ocurrencia.

Minera de texto
Es el rea ms reciente de investigacin del procesamiento automtico de la informacin. Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la coleccin de textos en formato digital.

Minera de texto
La minera de texto es el proceso encargado del descubrimiento de conocimientos que no existan explcitamente en ningn texto de la coleccin, pero que surgen de relacionar el contenido de varios de ellos. (Swanson, 1991, p. 280-289)

Minera de texto
El descubrimiento de informacin significativa y esencial de los documentos en grandes corpus textuales electrnicos, estructurados y no estructurados.

Minera de texto
Clasificar y organizar documentos segn su contenido; es decir, preseleccionar automticamente grupos de documentos con un tema especfico.

Categoras

Categoras

Minera de texto

El procesamiento de texto
Los textos son representados en estructuras que permitan su anlisis automtico
01 01 01 01 01 01 01 01 01 01 D N N N N N N N N F end_punctuation compress to_blank comma del_subfield_code char_conv del_lead_space to_lower pack_spaces char_conv ##### ##### ##### ##### # # # # :,=;/. '[]| !"()-{}<>;:.?/\@*%=^_`~

FILING-KEY-10

FILING-KEY-01 line_utf2line_utf line_utf2line_utf line_utf2line_utf line_utf2line_utf unicode_to_filing_01 unicode_to_filing_02 naco_diacritics unicode_to_filing_11

FILING-KEY-01 FILING-KEY-02 FILING-KEY-10 FILING-KEY-11

Extraccin de palabras

Anlisis
Consiste en realizar una cuantificacin de las caractersticas (es decir, de los trminos) de los documentos.

Modelo vectorial
Una de las tcnicas utilizadas en la minera de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensin n y es representado de la siguiente manera:
,

D (t t ,..., t )
i i1, i 2 it

Frecuencia de las palabras


a) Se calcula la frecuencia de las palabras en el documento, donde K representa el trmino en el documento I

FREQ IK

Frecuencia total
b) Se calcula la frecuencia total del trmino K en todos los documentos

TOTALFRECQ

FREQ IK
I 1

Frecuencia de palabras
Anlisis documental informacin textual Lenguajes documentales 2 2 1 1 1 1 0 1 0 0 2 0 2 2 3 0 1 0 0 0 1 3 3 3 3 3 3 3 3 3 3 3 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0 0 0 0 0 0 0 0 0 0 0 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0 0 0 0 0 0 0 0 0 0 0 0.477 0.477 1 2 3 3 1.5 0.477 0.477 0.176 0.477 0.477 0.176 0 0 0.352 0 0 0 1 0 0 0 0 2 1.5 0.176 0.352 0 0.352

herramienta
libres controlados proceso indizacin procesamiento automtico texto orgenes padre

1
0 0 0 0 0 0 0 0 0

0
1 1 1 1 1 1 1 0 0

0
1 0 0 0 0 0 1 0 0 1 1 1 1 1 1 1 1 1 1

indizacin

Palabras significativas

Palabras no significativas Altas frecuencias

Palabras no significativas Bajas frecuencias

Ley de Zipf
Texto en lenguaje natural. Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparicin, F

El nmero de orden de cada palabra es su rango, R


Anlisis de la frecuencia de las palabras

F=K/R

FxR=K

La frecuencia , F, de aparicin de una palabra en un texto es inversamente proporcional a su rango, R. Frecuencia por el rango igual a constante (k)

Ley del mnimo esfuerzo

Frecuencias de Stopword
Posicin 1 2 3 4 5 6 7 8 9 10 Frecuencia 18205668 10821113 7190346 6946343 6769416 6459010 5030018 4505566 3675272 3225267 Palabras de la y en el que a los se del

Ley de Zipf

Frecuencias de Stopword

Ley de Zipf

Semejanza de documentos

Matriz de documentos
a) Si se realiza el clculo de similitud entre renglones se pude determinar la semejanza entre documentos.
T1 T2 Tt

D1 d11 d12 d1t D2 d 21 d 22 d 2t Dn d n1 d n 2 d nt

Matriz de documentos
b) Si se realiza el clculo de similitud entre columnas se pueden obtener las relaciones entre trminos.
T1 T2 Tt

D1 d11 d12 d1t D2 d 21 d 22 d 2t Dn d n1 d n 2 d nt

Archivos digitales en texto


Total de ttulos procesados 1868 (Ao 2005) Total de archivos 22721 Tiempo de proceso 60 minutos Total de palabras 162723663 Stopwords 117323884 (72.90%) Palabras tiles 45399779 (27.90%)

Palabras/Diccionario

También podría gustarte