Está en la página 1de 9

Facultad de Ingeniera Ingeniera Civil en Informtica

Tarea 1

Nombre Cordova-Navarrete

Tarea 1

Nombre: Vanesa Cordova Zavala Camilo Navarrete Portio Profesor: Marcos Levano. Fecha: Temuco, de 2013. Asignatura: Simulacion

Facultad de Ingeniera Ingeniera Civil en Informtica

Tarea 1

Nombre Cordova-Navarrete

ndice
1. Introduccion 3

2. Marco Terico

2.1. 2.2. 2.3. 2.4. 2.5.

Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Minera de Textos Como funcionan? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 4 4 5 7
8

Mtricas de distancias Herramientas

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Conclusin

4. Bibliografa

Facultad de Ingeniera Ingeniera Civil en Informtica

Tarea 1

Nombre Cordova-Navarrete

1.

Introduccion
Los humanos tienen algo muy preciado que nos diferencia de los dems seres vivos, lo que es el conocimiento.

Gran parte de este conocimiento existe en forma de lenguaje natural: libros, peridicos, artculos, etc. Todo este conocimiento depende de nuestra habilidad para realizar ciertas operaciones con la informacin, por ejemplo: buscarla, compararla, y resumirla. La minera de texto, una nueva rea de investigacin denida como descubrimiento de conocimiento en colecciones de textos, se enfoca en el anlisis de grandes conjuntos de documentos. En particular, considera el descubrimiento de patrones interesantes, tales como grupos, asociaciones y desviaciones, en colecciones de textos. Los mtodos actuales de minera de texto se caracterizan por usar representaciones sencillas del contenido de los documentos, por ejemplo, bolsas o vectores de palabras. Por una parte estas representaciones son fciles de obtener y analizar, pero por otra parte restringen los patrones descubiertos a un nivel temtico. Con el propsito de obtener resultados ms tiles y signicativos deben usarse representaciones ms completas de la informacin. Uno de los mtodos ms conocidos para describir los atributos de una entidad de una base de datos es utilizar un rbol de decisin o de clasicacin, que puede transformarse sin inconveniente a un conjunto de reglas de decisin.

Facultad de Ingeniera Ingeniera Civil en Informtica

Tarea 1

Nombre Cordova-Navarrete

2.
2.1.

Marco Terico
Estado del arte

El estado del arte es un modo de investigacin que permite el estudio del conocimiento acumulado (escrito en textos) dentro de un rea especca. Se remonta a los aos 80, poca en la que se utilizaba como herramienta para compilar y sistematizar informacin especialmente en las ciencias sociales, pero en la medida que estos estudios se iban utilizando para encontrar patrones en las tendencias de investigacin y ademas de usarse como primer punto para tomar decisiones, el estado del arte se posiciono como una nueva modalidad de investigacin para la propia investigacin. De este modo la realizacin de estados del arte permite la circulacin de la informacin, ademas genera demanda de conocimiento y establece comparaciones con otros conocimientos paralelos a este, ofreciendo diferentes posibilidades de comprensin del problema tratado, pues brinda ms de una alternativa de estudio. Uno de estos modos de compilacin del conocimiento acumulado en varias fuentes, es el que se trabaja mediante la minera de textos.

2.2.

Minera de Textos

La Minera de Textos es una tecnologa vinculada con el estudio mtrico de la informacin, cuyo objetivo es la bsqueda de conocimiento en grandes colecciones de documentos no estructurados, es decir: consiste en descubrir, a partir de cantidades de textos grandes, el conocimiento que no est literalmente escrito en cualquiera de los documentos. Puede abarcar grandes areas, desde aquellos de la recuperacin y extraccin de informacin, visualizacin de informacin, minera de datos aplicada a textos, etc. Esta tcnica opera sobre bases de datos textuales
no estructuradas con el objetivo de detectar patrones no triviales e incluso informacin sobre el conocimiento

almacenado en las mismas, permitiendo as el anlisis lxico de los textos y especialmente la construccin automtica de estructuras de clasicacin y categorizacin como tesauros (lista que contiene los trminos empleados para representar los conceptos, temas o contenidos de los documentos), de modo que estos sistemas pueden ayudar en la categorizacin de la informacin existente en una organizacin,en el ltrado y enrutado de informacin por ejemplo de e-mail, en la deteccin de informacin similar o relacionada con otra existente o para eliminar informacin duplicada.

Se suele confundir la minera de textos con la minera de datos, pero la diferencia esta en que la minera de datos la informacin se obtiene de bases de datos, en la que la informacin est estructurada. Por este motivo es ms sencilla la extraccin de la informacin de una base de datos, que est pensada para que se pueda tratar su informacin de manera automtica, al contrario a lo que ocurre en la minera de textos en la cual se obtiene de fuentes no estructuradas.

2.3.

Como funcionan?

Estado del arte de la minera de texto

Facultad de Ingeniera Ingeniera Civil en Informtica

Tarea 1

Nombre Cordova-Navarrete

2.4.

Mtricas de distancias

Las distancias son funciones que nos permiten cuanticar la similitud entre dos objetos. Estas funciones transforman pares de objetos en nmeros reales. Cuanto menor es este numero, mas similares son los objetos. La idea de asignar distancias a pares de puntos es precisamente lo que da origen a los espacios mtricos.

En minera de datos, el agrupamiento jerrquico o clustering es un mtodo de anlisis de grupos el cual busca construir una jerarqua de grupos, es decir reunir grupos para formar uno nuevo o bien separar alguno ya existente para dar origen a otros dos, de tal forma que, si se va efectuando este proceso de aglomeracin o divisin sucesivamente, se minimice alguna distancia o bien se maximice alguna medida de similitud. Las estrategias para agrupamiento jerrquico generalmente caen en dos tipos:

Aglomerativas: Este es un acercamiento ascendente: cada observacin comienza en su propio grupo, y los

pares de grupos son mezclados mientras uno sube en la jerarqua hasta que todos quedan en un mismo grupo.

Divisivas: Este es un acercamiento descendente: todas las observaciones comienzan en un grupo, y se realizan

divisiones mientras uno baja en la jerarqua hasta quedar disperso en varios grupos. Los resultados del agrupamiento jerrquico son usualmente presentados en un dendrograma.

Dendograma

Las clasicaciones jerrquicas se pueden representar con un diagrama bidimensional conocido como dendograma en el cual se puede seguir de forma grca el procedimiento de unin de los grupos, mostrando qu grupos se van uniendo, en qu nivel concreto lo hacen, as como el valor de la medida de asociacin entre ellos cuando stos se agrupan.

Datos sin procesar

Facultad de Ingeniera Ingeniera Civil en Informtica

Tarea 1

Nombre Cordova-Navarrete

Datos agrupados

La eleccin de una mtrica apropiada inuenciar la forma de los grupos, ya que algunos pueden estar cerca unos de otros de acuerdo a una distancia y ms lejos de acuerdo a otra. Por ejemplo, en un espacio 2-dimensional, la distancia entre el punto (1,0) y el origen (0,0) es siempre 1 de acuerdo a las normas usuales, pero la distancia entre el punto (1,1) y el origen (0,0) puede ser 2, distancia mxima respectivamente. Algunas mtricas comnmente usadas para agrupamiento jerrquico son:

2 o 1 bajo la distancia Manhattan, la distancia euclidiana o la

Distancia euclidiana

ab

i (ai

bi ) 2
2 2

Distancia euclidiana al cuadrado

ab

i (ai

bi )2

Distancia Manhattan

ab

|ai bi | ab

Norma uniforme distancia mxima

= m axi |ai bi |
donde S es la matriz de covarianza

Distancia Mahalanobis

( a b) S 1 ( a b)

Similitud coseno

ab a b

Para texto u otro dato no-numrico, mtricas como la Distancia de Hamming o la Distancia de Levenshtein son frecuentemente usadas.

Facultad de Ingeniera Ingeniera Civil en Informtica

Tarea 1

Nombre Cordova-Navarrete

Distancia de Hamming

Se denomina distancia de Hamming a la efectividad de los cdigos de bloque y depende de la diferencia entre una palabra de cdigo vlida y otra. Cuanto mayor sea esta diferencia, menor es la posibilidad de que un cdigo vlido se transforme en otro cdigo vlido por una serie de errores. A esta diferencia se le llama distancia de Hamming, y se dene como el nmero de bits que tienen que cambiarse para transformar una palabra de cdigo vlida en otra palabra de cdigo vlida. Si dos palabras de cdigo dieren en una distancia d, se necesitan d errores para convertir una en la otra.

Por ejemplo:

La distancia Hamming entre 1011101 y 1001001 es 2. La distancia Hamming entre 2143896 y 2233796 es 3. La distancia Hamming entre tener y reses es 3.

Distancia de Levenshtein

Se llama Distancia de Levenshtein, distancia de edicin, o distancia entre palabras, al nmero mnimo de operaciones requeridas para transformar una cadena de caracteres en otra. Es til en programas que determinan cun similares son dos cadenas de caracteres, como es el caso de los correctores de ortografa. Por ejemplo, la distancia de Levenshtein entre casa y calle es de 3 porque se necesitan al menos tres ediciones elementales para cambiar uno en el otro.

casa ->cala (sustitucin de 's' por 'l') cala ->calla (insercin de 'l' entre 'l' y 'a') calla ->calle (sustitucin de 'a' por 'e')

Podemos inferir que la distancia de Levenshtein es una derivacin de la distancia de Hamming.

2.5.

Herramientas

De las herramientas de minera de texto de cdigo abierto, R y RapidMiner son las dos ms populares. R tiene una base de usuario mayor, siendo un lenguaje de programacin en el que se necesita un cdigo de origen, tiene una amplia seleccin de algoritmos. Sin embargo, la escalabilidad es un problema en R, por lo que no es ideal para grandes conjuntos de datos sin mtodos alternativos. RapidMiner tiene una base de usuario menor, pero no necesita un cdigo de origen y tiene una eciente interfaz de usuario (UI). Tambin es altamente escalable y puede manejar clsteres y la programacin en bases de datos. IBM ofrece un mdulo R de Jaql que integra el proyecto R en consultas, lo que a su vez permite a los trabajos de MapReduce ejecutar clculos R en paralelo.

Facultad de Ingeniera Ingeniera Civil en Informtica

Tarea 1

Nombre Cordova-Navarrete

3.

Conclusin
La minera de textos es una tecnologa recuperacin y organizacin de la informacin que aunque todava es

emergente y necesita ser mejor desarrollada, nos sirve para obtener un tipo de informacin muy til en cualquier tipo de organizacin publica o privada. Econmicamente es una tcnica que puede utilizarse para ahorrar dinero y abrir oportunidades de negocio a las empresas. En cualquier organizacin, las conclusiones a las que se puede llegar a travs de esta practica pueden ser utilizadas para la toma de decisiones. Y todo esto es consecuencia del desarrollo tan rpido que la sociedad de la informacin a supuesto en cuanto a la generacin de informacin y nuestra capacidad para almacenarla. Cada vez es mas fcil recabar datos y guardarlos adecuadamente. El reto es saber aprovechar el potencial de conocimiento escondido en ellos. Gracias a tcnicas de apoyo como la minera de textos se ha podido ver mas all de lo que a simple vista ofrecen los documentos. Con esta y otras tcnicas de recuperacin y organizacin de la informacin se ha podido explorar, analizar, comprender y aplicar el conocimiento encerrado u oculto en los textos.

Facultad de Ingeniera Ingeniera Civil en Informtica

Tarea 1

Nombre Cordova-Navarrete

4.

Bibliografa

Referencias
[1] Agrupamiento conceptual jerarquico basado en distancias [En Linea] Disponible en :

http://riunet.upv.es/bitstream/handle/10251/13621/tesis.pdf?sequence=1

[2] Mineria de texto: Un nuevo reto computacional [En Linea] Disponible en :

http://ccc.inaoep.mx/~mmontesg/publicaciones/2001/MineriaTexto-md01.pdf

[3] Sistemas avanzados de recuperacion de informacion[En Linea] Disponible en :

http://mineriadetextos.tripod.com/

[4] Analisis de grupos [En Linea]

http://www.ptolomeo.unam.mx:8080/xmlui/bitstream/handle/132.248.52.100/241/A7. pdf?sequence=7
Disponible en :

[5] Agrupamiento jerarquico[En Linea] Disponible en :

http://es.wikipedia.org/wiki/Agrupamiento_jer%C3%A1rquico

[6] Aplicaciones y perspectivas de los estudios metricos de informacion[En Linea] Disponible en :

http://www.cnpt.embrapa.br/RevistaAIBDA/v29/v29n1d01.pdf

[7] Mineria de textos[En Linea] Disponible en :

http://textmining.galeon.com/

[8] Mineria de textos empleando la semejanza entre estructuras semanticas[En Linea] Disponible en :

http://www.redalyc.org/articulo.oa?id=61590106