Está en la página 1de 38

I.T.S.

Extraccin de Conocimientos de las Redes Sociales

INTRODUCCION Los humanos siempre se han relacionado por grupos: familiares, laborales, sentimentales, etc. En una red social los individuos estn interconectados, interactan y pueden tener ms de un tipo de relacin entre ellos. Una red social es una aplicacin web que permite a los usuarios contar sus experiencias como la situacin en la que se encuentran, lugares que han visitado, sus opiniones acerca de cualquier tema, etc., en forma textual, de imgenes o subiendo videos relacionando los usuarios conforme a sus intereses comunes. En la actualidad, el anlisis de las redes sociales se ha convertido en un mtodo de estudio en ciencias como la antropologa o la sociologa. Internet y las nuevas tecnologas (minera de datos, espacios mtricos, agrupamientos, etc), favorecen el desarrollo y ampliacin de las estadsticas sociales, econmicas y tecnolgicas. Con la minera de datos (i.e. Recopilacin de informacin) se es capaz de alimentar el estudio de redes sociales almacenando todo lo recopilado en una base de datos. La estadstica siempre necesita muestras en forma de informacin para arrojar resultados, a mayor muestra mayor precisin. El estudio de las redes sociales permite generar estadsticas gracias a toda la informacin que los usuarios publican da tras da.

Reporte Final de Residencias Profesionales

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

JUSTIFICACION Inevitablemente las redes sociales tienen un fuerte impacto en nuestra sociedad de hoy en da, la informacin relevante almacenada en esas redes es de tamao tal que ha demandado nuevas tcnicas de almacenamiento, de indexamiento, de bsqueda, etc. E incluso han provocado una reestructura en gigantes como Google y su buscador. Lo que hace especialmente interesante a una red social es el hecho de poder compartir informacin en el momento, sin ningn tipo de estructura. Esto es su principal fortaleza y a la vez su principal debilidad, pues los datos se almacenan sin un orden y sin un ndice que permita su fcil interpretacin. La forma de proceder ante esta cantidad de informacin es obtener los datos de la red social (en este caso se usar Flickr, la cual es una red social basada en contenidos grficos como imgenes) y despus emplear tcnicas de extraccin, transformacin, minera de datos e interpretacin y evaluacin del conocimiento. En general se quiere responder consultas como: cules son los monumentos ms visitados? A qu hora hay la mayor afluencia de visitantes? De qu lugares visitan a la ciudad de Morelia? Cuntas veces en promedio regresa un turista a esta ciudad? Cules son las mayores quejas de los turistas?, etc. En esta propuesta se pretende trabajar con la informacin contenida en esas redes para contribuir con el turismo en la ciudad y en el estado. Ntese que no existen registros de estudios formales hechos con esta tcnica sobre el estado.

Reporte Final de Residencias Profesionales

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

OBJETIVOS GENERALES Y ESPECFICOS Objetivo General En esta propuesta se pretende trabajar con la informacin contenida en esas redes sociales para contribuir en forma estadstica con el turismo en la ciudad de Morelia y en el estado. Objetivos Especficos Construir herramientas que permitan hacer minera de datos a partir de la informacin en las redes sociales. Implementacin y optimizacin de algoritmos para la elaboracin del ndice Proponer ndices que permitan hacer agrupamientos de los datos para hacer un anlisis de los datos obtenidos. Hacer un estudio del sector turstico en Morelia, y poder impactar en el desarrollo del estado. Formacin de recursos humanos. Minera de datos de las redes sociales adquiriendo una base de conocimientos mediante las publicaciones de los usuarios. Una medida de distancia que conforma el valor contextual de las publicaciones de cada usuario. Agrupamiento de publicaciones segn sus caractersticas descriptivas.

Reporte Final de Residencias Profesionales

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Aprovechamiento de los recursos y la tecnologa para generar datos estadsticos en bien del desarrollo turstico del estado y especficamente de su capital Morelia.

Fomentar el uso de la tecnologa.

Reporte Final de Residencias Profesionales

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

CARACTERIZACIN DEL REA EN QUE SE PARTICIP Nombre de la Institucin: Universidad Michoacana de San Nicols de Hidalgo Direccin de la Institucin: Avenida Francisco J. Mjica S/N, Ciudad Universitaria C.P 58030, Morelia, Michoacn, Mxico. Telfono: (+52) 443 322 35 00 Departamento en el que se realiz el trabajo: Centro de Investigacin Fsico Matemticas Jefe directo: Dr. Salvador Jara Guerrero

La Universidad Michoacana de San Nicols de Hidalgo, es una universidad pblica del estado de Michoacn, con sede en Morelia, Michoacn, Mxico.

Tiene sus antecedentes en el Colegio de San Nicols Obispo, fundado en Ptzcuaro por Vasco de Quiroga en 1540, y trasladado en 1580 a la entonces Valladolid (hoy Morelia). Se constituye como universidad en 1917. Se trata de la ms importante institucin educativa del estado de Michoacn y una de las ms importantes universidades pblicas del pas. Cuenta actualmente con varias facultades y campus en las ciudades de Apatzingn, Uruapan, Coalcoman, Cuitzeo, Huetamo, Lzaro Crdenas, Tangancicuaro, Zitcuaro y Ciudad Hidalgo.

Reporte Final de Residencias Profesionales

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Antecedentes

La Universidad Michoacana de San Nicols de Hidalgo se estableci el 15 de octubre de 1917 y es, en la actualidad, la institucin de educacin superior de mayor tradicin en el estado de Michoacn.

Sus antecedentes histricos se remontan a 1540, ao en que don Vasco de Quiroga fundara en la ciudad de Ptzcuaro el Colegio de San Nicols Obispo; gracias a sus negociaciones, Carlos I de Espaa expidi una Cdula Real el 1o. de mayo de 1543, en la que aceptaba asumir el patronazgo del colegio, con lo que a partir de esa fecha pasaba a ser el Real Colegio de San Nicols Obispo.

En 1580 con el cambio de la residencia episcopal de Ptzcuaro a Valladolid, San Nicols tambin fue trasladado fusionado al Colegio de San Miguel Guayangareo. El 17 de octubre de 1601, Fray Domingo de Ulloa recibi la bula de Clemente VIII, que ordenaba establecer un Seminario Conciliar aprovechando la infraestructura de San Nicols.

A finales del siglo XVII el Colegio de San Nicols sufri una profunda reforma en su reglamento y constituciones, que sirvi de base para la modificacin al plan de estudios de principios del siglo XVIII, en el que entre otras cosas se incluyeron las asignaturas de Filosofa, Teologa Escolstica y Moral. Un Real Decreto del 23 de noviembre de 1797, concedi a San Nicols el privilegio de incorporar las ctedras de Derecho Civil y Derecho Cannico a su estructura.

Reporte Final de Residencias Profesionales

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Al comenzar el siglo XIX, las consecuencias del movimiento de independencia encabezado por un selecto grupo de maestros y alumnos nicolaitas, entre los que se ubican Miguel Hidalgo y Costilla, Jos Ma. Morelos, Jos Sixto Verduzco, Jos Ma. Izazaga e Ignacio Lpez Rayn, llevaron al gobierno virreinal a clausurarlo.

Una vez consumada la Independencia de Mxico, las medidas tendientes a la reapertura del plantel se iniciaron durante la dcada de los aos veinte, tras una larga y penosa negociacin entre la Iglesia y el Estado, el Cabildo Eclesistico cedi, el 21 de octubre de 1845, a la Junta Subdirectora de Estudios de Michoacn el Patronato del plantel.

Con esta base legal, el gobernador Melchor Ocampo procedi a su reapertura el 17 de enero de 1847, dndole el nombre de Primitivo y Nacional Colegio de San Nicols de Hidalgo, con ello se inici una nueva etapa en la vida de la institucin.

Al triunfo de la Revolucin Mexicana, cuando a escasos das de tomar posesin del gobierno de Michoacn, el ingeniero Pascual Ortiz Rubio tom la iniciativa en sus manos, logrando establecer la Universidad Michoacana de San Nicols de Hidalgo el 15 de octubre de 1917, formada con el Colegio de San Nicols de Hidalgo, las Escuelas de Artes y Oficios, la Industrial y Comercial para Seoritas, Superior de Comercio y Administracin, Normal para profesores, Normal para profesoras, Medicina y Jurisprudencia, adems de la Biblioteca Pblica, el Museo Michoacano, el de la Independencia y el Observatorio Meteorolgico del estado.

Reporte Final de Residencias Profesionales

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

A lo largo de su historia, la Universidad Michoacana ha tenido 45 rectores. Actualmente, desde el 9 de enero del 2011, el rector es el Doctor Salvador Jara Guerrero.

Misin

La Universidad Michoacana de San Nicols de Hidalgo es una institucin pblica y laica de educacin medio superior y superior, heredera del humanismo de Vasco de Quiroga, de los ideales de Miguel Hidalgo, Jos Mara Morelos, Melchor Ocampo; por iniciativa de Pascual Ortiz Rubio, Primera Universidad Autnoma de Amrica, cuya misin es:

Contribuir al desarrollo social, econmico, poltico, cientfico, tecnolgico, artstico y cultural de Michoacn, de Mxico y del mundo, formando seres humanos ntegros, competentes y con liderazgo que generen cambios en su entorno, guiados por los valores ticos de nuestra Universidad, mediante programas educativos pertinentes y de calidad; realizando investigacin vinculada a las necesidades sociales, que impulse el avance cientfico, tecnolgico y la creacin artstica; estableciendo actividades que rescaten,

Reporte Final de Residencias Profesionales

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

conserven, acrecienten y divulguen los valores universales, las prcticas democrticas y el desarrollo sustentable a travs de la difusin y extensin universitaria.

Visin

La Universidad Michoacana de San Nicols de Hidalgo es la Mxima Casa de Estudios en el Estado de Michoacn con la oferta educativa de mayor cobertura, reconocida por su calidad y pertinencia social, que forma seres competentes, cultos, participativos, con vocacin democrtica, honestos y con identidad nicolaita, con capacidades para resolver la problemtica de su entorno.

Los programas de investigacin y creacin artstica son reconocidos local, nacional e internacionalmente por sus aportaciones a las diversas reas del conocimiento y a la solucin sustentable de problemas sociales, en estrecha vinculacin con los programas educativos.

Los programas de vinculacin con universidades y centros de investigacin, nacionales e internacionales permiten un intenso intercambio cientfico, cultural y artstico as como una gran movilidad de la comunidad universitaria. Las actividades de extensin proporcionan asesoras y servicios orientados a satisfacer necesidades concretas de los grupos sociales y de los sistemas productivos.

Reporte Final de Residencias Profesionales

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Los programas de difusin cultural hacen llegar a la sociedad las diversas manifestaciones de las ciencias, las artes y la cultura promoviendo el desarrollo de los individuos y los grupos sociales en armona con el entorno.

Organigrama

Reporte Final de Residencias Profesionales

10

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

PROBLEMAS A RESOLVER, PRIORIZNDOLOS 1. Encontrar un algoritmo adecuado que se ajuste a nuestras necesidades y arroje un resultado eficiente para el agrupamiento. 2. Encontrar e implementar el algoritmo de indexacin optimo distinto al de fuerza bruta. 3. Descargar y obtener mayor informacin de las redes sociales. 4. Generar resultados estadsticos segn consultas especficas.

Reporte Final de Residencias Profesionales

11

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

ALCANCES Y LIMITACIONES Alcances Procesar la masa de informacin contenida en las redes sociales. Aplicar tcnicas de extraccin de datos y evaluacin de resultados. Proponer nuevas tcnicas de agrupamiento de los datos mediante algoritmos en espacios mtricos. Conocer en primera instancia, conocer puntos potenciales del turismo en la ciudad de Morelia y dar a conocer sus reas de oportunidad. Limitaciones Retraso en el inicio del proyecto por causa de toma de la UMSNH Falta del equipo de cmputo adecuado para los grandes procesos empleados en el proyecto No poder procesar toda la informacin existente en las redes sociales y adems no poder manejar nuevos datos. Falta de experiencia en temas como minera de datos y agrupamientos. La UMSNH al comienzo del proyecto se encontraba bajo huelga limitando nuestra labor dentro de sus aulas. Seguidamente hay amenazas de huelgas laborales dentro de la UMSNH.

Reporte Final de Residencias Profesionales

12

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

FUNDAMENTO TEORICO Las Redes Sociales Los humanos siempre se han relacionado por grupos: familiares, laborales, sentimentales, etc. En una red social los individuos estn interconectados, interactan y pueden tener ms de un tipo de relacin entre ellos. En la actualidad, el anlisis de las redes sociales se ha convertido en un mtodo de estudio en ciencias como la antropologa o la sociologa. Internet y las nuevas tecnologas favorecen el desarrollo y ampliacin de las redes sociales. Las redes sociales en internet son aplicaciones web que favorecen el contacto entre individuos. Estas personas pueden conocerse previamente o hacerlo a travs de la red. Contactar a travs de la red puede llevar a un conocimiento directo o, incluso, la formacin de nuevas parejas. Las redes sociales en internet se basan en los vnculos que hay entre sus usuarios. Existen varios tipos de redes sociales:

1.- Redes sociales genricas. Son las ms numerosas y conocidas. Las ms extendidas en Espaa son Facebook, Tuenti, Google +, Twitter o Myspace.

2.- Redes sociales profesionales. Sus miembros estn relacionados laboralmente. Pueden servir para conectar compaeros o para la bsqueda de trabajo. Las ms conocidas son LinkedIn, Xing y Viadeo.

3.- Redes sociales verticales o temticas. Estn basadas en un tema concreto. Pueden relacionar personas con el mismo hobbie, la misma actividad o el mismo rol. La ms famosa es Flickr.

Reporte Final de Residencias Profesionales

13

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Flickr Flickr es casi con seguridad la mejor aplicacin de todo el mundo para administrar y compartir fotos en lnea. En Flickr, los miembros cargan fotos, las comparten de manera segura, las complementan con metadatos como la informacin de las licencias, la ubicacin geogrfica, las personas incluidas, etiquetas, etc., en interactan con su familia, sus amigos, sus contactos o cualquier otra persona de la comunidad. Prcticamente todas las funciones de las diversas plataformas de Flickr web, mvil y de escritorio estn acompaadas de un programa API de larga trayectoria. Desde 2005, los desarrolladores han colaborado con las API de Flickr para generar experiencias divertidas, creativas y magnficas con relacin a las fotos que trascienden a Flickr. La API de Flickr

Con ms de 5.000 millones de fotos (muchas con valiosos metadatos como etiquetas, ubicaciones geogrficas y datos Exif), la comunidad de Flickr genera informacin maravillosamente til. Para obtener acceso a estos datos, debes usar la API de Flickr. De hecho, casi toda la funcionalidad que ejecuta flickr.com est disponible a travs de la API, que es un servicio totalmente gratuito para nuestros miembros y para los desarrolladores y dems integrantes, para que puedan crear an ms formas de interactuar con las fotos ms all de flickr.com.

Reporte Final de Residencias Profesionales

14

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Descripcin general del API de Flickr

La API de Flickr est compuesta por un grupo de mtodos a los que se puede llamar y algunos extremos API.

Para realizar una accin usando la API de Flickr, debes seleccionar una convencin de llamada, enviar una solicitud a su extremo y especificar un mtodo y algunos argumentos, y recibirs una respuesta con formato.

Todos los formatos de solicitud, enumerados en la pgina de ndice de API, toman una lista de parmetros con nombre.

El parmetro OBLIGATORIO method se usa para especificar el mtodo de llamada. El parmetro OBLIGATORIO api_key se usa para especificar tu clave API. El parmetro opcional format se usa para especificar un formato de respuesta.

Los argumentos, las respuestas y los cdigos de error para cada mtodo estn enumerados en la pgina de especificaciones del mtodo. Los mtodos estn detallados en la pgina de ndice de API.

Nota: La API de Flickr expone los identificadores para usuarios, fotos, lbumes de fotos y otros objetos con identificacin nica. Estos ID. siempre deben tratarse como cadenas

Reporte Final de Residencias Profesionales

15

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

opacas, en vez de enteros de un tipo especfico. El formato de los ID. Puede cambiar con el tiempo; por lo que, si te basas en el formato actual, podras tener problemas en el futuro.

Navegador Web Un navegador o navegador web (del ingls, web browser) es una aplicacin que opera a travs de Internet, interpretando la informacin de archivos y sitios web para que estos puedan ser ledos (ya se encuentre sta red mediante enlaces o hipervnculos. La funcionalidad bsica de un navegador web es permitir la visualizacin de documentos de texto, posiblemente con recursos multimedia incrustados.

PHP El PHP, se define como un lenguaje de programacin de cdigo abierto para la creacin rpida de contenidos dinmicos de sitios web, como son los foros, blogs, sistemas de noticias, entre otros. Tambin, crea aplicaciones grficas independientes del navegador y aplicaciones para servidores. Es un lenguaje de script dentro del HTML. La principal funcin del PHP es permitir la interaccin de la pgina web con el visitante que pudo haber realizado cambios en ella, y cada usuario que ingrese a la pgina podr ver la informacin anteriormente modificada. Su nombre viene de la abreviacin del concepto PHP Hypertext Preprocessor. Es un acrnimo, es decir, se arrastran las iniciales de cada palabra para dar origen al trmino definitivo.

Reporte Final de Residencias Profesionales

16

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Java El lenguaje para la programacin en Java, es un lenguaje orientado a objetos, de una plataforma independiente. El lenguaje para la programacin en Java, fue desarrollado por la compaa Sun Microsystems, con la idea original de usarlo para la creacin de pginas WEB. Con la programacin en Java, se pueden realizar distintos aplicativos, como son applets, que son aplicaciones especiales, que se ejecutan dentro de un navegador al ser cargada una pgina HTML en un servidor WEB, Por lo general los applets son programas pequeos y de propsitos especficos.

Sistema Informtico Un sistema informtico como todo sistema, es el conjunto de partes interrelacionadas, hardware, software y de recurso humano que permite almacenar y procesar informacin.

Reporte Final de Residencias Profesionales

17

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

NetBeans NetBeans es un entorno de desarrollo integrado libre, hecho principalmente para el lenguaje de programacin Java. Existe adems un nmero importante de mdulos para extenderlo. NetBeans IDE1

Sublime Text Sublime Text es un editor de texto y editor de cdigo fuente creado

en Python desarrollado originalmente como una extensin deVim, con el tiempo fue creando una identidad propia, por esto an conserva un modo de edicin tipo vi llamado Vintage mode.

Servidor Web Un servidor web como su nombre lo indica, es un software instalado en el equipo con todas las condiciones necesarias para servir o entregar pginas web que le sean solicitadas por un navegador, asegurando que se muestren y representen todos los elementos necesarios para su correcto funcionamiento y visualizacin.

Reporte Final de Residencias Profesionales

18

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Apache Existen varios tipos de servidores web, Apache es un software de cdigo abierto, libre de uso y totalmente configurable, es en este momento el ms utilizado en la red, ya sea en plataformas Linux o Windows. Al instalarlo en nuestra PC dispondremos de un servidor completo, con todos los requisitos para ejecutarlo de forma local.

Ubuntu Ubuntu es un sistema operativo basado en Debian y que se distribuye como software libre y gratuito, el cual incluye su propio entorno de escritorio denominado Unity. Est orientado al usuario novel y promedio, con un fuerte enfoque en la facilidad de uso y en mejorar la experiencia de usuario. Est compuesto de mltiple software normalmente distribuido bajo una licencia libre o de cdigo abierto.

Shell de Unix Una Shell de Unix o tambin shell, es el trmino usado en informtica para referirse a un intrprete de comandos, el cual consiste en la interfaz de usuario tradicional de los sistemas operativos basados en Unix y similares como GNU/Linux. Mediante las instrucciones que aporta el intrprete, el usuario puede comunicarse con el ncleo y por extensin, ejecutar dichas rdenes, as como herramientas que le permiten controlar el funcionamiento de la computadora.

Reporte Final de Residencias Profesionales

19

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

SSH SSH (Secure SHell, en espaol: intrprete de rdenes segura) es el nombre de un protocolo y del programa que lo implementa, y sirve para acceder a mquinas remotas a travs de una red. Permite manejar por completo la computadora mediante un intrprete de comandos, y tambin puede redirigir el trfico de X para poder ejecutar programas grficos si tenemos un Servidor X (en sistemas Unix y Windows) corriendo. Adems de la conexin a otros dispositivos, SSH nos permite copiar datos de forma segura (tanto ficheros sueltos como simular sesiones FTPcifradas), gestionar claves RSA para no escribir claves al conectar a los dispositivos y pasar los datos de cualquier otra aplicacin por un canal seguro tunelizado mediante SSH.

Secure Copy Es un medio de transferencia segura de archivos informticos entre un host local y otro remoto o entre dos hosts remotos, usando el protocolo Secure Shell (SSH). El trmino SCP puede referir a dos conceptos relacionados, el protocolo SCP o el programa SCP.

phpFlickr Esta clase acta como un contenedor para la API de Flickr y tiene la misin de regresar respuestas de manera significativa para los desarrolladores en PHP. Con esta herramienta deseamos obtener etiquetas e imgenes para su futuro procesamiento e interpretacin.

FlickrJ Esta API ha sido creada desde FlickrJ en Sourceforge. Esta es una API de Java la cual sirve como contenedor basado en el API de Flickr original, basada en la tecnologa de servicios

Reporte Final de Residencias Profesionales

20

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

ligeros web de RESTful que permite manejar los servicios web con mtodos definidos, manteniendo la simpleza del protocolo como XML.

Log4j Es una biblioteca Open Source desarrollada en Java por la Apache Software

Foundation que permite a los desarrolladores de software elegir la salida y el nivel de granularidad de los mensajes o logs (data logging) a tiempo de ejecucin y no a tiempo de compilacin como es comnmente realizado. La configuracin de salida y granularidad de los mensajes es realizada a tiempo de ejecucin mediante el uso de archivos de configuracin externos. Log4J ha sido implementado en otros lenguajes

como: C, C++, C#, Perl, Python, Ruby y Eiffel.

Espacio mtrico Una definicin sencilla de un espacio mtrico es la de un conjunto de elementos que comparte un mismo contexto y una funcin de distancia que determina la identidad similar entre elementos del mismo conjunto. El espacio mtrico se representa por ( ,d) donde es el universo de elementos y d la funcin de distancia. establece la medida de igualdad entre los elementos

La funcin de distancia

de . Ya que d determina el nivel de similitud entre los elementos su valor entre ms se acerque a cero significa que son ms parecidos. Hay propiedades que se deben cumplir con respecto a la distancia de un espacio mtrico, entre ellas: Positividad: ( Reflexividad: ( Simetra: ( ) ) ) ( )

Reporte Final de Residencias Profesionales

21

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Hasta el momento estas propiedades antes mencionadas solo garantizan cualidades de que se trata de un espacio mtrico, hay una cuarta propiedad que ayuda a evadir comparaciones de distancia descartando elementos. Desigualdad triangular: ( ) ( ) ( )

En la propiedad de positividad en donde (

donde

sea 0 el espacio )

puede ser llamado pseudo-mtrico. En los espacios pseudo-mtricos puede haber elementos diferentes que estn a distancia cero, por ejemplo, si ( entonces siendo dos elementos diferentes como ( ) tendran distancia 0. Porque

siendo una propiedad quizs de un espacio pseudo-mtrico puede funcionar en nuestros algoritmos de asociacin para un espacio mtrico, gracias a una funcin de equivalencia. ( ) ( ) ( ) ) .

Igualmente llamada identidad de los indiscernibles en donde si (

Otro caso en donde la propiedad de simetra no se cumple, los espacios son llamados cuasi-mtricos. Un espacio cuasi-mtrico se caracteriza porque.

Con esto, un claro ejemplo es el del recorrido de un automvil por la ciudad sabiendo que las esquinas son los elementos y el recorrido por las calles como la distancia teniendo en cuenta el sentido del trfico (el hecho de que las calles solo sean en un sentido propicia la propiedad de asimtrica). Existen tcnicas para derivar una distancia simtrica desde una asimtrica, por ejemplo: ( ) ( ) ( ).

Reporte Final de Residencias Profesionales

22

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Algoritmos de Agrupamiento Un algoritmo de agrupamiento (clustering) es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Un algoritmo de clustering permite extraer representantes de un conjunto de datos que pueden ser posteriormente usados para transmisin, para eliminacin de ruido o con una fase posterior de calibracin, para clasificacin de vectores en diferentes conjuntos.

Algoritmos de Distancia y Similaridad La distancia o medida de similitud entre cadenas se refiere a la cantidad de diferencias que hay entre ellas y es utilizada para solucionar diversos problemas, sobre todo aquellos que tienen relacin con el procesamiento de textos o del lenguaje natural. El clculo de la similitud entre cadenas adquiere gran importancia para un motor de bsqueda en internet, los cuales requieren realizar bsquedas basadas en posibles patrones errneos de digitacin de las consultas efectuadas por los distintos usuarios y determinar si la hilera digitada es aceptable o no mediante diversas funciones.

Distancia de Levenshtein. Se llama Distancia de Levenshtein, distancia de edicin, o distancia entre palabras, al nmero mnimo de operaciones requeridas para transformar una cadena de caracteres en otra. Se entiende por operacin, bien una insercin, eliminacin o la sustitucin de un carcter. Esta distancia recibe ese nombre en honor al cientfico ruso Vladimir Levenshtein, quien se ocupara de esta distancia en 1965. Es til en programas que determinan cun similares son dos cadenas de caracteres, como es el caso de los correctores de ortografa.

Reporte Final de Residencias Profesionales

23

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Por ejemplo, la distancia de Levenshtein entre "casa" y "calle" es de 3 porque se necesitan al menos tres ediciones elementales para cambiar uno en el otro. casa cala (sustitucin de 's' por 'l') cala calla (insercin de 'l' entre 'l' y 'a') calla calle (sustitucin de 'a' por 'e') Se le considera una generalizacin de la distancia de Hamming, que se usa para cadenas de la misma longitud y que solo considera como operacin la sustitucin. Hay otras generalizaciones de la distancia de Levenshtein, como la distancia de DamerauLevenshtein, que consideran el intercambio de dos caracteres como una operacin.

Distancia de Hausdorff La distancia de Hausdorff mide cun lejos estn uno de otro dos subconjuntos compactos de un espacio mtrico. Sean X y Y dos subconjuntos compactos de un espacio mtrico M. Entonces la distancia de Hausdorff dH(X, Y) es el mnimo nmero r tal que alguna r-vecindad cerrada de X contiene a Y y alguna r-vecindad cerrada de Y contiene a X. Es decir, si dist(x,y) denota la distancia en M entonces:

Esta funcin de distancia convierte al conjunto de todos los subconjuntos compactos de M en un espacio mtrico, digamos F(M). La topologa de F(M) depende solamente de la

Reporte Final de Residencias Profesionales

24

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

topologa de M. Si M es compacto entonces as es F(M). Otra manera alternativa de expresar la distancia de Hausdorff es:

Dnde:

Se puede comprobar el que conjunto de todos los conjuntos compactos de un espacio mtrico con esta distancia forma un espacio mtrico completo. La distancia de Hausdorff se puede definir de la misma manera para subconjuntos cerrados no compactos de M, pero en este caso la distancia pueden tomar valor infinito y la topologa de F(M) comienza a depender de la mtrica particular de M (no solamente de su topologa). La distancia de Hausdorff entre los subconjuntos no cerrados se puede definir como la distancia de Hausdorff entre sus clausuras. Da una pre-mtrica (o seudomtrica) en el conjunto de todos los subconjuntos de M (la distancia de Hausdorff entre cualesquiera dos conjuntos y con las mismas clausuras es cero). En geometra euclidiana a menudo se utiliza su anlogo, distancia de Hausdorff mdulo isometra. Es decir, sean X y Y dos figuras compactas en un espacio euclidiano, entonces DH(X, Y) es el mnimo de dH(I(X), Y) sobre todas las isometras I del espacio euclidiano. Esta distancia mide cun lejos estn X y Y de ser isomtricos.

Reporte Final de Residencias Profesionales

25

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Recuperacin de Informacin La Recuperacin de Informacin (IR, Information Retrieval) es el rea de la ciencia y la tecnologa que trata de la adquisicin, representacin, almacenamiento, organizacin y acceso a elementos de informacin. Desde un punto de vista prctico, dada una necesidad de informacin del usuario, un proceso de IR produce como salida un conjunto de documentos cuyo contenido satisface potencialmente dicha necesidad. Esta ltima puntualizacin es de suma importancia, ya que la funcin de un sistema de IR no es la de devolver la informacin deseada por el usuario, sino nicamente la de indicar qu documentos son potencialmente relevantes para dicha necesidad de informacin. El ejemplo ms popular de un sistema de recuperacin de informacin es el de los motores de bsqueda en Internet tales como Google, Altavista o Yahoo. La recuperacin de informacin (RI) es el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de informacin que son necesarios para la resolucin de una incgnita. Por lo cual, esta intenta resolver el problema de, encontrar y clasificar (rankear) por relevancia documentos, imgenes, audios, textos, etc.

La Recuperacin de la Informacin, tiene por objeto: identificar, localizar, seleccionar y acceder a los recursos de informacin tiles al usuario.

Algunas de las actividades que se realizan para completar el proceso de RI, estn el definir y describir nuestras necesidades de bsqueda, esto quiere decir que debemos identificar qu datos del texto nos sirven y cules no. Tambin se debe seleccionar una herramienta de apoyo para la bsqueda y descarga de la informacin. El prximo paso es definir una estrategia ptima para realizar la bsqueda y seleccin de la informacin deseada, posteriormente se realizara una evaluacin de los resultados obtenidos, para que as, en caso de no encontrar informacin relevante, se procede a redefinir la estrategia de bsqueda que se acerque o satisfaga nuestras necesidades para con este problema.

Reporte Final de Residencias Profesionales

26

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Minera de Datos La minera de datos (es la etapa de anlisis de "Knowledge Discovery in Databases" o KDD), es un campo de las ciencias de la computacin referido al proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos. Utiliza los mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y sistemas de bases de datos. El objetivo general del proceso de minera de datos consiste en extraer informacin de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Adems de la etapa de anlisis en bruto, que involucra aspectos de bases de datos y gestin de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, mtricas de Intereses, consideraciones de la Teora de la complejidad computacional, post-procesamiento de las estructuras descubiertas, la visualizacin y actualizacin en lnea. El trmino es una palabra de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la informacin (recoleccin, extraccin, almacenamiento, anlisis y estadsticas), pero tambin se ha generalizado a cualquier tipo de sistema de apoyo informtico decisin, incluyendo la inteligencia artificial , aprendizaje automtico y la inteligencia empresarial. En el uso de la palabra, el trmino clave es el descubrimiento, comnmente se define como "la deteccin de algo nuevo". Incluso el popular libro "La minera de datos: sistema de prcticas herramientas de aprendizaje y tcnicas con Java" (que cubre todo el material de aprendizaje automtico) originalmente iba a ser llamado simplemente "la mquina de aprendizaje prctico", y el trmino "minera de datos" se aadi por razones de marketing. A menudo, los trminos ms generales "(gran escala) el anlisis de datos", o "anlisis" -. o cuando se refiere a los mtodos actuales, la inteligencia artificial y aprendizaje automtico, son ms apropiados. La tarea de minera de datos real es el anlisis automtico o semi-automtico de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como
Reporte Final de Residencias Profesionales 27

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

los grupos de registros de datos (anlisis cluster), registros poco usuales (la deteccin de anomalas) y dependencias (Asociacin Minera regla). Esto generalmente implica el uso de tcnicas de bases de datos como los ndices espaciales. Estos patrones pueden entonces ser visto como una especie de resumen de los datos de entrada, y puede ser utilizado en el anlisis adicional o, por ejemplo, en la mquina de aprendizaje y anlisis predictivo. Por ejemplo, el paso de minera de datos podran identificar varios grupos en los datos, que luego pueden ser utilizados para obtener resultados ms precisos de prediccin por un sistema de soporte de decisiones. Ni la recoleccin de datos, preparacin de datos, ni la interpretacin de los resultados y la informacin son parte de la etapa de minera de datos, pero que pertenecen a todo el proceso KDD como pasos adicionales. Los trminos relacionados con el dragado de datos, la pesca de datos y espionaje de los datos se refieren a la utilizacin de mtodos de minera de datos a las partes de la muestra de un conjunto de datos de poblacin ms grandes establecidas que son (o pueden ser) demasiado pequeo para las inferencias estadsticas fiables que se hizo acerca de la validez de cualquier patrones descubiertos. Estos mtodos pueden, sin embargo, ser utilizado en la creacin de nuevas hiptesis que se prueba contra las poblaciones de datos ms grandes.

Metodologa de Minera de Datos Un proceso tpico de minera de datos consta de los siguientes pasos generales: Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el clculo o proceso), como posiblemente al muestreo de los registros disponibles. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos).
Reporte Final de Residencias Profesionales 28

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce como preprocesamiento de los datos.

Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o segmentacin. Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos.

Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Si el modelo final no superara esta evaluacin el proceso se podra repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentacin se podr repetir cuantas veces se considere necesario hasta obtener un modelo vlido. Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con mrgenes de error admisibles) ste ya est listo para su explotacin. Los modelos obtenidos por tcnicas de minera de datos se aplican incorporndolos en los sistemas de anlisis de informacin de las organizaciones, e incluso, en los sistemas transaccionales.

Reporte Final de Residencias Profesionales

29

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

En este sentido cabe destacar los esfuerzos del Data Mining Group, que est estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minera de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos. Los principales fabricantes de sistemas de bases de datos y programas de anlisis de la informacin hacen uso de este estndar. Tradicionalmente, las tcnicas de minera de datos se aplicaban sobre informacin contenida en almacenes de datos. De hecho, muchas grandes empresas e instituciones han creado y alimentan bases de datos especialmente diseadas para proyectos de minera de datos en las que centralizan informacin potencialmente til de todas sus reas de negocio. No obstante, actualmente est cobrando una importancia cada vez mayor la minera de datos desestructurados como informacin contenida en ficheros de texto, en Internet, etc. Fases de la Minera de Datos Un proyecto de minera de datos tiene varias fases necesarias que son, esencialmente: Comprensin del negocio y del problema que se quiere resolver. Determinacin, obtencin y limpieza de los datos necesarios. Creacin de modelos matemticos. Validacin, comunicacin, etc. de los resultados obtenidos. Integracin, si procede, de los resultados en un sistema transaccional o similar.

La relacin entre todas estas fases slo es lineal sobre el papel. En realidad, es mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la experiencia acumulada en proyectos de minera de datos se han ido desarrollando metodologas que permiten gestionar esta complejidad de una manera ms o menos uniforme.

Reporte Final de Residencias Profesionales

30

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Tcnicas de Minera de Datos Como ya se ha comentado, las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las tcnicas ms representativas son: Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son: El Perceptrn. El Perceptrn multicapa. Los Mapas Autoorganizados, tambin conocidos como redes de Kohonen.

Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse ms de 2 variables. rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos: Algoritmo ID3. Algoritmo C4.5.

Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de respuesta.
Reporte Final de Residencias Profesionales 31

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos: Algoritmo K-means. Algoritmo K-medoids.

Reglas de asociacin.- Se utilizan para descubrir hechos que ocurren en comn dentro de un determinado conjunto de datos. Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998): Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos.

Eliminacin de Stopwords En un primer paso todas las palabras son buenos candidatos. Las palabras que aparecen con frecuencia entre los documentos no son buenas para la recuperacin de informacin. As palabras que aparecen en ms del 80% de documentos no son consideradas y se les llama stopwords: Los artculos, los pronombres, las preposiciones, y las conjunciones son candidatos naturales. Algunos verbos, adverbios, y adjetivos se podan tratar como stopwords. Los trminos especficos de un dominio se podan tratar como stopwords.

Reporte Final de Residencias Profesionales

32

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Se suele tener una lista de palabras que no son buenos trminos de indexacin llamada STOPLIST, Lista de Palabras Vacas o Diccionario Negativo. La salida del analizador lxico es comprobada con la STOPLIST y se eliminan los trminos que aparecen en ella. Tambin se puede realizar la comprobacin durante la etapa del anlisis lxico (esto para mejorar el rendimiento) pero no suele ser muy usado en muchos casos. Ventajas: Las palabras vacas aparecen mucho y su lista de referencias es muy grande: o Si las quitamos el archivo invertido ser ms pequeo. o El archivo invertido se reduce en un 30% 40%. Mejora la eficiencia, porque hay una mejor seleccin de palabras claves. La indexacin es ms rpida.

Desventajas: Por otro lado, la eliminacin de stopwords puede reducir el recall, lo que hace que sea interesante la indexacin del texto completo. Pivotes Los algoritmos que usan pivotes, son herramientas efectivas para bsquedas de proximidad en espacios mtricos. Ellos permiten negociar entre el espacio ocupado y el nmero de clculos de distancia desarrollados en tiempo de consulta. Una vista abstracta de los algoritmos basados en pivotes es la siguiente. Seleccionamos un conjunto de pivotes:

Reporte Final de Residencias Profesionales

33

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Fig. 1.- Seleccin de pivotes.

En tiempo de indexamiento, para cada elemento de la base de datos calculamos y guardamos.

Fig. 2.- Resultado de seleccin de pivotes.

Reporte Final de Residencias Profesionales

34

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

En tiempo de la consulta, dada una consulta calculamos , . Ahora podemos descartar cada tal que, para algn pivote

, o lo que es lo mismo, descartamos cada tal que

. Esto muestra que los algoritmos basados en pivotes pueden ser vistos como un mapeo original dimensional con la distancia , es decir del espacio mtrico -

a un espacio vectorial .

Listas Invertidas En ciencias de la computacin, lista invertida (lista de Ingls invierte o invierte ndice) es una estructura de datos que asigna trminos a sus ocurrencias en un documento o conjunto de documentos, almacenados en una base de datos . Es una estrategia de ndice que permite realizar bsquedas rpidas y precisas, a cambio de una mayor dificultad en el acto de la insercin y actualizacin de documentos. Se trata de los sistemas de estrategia ms populares para los datos que se utilizan en bases de datos de gestin de sistemas a gran escala (como Adabas ) y motores de bsqueda (como Google).

Reporte Final de Residencias Profesionales

35

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

FUNCIONAMIENTO La lista generalmente invertida se basa en una lista tradicional de los documentos, y se llama as porque la inversin de la jerarqua de la informacin - en lugar de una lista de documentos que contengan palabras, es una lista de trminos obtenidos por el documento hace referencia a (a travs de un identificador nico como clave principal). A lo largo de este identificador se puede almacenar otra informacin, segn corresponda a la bsqueda que desea - por ejemplo, amazenar posicin trmino en el documento es til para utilizar algoritmos para calcular la relevancia de los resultados a travs de la proximidad de las palabras. Por ejemplo, dada la siguiente lista de documentos:

1: "Yo s que soy" 2: "Yo soy lo que s" 3: "Soy un pltano"

Obtenemos la siguiente lista invertida:

"Saber": {1, 2} 'Eso': {1, 2} "Am": {1, 2, 3} "O": {2} A "": {3} "Banana": {3}

Reporte Final de Residencias Profesionales

36

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

APLICACIN Directorios inversos son un elemento clave de los sistemas de bsqueda, ya que su objetivo es tener un resultado ms rpido y eficiente. Las bsquedas de trminos en una lista tradicional exigan atravesar cada documento y cada palabra a aquellos en busca de la palabra, mientras que con el uso de un ndice inverso, es posible saltar directamente al trmino de bsqueda. Por lo tanto, el uso de esta caracterstica permite que los resultados que se obtendrn as considerablemente ms rpido (la diferencia de rendimiento tiende a ser cada vez ms importante con el aumento de cantidad de documentos). El uso de la lista invertida tiene el potencial para salir de la bsqueda ms eficiente, ya que permiten que la informacin se almacene, junto con algoritmos adecuados, hace que sea fcil para clasificar y ordenar los resultados. El costo de estos beneficios viene en la forma de trabajo adicional para mantener esta lista, ya que es necesario para mantener la lista actualizada como documentos invertidos se insertan, cambia y se elimina la lista tradicional.

PROCEDIMIENTOS O METODOLOGAS

El sistema se ha desarrollado siguiendo una serie de actividades contempladas con un respectivo tiempo. Haciendo mencin a dichas actividades tenemos que:

ACTIVIDAD

Reporte Final de Residencias Profesionales

37

I.T.S.A

Extraccin de Conocimientos de las Redes Sociales

Anteproyecto

Antecendentes

Extraccion de datos

Medida de distancia

Clustering (Agrupacin de datos similares)

Reporte Final de Residencias Profesionales

38

También podría gustarte