Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FACULTAD DE INFORMÁTICA
MÁSTER EN INGENIERÍA COMPUTACIONAL Y SISTEMAS INTELIGENTES
2010 - 2011
1
Índice general
1 Presentación
1.1 Introducción 3
2 Fuente y Descripción de Datos 3
2.1 Fuente de datos 3
2.2 Descripción de datos 3
3 Estudio Descriptivo General 4
3.1 Análisis Univariante 4
3.2 Análisis Bivariante 6
4 Análisis de Componentes Principales 10
4.1 Motivación 10
5 Análisis de Correspondencias 15
5.1 Motivación 15
6 Escala Multidimensional 20
6.1 Motivación 20
7 Análisis de Conglomerados 25
7.1 Motivación 25
8 Conclusiones 30
9 Bibliografía 31
2
1 PRESENTACIÓN
1.1 Introducción
Durante el desarrollo del presente trabajo se pondrá en practica algunas de las técnicas de análisis
de datos, se utilizará el software R en la manipulación y representación de los mismos, la
información se ha sido extraído del repositorio del Data, Software and News from the Statistics
Community1, en donde se escogió el Sleep in Mammals: Ecological and Constitutional Correlates,
by Allison, T. and Cicchetti, D(1976) 2, se cuenta con 62 observaciones, con 10 variables de las
cuales 3 son variables cualitativas y 7 cuantitativas, se encuentran campos missing para lo cual se
debe de realizar un filtrado de los datos.
Con estos datos nos va a permitir poder tener a disposición de las herramientas para la toma de
decisiones por los diferentes métodos multivariantes como: análisis de componentes principales,
análisis de correspondencias, escalado multidimensional y conglomerados.
Las variables para el estudio son:
• species of animal
• body weight in kg
• brain weight in g
• slow wave ("nondreaming") sleep (hrs/day)
• paradoxical ("dreaming") sleep (hrs/day)
• total sleep (hrs/day) (sum of slow wave and paradoxical sleep)
• maximum life span (years)
• gestation time (days)
• predation index (1-5): 1 = minimum (least likely to be preyed upon) 5 = maximum (most
likely to be preyed upon), 1=Least Likely, 2=Not Likely, 3=Neutral, 4=Likely, 5=Most
Likely
• sleep exposure index (1-5): 1 = least exposed (e.g. animal sleeps in a well-protected den) 5 =
most exposed, 1=Highly Unexposed, 2=Unexposed, 3=Neutral, 4=Exposed, 5=Highly
• Exposed overall danger index (1-5): (based on the above two indices and other information),
1 = least danger (from other animals) 5 = most danger (from other animals) 1=Least
Dangerous, 2=Not Dangerous, 3=Neutral, 4=Dangerous, 5=Most Dangerous
• Missing values denoted by -999.0
3
3 ESTUDIO DESCRIPTIVO GENERAL
Lo primero que se realizará es obtener cada uno de los estadísticos descriptivos de los datos y
obtener algunas conclusiones para el posterior análisis multivariante. Se trabajara con un conjunto
de 10 variables de las cuales 3 son variables cualitativas: predation index, sleep exposure index y 7
cuantitativas: species of animal, body weight, brain weight, slow wave sleep, paradoxical sleep,
total sleep, maximum life span, gestation time. Se utilizará para el cálculo estadistico el Software
R3.
Los missing values se los filtro los datos originales hasta eliminar los valores missing se cuenta con
un total de 620 valores que equivale al 100 %, de los cuales existen 38 valores missing que equivale
al 6.13% en la fuente original de datos, se reduce de 62 observaciones a 42. Con estos datos
filtrados se da inicio al presente trabajo.
Las variables cualitativas tienen otros estadísticos diferentes a las cuantitativas las mismas que se
observa en la Tabla 2.
4
Frecuencias Absolutas:
1 2 3 4 5 Total
predation index 8 11 7 7 9 42
sleep exposure index 18 9 4 4 7 42
overall danger index 11 10 7 9 5 42
Frecuencias Relativas:
1 2 3 4 5 Total
predation index 0.19 0.26 0.17 0.17 0.22 1
sleep exposure index 0.43 0.21 0.09 0.09 0.17 1
overall danger index 0.26 0.24 0.17 0.21 0.12 1
Se observa claramente que existe una frecuencia uniforme en la variable predationindex en cada
unas de las posibles opciones con que cada specie tiene en su forma de vida.
De una manera gráfica observamos los Diagramas de barra para la variable predationindex como se
observa en la Ilustración1:
Se observa en el diagrama que la frecuencia es alta en cada una de las maneras de vida de las
species sobre el 60%.
5
Ilustración 2: Variabilidad de las variables cuantitativas relacionadas directamente con el sleep
Con este análisis univariante se puede observar que existe una alta correlación entre algunas
variables cualitativas y cuantitativas.
Una vez analizadas las variables independientemente se procede a observar la relación con otras
variables.
El primer histograma es el que se observa en la Ilustración 3, es el de la variable dreamingsleep
(horas/día), dreamingsleep parece tener una distribución normal en la muestra, aunque aparecen
unas variaciones en los datos alrededor del valor de 2 y 4 horas.
Ilustración 3: Histograma de
Dreaminsleep(h/d)
6
distribución del tamaño general de los mamíferos (hay más mamíferos pequeños, como roedores,
perros, hombre y ademas los más grandes , como ciervos, vacas y elefantes). El diagrama de
dispersión muestra que, una vez más, hay muchos mamíferos más pequeños en la muestra que los
grandes de mayor tamaño, y que hay una variación bastante grande en el dreamingsleep en los
mamíferos clasificados en función de su peso.
7
Ilustración 6: Diagrama de dispersión de Maximumlifespan(a) vs
Dreamingsleep(h/d)
Ilustración 7: Maximumlifespan
8
Ilustración 8: Diagrama de dispersión de
Overalldangerindex(1-5) vs Dreamingsleep(h/d)
9
4 ANÁLISIS DE COMPONENTES PRINCIPALES
En este capítulo se trabajará con el análisis multivariado, el análisis de componentes principales, para el
trabajo con R utilizaremos el paquete ADE44 y los métodos estadísticos multivariados descriptivos.
El primer trabajo en R es cargar los datos mediante las funciones adecuadas para su análisis de la técnica de
ACP los resultados de los mismos se verán en las secciones siguientes.
4.1 Motivación
Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una variable cuyas
categorías aparecen en filas y la otra variable cuyas categorías son representadas en columnas, el
análisis de correspondencias consiste en resumir la información presente en las filas y columnas de
manera que pueda proyectarse sobre un subespacio reducido, y representarse simultáneamente los
puntos fila y los puntos columna, pudiéndose obtener conclusiones sobre relaciones entre las dos
variables nominales u ordinales de origen.
Así, si la variable cualitativa fila representa diferentes productos de mercado y la variable columna
diferentes percepciones de clientes sobre esos productos, el análisis de correspondencias produce un
gráfico con dos ejes en los cuales cada categoría fila y cada categoría columna están representadas
por puntos distintos. Así se podrán establecer relaciones entre variables (en este caso la variable
fila) e individuos (variable columna).
Igualmente se puede razonar tomando como referencia el otro eje del gráfico, y también tener en
cuenta el nivel de contribución o importancia relativa de cada punto o categoría, para ayudar a una
interpretación correcta.
Del mismo modo, es interesante, estudiar la matriz de correlaciones, y ver, que estas sean en general
altas, ya que esta es una de las hipótesis para el análisis de componentes principales (Tabla 3).
10
Ilustración 10: Diagrama de dispersión cuantitativo
11
Tabla 3: Matriz de correlaciones de variables cualitativas
12
Podemos observar cómo el primer eje explica un 58.6% de la inercia total de los datos (tabla 4).
En la Ilustración 12, podemos observar cómo se separan del resto las species el Asian elephant, Man
se refleja la relación de las demás species en torno a las cuadrantes I, II y IV.
13
Ilustración 13: Representación de cada fila en el espacio bidimensional.
14
5 ANÁLISIS DE CORRESPONDENCIAS
5.1 Motivación
El Análisis de Correspondencias es una técnica descriptiva o exploratoria cuyo objetivo es resumir
una gran cantidad de datos en un número reducido de dimensiones, con la menor pérdida de
información posible. En este aspecto su objetivo es similar al de los métodos factoriales, salvo que
en el caso del análisis de correspondencias el método se aplica sobre variables categóricas u
ordinales.
Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una variable cuyas
categorías aparecen en las filas y la otra variable cuyas categorías son representadas en columnas, el
análisis de correspondencias consiste en resumir la información presente en las filas y columnas de
manera que pueda proyectarse sobre un subespacio reducido, y representarse simultáneamente los
puntos fila y los puntos columna, pudiéndose obtener conclusiones sobre relaciones entre las dos
variables nominales u ordinales de origen.
Así, si la variable cualitativa fila representa diferentes productos de mercado y la variable columna
diferentes percepciones de clientes sobre esos productos, el análisis de correspondencias produce un
gráfico con dos ejes en los cuales cada categoría fila y cada categoría columna están representadas
por puntos distintos. Así se podrán establecer relaciones entre variables (en este caso la variable
fila) e individuos (variable columna).
Igualmente se puede razonar tomando como referencia el otro eje del gráfico, y también tener en
cuenta el nivel de contribución o importancia relativa de cada punto o categoría, para ayudar a una
interpretación correcta.
Los datos de partida para el análisis de correspondencias es una matriz X de dimensiones nxk que
representa las frecuencias absolutas observadas en una tabla de contingencia de dos variables,
donde la primera se representa por filas y tiene n categorías y la segunda por columnas y tiene k
categorías. Por ejemplo, clasificamos un conjunto de estudiantes en n posibles procedencias
geográficas y k posibles opiniones respecto a la docencia. En general, el elemento xij de la matriz X
representa la frecuencia absoluta observada en la casilla (i,j) de la tabla de contingencia.
15
Aplicación del Análisis de Correspondencias Simple y Múltiple son:
• Estudios de preferencias de consumo en Investigación de Mercados.
• Estudios que buscan tipologías de individuos respecto a variables cualitativas
(comportamiento de especies en biología, patrones de enfermedades en medicina, perfiles
psicológicos, etc.).
• Estudios de posicionamiento de de empresas a partir de las preferencias de consumidores.
En el análisis de datos del presente trabajo, contamos con tres variables cualitativas ordinales de las
cuales realizaremos en análisis de correspondencias simple entre dos variables de las tres que
disponemos: predation index, sleep exposure index y overall danger index.
Las variables que se va a elegir es predation index y sleep exposure index, y ver la relación que
existe para describir los datos por medio de estas dos variables.
Nuestro objetivo es determinar qué tienen de común los distintos grupos de mamíferos en relación
con el predation index, y cuál es la influencia del sleep exposure index. Se desea realizar un análisis
de correspondencias simple.
Tabla 5: Tabla de correspondencias (o de contingencia) para las dos variables cualitativas. En las
filas se representan los predation index de los mamíferos y en las columnas el sleep exposure index
La Tabla 5 muestra la tabla de contingencia para las dos variables, donde se observa la distribución
de la variable predation index (5 categorías) entre un grupo de 5 categorías de sleep exposure index
(Tabla 5). La muestra analizada presenta una mayor frecuencia por parte de los mamíferos que
menos están expuestos menos amenazados y a la vez son menos propensos al peligro mientras
duermen.
Se observa que no existen species que sean menos amenazadas y que tengan un alto nivel de que
estén expuestas al momento de dormir.
Tabla 6: Perfiles de fila y columna, que son las proporciones de cada fila y columna de cada celda
16
Tabla 7: Cuadro resumen donde se muestran las dimensiones, la inercia
17
Tabla 10: Análisis de Correspondencias simple de Columnas
Para interpretar las dimensiones extraídas, se dibuja los puntos filas y columnas (Ilustración 14).
Observamos que a lo largo del primer eje, se separa la categoría Exposed, Likely y a gran distancia
Neutral. De este modo, podemos interpretar la gran diferencia entre las species que tiene la variable
predation index.
En el tercer eje se puede ver una pequeña distancia entre las categorías predation index y sleep
exposure index de dos categorías contra una, se podría interpretar que algunos mamíferos que no
están muy expuestos en el sueño tienen un bajo índice de depredación.
18
Ilustración 14: Mapa simétrico de ACS
19
6 ESCALADO MULTIDIMENSIONAL
6.1 Motivación
El escalado multidimensional (EMD) (en inglés, multidimensional scaling MDS) se refiere al
conjunto de técnicas estadísticas utilizada habitualmente en marketing y ciencias sociales para la
visualización y exploración de datos. Es un procedimiento para tomar preferencias y percepciones
de los encuestados y representarlos en un diagrama visual. Estos diagramas, llamados mapas
perceptuales tienen generalmente dos dimensiones, pero pueden representarse en más de dos. Los
consumidores potenciales tienen que comparar pares de productos y hacer juicios sobre sus
similitudes. Mientras otras técnicas (como análisis factorial, análisis discriminativo y análisis
conjunto) obtienen dimensiones de las respuestas a los atributos de los productos identificados por
el investigador, MDS obtiene las dimensiones de los juicios de los encuestados sobre la similitud de
los productos.
Esto supone una ventaja importante pues los resultados no dependen de los juicios de los
investigadores. No es necesaria una lista de atributos que debe ser mostrada a los encuestados. Las
dimensiones resultantes vienen de los juicios de los encuestados sobre pares de productos. Gracias a
estas ventajas, MDS es la técnica más comúnmente utilizada en mapeado perceptual.
Aplicaciones
Se utiliza para la representación visual de datos en más de una dimensión (si son más de tres
dimensiones, se requiere más de un gráfico).
Con ello se puede encontrar qué factores (dimensiones) subyacen bajo los datos obtenidos en un
estudio. Se aplica en estudios sobre cognición, psicofísica, psicometría, marketing y ecología.
Marketing En marketing, el EMD es una técnica estadística para averiguar las preferencias y
percepciones de los encuestados a la hora de evaluar y comparar varios productos, representando
los datos obtenidos sobre una gráfica visual, llamada mapa perceptual.
Dentro del análisis que estamos desarrollando, nos dispondremos a realizar el escalamiento
multidimensional de dos grupos de variables del conjunto de datos que se tiene, lo que se va a
realizar es realizar trabajar con un grupo de variables cuantitativas como se lo realizó en el Análisis
de Componentes Principales, y poder relacionarlos con el análisis que vamos a aplicar.
Se tiene el primer grupo que se se le aplicará en MS, el mismo que tiene el siguiente conjunto de
variables cuantitativas junto con las 42 observaciones: bodyweight y brainweight.
El segundo grupo es el conformado por las siguientes variables cuantitativas junto al total de 42
observaciones: maximulifescan y gestationtime.
Con los dos grupos descritos el primer paso es obtener la matriz de distancias por cada grupo, por
defecto utilizará la distancias euclídeas por trabajar con variables cuantitativas, a estas matrices las
llamaremos coordenadas principales.
La matriz de distancias del primer grupo: bodyweight y brainweight lo observamos en la Tabla 11.
Nos permite observar la relación existente entre la gran diferencia de bodyweight entre algunas
species, además las distancias entre las species de da entre los mas grandes de tamaño y que incide
en el sleep of mamaml.
20
Tabla 11: Matriz de distancias euclídeas del grupo 1 de variables cuantitativas (bodyweight y
brainweight)
En la Tabla 12 se observa un resumen del escalado métrico utilizando la librería de R(vegan) para el
escalado multidimensional, que nos permite observar las variaciones en valores altos y bajos de las
coordenadas principales.
21
Ilustración 15: Representación de las coordenadas principales de las variables bodyweight y
brainweight
Tabla 13: Matriz de distancias euclídeas del grupo 2 de variables cuantitativas (maximumlifescan y
gestationtime)
En la Tabla 14 se observa un resumen del escalado métrico utilizando la librería de R(vegan) para el
escalado multidimensional, que nos permite observar las variaciones en valores altos y bajos de las
coordenadas principales.
22
Tabla 14: Escalado
Multidimensional Métrico del
segundo grupo de variables
cuantitativas
23
Ilustración 16: Representación de las coordenadas principales de las variables maximumlifescan y
gestationtime
24
7 ANÁLISIS DE CONGLOMERADOS
7.1 Motivación
El análisis de conglomerados es una técnica cuya idea básica es agrupar un conjunto de
observaciones en un número dado de conglomerados o grupos. Este agrupamiento se basa en la idea
de distancia o similitud entre las observaciones.
Se hace necesario, pues, encontrar métodos o algoritmos que infieran el número y componentes de
los conglomerados más aceptable, aunque no sea el óptimo absoluto. Previamente es necesario
considerar el concepto de medida de similitud. Académicos e investigadores de mercado a menudo
encuentran la mejor solución para resolver sus estudios mediante la definición de grupos
homogéneos de objetos, ya sean ellos individuos, firmas, productos, o incluso comportamientos.
En todos estos ejemplos, el analista trata de encontrar una estructura natural a través de las
observaciones basándose en un perfil multivariado. La técnica más comúnmente usada para este
propósito es el Análisis de Conglomerados.
El AC tiene como propósito esencial, agrupar aquellos objetos que reúnan idénticas características,
es decir, se convierte así en una técnica de análisis exploratorio diseñada para revelar las
agrupaciones naturales dentro de una colección de datos. Este análisis no hace ninguna distinción
entre variables dependientes (VD) y variables independientes (VI) sino que calcula las relaciones
interdependientes de todo el conjunto de variables.
Aplicaciones
El análisis de conglomerados se puede utilizar para:
• La taxonomía, agrupar especies naturales.
• Para el marketing, clasificar consumidores tipo.
• Medicina, clasificar seres vivos con los mismos síntomas y características patológicas.
• Técnicas de reconocimiento de patrones.
• Formar grupos de pixels en imágenes digitalizadas enviadas por un satélite desde un planeta
para identificar los terrenos.
Para nuestro análisis de conglomerados debemos de tener cuidado al agrupar variables en grupos
homogéneos tomando en cuenta el tipo, en nuestro caso tenemos 7 variables cuantitativas continuas
y 3 variables cualitativas discretas.
Para el estudio vamos a trabajar con el grupo de variables cuantitativas: bodyweight, brainweight,
nondreamingsleep, dreamingsleep, totalsleep, maximumlifespan, gestationtime, y descubriremos los
conglomerados que abarcan a la relaciones entre las species.
25
Lo que primero vamos a realizar en el análisis de conglomerados es crear la matriz de distancias,
para realizar el análisis con ella y seleccionar el número de grupos del total de la muestra. Para crear
la matriz de distancias entre las observaciones debemos de aplicar un método de cálculo, lo que se
va a realizar es comparar 4 métodos de obtención de distancias: manhattan, euclidean, maximum y
camberra.
En la Ilustracion 17, observamos los resultados con los 4 métodos y nos disponemos a escoger un
método para nuestro problema.
La Ilustración 17, nos permiten comparar los distintos métodos empleados para las distancias. Se
observa que la distancia euclídea y la de máximos ofrecen resultados parecidos, parece que se
forman 4 grupos y las observaciones 2 y 22 difieren del resto. El método Camberra ofrece otros
resultados diferentes pero este método es adecuado para datos estandarizados y no es nuestro caso.
Vamos a emplear la distancia euclídea. Para determinar mejor el número de clusters a seleccionar
vamos a emplear el algoritmo PAM (Partitioning Around Medoids), como se observa en la
Ilustración 18 el respectivo dendograma.
26
Ilustración 18: Dendograma de 2, 3, 4 y 5 posibles cluster utilizando PAM
Viendo las 4 siluetas parece más adecuado elegir los k=4 grupos (son mas homogéneos difiere un
poco con k=5) porque son más homogéneos. De todos modos procede un análisis del tamaño de los
grupos porque a la vista de las siluetas y los dendogramas anteriores parece que algunas
observaciones distorsionan el agrupamiento que lo observamos en la Tabla 15.
En la Tabla 15, se observa que existen grupos con un solo miembro tanto en el tamaño de k=4 y 5,
además que no varía la cantidad de species en el grupo 1 de 25 en el grupo. Esto se debe a las
diferentes características que comparten algunos mamíferos. De acuerdo a esto se trabaja con 4
clusters.
Ahora observemos como se han agrupado las 42 observaciones de estudio con los clusters finales,
27
como lo presenta resumida la Tabla 16 y 17.
El Asian elephant está en un solo grupo debido a sus notadas diferencias que hacen que sea el
cluster 1 heterogéneo al resto.
En la Tabla 18 se observa el análisis de cada una de las variables en cada cluster, para poder
observar el comportamiento de las agrupaciones realizadas.
28
Tabla 18: Comportamiento del agrupamiento por variables
Vemos que de acuerdo a los resultados de las medias se observa que que las species homogéneas de
cada uno de los grupos, nos permite obtener las siguientes relaciones que se dan, por ejemplo las
species del cluster 1, duermen más que otras species, eso se da en el Asian elephant que además es
el de mayor tamaño, se podría concluir que mientras más tamaño mas duermen, eso debido a que en
la variable totalsleep, se ve que el cluster tiene el menor valor.
Otra conclusión que se presenta de acuerdo a la Tabla 18, es que las species mas pequeñas tienen su
período de gestación mas corto.
Las species del cluster 3 tienen una mayor esperanza de vida, dentro de ese cluster se encuentra el
hombre.
29
8 CONCLUSIONES
30
9 BIBLIOGRAFÍA
[1] Análisis de Componentes Principales, Manuel Terrádez Gurrea, UOC, Proyecto e-Math.
[3] Análisis multivariado de datos en R, Campo Elías Pardo y Jorge Ortiz, Departamento de
Estadística. Universidad Nacional de Colombia-Bogotá.
[4] Análisis de cluster para definir territorios a investigar sobre el servicio de auditoría. Principios y
fundamentos teóricos para su aplicación. Variables a utilizar.
http://www.gestiopolis.com/canales6/mkt/investigacion-de-mercados-yauditoria.htm. Disponible
[25 de enero del 2011].
31