Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aplicada a la
Ingeniería
M.Sc. Luis Roca
MODULO III: DISEÑO
DE EXPERIMENTOS
Y ANALISIS
EXPLORATORIO
MULTIVARIADO
M.Sc. Luis Roca
Capitulo 11:
Análisis
exploratorio
multivariado
3
¿Qué es el Análisis exploratorio Multi..?
• Un investigador puede estar interesado en, p.ej.:
❖ Descubrir la asociación entre dos variables
categóricas (nominales y/o ordinales)
❖ Descubrir la correlación entre dos variables
discretas o continuas
❖ Identificar posibles grupos homogéneos a partir de
la existencia de similitudes de las variables
observadas
• En todas estas situaciones, los investigadores
pueden utilizar técnicas o análisis exploratorio
multivariado.
• Estas técnicas, también conocidas como métodos de
interdependencia, pueden ser potencialmente usados
en cualquier campo de estudio en donde el objetivo es
estudiar la relación entre variables, sin tener la
intención de obtener modelos de estimación
4
confirmatorios (sin inferencia).
Análisis exploratorio Multivariado: Objetivo
• Su primer objetivo es reducir o estructurar
de manera simple un conjunto de datos en
estudio.
• Esta estructuración se da a través de la
clasificación o agrupación de las
observaciones y variables.
• Luego se investiga la correlación (numérica)
o asociación de variables y categorías.
• O bien se puede crear ranking de
rendimiento a partir de variables
observadas.
• Es una técnica de corte exploratorio (no
predictivo) 5
Análisis exploratorio Multivariado: Clasificación
• Debido a su carácter exploratorio, sus
variados procedimientos se adoptan de una
manera preliminar o simultáneamente con un
modelo confirmatorio.
• Podemos agrupar estos análisis en dos grupos
grandes de técnicas:
1. Análisis de agrupamiento
2. Análisis de componentes principales
• Las decisión de cual usar depende del tipo de
variable disponible (categórica o métrica). Por
lo que es importante saber como obtendremos
los datos y para que antes tomar los datos en
campo (por ende, la herramienta de análisis).
6
Análisis de agrupamiento
• Sus procedimientos pueden ser de
dos tipos:
1. Jerárquicos
2. No jerárquicos
8
Técnicas de exploración y sus objetivos principales
9
Análisis de correspondencia
• Utilizados por los investigadores
quieren estudiar potenciales
asociaciones entre variables y entre
sus respectivas categorías.
10
Capitulo 11.1:
Análisis de
agrupamiento
(clustering analysis)
11
ANÁLISIS DE AGRUPAMIENTO
12
Análisis de agrupamiento: Bases
• Las técnicas de agrupamiento son consideradas
exploratorias o interdependientes, ya que sus
aplicaciones no tienen una naturaleza
predictiva (solo definen el comportamiento de la
muestra analizada).
13
Análisis de agrupamiento: ¿Cuando usarlo?
• Cuando el principal objetivo es arreglar y ubicar las observaciones en grupos.
• Luego, como objetivo especifico, el investigador busca el numero ideal de grupos (o pueden,
a priori, definirse antes de correr el modelo en base a criterios específicos y verificar si los datos se agrupan de
acuerdo a las hipótesis del investigador).
❑ Análisis discriminante
❑ Regresión logística multinomial
14
Análisis de agrupamiento: ¿Qué necesitamos?
• El investigador interesado en utilizar estas técnicas necesita para
comenzar:
i. Definir los objetivos de la investigación.
ii. Elegir una medida de distancia o similitud.
iii. Definir un orden para el agrupamiento (jerárquico o no jerárquico).
• Luego de ello, estará listo para interpretar los resultados
15
Análisis de agrupamiento: Un análisis cíclico
• Los esquemas jerárquicos nos permiten identificar la clasificación y asignación de
observaciones, ofreciendo posibilidades para que los investigadores estudien,
evalúen y decidan el número de grupos formados en esquemas no jerárquicos.
• Comenzamos con un número conocido de grupos y, a partir de entonces,
comenzamos asignando las observaciones a estos “clusters”, con una futura
evaluación de la representatividad de cada variable al momento de crearlos.
• Por tanto, el resultado de un método puede servir como input para realizar el otro,
haciendo que el análisis sea cíclico.
16
Análisis de agrupamiento: Breve ejemplo – Parte 1
• El interés de un investigador es el de estudiar la
interdependencia entre individuos que viven en
una cierta municipalidad, basado en dos variables
métricas (edad, en años y ingresos familiares, en
soles).
• Su principal objetivo es evaluar la efectividad de
los programas sociales que apuntan a proveer un
cuidado de la salud, basado en las variables de
estudio y resultados, el investigador podrá
proponer un numero X (aun desconocido) de
nuevos programas dirigidos a grupos homogéneos
de personas (donde X es potencialmente 4,
viendo la figura de la derecha).
17
Análisis de agrupamiento: Breve ejemplo – Parte 1
19
Análisis de agrupamiento: Breve ejemplo – Parte 3
20
Análisis de agrupamiento: Outliers o datos atípicos
21
Análisis de agrupamiento: Datos
• Los análisis de agrupamiento pueden realizarse
tanto con:
• Datos numéricos (variables continuas o
discretas)
• Datos categóricos (solo de tipo binario)
• Los datos métricos, nos permiten realizar
medidas de distancia para las agrupaciones.
• Por su lado, las variables de tipo binario, nos
permiten realiza análisis de similitud o medidas
de similitud entre observaciones binarias (sin
embargo, es común en los investigadores utilizar incorrectamente
procedimientos de ponderación arbitrarias de variables cualitativa antes
de realizar en análisis de agrupamiento, esto se debe de evitar. En dichos
caso se debe de usar el análisis de correspondencia para analizar el
comportamiento de variables cualitativas).
22
Análisis de agrupamiento: Actualidad
• Aplicaciones diversas en diferentes
campos, como:
❑ Comportamiento de clientes
❑ Segmentación de mercado
❑ Ciencias políticas
❑ Economía
❑ Finanzas
❑ Contabilidad
❑ Matemáticas
❑ Ingeniería
❑ Logística
❑ Ciencias de la computación
❑ Educación
❑ Medicina
❑ Biología
❑ Genética
❑ Bioestadística
❑ Psicología
❑ Antropología
❑ Demografía
❑ Ecología
❑ Climatología
❑ Geología
❑ Criminología
❑ Entre otras
23
A. Distancias o medidas de similitud
• Tanto la medida de distancia o similitud
como el orden de agrupamiento van a
definir los resultados de nuestro análisis de
agrupamiento.
• Por lo que podemos decir que para cada 2 observaciones p y q, mayor sea el numero de
respuestas iguales (0-0) o (1-1), la distancia será menor.
30
31
B. Orden de agrupamiento: Método de agrupamiento
• Este paso es tan
importante como el de
definir la medida de
distancia.
• La elección del método
esta estrechamente
relacionada con los
objetivos del
investigador.
• Como describimos
anteriormente, podemos
clasificarlos en dos
grandes grupos:
1. Jerárquicos
2. No jerárquicos
32
B.1. Método de agrupamiento: Jerárquico de
agrupamiento
• Este método tiene pasos o
etapas.
• Existen 3 principales
métodos:
33
B.1. Método de agrupamiento: Jerárquico de
agrupamiento
• Tipos de agrupamientos jerárquicos:
1. Simple (vecino mas cercano, unión simple): Recomendado en
casos en los cuales las observaciones están relativamente
separadas, es decir que queremos formar agrupaciones
considerando la mínima homogeneidad. Su análisis puede
verse obstaculizado cuando hay observaciones o
conglomerados poco alejados entre sí (figura).
34
B.1. Método de agrupamiento: Jerárquico de agrupamiento,
secuencia lógica de pasos
• Johnson y Wichern (2007) proponen la siguiente secuencia lógica de pasos para facilitar el entendimiento de una análisis de
agrupamiento, elaborado para un método de agrupamiento jerárquico:
1. Si n es un numero de observaciones de una base de datos, debemos empezar con un método de agrupación con
exactamente n grupos individuales (etapa 0), de tal manera que inicialmente tengamos una matriz de distancias (Do)
conformado por las distancias entre cada par de observaciones
2. En la etapa 1, debemos de elegir la mínima distancia dentro de todas las observaciones de la matriz Do, es decir
aquella distancia que conecte las 2 observaciones mas similares. En este punto tendremos ahora (n-1) grupos, y un de
ellos es formado por 2 observaciones.
3. En la siguiente etapa de agrupamiento, debemos repetir la etapa anterior. Sin embargo, ahora tenemos que tomar en
consideración la distancia entre cada par de observaciones, y entre el primer grupo ya formado y cada una de las
demás observaciones, con base en uno de los métodos agrupamiento elegido. En otras palabras, tendremos, después
de la primera etapa de agrupamiento, la matriz D1 con dimensiones (n-1)*(n-1), en la que una de las filas estará
representada por el primer par de observaciones agrupadas. En consecuencia, en la segunda etapa, se formará un
nuevo grupo mediante la agrupación de dos nuevas observaciones o agregando una determinada observación al primer
grupo formado previamente en la primera etapa.
4. El proceso anterior debe repetirse (n-1) veces, hasta que quede un solo grupo formado por todas las observaciones. En
otras palabras, en la etapa (n-2) tendremos la matriz Dn-2 que solo contendrá la distancia entre los dos últimos grupos
restantes, antes de la fusión final.
5. Finalmente, a partir de las etapas de agrupamiento y las distancias entre los grupos formados, es posible desarrollar un
diagrama en forma de árbol que resume el proceso de agrupamiento y explica la asignación de cada observación en
cada grupo. Este diagrama se conoce como dendrograma o fenograma.
Johnson, R.A., Wichern, D.W., 2007. Applied Multivariate Statistical Analysis, sixth ed. Pearson Education, Upper Saddle River. 35
36
Número de cluster con un dendograma
37
Número de cluster con un dendograma
38
Número de cluster con un dendograma
40
Pequeña prueba: Agrupar los valores en un eje cartesiano
41
B.2. Método de agrupamiento: NO Jerárquico
• Dentro de los algoritmos mas conocidos de
métodos de agrupamiento no jerárquico, el
método de K-medias es el mas
frecuentemente utilizado.
• Dado un numero de grupos se encuentra
previamente definidos por el investigador,
este proceso puede utilizar luego de la
aplicación de un método jerárquico por
agrupamiento cuando no tenemos
conocimiento del numero de grupos que se
pueden formar, y en esta situación, el
resultado obtenido puede servir como
información para un método de
agrupamiento no jerárquico.
42
B.1. Método de agrupamiento: NO jerárquico
• Johnson y Wichern (2007) proponen la siguiente secuencia lógica de pasos para facilitar el
entendimiento de una análisis de agrupamiento no jerárquico
Johnson, R.A., Wichern, D.W., 2007. Applied Multivariate Statistical Analysis, sixth ed. Pearson Education, Upper Saddle River. 43
B.1. Método de agrupamiento: NO jerárquico
• Para dos variables, la figura muestra una situación
hipotética que representa el final del procedimiento de
k-medias, en el cual ya no es posible relocalizar alguna
observación ya que no hay mas proximidades cercanas
al centroide de otros grupos.
• La matriz de distancias, no tiene que estar
definiéndose en cada etapa (como agrupamientos
jerárquicos), lo cual reduce los requerimientos en
términos de capacidades. Esto permite al método de
agrupamiento no jerárquico ser aplicado a bases de
datos mas grandes que los métodos jerárquicos.
• Recordar que tanto para métodos jerárquicos o no
jerárquicos, las unidades tienen que estandarizarse
siempre que las variables no tengas la misma unidad
de medida.
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
Ventajas y desventajas de los dos métodos:
Jerárquico versus NO jerárquico
60
Capitulo 11.2:
Análisis de
componentes
principales
factorial
61
ANÁLISIS DE COMPONENTES PRINCIPALES FACTORIAL
63
PCA: ¿Para que usarlo?
64
PCA: Objetivos
1. Identificar las correlaciones entre las variables
originales para crear factores que representan una
combinación lineal de dichas variables (reducción
estructural).
2. Verificar la validez de constructos previamente
establecidos, teniendo en consideración la
ubicación de las variables originales para cada
factor
3. Preparar rankings mediante la generación de
índices de performance de los factores.
65
PCA: Situación 1
• Imagínense que un investigador esta interesado en
estudiar la interdependencia entre varias variables
cuantitativas que participan en el comportamiento
socioeconómico de las municipalidades.
• En esta situación, los factores que pueden ayudar a
explicar esta interdependencia pueden ser
determinados de las variables que se obtienen
inicialmente.
• Luego, un índice socioeconómico es creado, el
cual captura el comportamiento de varias variables
del estudio original.
• De este índice, podemos incluso proponer un
ranking de eficiencia para las municipalidades, y
los factores pueden ser incluso usados para análisis
de agrupamientos (Clustering analysis).
66
PCA: Situación 2
• En otra situación, los factores extraídos de las variables originales
pueden utilizarse como variables explicativas de otra variable
(dependiente), no considerada inicialmente en el análisis.
• Por ejemplo, los factores obtenidos del comportamiento conjunto de las
notas en determinadas materias del 5to grado de secundaria se pueden
utilizar como variables explicativas de la clasificación general de los
estudiantes en los exámenes de ingreso a la universidad, o si los
estudiantes aprobaron o no los exámenes.
• En estas situaciones, tenga en cuenta que los factores (ortogonales entre
sí) se utilizan, en lugar de las propias variables originales, como variables
explicativas de un determinado fenómeno en modelos multivariantes
confirmatorios, como la regresión múltiple o logística, con el fin de
eliminar problemas de multicolinealidad. Sin embargo, es importante
resaltar que este procedimiento solo tiene sentido cuando pretendemos
elaborar un diagnóstico sobre el comportamiento de la variable
dependiente, sin pretender tener pronósticos para otras observaciones
que inicialmente no estaban presentes en la muestra. Dado que las
nuevas observaciones no tienen los valores correspondientes de los
factores generados, la obtención de estos valores solo es posible si
incluimos tales observaciones en un nuevo análisis factorial.
67
PCA: Situación 3
• En una tercera situación, imagina que un minorista está
interesado en evaluar el nivel de satisfacción de sus clientes
mediante la aplicación de un cuestionario en el que las
preguntas han sido previamente clasificadas en determinados
grupos. Por ejemplo, las preguntas A, B y C se clasificaron en
el grupo de calidad de los servicios prestados, las preguntas D
y E, en el grupo de percepción positiva de precios, y las
preguntas F, G, H e I, en el grupo de variedad de bienes.
68
PCA: Situaciones
• En todas las situaciones, podemos observar que las variables
originales a partir de las que se crean los factores son siempre
cuantitativas.
69
PCA: Un poco de historia
• En 1933, Harold Hotelling, un estadístico, matemático e
influyente teórico de la economía, decidió llamar Análisis de
componentes principales al análisis que determina los
componentes a partir de la maximización de la varianza de
los datos originales.
• También en la primera mitad del siglo XX, el psicólogo Louis
Leon Thurstone, a partir de una investigación de las ideas
de Spearman y con base en la aplicación de ciertas pruebas
psicológicas, cuyos resultados fueron sometidos a un
análisis factorial, identificó las siete habilidades mentales
primarias de las personas: visualización espacial, significado
verbal, fluidez verbal, velocidad de percepción, habilidad
numérica, razonamiento y memoria de memoria.
• En psicología, el término factores mentales se utiliza incluso
para las variables que tienen mayor influencia sobre una
determinada conducta.
• Al igual que el análisis de agrupamiento, el PCA es también
ampliamente usado en varias áreas de conocimiento.
70
71
PCA: pasos
72