Está en la página 1de 72

Estadística

Aplicada a la
Ingeniería
M.Sc. Luis Roca
MODULO III: DISEÑO
DE EXPERIMENTOS
Y ANALISIS
EXPLORATORIO
MULTIVARIADO
M.Sc. Luis Roca
Capitulo 11:
Análisis
exploratorio
multivariado
3
¿Qué es el Análisis exploratorio Multi..?
• Un investigador puede estar interesado en, p.ej.:
❖ Descubrir la asociación entre dos variables
categóricas (nominales y/o ordinales)
❖ Descubrir la correlación entre dos variables
discretas o continuas
❖ Identificar posibles grupos homogéneos a partir de
la existencia de similitudes de las variables
observadas
• En todas estas situaciones, los investigadores
pueden utilizar técnicas o análisis exploratorio
multivariado.
• Estas técnicas, también conocidas como métodos de
interdependencia, pueden ser potencialmente usados
en cualquier campo de estudio en donde el objetivo es
estudiar la relación entre variables, sin tener la
intención de obtener modelos de estimación
4
confirmatorios (sin inferencia).
Análisis exploratorio Multivariado: Objetivo
• Su primer objetivo es reducir o estructurar
de manera simple un conjunto de datos en
estudio.
• Esta estructuración se da a través de la
clasificación o agrupación de las
observaciones y variables.
• Luego se investiga la correlación (numérica)
o asociación de variables y categorías.
• O bien se puede crear ranking de
rendimiento a partir de variables
observadas.
• Es una técnica de corte exploratorio (no
predictivo) 5
Análisis exploratorio Multivariado: Clasificación
• Debido a su carácter exploratorio, sus
variados procedimientos se adoptan de una
manera preliminar o simultáneamente con un
modelo confirmatorio.
• Podemos agrupar estos análisis en dos grupos
grandes de técnicas:
1. Análisis de agrupamiento
2. Análisis de componentes principales
• Las decisión de cual usar depende del tipo de
variable disponible (categórica o métrica). Por
lo que es importante saber como obtendremos
los datos y para que antes tomar los datos en
campo (por ende, la herramienta de análisis).
6
Análisis de agrupamiento
• Sus procedimientos pueden ser de
dos tipos:
1. Jerárquicos
2. No jerárquicos

• Son usados cuando se desea estudiar


comportamientos similares entre
las observaciones (individuos, compañías,
municipalidades, países, entre otros) en relación
con una medida o variable binaria.

• Nos ofrece identificar potenciales


agrupaciones homogéneas dentro
de la base de datos estudiada.
7
Análisis de componentes principales

• Puede ser elegida cuando el principal


objetivo es la creación de nuevas
variables (factores, variables de agrupamiento,
otros) que capturan el
comportamiento conjunto de las
variables métricas de la base de datos
original.

8
Técnicas de exploración y sus objetivos principales

9
Análisis de correspondencia
• Utilizados por los investigadores
quieren estudiar potenciales
asociaciones entre variables y entre
sus respectivas categorías.

• No lo veremos a detalle en el curso.

• TAREA – NOTA EC2: Realizar una revisión bibliográfica de


esta técnica, explicar en que consiste, para que se usa, su
clasificación, y ejemplos. La tarea consiste en una revisión
corta, de máximo 2 caras (documento Word), se corregirá
plagio con 0, se necesita que cada alumno explique lo que
entendió, después de una revisión literaria acerca de la
técnica de análisis de correspondencia.
• Fecha de entrega: 19/02/2021.

10
Capitulo 11.1:
Análisis de
agrupamiento
(clustering analysis)
11
ANÁLISIS DE AGRUPAMIENTO

• Es representado por un conjunto de técnicas


exploratorias útiles que pueden ser aplicados
cuando intentamos verificar la existencia de
comportamientos similares entre las
observaciones en relación con un cierto tipo
de variables.

• En este proceso, se da la creación de grupos


o “clusters”, en los cuales la homogeneidad
interna prevalece.

• Las técnicas tienen como principal objetivo


agrupar las observaciones a un numero
pequeño de “clusters” que son internamente
homogéneos y heterogéneos entre ellos.

12
Análisis de agrupamiento: Bases
• Las técnicas de agrupamiento son consideradas
exploratorias o interdependientes, ya que sus
aplicaciones no tienen una naturaleza
predictiva (solo definen el comportamiento de la
muestra analizada).

• Debido a esto, cualquier inclusión de nuevas


observaciones en la base de datos significa que
se tiene que correr nuevamente el modelo
(con la posibilidad de evidenciar nuevos grupos
o un nuevo arreglo de las observaciones).

• Es un modelo estático (cada nueva


observación o variables, se tiene que correr
nuevamente)

13
Análisis de agrupamiento: ¿Cuando usarlo?
• Cuando el principal objetivo es arreglar y ubicar las observaciones en grupos.

• Luego, como objetivo especifico, el investigador busca el numero ideal de grupos (o pueden,
a priori, definirse antes de correr el modelo en base a criterios específicos y verificar si los datos se agrupan de
acuerdo a las hipótesis del investigador).

• Repetir que, el análisis de agrupamiento, es solo exploratorio. Si el investigador apunta a


utilizar una técnica para confirmar la creación de grupos y hacer el análisis predictivo,
puede utilizar técnicas como:

❑ Análisis discriminante
❑ Regresión logística multinomial

14
Análisis de agrupamiento: ¿Qué necesitamos?
• El investigador interesado en utilizar estas técnicas necesita para
comenzar:
i. Definir los objetivos de la investigación.
ii. Elegir una medida de distancia o similitud.
iii. Definir un orden para el agrupamiento (jerárquico o no jerárquico).
• Luego de ello, estará listo para interpretar los resultados

Nota: Es importante resaltar que los


resultados mediante el uso de
agrupamiento jerárquico y no
jerárquico son comparables, por lo
que es decisión del investigador
utilizar alguno de dichos métodos (y
cambiarlo si es que así lo considera)

15
Análisis de agrupamiento: Un análisis cíclico
• Los esquemas jerárquicos nos permiten identificar la clasificación y asignación de
observaciones, ofreciendo posibilidades para que los investigadores estudien,
evalúen y decidan el número de grupos formados en esquemas no jerárquicos.
• Comenzamos con un número conocido de grupos y, a partir de entonces,
comenzamos asignando las observaciones a estos “clusters”, con una futura
evaluación de la representatividad de cada variable al momento de crearlos.
• Por tanto, el resultado de un método puede servir como input para realizar el otro,
haciendo que el análisis sea cíclico.

16
Análisis de agrupamiento: Breve ejemplo – Parte 1
• El interés de un investigador es el de estudiar la
interdependencia entre individuos que viven en
una cierta municipalidad, basado en dos variables
métricas (edad, en años y ingresos familiares, en
soles).
• Su principal objetivo es evaluar la efectividad de
los programas sociales que apuntan a proveer un
cuidado de la salud, basado en las variables de
estudio y resultados, el investigador podrá
proponer un numero X (aun desconocido) de
nuevos programas dirigidos a grupos homogéneos
de personas (donde X es potencialmente 4,
viendo la figura de la derecha).

17
Análisis de agrupamiento: Breve ejemplo – Parte 1

• De la creación de los “clusters”


(agrupamientos), el investigador decide
desarrollar un análisis de comportamiento en
cada uno de los grupos (variabilidad dentro y
entre cada “cluster”).

• A partir de dicho análisis el investigador


puede de manera clara y conciente tomar la
decisión para asignar a los individuos a los
nuevos 4 programas sociales.

• Basado en este grafico, el investigador pudo


notar la formación de grupos con una
homogeneidad interna (con individuos
cercanos unos a los otros dentro de un grupo
que de otros grupos).
18
Análisis de agrupamiento: Breve ejemplo – Parte 2

• Pero que pasaría si es que el numero


de programas sociales (numero de
clusters) ya hayan sido dado desde un
inicio al investigador, debido al
presupuesto, dificultades políticas, etc
(p.ej. Solo 3 grupos).

• Aun en este caso podríamos utilizar


en análisis de agrupamiento, pero
únicamente para determinar la
asignación de individuos del municipio
a ese numero de programas ya
preestablecido.

19
Análisis de agrupamiento: Breve ejemplo – Parte 3

• El investigador regresa 1 año mas tarde para


realizar el experimento y análisis en la misma
municipalidad.
• Sin embargo, se percata de que un grupo de
personas de la tercera edad y billonarios han
decidido mudarse a la zona de estudio.
• Al momento de agrupar a todos los individuos
mas este nuevo grupo, se obtiene la
agrupación de la figura.
• En la figura se pueden observar los grupos
iniciales (parte 1), pero también un nuevo
grupo bien distante (los nuevos vecinos).
• Este ejemplo, muestra la importancia de
reaplicar en análisis de agrupamiento cuando
hay nuevas observaciones (o nuevas
variables de estudio).

20
Análisis de agrupamiento: Outliers o datos atípicos

• La creación de clusters o agrupamientos es muy sensible a


la presencia de “outliers”.

• Excluir o retener “outliers” en una base de datos, sin


embargo, dependerá de los objetivos de la investigación y
del tipo de data con la que estemos trabajando.

• Los “outliers” en un análisis de agrupamiento se pueden


observar con en la figura. Forman pequeños grupos
(insignificantes) o incluso agrupaciones unitarias (los cuales
quizá sea recomendable excluir).

• Por otro lado, si estas observaciones representan uno o


mas grupos relevantes, incluso siendo muy diferentes a los
otros, deberían de ser considerados en el análisis (y quizá
tras nuevas observaciones o variables de análisis, puedan
reagruparse de manera mas homogénea).

21
Análisis de agrupamiento: Datos
• Los análisis de agrupamiento pueden realizarse
tanto con:
• Datos numéricos (variables continuas o
discretas)
• Datos categóricos (solo de tipo binario)
• Los datos métricos, nos permiten realizar
medidas de distancia para las agrupaciones.
• Por su lado, las variables de tipo binario, nos
permiten realiza análisis de similitud o medidas
de similitud entre observaciones binarias (sin
embargo, es común en los investigadores utilizar incorrectamente
procedimientos de ponderación arbitrarias de variables cualitativa antes
de realizar en análisis de agrupamiento, esto se debe de evitar. En dichos
caso se debe de usar el análisis de correspondencia para analizar el
comportamiento de variables cualitativas).

22
Análisis de agrupamiento: Actualidad
• Aplicaciones diversas en diferentes
campos, como:
❑ Comportamiento de clientes
❑ Segmentación de mercado
❑ Ciencias políticas
❑ Economía
❑ Finanzas
❑ Contabilidad
❑ Matemáticas
❑ Ingeniería
❑ Logística
❑ Ciencias de la computación
❑ Educación
❑ Medicina
❑ Biología
❑ Genética
❑ Bioestadística
❑ Psicología
❑ Antropología
❑ Demografía
❑ Ecología
❑ Climatología
❑ Geología
❑ Criminología
❑ Entre otras
23
A. Distancias o medidas de similitud
• Tanto la medida de distancia o similitud
como el orden de agrupamiento van a
definir los resultados de nuestro análisis de
agrupamiento.

• En base a ello, hay múltiples


combinaciones entre diferentes medidas
de distancia o similitud y métodos de
agrupamiento (jerárquico y no jerárquico).

• En este contexto, es muy importante que el


investigador defina los criterios en relación
con su objetivo. Esto determinará la
manera en la que las observaciones serán
ubicadas en cada uno de los grupos.
24
A.1 Disimilitud: distancia entre dos observaciones de
variable métricas

• En una situación hipotética, imaginar que


intentamos calcular la distancia entre 2
observaciones i (i = 1,2) de una base de datos, la
cual tiene 3 variables métricas (X1i, X2i, X3i) con
valores en la misma unidad de medida.
• Es posible de ilustrar la configuración de ambas
observaciones en un eje tridimensional (Figura).
• La distancia entre la observación 1 y 2, es d12.
• Dicha distancia se puede calcular usando
conceptos básicos de geometría (Pitágoras)

• Esta expresión de la distancia entre la observación


1 y 2, también se le conoce como la formula de la
distancia Euclidiana.
25
A.1 Disimilitud: distancia entre dos observaciones de
variable métricas
• Es importante tener en cuenta, que las variables métricas
deben de tener la misma unidad de mediad para poder ser
utilizada en el calculo.
• Sin embargo, si las variables no tienen la misma unidad de
medida, los datos deben seguir un proceso de
estandarización (que discutiremos mas adelante).
• Podemos generalizar la formula de la distancia Euclidiana a
mas de 3 variables

• La distancia Euclidiana es la mas común, pero no la única.


Existen otras medidas de disimilitud:
❑ Distancia Euclidiana al cuadrado
❑ Distancia de Minkowski
❑ Distancia Manhattan
❑ Distancia Chebyshev
❑ Distancia Canberra
❑ Se puede usar como alternativa la correlación de Pearson 26
27
A.1 Disimilitud: distancia entre dos observaciones de
variable métricas
• El usar diferentes
medidas produce
diferentes resultados,
lo cual puede causar
que las observaciones
pueden ubicarse en
diferentes grupos
homogéneos.

• Es por tal motivo,


esencial que el
investigador siempre
elija su medida de
distancia previamente
y que tenga claro por
que la eligió sobre las
otras.
28
A.1 Disimilitud: distancia entre dos observaciones de
variable métricas, estandarización de unidades
• Además de elegir que medida de distancia Procedimiento Z-score:
usar, el investigador debe de verificar si la • Es el método mas frecuente para estandarizar
base de datos (variables) necesitan ser variables.
pretratadas. • Para cada observación i, el valor de la nueva
• Es decir, que las variables, deben de tener la variable estandarizada seria ZXj es obtenido
misma unidad de medida (p.ej. Notas de sustrayendo el valor original Xj de su media.
diferentes materias de colegio). Luego se divide el resultado por su desviación
• Sin embargo, si es que no poseen la misma estándar.
unidad de medida (p.ej. ganancias familiares
versus numero de hijos), esto puede influir
los resultados de la prueba.
• En dichos casos se debe de estandarizar los • De esta manera, todas las observaciones
datos, de tal manera que la naturaleza quedan con una media igual a 0 y una
arbitraria de la unidades de medida sea desviación estándar igual a 1, lo cual elimina el
eliminada, haciendo que cada variable tenga error que implicaría considerar las medidas de
la misma contribución en el calculo de la diferentes unidades como iguales.
distancia. • Este procedimiento, tienen la ventaja de no
cambiar la distribución de los datos originales. 29
A.2 Similitud: distancia entre dos observaciones de variable
binaria
• En una situación hipotética, imaginar que intentamos calcular la distancia entre 2
observaciones i (i = 1,2) de una base de datos, la cual tiene 7 variables métricas (X1i,
X2i,…,X7i), sin embargo, todas estas variables son de tipo binario.
• Para el calculo de distancias, tambien utilizamos la formula de distancia euclidiana al cuadrado
entre la observación 1 y 2:

• Por lo que podemos decir que para cada 2 observaciones p y q, mayor sea el numero de
respuestas iguales (0-0) o (1-1), la distancia será menor.

30
31
B. Orden de agrupamiento: Método de agrupamiento
• Este paso es tan
importante como el de
definir la medida de
distancia.
• La elección del método
esta estrechamente
relacionada con los
objetivos del
investigador.
• Como describimos
anteriormente, podemos
clasificarlos en dos
grandes grupos:
1. Jerárquicos
2. No jerárquicos
32
B.1. Método de agrupamiento: Jerárquico de
agrupamiento
• Este método tiene pasos o
etapas.

• En cada paso, un nuevo


dato entra al modelo,
creando grupos cada vez
mas grandes.

• Las observaciones van


alimentando al modelo
según un criterio elegido y
basados en la medida de
distancia elegida.

• Existen 3 principales
métodos:

33
B.1. Método de agrupamiento: Jerárquico de
agrupamiento
• Tipos de agrupamientos jerárquicos:
1. Simple (vecino mas cercano, unión simple): Recomendado en
casos en los cuales las observaciones están relativamente
separadas, es decir que queremos formar agrupaciones
considerando la mínima homogeneidad. Su análisis puede
verse obstaculizado cuando hay observaciones o
conglomerados poco alejados entre sí (figura).

2. Completo (vecino mas lejano, unión completa): Favorece a las


grandes distancias entre observaciones o grupos, de tal manera
que nuevos grupos puedan formarse. Es recomendable usarlo
cuando no existe una considerable distancia entre las
observaciones y el investigador necesita identificar la
heterogeneidad entre ellos.

3. Promedio (Entre grupo, unión promedio): Dos grupos se juntan


sobre la distancia promedio entre todos los pares de
observaciones que están en estos grupos.

34
B.1. Método de agrupamiento: Jerárquico de agrupamiento,
secuencia lógica de pasos
• Johnson y Wichern (2007) proponen la siguiente secuencia lógica de pasos para facilitar el entendimiento de una análisis de
agrupamiento, elaborado para un método de agrupamiento jerárquico:

1. Si n es un numero de observaciones de una base de datos, debemos empezar con un método de agrupación con
exactamente n grupos individuales (etapa 0), de tal manera que inicialmente tengamos una matriz de distancias (Do)
conformado por las distancias entre cada par de observaciones
2. En la etapa 1, debemos de elegir la mínima distancia dentro de todas las observaciones de la matriz Do, es decir
aquella distancia que conecte las 2 observaciones mas similares. En este punto tendremos ahora (n-1) grupos, y un de
ellos es formado por 2 observaciones.
3. En la siguiente etapa de agrupamiento, debemos repetir la etapa anterior. Sin embargo, ahora tenemos que tomar en
consideración la distancia entre cada par de observaciones, y entre el primer grupo ya formado y cada una de las
demás observaciones, con base en uno de los métodos agrupamiento elegido. En otras palabras, tendremos, después
de la primera etapa de agrupamiento, la matriz D1 con dimensiones (n-1)*(n-1), en la que una de las filas estará
representada por el primer par de observaciones agrupadas. En consecuencia, en la segunda etapa, se formará un
nuevo grupo mediante la agrupación de dos nuevas observaciones o agregando una determinada observación al primer
grupo formado previamente en la primera etapa.
4. El proceso anterior debe repetirse (n-1) veces, hasta que quede un solo grupo formado por todas las observaciones. En
otras palabras, en la etapa (n-2) tendremos la matriz Dn-2 que solo contendrá la distancia entre los dos últimos grupos
restantes, antes de la fusión final.
5. Finalmente, a partir de las etapas de agrupamiento y las distancias entre los grupos formados, es posible desarrollar un
diagrama en forma de árbol que resume el proceso de agrupamiento y explica la asignación de cada observación en
cada grupo. Este diagrama se conoce como dendrograma o fenograma.

Johnson, R.A., Wichern, D.W., 2007. Applied Multivariate Statistical Analysis, sixth ed. Pearson Education, Upper Saddle River. 35
36
Número de cluster con un dendograma

37
Número de cluster con un dendograma

38
Número de cluster con un dendograma

¿Cuál es el numero optimo de clusters usando un dendograma?


39
Pequeña prueba: Agrupar los valores en un eje cartesiano

40
Pequeña prueba: Agrupar los valores en un eje cartesiano

41
B.2. Método de agrupamiento: NO Jerárquico
• Dentro de los algoritmos mas conocidos de
métodos de agrupamiento no jerárquico, el
método de K-medias es el mas
frecuentemente utilizado.
• Dado un numero de grupos se encuentra
previamente definidos por el investigador,
este proceso puede utilizar luego de la
aplicación de un método jerárquico por
agrupamiento cuando no tenemos
conocimiento del numero de grupos que se
pueden formar, y en esta situación, el
resultado obtenido puede servir como
información para un método de
agrupamiento no jerárquico.
42
B.1. Método de agrupamiento: NO jerárquico
• Johnson y Wichern (2007) proponen la siguiente secuencia lógica de pasos para facilitar el
entendimiento de una análisis de agrupamiento no jerárquico

1. Definimos el número inicial de conglomerados y los centroides respectivos. El objetivo


principal es dividir las observaciones del conjunto de datos en K grupos, de modo que
los de cada grupo sean los más cercanos entre sí, al compararse con cualquier otro
que pertenezca a un grupo diferente. Para ello, las observaciones deben asignarse
arbitrariamente a los K grupos, de modo que se puedan calcular los centroides
respectivos.
2. Debemos elegir una cierta observación que esté más cerca de un centroide y
reasignarla a este grupo. En este momento, otro agrupamiento acaba de perder esa
observación y, por tanto, se deben recalcular los centroides del conglomerado que lo
recibe y del que lo pierde.
3. Debemos continuar repitiendo el paso anterior hasta que ya no sea posible reasignar
ninguna observación debido a su proximidad a un centroide de otro grupo.

Johnson, R.A., Wichern, D.W., 2007. Applied Multivariate Statistical Analysis, sixth ed. Pearson Education, Upper Saddle River. 43
B.1. Método de agrupamiento: NO jerárquico
• Para dos variables, la figura muestra una situación
hipotética que representa el final del procedimiento de
k-medias, en el cual ya no es posible relocalizar alguna
observación ya que no hay mas proximidades cercanas
al centroide de otros grupos.
• La matriz de distancias, no tiene que estar
definiéndose en cada etapa (como agrupamientos
jerárquicos), lo cual reduce los requerimientos en
términos de capacidades. Esto permite al método de
agrupamiento no jerárquico ser aplicado a bases de
datos mas grandes que los métodos jerárquicos.
• Recordar que tanto para métodos jerárquicos o no
jerárquicos, las unidades tienen que estandarizarse
siempre que las variables no tengas la misma unidad
de medida.

44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
Ventajas y desventajas de los dos métodos:
Jerárquico versus NO jerárquico

60
Capitulo 11.2:
Análisis de
componentes
principales
factorial
61
ANÁLISIS DE COMPONENTES PRINCIPALES FACTORIAL

• Utilizadas usualmente cuando intentamos trabajar con


variables que tienen, entre ellas, coeficientes de
correlación relativamente altos.
• Con este análisis, el investigador desea establecer
una nueva variable que capture el comportamiento
conjunto de las variables originales.
• Cada una de estas nuevas variables es llamada
FACTOR, el cual puede ser entendido como un
agrupamiento de variables.
• Entonces, el análisis de factores es una técnica
multivariada que intenta identificar un pequeño numero
de factores que representan el comportamiento
conjunto de variables originales interdependientes.
• Mientras que el análisis de agrupamiento utiliza
distancias y métodos de agrupamiento, el análisis de
componente principales utiliza los coeficientes de
correlación y genera factores.
62
Análisis factorial: PCA, Bases
• El análisis de componentes principales o
conocido generalmente como PCA (Principal
Coponent analysis).

• El PCA es uno de los métodos factoriales mas


usados y se basa en el supuesto de que los
factores sin correlación pueden extraerse de
combinaciones lineares de las variables
originales.

• De un conjunto de variables correlacionadas


unas a otras, PCA permite generar factores, los
cuales resultan de la combinación lineal de las
variables iniciales en la base de datos.

63
PCA: ¿Para que usarlo?

• Es usado con el principal objetivo de reducir la


dimensión de los datos, apuntando a crear
factores a partir de las variables originales

• Es como el análisis de agrupamiento, una


técnica puramente exploratoria (si se quiere
hallar relación, el investigador, necesitará utilizar
otro tipo de modelos estadísticos).

• Tiene el objetivo de confirmar la hipótesis de que


la data puede ser reducida a un cierto factor o a
una cierta dimensión (previamente establecida).

64
PCA: Objetivos
1. Identificar las correlaciones entre las variables
originales para crear factores que representan una
combinación lineal de dichas variables (reducción
estructural).
2. Verificar la validez de constructos previamente
establecidos, teniendo en consideración la
ubicación de las variables originales para cada
factor
3. Preparar rankings mediante la generación de
índices de performance de los factores.

4. Extraer factores ortogonales para uso futuro en


técnicas multivariadas confirmatorias que necesitan
la ausencia de multicolinearidad.

65
PCA: Situación 1
• Imagínense que un investigador esta interesado en
estudiar la interdependencia entre varias variables
cuantitativas que participan en el comportamiento
socioeconómico de las municipalidades.
• En esta situación, los factores que pueden ayudar a
explicar esta interdependencia pueden ser
determinados de las variables que se obtienen
inicialmente.
• Luego, un índice socioeconómico es creado, el
cual captura el comportamiento de varias variables
del estudio original.
• De este índice, podemos incluso proponer un
ranking de eficiencia para las municipalidades, y
los factores pueden ser incluso usados para análisis
de agrupamientos (Clustering analysis).

66
PCA: Situación 2
• En otra situación, los factores extraídos de las variables originales
pueden utilizarse como variables explicativas de otra variable
(dependiente), no considerada inicialmente en el análisis.
• Por ejemplo, los factores obtenidos del comportamiento conjunto de las
notas en determinadas materias del 5to grado de secundaria se pueden
utilizar como variables explicativas de la clasificación general de los
estudiantes en los exámenes de ingreso a la universidad, o si los
estudiantes aprobaron o no los exámenes.
• En estas situaciones, tenga en cuenta que los factores (ortogonales entre
sí) se utilizan, en lugar de las propias variables originales, como variables
explicativas de un determinado fenómeno en modelos multivariantes
confirmatorios, como la regresión múltiple o logística, con el fin de
eliminar problemas de multicolinealidad. Sin embargo, es importante
resaltar que este procedimiento solo tiene sentido cuando pretendemos
elaborar un diagnóstico sobre el comportamiento de la variable
dependiente, sin pretender tener pronósticos para otras observaciones
que inicialmente no estaban presentes en la muestra. Dado que las
nuevas observaciones no tienen los valores correspondientes de los
factores generados, la obtención de estos valores solo es posible si
incluimos tales observaciones en un nuevo análisis factorial.
67
PCA: Situación 3
• En una tercera situación, imagina que un minorista está
interesado en evaluar el nivel de satisfacción de sus clientes
mediante la aplicación de un cuestionario en el que las
preguntas han sido previamente clasificadas en determinados
grupos. Por ejemplo, las preguntas A, B y C se clasificaron en
el grupo de calidad de los servicios prestados, las preguntas D
y E, en el grupo de percepción positiva de precios, y las
preguntas F, G, H e I, en el grupo de variedad de bienes.

• Tras aplicar el cuestionario a un número significativo de


clientes, en el que se recogen estas nueve variables
atribuyéndoles puntuaciones que varían de 0 a 10, el minorista
ha decidido elaborar un análisis factorial de componentes
principales para comprobar si, efectivamente, la combinación
de variables refleja el constructo previamente establecido.

• Si esto ocurre, se habrá utilizado el análisis factorial para


validar el constructo, presentando un objetivo confirmatorio.

68
PCA: Situaciones
• En todas las situaciones, podemos observar que las variables
originales a partir de las que se crean los factores son siempre
cuantitativas.

• Usar variables de tipo cualitativas ponderados seria un grave error.

• Existen técnicas exploratorias diseñadas exclusivamente para estudiar


el comportamiento de variable cualitativas, p.ej. el análisis de
correspondencia y el análisis de homogeneidad. El PCA, sin lugar a
dudas, no tiene dicho fin.

69
PCA: Un poco de historia
• En 1933, Harold Hotelling, un estadístico, matemático e
influyente teórico de la economía, decidió llamar Análisis de
componentes principales al análisis que determina los
componentes a partir de la maximización de la varianza de
los datos originales.
• También en la primera mitad del siglo XX, el psicólogo Louis
Leon Thurstone, a partir de una investigación de las ideas
de Spearman y con base en la aplicación de ciertas pruebas
psicológicas, cuyos resultados fueron sometidos a un
análisis factorial, identificó las siete habilidades mentales
primarias de las personas: visualización espacial, significado
verbal, fluidez verbal, velocidad de percepción, habilidad
numérica, razonamiento y memoria de memoria.
• En psicología, el término factores mentales se utiliza incluso
para las variables que tienen mayor influencia sobre una
determinada conducta.
• Al igual que el análisis de agrupamiento, el PCA es también
ampliamente usado en varias áreas de conocimiento.
70
71
PCA: pasos

72

También podría gustarte