Temario 1º Cursos Analisis Multivariantes

29/11/21 16:53 Campus Virtual
Fundamentos de la investigación en
ciencias de la salud: Análisis
multivariante
https://campusformacion.net/nuevocampus/impresioncurso.php 1/204
Índice
ÍNDICE
Bloque Tema Apartados
Bloque I.- El 1.1. Historia del Análisis Multivariante.

Análisis
Tema 1. 1.2. Objetivos del Análisis Multivariante.
Multivariante
“Introducción al
Análisis 1.3. Clasificación de las técnicas
Multivariante” multivariantes.
1.4. La organización de los datos.
2.1. Definición y caracterización.
2.2. Distribuciones marginales y

Tema 2.
condicionadas.
“Distribución
normal
2.3. Caso bidimensional y tridimensional.
multivariante”
2.4. Distribuciones asociadas: formas
cuadráticas aleatorias normales.
3.1. Introducción
3.2. Función de verosimilitud

Tema 3.
“Estimación”
3.3. Matriz de información de Fisher
3.4. Estimación máximo verosímil.
4.1. Contrastes de la razón de

verosimilitudes.
4.2. Contrastes de unión-intersección.
4.3. Contrastes de hipótesis acerca del valor

de medias.
Tema 4. “Contraste
de Hipótesis” 4.4. Contrastes de hipótesis acerca de la
matriz de varianzas-covarianzas. Intervalos
de confianza múltiples.
4.5. Contrastes de hipótesis múltiples.

MANOVA
Bloque II. 5.1. Introducción.

Técnicas de
5.2. Estimadores mínimo cuadráticos:
Dependencia
propiedades.
5.3. Teorema de Gauss-Markov.
Tema 5. “Regresión 5.4. Análisis de los residuales.

Lineal Múltiple”
5.5. Correlaciones múltiple y parcial.
5.6. Contrastes de hipótesis.
5.7. Intervalos de confianza simultáneos.
5.8. Matrices singulares de diseño.
6.1. Introducción.
6.2. Discriminación entre dos grupos con

distribuciones conocidas.
Tema 6. “Análisis 6.3. Discriminación entre dos grupos con

Discriminante” distribuciones conocidas y parámetros
desconocidos.
6.4. Discriminación entre más de dos grupos.
6.5. Selección de variables.
7.1. Fundamento del modelo de Regresión

Logística. El concepto de “odd” (o “riesgo”).
Forma analítica del modelo de Regresión
Logística. Interpretación de los parámetros
del modelo de Regresión Logística.
7.2. Estimación del Modelo de Regresión

Tema 7. “Análisis de
Logística.
Regresión Logística”
7.3. Test global de un ajuste. Análisis de las
“deviances”.
7.4. Significación de un parámetro: Método

de Wald.
7.5. Modelo de Regresión Multinomial
8.1. Introducción.
8.2. Diseño del análisis conjunto.

Tema 8. “Análisis
Conjunto”
8.3. Estimación por mínimos cuadrados.
8.4. Interpretación de los resultados
Bloque III.- 9.1. El modelo factorial: factores comunes y

Técnicas de específicos.
Interdependencia
9.2. Indeterminación de las soluciones
factoriales.
9.3. Obtención de soluciones: el método del
Factorial”
factor principal y el método de máxima
verosimilitud.
9.4. Rotación de las soluciones.
9.5. Puntuaciones factoriales.
10.1. Definición y propiedades de las

componentes principales.
Tema 10.”Análisis de
componentes 10.2. Obtención de las componentes
principales” principales a partir de una muestra.
10.3. Aplicaciones.
11.1. Construcción de las nubes de puntos y

elección de las distancias.
11.2. Análisis de las nubes de puntos en Rp y

Rn y relaciones entre ellas.
11.3. Reconstrucción de la tabla de

frecuencias original.
de
Correspondencias”
11.4. Posición de los elementos
suplementarios.
11.5. Interpretación de los resultados:

contribuciones absolutas y relativas.
11.6. Contrastes de hipótesis
12.1. Distancias y similaridades.
12.2. Clasificación ascendente jerárquica:

método de la unión simple, método de la
unión completa, métodos del centroide.
de Conglomerados”
12.3. Clasificación jerárquica descendente:
método monotético y método politético.
12.4. Clasificación no jerárquica: agregación

alrededor de centros móviles
13.1. Escalonamiento de objetos y/o sujetos.

Tema
13.”Escalonamiento”
13.2. Modelos de escalonamiento
Objetivos
OBJETIVOS GENERALES
Aprendizaje de los conceptos y procedimientos básicos el Análisis

Multivariante
Desarrollo de la capacidad de formular hipótesis contrastables en el

campo de las ciencias de la salud
Adquirir la habilidad para interpretar resultados de análisis aplicados
Conseguir que el alumno discrimine que herramienta estadística es más

adecuada para la resolución de distintos interrogantes
Aprender el uso de la tecnología para la realización de cálculos

estadísticos
Presentación
PRESENTACIÓN
La asignatura análisis multivariantes es una asignatura del master en investigación en

ciencias de la salud.
Se trata de una asignatura de 6 créditos de carácter teórico-práctico en la que se

pretende dotar al alumno del conocimiento sobre las herramientas multivariantes que le
permitan comprender y desarrollar investigaciones de las estructuras y procesos
biomédicos, de las relaciones entre conjuntos de variables
El objetivo general de la asignatura es que el alumno adquiera competencia en las

técnicas multivariantes, seleccionando en cada momento la herramienta necesaria.
Bloque I - El Análisis Multivariante
Tema 1 - Introducción al análisis multivariante
TEMA 1. INTRODUCCIÓN AL ANÁLISIS

MULTIVARIANTE
1.1. HISTORIA DEL ANÁLISIS MULTIVARIANTE (AM).

La estadística es un cuadro de herramientas en el que podemos diferenciar tres niveles

de análisis:
Nivel 1: Descriptivo-Univariante. Resume e ilustra la información en una

matriz de datos.
Nivel 2: Inferencial-Bivariante. Estima parámetros, contrasta hipótesis,

compara el comportamiento de dos o más grupos y analiza la relación
entre pares de variables.
Nivel 3: Modelización-Multivariante. Elabora modelos, ecuaciones o

funciones que permiten explicar unas variables a partir de otras o
identificar variables latentes y grupos homogéneos para resumir la
información.
Para explicar que significa “análisis multivariado” se encuentran en la literatura distintas

definiciones:
Kendall (1957) interpreta el análisis multivariable como el conjunto de técnicas

estadísticas que analizan simultáneamente más de dos variables. Con esta definición,
cualquier técnica estadística para el estudio de asociaciones y relaciones puede
considerarse una técnica de análisis multivariado. “Es una extensión del análisis
univariable y bivariable al análisis simultáneo de más de dos variables en un muestreo de
observaciones”.
Seber (1984) se refiere al análisis multivariable como aquel orientado al estudio de

vectores de variables aleatorias correlacionadas.
Johnson y Wichern (1998) define el AM es una bolsa mixta que contiene métodos

apropiados para investigaciones científicas y tecnológicas donde los objetivos son uno o
varios de los siguientes:
Reducción de dimensionalidad o simplificación estructural. El fenómeno en estudio

involucra numerosas variables, para facilitar su interpretación se desea representarlo tan
simple como sea posible sin sacrificar información valiosa (Ej-. Análisis de Componentes
Principales, Análisis de Correspondencias, Coordenadas Principales, Escalamiento
Multimensional Métrico, y los gráficos conocidos como Biplots)
Agrupamiento y Clasificación. Se desea crear, a partir de las

características medidas, grupos de objetos o variables “similares”.
Alternativamente, se puede requerir el establecimiento de reglas para
clasificar objetos en grupos bien definidos (Ej-. Análisis de
Conglomerados).
Investigación de la dependencia entre variables. La naturaleza de la

correlación entre varias variables es de interés. Son todas las variables
mutuamente independientes? o ¿Existen una o más variables
dependientes de las otras? Si esto es cierto, cómo dependen? (Ej-.
Análisis de Correlaciones Canónicas y las Regresiones Multivariadas)
Predicción. La relación entre variables debe ser determinada para

predecir los valores de una o más variables sobre la base de
observaciones de las otras (Ej-. Análisis de Discriminante).
Construcción y Prueba de Hipótesis. Se prueban hipótesis estadísticas

específicas, formuladas en término de los parámetros de distribuciones
multivariadas (Ej-. Análisis Multivariado de Varianza (MANOVA))
En general, todas las definiciones del AM hacen referencia a un conjunto de técnicas

estadísticas diseñadas para trabajar simultáneamente con la información de un conjunto
de variables referidos a un grupo de individuos u objetos.
El AM provee herramientas que permiten descubrir estructuras, establecer relaciones de

dependencia entre las variables medidas simultáneamente sobre la misma unidad, para
comparar, agrupar y/o clasificar observaciones multivariadas e incluso para comparar,
agrupar y clasificar variables.
El AM surge como una forma de hacer asimilable al entendimiento humano la gran

cantidad de datos que hay en la realidad, sintetizando los aspectos más relevantes y
perdiendo el mínimo de información posible.
Las razones que han potenciado la aparición del AM son:
1. Las necesidades de investigación. La complejidad de los fenómenos clínicos y

sociales requiere de un tratamiento de datos multidimensional.
2. El desarrollo de la informática y los ordenadores. Posibilidad de realizar cálculos

complejos en pocos segundos.
3. Utilidad en numerosos campos
4. Proliferación de la investigación de mercados y los estudios de opinión.
5. Abundante bibliografía aplicada (artículos, manuales y series monográficas).
Las ciencias de la salud y sociales soportan una realidad llena de necesidades que supone
cantidades ingentes de datos y, en consecuencia, requieren nuevos métodos para
diseccionarlos. Es ilusorio pretender responder a cuestiones complejas de investigación
mediante la exclusiva utilización de análisis estadísticos univariables.
Claro que, con el aumento de la complejidad se han acumulado riesgos. El AM conlleva

una serie de “peligros” que es necesario tener en cuenta:
Fácil estimación y difícil interpretación. Nos permite trabajar con un

conjunto enorme de variables a la vez, pero qué relaciones podemos
establecer, qué significa.
A mayor número de variables, mejor modelo. Es necesario considerar

aquellas variables que nos permitan desarrollar el mejor modelo, no por
tener más variables tendremos mejor modelo, “parsimonia”.
Olvidar la teoría. Evitar modelizar por modelizar.
Adecuar el tamaño muestral. Cuantas más variables consideremos el

tamaño muestral aumentará significativamente.
Relevancia conceptual y significación estadística. Alcanzar la

significación estadística no implica necesariamente que exista relevancia
conceptual. Al tener una muestra muy grande es probable encontrar, por
ejemplo, correlaciones significativas, pero ello no quiere decir que sean
relevantes.
Casos anómalos. Una muestra muy amplia suele contener casos

anómalos, no podemos desestimar el modelo por unos casos anómalos,
debemos detectarlos y eliminarlos de la muestra.
1.2. OBJETIVOS DEL ANÁLISIS MULTIVARIANTE

El análisis multivariante (Cuadras, 1981) es una rama de la estadística y del análisis de

datos, que estudia, interpreta y elabora el material estadístico sobre un conjunto de n > 1
de variables, que pueden ser cuantitativas, cualitativas o una mezcla. Por esta razón los
objetivos que persigue son:
1. Resumir los datos mediante un conjunto de nuevas variables con la mínima

pérdida de información.
2. Encontrar grupos en los datos, si existen.
3. Clasificar nuevas observaciones en grupos definidos.
4. Relacionar conjuntos de variables.
5. Esclarecer la distribución real de varias variables.
6. Desarrollar un modelo de predicción basado en múltiples variables.
7. Hallar relaciones causa-efecto entre las variables.
Básicamente estos objetivos pueden sintetizarse en dos:
1. Proporcionar métodos cuya finalidad es el estudio de datos multivariantes que el

análisis estadística uni y bidimensional es incapaz de conseguir. Poder medir,
explicar y predecir el grado de existe entre las variables y las múltiples
combinaciones existentes entre ellas.
2. Ayudar al investigador a tomar decisiones óptimas en el contexto en el que se

encuentre teniendo en cuenta la información disponible por el conjunto de datos
analizados.
El número de campos en los que puede ser aplicado es amplísimo:
Administración de empresas. Para construir tipologías de clientes
Agricultura. Para clasificar terrenos de cultivo por fotografía aérea.
Arqueología. Para clasificar restos arqueológicos.
Biometría. Para identificar los factores que determinan la forma de un

organismo vivo.
Computación: Para diseñar algoritmos de clasificación automática.
Educación. Para investigar la efectividad del aprendizaje a distancia.
Medio ambiente. Para determinar las dimensiones de la contaminación

ambiental
Documentación. Para clasificar revistas por su contenido
Economía. Para determinar las dimensiones del desarrollo económico.
Geología. Para clasificar sedimentos.
Lingüística. Para encontrar patrones de asociación de palabras.
Medicina. Para identificar tumores.
Psicología. Para identificar factores que componen la inteligencia

humana.
1.3. CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES

No existe una regla general para clasificar a los métodos de Análisis
Múltivariante, se suelen clasificar atendiendo a diversos criterios.
Kinnear y Taylor (1971), los clasifican atendiendo a la existencia o inexistencia de

variables dependientes y si las variables dependientes o independientes son métricas.
González B. (1991), clasifica a los métodos múltivariantes según sus objetivos, la

naturaleza de los datos y las escalas de medidas.
Sheth (1968) se plantea tres preguntas en el momento de hacer una clasificación de las
técnicas multivariantes:
a) ¿Son unas variables dependientes de otras?
Sí: Regresión No: Análisis Factorial, Clusters
b) ¿Cuántas variables dependientes hay?
c) ¿Cuáles son las propiedades de los datos?
Métricos No Métricos
Sheth plantea, entonces, dos graandes grupos:
1. Métodos de dependencia. Algunas variables son dependientes de otras. Suponen

que las variables analizadas están divididas en dos grupos: variables dependientes y
variables independientes. Su objetivo es determinar si el conjunto de variables
independientes afecta al conjunto de variables dependientes y de qué forma.
2. Métodos de Interdependencia. Las variables no son dependientes unas de otras.

No distingue entre variables dependientes e independientes y su objetivo es
identificar qué variables están relacionadas, cómo lo están, y por qué.
En la Tabla I, podemos ver el conjunto de modelos multivariados clasificados en función

de los criterios de Sheth.
Regresión
Supervive
Métrica
MANOVA
Dependencia
Correlació
Se especifican una o más variables como si se hubiesen pronosticado (VD) mediante un Canónica
conjunto (VI)
Discrimin
No
Regresión
Métrica
Conjoint
Compone
principale
Factorial
Métrica
Cluster
Escalas
Interdependencia multidime
Todas las variables son tomadas como un conjunto, no se designa ninguna variable como
si se hubiesen pronosticado mediante otras variables. Correspo
Modelos l
lineales
No
Métrica
Cluster
Escalas
multidime
1.4. LA ORGANIZACIÓN DE LOS DATOS

El análisis multivariante (AM) es la parte de la estadística y del análisis de datos que

estudia, analiza, representa e interpreta los datos que resultan de observar más de una
variable estadística sobre una muestra de individuos. Las variables observables son
homogéneas y correlacionadas, sin que alguna predomine sobre las demás. La
información estadística en el AM es de carácter multidimensional, por lo tanto la

geometría, el cálculo matricial y las distribuciones multivariantes juegan un papel
fundamental.
Un paso fundamental en el AM es el análisis exploratorio inicial de los datos. Las razones:
a) Depurar el archivo de datos.
Controlar errores e incongruencias entre los datos, por ejemplo, recoger opiniones
de sujetos sobre la calidad del servicio de urgencias mediante una encuesta, cuando
estos nunca han estado en el.
Para depurar el archivo de datos podemos utilizar medidas de seguridad activas,

como una plantilla para evitar errores, o pasivas, aplicando una tabla de frecuencias
podemos detectar si hay algún valor 3 al clasificar el sexo (1 ó 2).
Para detectar los errores podemos seleccionar una submuestra, comprobar

cuantos errores hay y calcular el porcentaje en la muestra total. Para seleccionar
esa submuestras podemos emplear un muestreo aleatorio (en el SPSS en el menú
datos tenemos la opción seleccionar muestra aleatoria de casos) o no aleatorio
(elegimos los primeros 50 casos).
b) Resolver los casos “missing” (Falta de respuesta).
Identificar y clasificar los datos missing. Los datos missing tienen consecuencias
nefastas para el potencial del contraste (tamaño de la muestra) y la capacidad de
generalización de los resultados (sesgos que no se distribuyen al azar)
El potencial del contraste o capacidad de estimación se ve afectado si hay muchos

datos missing, ya que la estimación va a estar sujeta a un mayor rango de error, los
intervalos de error van a ser más grandes y la estimación es más imprecisa. Incluso
si comparamos grupos pequeños, los datos missing, van a provocar que no se
detecten diferencias significativas aunque las haya.
La capacidad de generalización se ve mermada porque lo que en principio era una

muestra adecuada se convierte en inadecuada y no representativa. Es necesario
comprobar si los datos missing se distribuyen aleatoriamente. Es peligroso dar por
hecho que los sujetos que no responden a un ítem tienen una opinión hacia ese ítem
similar a los sujetos que si responden. Estaríamos suponiendo que responden igual
y mantenemos la misma media.
Los datos missing en muchas ocasiones son producidos por rechazos, rechazos a
preguntas comprometidas o por falta de confidencialidad, etc. También pueden
deberse al desconocimiento, la falta de motivación para participar, la falta de
memoria en las personas mayores. Hay que percatarse de si son iguales los sujetos
que responden y los que no responden.
En los cuestionarios es importante identificar los sujetos con muchos missing

(analizar los patrones), a estos sujetos normalmente se les elimina del análisis
porque sus respuestas ya no van a resultar fiables, e identificar las variables con
muchos missing (probar la aleatoriedad), los sujetos no responden por azar o hay
alguna razón.
Para comprobar la aleatoriedad el investigador cuenta con distintas estrategias: 1)

comprobar si los distintos segmentos de la muestra (sexo, edad. etc.) presentan un
porcentaje similar de falta de respuesta (ji-cuadrado); 2) identificar variables
relacionadas (ej-. nivel económico y voto) y comprobar que los que responden y los
que no, se comportan de manera similar y no existen diferencias entre ambos
grupos (opiniones) (T de Student).
A veces un paso necesario para poder tratar los datos con determinadas técnicas es
la imputación o sustitución de valores missing por otros. Un procedimiento de
imputación conocido es el denomino Hot Deck. Se trata de un procedimiento de
duplicación, cuando un valor es ausente otro valor es publicado para presentar ese
valor missing. Concretamente este método se aplica cuando los missing se
producen en una variable cualitativa.
c) Controlar los valores extremos.
Controlar los valores que caen fuera del rango normal de los datos. Como criterio
aplicamos la distancia respecto al cuerpo central de la distribución (50% de los
casos, entre el P75 y el P25). El valor numérico entre el P75 y el P25 se denomina
IQR, Recorrido Intercuartílico. El caso anómalo se separa bien por arriba o por
debajo del cuerpo central 1,5 veces el IQR.
Debemos diferenciar entre valores outliers (± 1,5 – 3 IQR), que alteran la media
disparándola hacia arriba o hacia abajo y valores extremos (± 3 IQR), que alteran los
resultados mucho más.
Imaginemos dos casos anómalos, uno podría ser el gasto promedio semanal del hijo
de un narco, y el otro, los ingresos anuales de Messi.
Si existen estos casos tenemos que optar por acudir a contrastes y estadísticos más
resistentes, como los contrastes no paramétricos y la mediana (en lugar de la
media).
Los casos anómalos tienen mucha incidencia en el proceso de modelización, por

ejemplo estropean el ajuste del gráfico de dispersión o disminuyen el coeficiente de
determinación (R2) por lo que desciende el porcentaje de varianza que puedo
explicar. La solución: detectarlos y eliminarlos.
Para detectarlos a nivel univariante, podemos utilizar gráficos de caja o basarnos en

el IQR; a nivel bivariado, utilizando gráficos de dispersión; y a nivel multivariado,
mediante estadísticos que analicen los residuos.
d) Comprobar los supuestos paramétricos.
Comprobar que los datos tienen las condiciones adecuadas para poder ser
analizados bajo los supuestos que posee cada técnica. Por ejemplo, si los datos no
se distribuyen normalmente nos veremos obligados a renunciar a las técnicas
paramétricas. Otro ejemplo, la Regresión Logística tiene una ventaja muy
importante y es que se puede usar aunque las variables no sean cuantitativas ni se
distribuyan normalmente.
Los supuestos que tenemos que comprobar son:
Normalidad. Se comprueba mediante la prueba K-S de Lillefors (SPSS:

Analizar/ Estadísticos descriptivos / Explorar / Gráficos).
Muy importante. Si no se cumple el supuesto de Normalidad podemos

transformar las variables. Mediante SPSS menú Transformar/ Calcular.
Por ejemplo, multiplicar por 10 todos los valores para cambiar el rango
de los datos y así poder aplicar pruebas paramétricas.
Posibles Transformaciones:
Asimetría positiva fuerte: -1/X3 ó -1/X
suave: log X ó
Asimetría negativa fuerte: antilog X
suave: X2 ó X3
Aleatoriedad o independencia de las medias: que los sujetos hayan sido

seleccionados al azar. Prueba de Rachas (SPSS: Analizar/ Pruebas no
paramétricas/ Rachas).
Homocedasticidad u homogeneidad de varianzas: que los distintos

grupos posean una variabilidad similar. Por ejemplo, cuando
comparamos hombres y mujeres para ciertas variables es necesario
tener en cuenta que no se distribuiran del mismo modo. Para corregirlo
se aplica la prueba de Levene (SPSS: Analizar/ Estadísticos descriptivos /
Explorar / Gráficos).
Linealidad. Relación lineal entre las variables a analizadas. Mediante un

gráfico de dispersión podemos representar la VD con cada una de las VI y
ver si se relacionan linealmente o no. Gráfico de Correlación y
Dispersión.
Colinealidad. Evitarla. Evitar que un predictor explique mucho de otro

predictor.
e) Resumir la información que contienen los datos, informar de las tendencias,

relaciones entre variables, etc.
Tema 2 - Distribución normal multivariante
TEMA 2. DISTRIBUCIÓN NORMAL

MULTIVARIANTE
2.1. DEFINICIÓN Y CARACTERIZACIÓN

El concepto de variable aleatoria surge de la necesidad de transformar el espacio

muestral asociado a un experimento aleatorio en un espacio cuantitativo, lo que se
consigue asignando un valor real a cada resultado elemental del experimento (a cada
elemento del espacio muestral).
Este valor se obtiene midiendo una determinada característica numérica de los

resultados del experimento que describa alguna propiedad de interés. En muchas
ocasiones, para describir las propiedades de interés de los resultados de un experimento
es preciso considerar varias características. Por ejemplo, en el experimento consistente
en la elección de un individuo de una determinada población, se consideran las variables
“altura” y “peso”.
Es evidente que al considerar diversas características para describir los resultados de un

experimento aleatorio (o sea, diversas variables aleatorias), estas estarán a menudo
relacionadas, por lo que será conveniente realizar un estudio conjunto de ellas que refleje
dichas relaciones, más que analizarlas individualmente. De esta forma aparece el
concepto de variable aleatoria multidimensional o vector aleatorio que, en términos
generales, puede definirse como una función que asigna a cada elemento del espacio
muestral un conjunto finito de números reales que describen el valor de cada una de las
características bajo estudio en dicho elemento.
Los datos en AM suelen provenir de una población caracterizada por una distribución
multivariante. Sea X = (X1, ……,Xp) un vector aleatorio con distribución absolutamente
continua y función de densidad ƒ (x1, ……., xp).
Conocida ƒ (x1,……., xp).podemos encontrar la función de densidad de cada variable

marginal Xj mediante la integral:
ƒj (xj) = ∫ ƒ (x1, ….., xj, ……., xp) dx1, ……., dx j-1d j+1 …….dxp.

Sea X una variable aleatoria con distribución N (μ; σ 2); es decir, con media μ y varianza σ
2
: La función de densidad de X es (Figura 1. Adaptado de Cuadras, 2014):
Comprendamos la distribución normal multivariante Np (μ; σ Σ) como una generalización

de la normal univariante. Por una parte, la Figura 1 sugiere definir la densidad de X como
(Figura 2 y 3. Adaptado de Cuadras, 2014):
Según:
Siendo x = (x1, ……., xp) ́, μ = (μ1, ……., μp) ́ y Σ = (σij) una matriz definida positiva. Por
otra parte, la Figura 2 sugiere definir la distribución X como una combinación lineal de p
variables Y1,…………., Yp independientes con distribución N(0; 1) (Figura 4. Adaptado de
Cuadras, 2014):
Que podemos escribir como X = μ + AY siendo Y = (Y1, ……., Yp) ́ y A = ( α ij) una matriz p* p
que verifica AA´ = Σ
La distribución normal multivariante se caracteriza por:
1. E(X) = μ y que la matriz de covarianzas es:
E [(X- μ) (X- μ)´ ] = E (AYY´ A´) = AIPA´ = Σ
2. La distribución de cada variable marginal Xi es normal univariante:
Xi ̴ N (μi; σii), i = 1,….., p.
3. Toda combinación lineal de las variables X1,……., Xp
Z = b0 + b1X1 + …..+ bPXP
Es también normal univariante. Z Es combinación lineal de N (0; 1) independientes.
4. Si Σ = diag (σ11,..........,σpp,) es matriz diagonal, es decir, σij = 0; i ≠ j, entonces

las variables (X1, ….. , XP) son estocásticamente independientes.
En efecto, la función de densidad conjunta resulta igual al producto de las funciones

de densidad marginales:
ƒ (x1, ……., xp; μ, Σ) = f (x1; ……., μ1,σ11 * …….* f (xp; μp,σpp)
5. La distribución de la forma cuadrática
U = (x- μ)´ Σ -1 (x- μ)
Es ji-cuadrado con p grados de libertad. En efecto, U = YÝ = ² es suma de los

cuadrados de p variables N (0,1) independientes.
2.2. DISTRIBUCIONES MARGINALES Y CONDICIONADAS

Si se definen más de una variable aleatoria en un experimento, es importante distinguir

entre la distribución de probabilidad conjunta y la distribución de probabilidad de cada
variable individualmente. A la distribución de cada variable se le denomina distribución
marginal.
Si tenemos dos variables discretas: X e Y, con función de probabilidad conjunta p (x, y) las
funciones marginales de ambas variables serán:
Si las variables son continuas: X e Y, con función de densidad conjunta ƒ (x, y) las
funciones de densidad marginal de ambas variables serían:
Siendo dx un infinitésimo (cantidad infinitamente pequeña).
Por otra parte, cuando se definen más de una variable aleatoria en un experimento, el
conocimiento de una de las variables puede afectar a las probabilidades que se asocian
con los valores de la otra variable.
Cuando se definen más de una variable aleatoria en un experimento, el conocimiento de

una de las variables puede afectar a las probabilidades que se asocian con los valores de
la otra variable.
Dadas dos variables discretas, X e Y con función de probabilidad conjunta p(x, y) la

función de probabilidad de Y condicionada a X = x0:
Dadas dos variables continuas, X e Y con función de densidad p(x, y) la función de

densidad de Y condicionada a X
2.3. CASO BIDIMENSIONAL Y TRIDIMENSIONAL

Como hemos estado comentando en el apartado anterior, si disponemos de dos variables

aleatorias podemos definir distribuciones bidimensionales. Para el caso de variables
discretas tendremos:
Y, si las variables son continuas: X e Y, con función de densidad conjunta ƒ (x, y) las
funciones de densidad marginal de ambas variables serían:
Siendo dx un infinitésimo (cantidad infinitamente pequeña).
La distribución multinomial es una generalización de la distribución binomial. La

distribución multinomial permite estudiar la ocurrencia de tres o más sucesos,
proporciona probabilidades de obtener, en m repeticiones independientes de un
experimento, x1 el suceso A1, x1 veces el suceso A2,…., Xn veces el suceso An, donde
dichos sucesos forman una partición del espacio muestral, es decir:
Tal que para i ≠ j y donde pi = p[Ai], por tanto, se cumple:
Así, considerando que Xi es el número de veces que se presenta el suceso Ai en las m

repeticiones tenemos que la variable n-dimensional (X1, X2,…..Xn) sigue una distribución
multinomial de parámetros n, p1, ….pn y su función de probabilidad es:
Para Xi = 0,1,…., m con X1 + …… + Xn = m
Hay que tener en cuenta que si (X1, X2,…..Xn) es una variable multidimensional entonces
existe una relación lineal entre sus componentes ya que X1 +…… + Xn = m, por lo que
una de las variables, por ejemplo Xn , se puede poner como combinación lineal del resto,
Xn = m-X 1 – X2 -…… Xn-1. Por tanto el fenómeno que describe la variable (X1,
X2,…..Xn) queda igualmente descrito por una variable de dimensión menor (X1, X2,……,
Xn-1) sin que esta pérdida de dimensión suponga una pérdida de información. Por
ejemplo, una variable multinomial de dimensión dos (X1, X2), M(n, p1, p2.) se puede
describir considerando un componente cualquiera que tiene una distribución binomial,
por lo que en realidad esta variable es unidimensional y no bidimensional.
Además, de cada una de las variables, Xi,que forman una multinomial M(n, p1, pn) siguen
distribuciones binomiales B (m,pi), es decir, las distribuciones marginales de una
multinomial son binomiales, por lo tanto la esperada y la varianza de cada una de estas
variables es:
E [Xi] = = mpi
Var (Xi) = mpi (1-pi)

Además la covarianza entre dos cualesquiera de sus componentes es:
Cov (xi,xj) = - mpi pj

Estos datos de las variables componentes de una multinomial se pueden agrupar en

forma de matriz dando lugar a las denominadas matriz de esperanzas y matriz de
varianzas-covarianzas, que recogen las características teóricas principales de la
distribución multinomial (medias, varianzas y covarianzas) (Figura 5. Adaptado de
Cuadras, 2014):
EJEMPLO
El entrenador de un equipo de baloncesto opina que los jugadores A, B y C tienen

similares aptitudes para ser titulares del equipo en la posición de base. Así, determina
que jueguen el mismo número de minutos cada partido. Se sabe que el 40% de las
canastas son de C, mientras que A y B consiguen un 30%. Calcular la probabilidad de que
en un partido con 9 canastas de dos puntos, A consiguiera dos, B tres y C cuatro.
Sea la variable tridimensional (x1,x2,x3) que recoge el número de canastas de A, de B y

de C, respectivamente. Dicha variable es una multinomial con n = 9, p1= 0,3, p2 = 0,3 y p3
= 0,4. Así,
2.4. DISTRIBUCIONES ASOCIADAS: FORMAS

CUADRÁTICAS ALEATORIAS NORMALES

Sea X un vector aleatorio p-dimensional y A una matriz no aleatoria. En muchas

situaciones aparece de forma natural la forma cuadrática XÁX, por lo que el estudio de
cómo se distribuye esta nueva variable aleatoria unidimensional ha sido profundamente
abordado.
Para comprender los elementos básicos de la teoría de las distribuciones de formas

cuadráticas aleatorias normales partiremos de un vector normal
X ̴ Np [µ; Σ] y nos planteamos, en general, la distribución de XÁX, donde A es una matriz

p × p no aleatoria y sobre la que existen algunas restricciones.
El resultado más inmediato es bien conocido: Si Σ = Ip, entonces X´X ̴ χ p2 (δ) con δ = µ
´µ. Si este resultado se generaliza:
Sea X ̴ Np [µ; Σ] con Σ > 0. Entonces:
1. (X − µ) ´Σ −1 (X − µ) ̴ χ p2 p.
2. X´Σ −1X ̴ χ p2 (δ), donde δ = µ´ Σ −1µ.
Generalizamos la situación al caso en el que la matriz A no es la inversa de la matriz de

covarianzas de X.
En segundo lugar: Si X ̴ Np [µ; Σ] y Apxp una matriz no aleatoria de rango k (k ≤ p).

Entonces:
1. Si Σ = Ip, XÁX ̴ χ k2 (δ) si y sólo si A es idempotente, en cuyo caso δ = µ µÁµ
2. Si Σ 6= Ip, XÁX ̴ χ k2 (δ) si y sóolo si AΣ es idempotente, en cuyo caso δ = µ

Áµ.
Además de los resultados anteriores podemos considerar otros aún más generales y que
se enmarcan dentro del tratamiento de la distribución de formas cuadráticas normales a
partir de la metodología general de la función característica. La situación genérica que se
plantea es la siguiente: sea el polinomio y = XÁX + 2b´X + c con las características:
1. X ̴ Np [µ; Σ].
2. Ap×p es una matriz simétrica de rango r ≤ p.
3. bp×1 es un vector no aleatorio
4. c es una constante
Por último, la siguiente expresión proporciona condiciones necesarias y suficientes para

que el polinomio anterior se distribuya según una ley chi-cuadrado:
Sea X ̴̴ Np [0; Ip].
En las condiciones anteriores, y ̴ χ r2 (δ) si y sólo si A es idempotente, b = Ab y δ = c = b

0b = b 0Ab.
Tema 3 - Estimación
TEMA 3. ESTIMACIÓN
3.1. INTRODUCCIÓN

Las funciones de distribución dependen de uno o más parámetros para determinar

propiedades de las distribuciones.
Como sabemos, los parámetros son características poblacionales habitualmente

desconocidas en un estudio experimental, y el propósito de la inferencia estadística es
obtener información acerca de su valor a partir de los datos contenidos en la muestra.
La inferencia estadística tiene dos vertientes, la estimación de parámetros y el contraste

de hipótesis. La estimación consiste en asignar un valor a los parámetros a partir de los
datos contenidos en la muestra. Los cuatro métodos más comunes de estimación son el
método de los momentos, mínimos cuadrados, máxima verosimilitud y estimación
bayesiana.
En la estimación, los parámetros se indican por letras griegas, por ejemplo θ , y el símbolo
representa su correspondiente estimador. Por tanto θ se refiere al valor poblacional y
el símbolo se refiere al valor estimado en la muestra, el valor asignado a a partir de los
datos observados.θ y son cosas distintas, y puede no ser correcto, puede diferir de
θ.
3.2. FUNCIÓN DE VEROSIMILITUD

Según se ha visto una variable X sigue una función f(x). Si se toma una muestra aleatoria
simple de n observaciones, la función de probabilidad (o de densidad) de la muestra es el
producto de la función de probabilidad (o densidad) de cada una de las observaciones:
ƒ (x) = ƒ (x1,…., xn)= ƒ (x1),…., ƒ (xn)
donde el símbolo representa el producto de n términos, siendo similar al símbolo
del sumatorio pero multiplicando los elementos en lugar de sumarlos.
El método de máxima verosmilitud toma f (x) como base para realizar la estimación.
Supongamos que se ha tomado una muestra aleatoria simple (x) y el propósito es estimar
el parámetro θ. La función de verosimilitud es la función ƒ (x), entendida como una
función de θ y manteniendo fijo el valor encontrado en la muestra. Esto suele
representarse como:
L (θ) = ƒ (x), donde L proviene de likelihood (verosimilitud en inglés).
EJEMPLO I
Imaginemos que X es una variable aleatoria con una distribución de probabilidad de

Weibull.
La distribución de Weibull es una distribución normal y viene definida por dos

parámetros:
k : parámetro de forma (0 < k < ∞). Indica la forma o perfil de la distribución.
λ: parámetro de escala (0 < λ < ∞). Indica que tan aguda o plana es la función.
La función de densidad de una variable aleatoria con la distribución de Weibull es:
Si tomamos una muestra aleatoria simple de n observaciones, su función de densidad

sería:
Por tanto, la función ƒ(x) depende únicamente de la media muestral Ẋ no de ningún otro
dato o cantidad observada en la muestra. Cuando esto sucede así, se dice que Ẋ es un
estadístico suficiente para λ. Es decir, toda la información observada se resume en Ẋ, que
contiene toda la información necesaria para realizar la estimación de λ. Bastaría con que
supiéramos el valor de Ẋ para poder estimar λ. No necesitamos conocer ninguna otra
característica de la muestra tal como la varianza, etc.
EJEMPLO II
Supongamos que hemos tomado una muestra aleatoria simple de tamaño tres y se
encuentra el resultado x = (2; 7, 3). El valor del estadístico Ẋ que se obtiene es 4, por
tanto, la función de verosimilitud sería:
El método de máxima verosimilitud consiste en asignar a los parámetros aquel valor que
haga máxima la probabilidad de los datos observados.
Si X es una variable aleatoria cuya función de densidad (o probabilidad) es ƒ(x) y que

depende del parámetro θ. Sea x una muestra aleatoria simple procedente de ƒ(x). El
estimador máximo verosímil de θ es el valor de θ que hace máxima L(θ).
Es importante tener en cuenta que, L(θ) no es la probabilidad de θ sino la probabilidad de

x dado un valor de θ . Por esto, al variar L(θ) en función de θ no estamos obteniendo la
probabilidad de que cada valor de θ sea el correcto, sino como de verosímil es cada valor.
Entendiendo que un valor es inverosímil cuando, si ese valor fuese el correcto, haría
improbable encontrar unos datos, x, como los que realmente se han obtenido.
La forma práctica de saber cual es el estimador máximo verosímil consiste en utilizar los
conceptos del cálculo diferencial para encontrar el máximo de una función. En primer
lugar, en la mayoría de las ocasiones no se trabaja directamente con L(θ) sino con su
logaritmo, denominado l(θ) = log L(θ). Entre otros motivos, esto se debe a que l(θ) suele
ser más sencilla que L(θ) aunque ambas alcanzan su valor máximo en el mismo punto de
θ, por lo que es más cómodo trabajar con l(θ). Es decir, para saber cuál es el máximo de la
función l(θ), se utiliza la propiedad de que en el máximo de una función su derivada toma
el valor cero. Por ello, se calcula la derivada de l(θ) con respecto a θ, y se busca el valor de
θ que hace que dicha derivada sea cero.
EJEMPLO III
Continuando con el EJEMPLO II, hemos visto que a partir de la muestra x = (2; 7, 3) se
obtenía una Ẋ = 4. Entonces, la función de verosimilitud y su logaritmo son:
Utilizando el cálculo diferencial, la derivada de l(λ) con respecto a λ es:
El estimador máximo verosímil es el valor de λ que resuelve la ecuación de estimación: l

´(λ) = 0. Es decir:
EJEMPLO IV
Supongamos que a un sujeto realiza 25 veces una determinada tarea. El resultado de

cada presentación se clasifica como éxito o fracaso, y se considera que la probabilidad de
éxito permanece constante a lo largo del experimento. ¿Cuál es la probabilidad
estimada de éxito asumiendo independencia entre las distintas realizaciones?
La variable Xi describe el resultado de la ejecución i, y sigue la distribución de Bernoulli:
La función de probabilidad del vector de resultados de las 25 ejecuciones tiene la forma:
Supongamos que el numero de éxitos se indica por x, siendo x = i. Entonces, la función de

verosimilitud es:
Tomamos el logaritmo de la función de verosimilitud por su mayor sencillez:
El estimador máximo verosímil es el valor que maximiza l ( ). La derivada de l ( ) es

cero:
La solución de la ecuación de estimación l´( ) = 0 proporciona el estimador máximo

verosímil de :
Este razonamiento no basta para asegurar que ´ es un estimador máximo verosímil.

Esto se debe a que la derivada l´( ) se anula tanto si l ( ) tiene un máximo como si
tiene un mínimo. En caso de que la función tenga un máximo, se cumple que su segunda
derivada es negativa. En nuestro ejemplo:
l( ) alcanza su máximo en ´, por lo que su valor es necesariamente menor que 0.
3.3. MATRIZ DE INFORMACIÓN DE FISHER

Una comparación entre estimadores de un mismo parámetro en base a su error
cuadrático medio puede no dar un único óptimo porque la clase de todos los posibles
estimadores es muy amplia.
Una manera de buscar el mejor estimador es restringir la búsqueda en la clase de

estimadores insesgados. Se trata de localizar aquel estimador insesgado uniformemente
de mínima varianza.
Encontrar ese estimador no es sencillo, una posibilidad es buscar, fijar, una cota inferior
para la varianza de cualquier estimador insesgado y después encontrar el estimador
insesgado cuya varianza no alcance esa cota.
La cantidad de información acerca del valor del parámetro contenida en una observación
de la variable aleatoria X, se denomina información de Fisher.
La matriz de información de Fisher (MIF) para una distribución normal toma una
formulación especial. El elemento (m,n) de la MIF para X ̴ N( μ (), Σ( σ ) ) es:
Donde
“tr” es la función denominada traza de una matriz. La traza de una matriz
cuadrada de nxn está definida como la suma de los elementos de la diagonal
principal de la matriz. Es decir
3.4. ESTIMACIÓN MÁXIMO VEROSÍMIL. CASOS

PARTICULARES PARA LA NORMALMULTIVARIANTE

El estimador de Máxima Verosimilitud es el estimador que hace la función de

verosimilitud ƒn(x1, x2, …..xn) l θ ) máxima. Tal estimador puede entonces no ser único,
o bien no existir.
Cuando existe, el estimador de Máxima Verosimilitud tiene algunas propiedades

interesantes:
Generalmente es consistente
Es asintóticamente normal
No es siempre insesgado, pero lo es asintóticamente
Es función de un estadístico suficiente, cuando existe uno
Entre todos los estimadores asintóticamente insesgados, tiene la

varianza asintóticamente más pequeña (es eficiente).
Si el estimador de Máxima Verosimilitud es un estadístico suficiente,

entonces es un estadístico suficiente minimal.
Tiene la propiedad de invarianza
Tema 4 - Contraste de hipótesis
TEMA 4. CONTRASTE DE HIPÓTESIS
4.1. CONTRASTES DE LA RAZÓN DE VEROSIMILITUDES

La pregunta que tratamos de responder es: ¿cómo se puede usar el test de razón de
verosimilitudes para hacer inferencia en poblaciones multivariantes?
Para comenzar conviene recordar la situación univariante, en la cual la inferencia se

apoya en el teorema de Fisher que dice que la media tiene distribución normal (con cierta
media y varianza), la varianza muestral tiene distribución ji-cuadrado, y son
independientes. De igual el vector de medias muestral es normal multivariante, la matriz
de covarianzas muestral tiene distribución de Wishart, y son independientes.
Así, por ejemplo, en base a este resultado se puede hacer inferencia sobre el vector de
medias cuando la matriz de covarianzas es desconocida, recurriendo a la distribución de
Hotelling.
El vector de medias muestral y la matriz de covarianzas muestral son estimadores

naturales de sus análogos poblacionales. Pero también tenemos la razón de
verosimilitudes.
Partiendo del concepto simple de vector aleatorio, lo definimos como una colección de
variables aleatorias medidas simultáneamente sobre el mismo individuo o sobre el mismo
resultado de un experimento aleatorio. Cada una de las componentes de un vector
aleatorio (Figura 1; Fuente: Google) es una variable aleatoria, y por tanto se puede
calcular su media, su varianza y su distribución. Sin embargo, hay algunas propiedades
conjuntas dentro de un vector aleatorio, como son la covarianza (o la correlación) y la
distribución conjunta. En concreto, se define el vector de medias como (Figura 2; Fuente:
Google):
y la matriz de covarianzas como (Figura 3; Fuente: Google):
El vector de medias y la matriz de covarianzas se comportan de la siguiente manera ante

transformaciones lineales:
E (α + AX) = α + AE(X) Cov (α + AX, β+ BY ) = ACov (X, Y )B´

Siendo α y β vectores de dimensión q ≤ d, y A y B matrices q x d. Como caso particular de

transformaciones lineales, se encuentran los cambios de localización y escala. Así, ante
un cambio de localización, como el que representa sumar el vector α, el vector de medias
queda desplazado en la misma dirección α, para situarse de nuevo en el centro de la
distribución. La matriz de covarianzas, sin embargo, es invariante ante cambios de
localización. Respecto de cambios de escala, podemos decir que cada componente del
vector de medias está medido en la misma escala que la variable (por ejemplo, en
centímetros o en metros si la variable representa una longitud), mientras que cada
varianza se mide en la escala de la variable elevada al cuadrado, y la covarianza en el
producto de las escalas de las dos variables involucradas.
Hay una transformación lineal que tiene un interés especial, que se conoce como
estandarización. La estandarización de una variable aleatoria se consigue restando la
media y dividiendo por la desviación típica (raíz cuadrada de la varianza). En el caso de un
vector aleatorio, su estandarización es:
Que así construido verifica E(Y ) = 0 y Cov (Y, Y´) = Yd
Puede surgir alguna duda sobre cómo obtener la matriz . A este respecto es útil
tener presente que toda matriz de covarianzas es una matriz simétrica y semidefi nida
positiva. Por ejemplo, si A es una matriz simétrica, entonces (Figura 4; Fuente: Google):
Siendo v1, …………,vd una base ortonormal de autovectores de A y λ1, …….., λd sus
autovalores asociados.
A se dice definida positiva si todos los autovalores de A son positivos. En ese caso se
puede emplear para definir una norma (y una distancia) (Figura 5; Fuente: Google):
A se dice semidefinida positiva si todos los autovalores son no negativos. En ese caso los
autovalores nulos provocan una reducción de dimensión.
Dado que toda matriz de covarianzas es una matriz simétrica y semidefinida positiva.
Su rango, número de autovalores no nulos, coincide con la dimensión del espacio lineal en
el que se puede incluir el vector aleatorio. De hecho, dicho espacio lineal es el generado
por los autovectores asociados a los autovalores no nulos.
Las potencias de una matriz simétrica se pueden obtener, simplemente elevando a la

potencia correspondiente la matriz diagonal de los autovalores, esto es, si R,
entonces (Figura 6; Fuente: Google):
Ahora, si consideramos una muestra aleatoria simple entonces (Figura 7; Fuente:

Google):
De vectores aleatorios independientes y con la misma distribución normal multivariante.
La función de verosimilitud sería entonces (Figura 8; Fuente: Google):
La razón de verosimilitud es el estadístico (Figura 9; Fuente: Google):
maximiza la función de verosimilitud (L) sin restricciones y maximiza L cuando se
impone la condición de que pertenezca a la región paramétrica . La hipótesis que se

pretende comprobar mediante la razón de verosimilitud es:
Aceptamos la hipótesis H0 si λR es próxima a 1 y aceptamos la alternativa H1 si λR es

significativamente próximo a 0.
4.2. CONTRASTES DE UNIÓN-INTERSECCIÓN

Es un principio general que permite construir contrastes multivariantes a partir de

contrastes univariantes y se aplica a diversas situaciones.
Imaginemos que planteemos la hipótesis nula multivariante H0: μ = μ0 como un test

univariante.
Sea Xa = Xa una variable compuesta con media μ (a) = μá.
El test univariante H0(a): μ (a) = μ0 (a) contra la alternativa H1(a): μ (a) ≠ μ0 (a) se resuelve
mediante la t de Student (Figura 10; Fuente: Google):
Aceptaremos H0: μ = μ0 si aceptamos todas las hipótesis univariantes H0(a), y nos

decidiremos por la alternativa H1: μ ≠ μ0 si aceptamos una sola de las alternativas H1(a),
es decir, formalmente (principio de unión-intersección) (Figura 11; Fuente: Google):
Así rechazaremos H0 si la máxima t(a) resulta signicativa.
Además, la T2 de Hotelling es precisamente el cuadrado de esta máxima t de Student, que

al ser tomada sobre todas las combinaciones lineales, ya no sigue la distribución t de
Student si p > 1.
4.3. CONTRASTES DE HIPÓTESIS ACERCA DEL VALOR DE

MEDIAS

Un primer método para construir contrastes sobre los parámetros de una población
normal se basan en estadísticos con distribución conocida (ji-cuadrado, F).
Test sobre la media: una población
Supongamos que las filas de Xnxp son independientes Np (μ; Σ)
μ0 es un vector de medias conocido.
La hipótesis que queremos comprobar mediante un test es: H0: μ = μ0
Pues:
1. Si Σ es conocida, como la media es Np (μ; Σ/ n), el estadístico de contraste es

(Figura 12; Fuente: Google):
2. Si Σ es desconocida, el estadístico de contraste será (Figura 13; Fuente:

Google):
En ambos casos, para valores grandes significativos del estadístico
Test sobre la media: dos poblaciones
Supongamos que ahora tenemos dos matrices de datos independientes Xn1xp y

Xn2xp que provienen de distribuciones Np (μ1; Σ), Np (μ2; Σ).
Construimos un test para comprobar la hipótesis
H0: μ1 = μ2

Pues:
1. Si Σ es conocida, como la media es Np (μ1- μ2, (1/ n1 + 1/ n2) Σ), el estadístico

de contraste es (Figura 14; Fuente: Google):
2. Si Σ es desconocida, el estadístico de contraste será (Figura 15; Fuente: Google):
La mayoría de los resultados expuestos en este apartado son consecuencia del

denominado Teorema de Cochran.
4.4. CONTRASTES DE HIPÓTESIS ACERCA DE LA MATRIZ

DE VARIANZAS-COVARIANZAS

Existe una gran variedad de hipótesis sobre la matriz de varianzas-covarianzas de una

población normal, o sobre las matrices de covarianzas de más de una población.
Los casos más representativos son el contraste de hipótesis de igualdad de matrices de

covarianzas en dos poblaciones normales y el contraste de hipótesis de la diagonal por
bloques de la matriz de covarianzas de una población normal
Contraste de igualdad de matrices de covarianzas en dos

poblaciones normales.
Imaginemos dos poblaciones normales de las que tenemos diversas muestras, como por
ejemplo:
Muestra 1: X1, X2,……… XN1 Nd (μ1; Σ1)
Muestra 2: Y1, Y2,……… YN2 Nd (μ2; Σ2)
La hipótesis nula que intentamos comprobar es:
Para ello, el estimador de las matrices de covarianzas en cada población y de la matriz de

covarianzas conjunta es (Figura 16; Fuente: Google):
Siendo:
Contraste de la diagonal por bloques de la matriz de

covarianzas de una única población normal.
La hipótesis nula queremos comprobar es:
Bajo esta hipótesis nula, la matriz en el numerador es una distribución de Wishart Wp(N
−q−1,Σ11) y la del denominador Wp(N−1,Σ11). Una distribución que se expresa como
suma de productos
La distribución de Wishart es una extensión al caso multivariante de la distribución ji-

cuadrado. La distribución ji-cuadrado se atribuye a estimadores de la varianza, como la
varianza muestral, y la distribución de Wishart corresponde matrices de covarianzas
muestrales.
El estimador es (Figura 17; Fuente: Google):
4.4.1. CONTRASTES DE HIPÓTESIS MÚLTIPLES. MANOVA
El analisis multivariante de la varianza o MANOVA (Multivariate analysis of

variance) es una extensión del análisis de la varianza o ANOVA para cubrir los casos
donde hay más de una variable dependiente que no pueden ser consideradas de
manera simple)
Si el análisis de la varianza univariante pretende contrastar hipótesis lineales sobre

la influencia de los distintos niveles de uno o varios factores en el comportamiento
de una variable (unidimensional), el análisis multivariante de la varianza
(MANOVA) tiene la misma pretensión, pero considerando un vector
(multidimensional) de variables.
La aplicación paradigmática del análisis de la varianza es determinar si existen

diferencias significativas entre los distintos niveles o grupos de un factor
(categórico), a través del contraste de igualdad de medias. Pero, además, el
MANOVA intenta identificar las interacciones entre las variables independientes y
su grado de asociaci
Los supuestos del análisis MANOVA son:
1. Consideramos un vector aleatorio Y de dimensión n sobre el cuál

obtenemos g muestras correspondientes a los g niveles, categorías o grupos
considerados.
2. Suponemos que Y sigue, en cada una de las poblaciones de los g grupos una
distribución Normal n-variante con vector de medias M (i= 1,2,...g),
eventualmente distinto para cada grupo y matriz de covarianzas V, la misma
para todas las poblaciones.
Bajo estos supuestos, consideraremos, también, que cada observación n-

dimensional para cada grupo, i, puede expresarse de acuerdo con el siguiente
modelo:

Yi = M + Ai + Ei
Donde:
M es el vector de medias general.
Ai es un vector n-dimensional que nos indica el efecto propio del nivel o grupo
i-simo.
Ei es un vector aleatorio que nos indica la desviación errática de las

observaciones y se supone que sigue una distribución normal n-dimensional con
vector de medias el vector nulo y matriz de varianzas V, la misma para todos los
grupos (i=1,2,...g)
Por tanto, deducimos que el vector Yi tendrá, en cada grupo, i, una
distribución:
Yi → N [ (M + Ai ); V ]
Sobre este modelo nosplanteamos contrastar la hipótesis nula de que todos
los vectores A sean nulos:
H0: A1 = A2 =....= Ag = 0
Esta hipótesis equivale a considerar que no hay diferencias en los vectores de

medias de Y en cada uno de los grupos o que las medias en cada grupo son las
mismas y coinciden el vector M. Para la realización del contraste, partimos, como en
el caso univariante, de la descomposición de la varianza total; en este caso de la
matriz de varianzas y covarianzas total.
La matriz de varianzas muestrales T puede verse como la suma de otras dos

matrices de varianzas: T = B + W
Donde:
B es la matriz de varianzas "entre-grupos" (between-groups) y W es la

matriz de varianza "intragrupos" (within-groups).
B expresa las varianzas y covarianzas, considerando los centroides de los

grupos como observaciones.
W, en cambio, expresa la suma para todos los grupos de las varianzas y

covarianzas de las observaciones de cada grupo.
Pues bien, la matriz NB, donde N es el número total de observaciones muestrales,

puede probarse que sigue una distribución de Wishart con parámetros n, g-1, V (lo
que se expresa como Wn(g-1, V ) ).
La distribución puede considerarse como una generalización de la distribución ji-

cuadrado de Pearson, que puede definirse de acuerdo con el siguiente esquema
general:
Si tenemos una matriz de n columnas y m filas, Z; donde cada columna está formada
por un vector aleatorio m-dimensional que tiene una distribución normal m-
variante con vector de medias el vector nulo y matriz de varianzas V, la misma para
todas las columnas de la matriz; entonces la matriz A = Z'Z sigue una distribución
de parámetros n, m y V (lo que puede expresarse como):
Wn (m,V)
Una propiedad importante de esta distribución es que si realizamos un muestreo

aleatorio de tamaño N sobre una población normal multivariante N [M,V], la matriz
formada por el producto del escalar N y la matriz de varianzas muestral, S, sigue
una distribución de parámetros n, N-1, V:
NS→ Wn (N-1, V )
Es, precisamente, a partir de esta propiedad como puede probarse el resultado de

que:
NB→Wn (g-1,V)
Igualmente puede probarse también que si la hipótesis nula: H0: A1= A2 =....= Ag = 0
es cierta, entonces la matriz NW seguirá, también una distribución de parámetros
n, N-g, V y será independiente de la distribución de NB.
Obviamente también, considerando esa misma propiedad, NS (siendo S la matriz de

varianzas totales muestral) seguirá también una distribución Wn (N-1,V)
Teniendo en cuenta esto, el contraste de la hipótesis nula: H0: A1= A2=....= Ag = 0 se

lleva a cabo evaluando el valor del estadístico λ (lambda de Wilks):
λ = |W| / |T|
Estadístico que sigue una distribución λ de Wilks de parámetros n, N-g ,g-1.
Es, precisamente este estadístico el que nos conducirá a determinar si los vectores
de medias de los grupos son significativamente diferentes o no; es decir, si la
hipótesis nula es rechazable o no:
Para un nivel de significación α:
Aceptaremos la hipótesis nula si λ > λα
Rechazamos la hipótesis nula si λ < λα
Siendo λ el valor crítico que verifica P ( λ > λα) = α en una distribución λ (n, N-g,g-1).
En la práctica el contraste se realiza después de una transformación previa del

estadístico en una F o una ji-cuadrado.
Bloque II - Técnicas de dependencia
Tema 5 - Regresión Lineal Múltiple
TEMA 5. REGRESIÓN MÚLTIPLE LINEAL
5.1. INTRODUCCIÓN

Figura 1. Esquema Técnicas Multivariantes.
La selección de la técnica de dependencia apropiada depende de:

1. El número de variables que se han designado como dependientes
2. Los niveles de escala de las variables dependientes e independientes
Las principales Técnicas de Dependencia se muestran en la Figura 2:
La Regresión Múltiple (RM) es una extensión directa de la Regresión Simple (RS). La

diferencia fundamental es que en la RM se analiza la relación entre dos o más variables
independientes, mientras que la RS implica una sola variable independiente. Por tanto, la
RS cuenta con dos parámetros (X e Y) y la RM cuenta con varios parámetros (Xi e Y).
La ecuación predictiva para una situación de dos variables independientes es:
Ŷi = a + b1X1 + b2X2 + …….
Donde, Ŷi es la variable dependiente (criterio); X1, X2 son las variables independientes
(predictoras); y a, b1 y b2 son los coeficientes de regresión calculados a partir de los datos
de la muestra. Son estadísticos que estiman los parámetros de la población.
Hasta el momento conocemos que podemos cuantificar la intensidad de la relación entre

dos variables mediante el Coeficiente de Correlación de Pearson, y que el Análisis de
Regresión es un procedimiento poderoso y flexible para analizar las relaciones asociadas
entre una variable dependiente y una o más variables independientes.
La RM es una técnica que nos permitirá explicar una variable (VD) mediante un conjunto
de otras variables explicativas (VIs).
Por ejemplo, mediante esta técnica podemos saber si la variación en la venta de un

producto puede explicarse en términos de variación en las inversiones publicitarias y al
presupuesto destinado a promociones, o saber si las percepciones de los consumidores
sobre la calidad del producto están determinadas por su consideración sobre los precios,
la imagen de la marca y del servicio post-venta.
EJEMPLO I
Supongamos que el director de una empresa de esquí quiere saber cuáles son las
variables que mejor explican que los usuarios esquíen mucho o esquíen poco en su
estación. Para conseguir este objetivo, entrevista a una muestra de 217 clientes de la
estación. Con los datos obtenidos se plantea realizar un modelo de regresión múltiple,
cuya variable a explicar, VD, es el número de días de esquí durante la temporada en la
estación. Las variables explicativas, VIs, después de seleccionar las más relevantes son: la
edad del cliente, los años de experiencia, el gasto medio por día durante su estancia, la
satisfacción general con la estación (escala de 0 a 10) y el número de personas con las que
esquía.
Los fines de la regresión son:
1. Determinar la función que relaciona las VIs con la VD que explica la relación con
las VIs
2. Determinar si las VIs explican una variación significativa de la VD; es decir,

determinar si existe tal relación
3. Determinar la importancia de la relación de asociación entre las VIs y la VD; es

decir, determinar la fuerza de la relación.
4. Predecir los valores de la VD
5. Controlar otras VIs al evaluar las contribuciones de una variable específica o un

conjunto de variables.
El Método a seguir cuando aplicamos el análisis de Regresión Múltiple es (Figura 3) 2 :
Fase I: Diseño del análisis
Siguiendo nuestro EJEMPLO I el objetivo del director de la empresa consiste en

determinar cuáles son las variables que mejor explican el que un sujeto esquíe mucho o
poco. Para ello, trató de explicar el número de días que los esquiadores volvían a su
estación durante una temporada (V1). Para ello registro:
Edad de los esquiadores (V2)
Años de experiencia (V3)
Gasto medio por día durante la estancia (V4)
Satisfacción general (V5)
Número de personas con las que esquía (V6)
Todas las variables deben ser métricas o de intervalo.
En el análisis de Regresión Múltiple intervienen cuatro elementos:
1. Variables: VD (Yi) y VIs (X1; X2; X3; ……., Xp)
2. Parámetros o coeficientes de regresión:
Son los valores que relacionan las variables (β1, β2, β3, …….. βp)
βp: es el cambio esperado en Y debido al cambio en una unidad en Xp

cuando el resto de las variables se mantienen constantes.
Los efectos combinados de las distintas Xp son aditivos (Si X1; X2; X3;
……., Xp cambian una unidad, el cambio esperado en Y sería β1, β2, β3, ……..
βp).
La estimación de los parámetros βp es el fin de la Regresión.
3. Término residual: es el error (e) del modelo de Regresión debido a:
Variables explicativas omitidas en el modelo
Errores de medición
Errores debidos al comportamiento cambiante del sujeto
4. Modelo General:
Y = β0 + β1 X1 + β2 X2 + β3 X3 + …………..+ βp Xp + ei
Los supuestos del Modelo son:
a) Relación lineal entre variables, el valor esperado de la variable

dependiente depende linealmente de las variables independientes
(Linealidad)
b) La varianza de los errores es constante (Homocedasticidad)
c) Ausencia de multicolinealidad, es decir, ausencia de correlación alta

entre las VIs, no se pisan. Si no fuera así, no podríamos saber cuánto
contribuye cada variable por sí misma. No podríamos interpretar los βp.
Si las variables están correlacionadas es necesario recurrir al Análisis
Factorial.
d) Los residuales deben distribuirse normalmente (Normalidad)
e) Independencia de los residuos (Independencia)
f) Existen limites de tolerancia que colocan límites sobre las mediciones

que se llevan a cabo sobre la distribución (Tolerancia)
Fase II: Estimación de los parámetros βp.
El Modelo General se expresa así:
Ŷ = β´0 + β´1 X1 + β´2 X2 + β´3 X3 + …………..+ β´p Xp
Donde, Y = Ŷ + e y a y bi son los estimadores de β´0 y βí
En el Modelo de Regresión Lineal Simple, la estimación de parámetros significaba la

obtención de la línea que mejor se ajusta a la nube de puntos (Y, X). En el Modelo de
Regresión Múltiple, se trata de ajustar un plano (cuando tenemos dos VIs) o un
hiperplano (+ 2 VIs) (Figura 4; Fuente: Google).

5.2. ESTIMADORES MÍNIMO CUADRÁTICOS:

PROPIEDADES

El método de estimación más común es “mínimos cuadrados” que consiste en la

minimización del término residual “e”.
Consiste en descomponer la variación total de Y en dos fuentes de variación, la

procedente de las variables explicativas Xp (la explicada por el modelo) y la procedente
del error o no explicada por el modelo.
Donde, Y es el parámetro, Ŷ es el estimador e Ӯ es la media.
El método consiste en minimizar la suma de los cuadrados de los residuos, como se
expresa en el recuadro superior: min
Los estimadores obtenidos se denominan estimadores de mínimos cuadrados (MC) y

gozan de ciertas propiedades estadísticas deseables:
a) Insesgadez
Un estimador, por ejemplo, β´2 es insesgado si su esperanza matemática (valor esperado)

es igual al parámetro que trata de estimar, β2. Si bien es cierto que el estimador β2´ es una
variable aleatoria que en cada muestra de y toma un valor diferente, en promedio, es
decir, teniendo en cuenta los infinitos valores que puede tomar β´2, es igual al parámetro
β2.
Con cada muestra de y se obtiene un valor específico de β´2, es decir, una estimación. En
la Figura 5A aparecen representados dos estimadores de β2, β´2 (1) y β´2(2). La primera
estimación β´2(1) está relativamente cerca de β2, mientras que β´2(2) está mucho más
alejada
La insesgadez es una propiedad deseable, ya que nos asegura que el estimador en

promedio está centrado sobre el parámetro.
En la Figura 5B, por el contrario, el estimador β´2 es sesgado, ya que su esperanza no es
igual a β2. El sesgo es precisamente E(β´2) - β2. En este caso también se han representado
dos hipotéticas estimaciones: β´2(1) y β´2(2). Como puede verse β´2(1) está más cerca de β2
que el estimador insesgado β´2(2). Aunque se debe simplemente al azar, que β´2(1) esté
más cerca que β´2(2), por ser sesgado no está centrado en promedio sobre el parámetro.
Siempre es preferible un estimador insesgado puesto que, con independencia de lo que
ocurra en una muestra concreta, no tiene una desviación sistemática respecto al valor del
parámetro.
b) Eficiencia
Esta propiedad hace referencia a la varianza de los estimadores. En las Figuras 6A y 6B se

han representado dos hipotéticos estimadores insesgados. El primero de ellos (6A) tiene
una varianza más pequeña que el segundo (6B).
En ambas figuras se han representado dos estimaciones de β2: β´2(3) y β´2(4). La estimación
que está más cerca de β2 es β´2(3) en la figura 6B. Se ha mostrado así para resaltar el papel
jugado por el azar, sin embargo, la mejor estimación siempre es β´2(4) en la figura 6A
porque el mejor estimador es el que tiene la varianza más pequeña.
c) Linealidad
La relación entre la variable dependiente o explicada: y, las variables explicativas: x, y la

perturbación aleatoria es lineal en los parámetros:
y = β1 + β2x + e

Es necesario que exista una relación lineal en los parámetros.
5.3. TEOREMA DE GAUSS-MARKOV

El teorema de Gauss-Markov demuestra que los estimadores de MC tienen la menor

varianza de entre todos los estimadores lineales e insesgados. Por esta razón se dice que
los estimadores de MC son estimadores lineales, insesgados y óptimos (ELIO).
Este teorema se basa en 10 supuestos; supuestos que se conocen como los supuestos de
Gauss-Markov:
1. El modelo está correctamente especificado
2. Debe ser lineal en los parámetros: y = β1 + β2x + e
3. El valor de la media condicional debe ser 0.
4. Hay homocedasticidad. La varianza del error de la variable endógena y, la que se

va a predecir, se mantiene a lo largo de las observaciones. Las perturbaciones
tienen una varianza constante.
5. No existe correlación entre las pertubaciones. Es decir, las perturbaciones

correspondientes a diferentes individuos o a diferentes momentos de tiempo, no
están correlacionadas entre sí. Este supuesto de no autocorrelación o no
correlación serial, al igual que en el caso de homoscedasticidad, es contrastable a

posteriori. La transgresión de este supuesto se produce con bastante frecuencia en
los modelos que utilizan datos de series temporales.
6. La covarianza entre la perturbación y las variables explicativas es 0
7. El número de observaciones es mayor que el del parámetro
8. No existe variabilidad entre las variables explicativas (x). Es decir, el regresor x no

contiene errores de medición.
9. Las variables explicativas (x) no son estocásticas, es decir, son fijas en muestras
repetidas. Es decir, cada observación de x toma el mismo valor para diferentes
muestras de y.
10. No hay multicolinealidad perfecta. No existe una correlación perfecta entre las
variables explicativas.
Fase III: Interpretación de los resultados
Además de la estimación de los parámetros βp, los paquetes estadísticos informan de la

fuerza de asociación:
La fuerza de asociación viene especificada por el Coeficiente de Determinación (R²) y el

R² ajustado.
R² * 100 = Medida de Bondad de Ajuste del Modelo
La bondad de ajuste es la proporción de varianza de Y explicada por Xp. Sus valores van
de 0 a 1, valores próximos a 0 indican que el modelo no se ajusta bien a los datos.
La bondad de ajuste R² nos informa como se ajusta el modelo a la muestra con la que
trabajamos. Pero nuestro objetivo es desarrollar un modelo para predecir a nivel
poblacional, por eso se ajusta el R², ya que éste aumenta con el número de VI y el tamaño
de la muestra.

R² ajustado = ; porque R² aumenta en función del número de VI y n.
Así mismo, βp indica la dirección de la relación y la intensidad de la relación.
Si βp > 0: un incremento, e una unidad, de la variable Xp implica un incremento en Y en

unidades.
Si βp < 0: un incremento, en una unidad, de la variable asociada Xp, implica una

disminución de la variable a explicar Y en βp.
Por otro lado, hay que tener en cuenta que si las Xp fueron medidas en escalas diferentes
(años, euros, número de personas, etc.) los coeficients βp NO SON COMPARABLES
ENTRE SÍ. Para evaluar la importancia de cada variable explicativa, Xp hay que
normalizar los coeficientes (N βp). Para ello se estandarizan (normalizan) las variables
explicativas Zxp (N, 0, 1). Estos parámetros se relacionan entre sí:
A partir de los coeficientes normalizados N βp, además, podemos conocer el peso de cada
VI a la hora de explicar la VD. Para ello aplicamos:
Si retomamos nuestro ejemplo: empresa de esquí; entrevista a una muestra de 217
Tenemos los siguientes resultados:
La variable V3 es la variable más influyente, explica el 44,6% de la varianza, mientras que

V5 sería la menos influyente.
5.4. ANÁLISIS DE LOS RESIDUALES

El análisis de residuos permite identificar valores outliers (fuera de rango) para los que la
relación lineal planteada entre la VD y las VIs no existe. No se ajusta a las respuestas
dadas. Es decir, los valores estimados de la VD difieren notablemante de los valores
reales ei = Yi -Ŷi
Los outliers influyen negativamente en el ajuste general del modelo. Unos pocos outliers
son suficientes para distorsionar los resultados.
Para identificar los outliers los pasos a seguir son:
Normalizar los términos residuales obtenidos:
Para cada elemento de la muestra contrastar las siguientes hipótesis:
Dado que el estadístico t se corresponde con el valor de Nei , si Nei > 1,96 rechazamos la
H0 (α = 5%). Estos serán los outliers.
Esto también se resuelve representando gráficamnte los valores residuales normalizados

de toda la muestra.
5.5. CORRELACIONES MÚLTIPLE Y PARCIAL

Una manera objetiva de cuantificar la intensidad de la relaicón es mediante el cálculo del

Coeficiente de Correlación de Pearson.
Trazando la media de las dos variables en un gráfico tenemos 4 cuadrantes (Figura 7):
En el cuadrante 1: los valores de X e Y están por encima de sus respectivas medias, tienen
desviaciones positivas.
En el cuadrante 2: los valores de X tienen desviaciones negativas y los de Y desviaciones

positivas.
En el cuadrante 3: ambos tienen desviaciones negativas
En el cuadrante 4: X tiene desviaciones positivas e Y negativas.
Si los puntos caen en cuadrantes diagonales evidencian relación entre ambas variables.
Para cuantificar esta relación tenemos que:
Definir x = (Xi - Ẋi) e y = (Yi - Ӯi), desviaciones de sus respectivas medias.
Al multiplicar las dos desviaciones obtenemos un valor con un signo, que

nos dice algo acerca del cuadrante en el que cae un punto de los datos: xy
= (Xi - Ẋi) (Yi - Ӯi). De forma que si x e y son positivos, xy es positivo
(cuadrante 1); si x es negativo e y positivo, xy es negativo (cuadrante 2); si
x e y son negativos, xy es positivo (cuadrante 3); y si x e y son negativos,
xy es negativo (cuadrante 4). Por tanto, si la nube de puntos cae en los
cuadrantes 1 y 3 la relación es positiva y si cae en los cuadrantes 2 y 4 es
negativa.
Si sumamos todos los Σxy, el signo indicará la dirección de la relación.

Pero tiene dos inconvenientes: 1) el valor de Σxy depende del número de
datos u observaciones; y 2) el valor Σxy depende de la unidad de
medición de x e y.
Para corregir los efectos del tamaño de la muestra dividimos Σxy entre
los grados de libertas del tamaño de la muestra, n – 1, y así creamos la
Medida de Covarianza.

La covarianza es la relación sistemática entre dos variables, en la cual el cambio en una

implica un cambio correspondiente en la otra.
Eliminamos el efecto de las unidades de medición dividiendo entre las desviaciones

estándar de X e Y, y obteniendo el denominado Coeficiente de Correlación de Pearson:
rxy =covxy / SxSy

La correlación es una medida estandarizada de la Covariación.
Permite que se comparen dos correlaciones independientes de las unidades en que se

midan y las observaciones.
rxy un número absoluto y no se expresa como cualquier unidad de medición. No

importan las unidades subyacentes de las 2 variables que intervienen.
-1 < rxy < +1: es una medida de la dirección y fuerza de la relación.
El % exacto de variación que comparten dos variables se calcula elevando al cuadrado r, al

que conocemos, el Coeficiente de Determinación.
El Coeficiente de correlación parcial nos ofrece la posibilidad de conocer el verdadero grado

de asociación entre dos variables, manteniendo al margen la influencia de una tercera o
terceras variables.
Este coeficiente puede calcularse a partir del conocimiento de las correlaciones sencillas,
sin utilizar informaciones individuales de los elementos de la muestra. La fórmula para la
correlación parcial se define como se muestra en la Figura 8
Para concluir, cabe hacer mención especiales a aquellas situaciones en las que deseamos
conocer la asociación que existe entre variables que no son métricas (no tienen
propiedades de una escala de intervalo y no presentan una distribución norma.
En estos casos, podemos recurrir a los índices rho de Spearman y Ƭ de Kendall, cuando la
distribución no es normal pero sí son numéricas y ordinales las variables. La rho de
Spearman se aproxima cuando tenemos muchas categorías, la T de Kendall es preferida
cuando muchos casos entran en un número selectivamente bajo de categorías.
5.6. CONTRASTES DE HIPÓTESIS: PRUEBAS DE

SIGNIFICACIÓN
Para probar si cada VI (Xp) por sí sola influye significativamente sobre VD (Y)
El estadístico de contraste se llama estadístico t o cociente t (t ratio) de βp
P son los grados de libertad del numerador = glr - glnr, donde gl = numero de
observaciones- número de parámetros estimados.
n-P-1 = grados de libertad del denominador: glnr
Por otro lado, si lo que queremos es comprobar globalmente la relación entre todas las
VI y la VD, aplicaremos:
El estadístico de contraste en este caso se llama estadístico F:
F nunca es negativo Es un estimador insesgado de σ ²
P son los grados de libertad del numerador
n-P-1 = grados de libertad del denominador: glnr
5.7. INTERVALOS DE CONFIANZA SIMULTÁNEOS

Los intervalos de confianza a los que estamos habituados a utilizar son intervalos uno por
uno, denominamos “estop es”. Son los tipos usuales de intervalo de confianza o
predicción, en donde el coeficiente de confianza 1- α indica la proporción de estimaciones
correctas que resulta cuando se seleccionan muestras aleatorias repetidas. En algunos
problemas se necesita construir varios intervalos de confianza con los mismos datos de la
muestra, necesitamos un coeficiente de confianza que se aplique de forma simultánea, o
al mismo tiempo, a todo el conjunto de estimaciones por intervalo. Un conjunto de
intervalos de confianza que son todos ciertos de forma simultánea, con 1- α de
probabilidad, se llama conjunto de intervalos simultáneos o conjuntos de confianza.
Es relativamente fácil definir una región de confianza conjunta para los parámetros β del
modelo de Regresión Múltiple (Figura 9).
Y eso implica que (Figura 10).
En consecuencia, una región de confianza conjunta de 100(1−α) por ciento, para todos los
parámetros en β es (Figura 11):
5.8. MATRICES SINGULARES DE DISEÑO

Se dice que existe multicolinealidad entre las variables explicativas cuando existe algún
tipo de dependencia lineal entre ellas, o lo que es lo mismo, si existe una fuerte
correlación entre las mismas. La correlación no solamente se refiere a las distintas
variables dos a dos, sino a cualquiera de ellas con cualquier grupo de las restantes. Por
esta razón no es suficiente (aunque sí necesaria) que en la matriz de correlaciones
bivariadas haya correlaciones altas.
El principal inconveniente de la multicolinealidad consiste en que se incrementan la

varianza de los coeficientes de regresión estimados hasta el punto que resulta
prácticamente imposible establecer su significación estadística, ya que como se sabe, el
valor de t para un determinado coeficiente de regresión es el valor de dicho coeficiente
dividido por su desviación. Si este es grande, el valor de t será bajo y no llegara a la
significación.
La varianza de los estimadores tiene que ver con (X´X)-1, donde X es la matriz de los
valores de las variables independientes. Cuando las columnas de X son colineales, la
matriz es singular y no tiene inversa. En este sentido los autovalores de la matriz X´X
(normalizada) nos puede proporcionar información del grado de singularidad de la
misma. A este respecto, disponemos del Indice de Condición, cuyo valor es la raíz
cuadrada del cociente entre el máximo autovalor y el mínimo de la matriz X´X:
Se considera que a partir de un valor de 20 hay cierta multicolinealidad y que ésta es alta
a partir de 30.
Podemos conocer además qué variables presentan multicolinealidad analizando la

proporción de varianza de los estimadores de los coeficientes de regresión en los
componentes con un índice de condición alto. Variables, cuya proporción de varianza en
dichos componentes, sea superior a 0.5 son indicativos de colinealidad.
En el SPSS, para conocer la posible colinealidad marcaremos en Regresión

lineal/estadísticos, Diagnósticos de colinealidad.
Fase IV: Selección del número optimo de variables explicativas
Uno de las cuestiones más importantes a la hora de encontrar el modelo de ajuste más
adecuado para explicar la variabilidad de una característica cuantitativa es la correcta
especificación del llamado modelo teórico. En otras palabras, debemos seleccionar de
entre todas las variables candidatas a ser explicativas de la variable dependiente un
subconjunto que resulte suficientemente explicativo
Para ello debe eliminarse las variables Xp con βp no significativas y volver a repetir el
análisis para obtener estimaciones correctas.
Entre otros, existen tres métodos:
Foward selection Backward elimination Stepwise
El Método Forward comienza por un modelo que no contiene ninguna variable

explicativa y se añade como primera de ellas a la que presente un mayor coeficiente de
correlación -en valor absoluto- con la variable dependiente. En los pasos sucesivos se va
incorporando al modelo aquella variable que presenta un mayor coeficiente de
correlación parcial con la variable dependiente dadas las independientes ya incluidas en
el modelo. El procedimiento se detiene cuando el incremento en el coeficiente de
determinación debido a la inclusión de una nueva variable explicativa en el modelo ya no
es importante.
El Método Backward comienza por considerar incluidas en el modelo teórico a todas las

variables disponibles y se van eliminando del modelo de una en una según su capacidad
explicativa. En concreto, la primera variable que se elimina es aquella que presenta un
menor coeficiente de correlación parcial con la variable dependiente-o lo que es
equivalente, un menor valor del estadístico t– y así sucesivamente hasta llegar a una
situación en la que la eliminación de una variable más suponga un descenso demasiado
acusado en el coeficiente de determinación.
El Método stepwise es uno de los más empleados y consiste en una combinación de los

dos anteriores. En el primer paso se procede como en el método forward pero a
diferencia de éste en el que cuando una variable entra en el modelo ya no vuelve a salir,
en el procedimiento stepwise es posible que la inclusión de una nueva variable haga que
otra que ya estaba en el modelo resulte redundante y sea “expulsada” de él.
Es obvio que, el modelo de ajuste al que se llega partiendo del mismo conjunto de
variables explicativas es distinto según cuál sea el método de selección de variables
elegido. Pero ninguno de los llamados métodos automáticos garantiza encontrar el
modelo óptimo -en el sentido, por ejemplo de maximizar el coeficiente de determinación
o cualquier otro criterio que nos parezca relevante-.
EJEMPLO III
Imaginemos que tenemos un conjunto de 40 observaciones de tres variables a las que

llamaremos Y (la dependiente) y X1 y X2 (las explicativas). Si sobre estos datos aplicamos
un procedimiento de tipo forward o de tipo stepwise, el modelo óptimo según los
procedimientos forward o stepwise es el que no contiene ninguna variable explicativa.
Los resultados para ambos modelos son:
Figura 12. Método Foward
Debido a que ninguna de las dos variables, cuando son consideradas de manera
independiente, supera los criterios mínimos para ser incluida en el modelo (que su
coeficiente t lleve asociada una probabilidad crítica inferior a 0,05), no se incluye ninguna
variable X en el modelo según el Método Foward.
Si por el contrario consideramos un procedimiento backward el resultado será el

siguiente:
Figura 13. Método Backward
El coeficiente de determinación para este modelo con dos variables explicativas es 0,987
y al coeficiente F asociado le corresponde una probabilidad crítica inferior a 0,001.
Adicionalmente, a los estadísticos t asociados a cada una de las dos variables explicativas
les corresponden probabilidades críticas muy reducidas. Hemos encontrado, por tanto,
un buen modelo lineal para explicar el comportamiento de Y a partir del comportamiento
de X1 y X2. El problema radica en que si hubieramos elegido de forma acrítica utilizar un
procedimiento forward o stepwise, jamás lo habríamos encontrado.
Tema 6 - Análisis Discriminante
TEMA 6. ANÁLISIS DISCRIMINANTE
6.1. INTRODUCCIÓN

El Análisis Discriminante (AD) es una técnica estadística multivariante cuya finalidad es

analizar, describir, si existen diferencias significativas entre grupos de objetos o sujetos
respecto a un conjunto de variables medidas sobre los mismos para, en el caso de que
existan, explicar en qué sentido se dan y proporcionar procedimientos de asignación
sistemática de nuevas observaciones de origen desconocido en uno de los grupos
analizados, utilizando para ello sus valores en las variables clasificadoras.
El AD ayuda a identificar las características que diferencian (discriminan) a dos o más

grupos y a crear una función capaz de distinguir con la mayor precisión posible a los
miembros u objetos de uno u otro grupo.
Para llegar a conocer en que se diferencian los grupos necesitamos conocer la

información (cuantificada en una serie de variables) en la suponemos se distinguen. El AD
puede decirnos cuáles son las variables realmente discriminantes, suficientes y
necesarias, para alcanzar el mejor modelo predictivo.
Podemos ver este procedimiento como un modelo de predicción, un análisis de regresión,

donde la variable dependiente es categórica (variable grupo con tantas categorías como
grupos) y las variables independientes son continuas (variables clasificatorias) y
determinan a qué grupos pertenecen los objetos.
Permite encontrar relaciones lineales entre las variables continuas que

mejor discriminen en los grupos dados a los objetos.
Construir una regla de decisión que asigne un objeto nuevo con un cierto
grado de riesgo, cuya clasificación previa se desconoce, a uno de los
grupos prefijados
Independiente del área de conocimiento en el que trabajemos, el análisis discriminante

nos permite distinguir grupos patológicos y normales, distinguir grupos de pacientes
respondedores y no respondedores, predecir si una empresa va a entrar en bancarrota o
si un alumno va a superar una asignatura.
Semejanzas y diferencias con otras técnicas
Se diferencia de la Regresión Lineal en que la VD no es

métrica es categórica
Se diferencia de la Regresión Logística en que las VIs

tienen que ser necesariamente métricas y normales
Se diferencia del Análisis de Clusters en que los grupos

en el AD son conocidos de antemano.
Supuestos
1. Existe una variable categórica (VD) y el resto de variables son de intervalo

o de razón (VIs) y son independientes respecto de ella.
2. Se necesitan al menos dos grupos, y para cada grupo se necesitan dos o más
casos.
3. El número de variables discriminantes debe ser menor que el número de

objetos menos 2, es decir, (X1, X2 ,….. , Xp) donde p < (n−2) siendo n = número
de objetos.
4. Ninguna variable discriminante puede ser combinación lineal de otras

variables discriminantes.
5. El número máximo de funciones discriminantes es el mínimo entre el

número de grupos menos 1 y el número de variables p. [q−1, p]
6. Las matrices de covarianzas dentro de cada grupo deben de ser

aproximadamente iguales.
7. Las variables continuas deben seguir una distribución normal

multivariante.
Filosofía
El AD estima la relación entre una VD categórica y un conjunto de VIs métricas, de modo

que podamos comprender la pertenencia a un grupo.
Partiendo de q grupos a los cuales se asignan una serie de objetos y de p variables
medidas sobre ellos (X1 , X2 ,….. , Xp) , se trata de obtener para cada objeto una serie de
puntuaciones que indican el grupo al que pertenecen (Y1 , Y2 ,….. , Ym), de modo que sean
funciones lineales de (X1 , X2 ,….. , Xp):
Y1 = W11 X1 + W12 X2 + W13 X3 +………..+ W1p Xp + W10
………………………………………………………………………………………….
…………………………………………………………………………………………
Ym = Wm1 X1 + Wm2 X2 + Wm3 X3 +………..+ Wmp Xp + W10
Donde:
m = mín[q−1, p ], tales que discriminen lo máximo posible a los q grupos. Estas

combinaciones lineales de las p variables deben maximizar la varianza entre los grupos y
minimizar la varianza dentro de los grupos.
Wp = ponderación discriminante para las VIs
Xp = variables independientes p

El AD contrasta la hipótesis de que las medias de los grupos en un conjunto de VIs son
iguales.
Para que una VI sea un predictor significativo, las medias de los grupos deben ser
distintas.
Para saber si una función discriminante es o no es estadísticamente significativa debemos

comparar la distribución de las puntuaciones discriminantes de los grupos establecidos.
Si el solapamiento es muy pequeño la función discrimina o separa bien los grupos.
El procedimiento a seguir en el AD:
1. Plantear los objetivos del análisis
Identificamos las variables que mejor discriminan entre los grupos, y determinamos
en qué medida lo hace cada una. De este modo podremos: a) comprender las
diferencias entre los grupos y b) pronosticar el grupo de pertenencia de un objeto o
sujeto (clasificar)
2. Diseñar la investigación
Hay varios elementos que van a condicionar el éxito del AD:
a) Selección de las variables
La VD mejor opción es escoger una VD con 2-4 grupos o categorías. El

número de categorías debe ajustarse al poder discriminante de los
predictores
Las VIs deben ser métricas y con distribución normal seleccionadas en

base a investigaciones previas, bibliografía, etc… No deben ser
excesivas.
Los grupos deben ser mutuamente excluyentes
b) Tamaño muestral
El AD es muy sensible a la ratio entre tamaño muestral y número de

variables predictoras (recomendable 20 casos por VI, 5 como mínimo).
El tamaño de los grupos debe ser similar (si es necesario trabajaremos

con un submuestras del grupo más grande)
El grupo más pequeño debe ser mayor que el número de predictores.
c) División de la muestra
La muestra se divide en dos: una mitad para estimar a función

discriminante y otra para validarla. Para ello aplicamos el enfoque de
validación cruzada (muestra de análisis + muestra ampliada),
garantizando un tamaño muestral total suficiente y aplicando muestreo
estratificado proporcional en ambas muestras.
3. Comprobar que se cumplen los supuestos
La correcta aplicación del AD va a depender de: la normalidad de las VIs (si no se

cumple se aplica la Regresión Logística); la no multicolinealidad entre las VI (baja
relación entre las VI); ninguna variable de ser combinación lineal de otras, y la
similaridad de las matrices de covarianzas intergrupales.
4. Estimar el modelo y evaluar el ajuste global
Para estimar matemáticamente la función discriminante existen dos métodos de

cálculo:
a) La estimación simultánea (ENTER).
La estimación simultánea implica el cálculo de la función discriminante donde todas

las variables independientes son consideradas simultáneamente, sin considerar la
capacidad discriminante de cada variable independiente. Se puede realizar en una
sola etapa, se recomienda cuando el número de variables es reducido y existe
interés por el conjunto.
b) La estimación por pasos (SEPTWISE)
La estimación por pasos es una alternativa al enfoque simultáneo. Incluye las

variables independientes dentro de la función discriminante de una en una, según
su capacidad discriminatoria. El enfoque por etapas comienza eligiendo la variable
que mejor discrimina. La variable inicial se empareja entonces con cada una de las
variables independientes (de una en una), y se elige la variable que más consigue
incrementar la capacidad discriminante de la función en combinación con la
primera variable. La tercera y posteriores variables se seleccionan de una manera
similar. Mientras se incluyen variables adicionales, algunas variables seleccionadas
previamente pueden ser eliminadas si la información que contienen sobre las
diferencias del grupo está contenida en alguna combinación de otras variables
incluidas en posteriores etapas. Al final, o bien todas las variables habrán sido
incluidas en la función, o se habrá considerado que las variables excluidas no
contribuyen significativamente a una mejor discriminación.
Se puede realizar en varias etapas, se recomienda cuando hay un número amplio de

variables o se duda del modelo teórico.
Es útil para ver la capacidad explicativa de cada VI, analizar las distintas
combinaciones de VIs o para valorar la parsimonia de las VIs.
Con esta estrategia, las variables discriminantes se van incorporando a la función

discriminante una a una y, de esta manera, es posible, por un lado, construir una
función utilizando únicamente aquellas variables que son realmente útiles para la
clasificación y, por otra parte, evaluar la contribución individual de cada variable al
modelo discriminante.
Se comienza seleccionando aquella VI que más diferencia a los grupos, la que

permite hacer mejores clasificaciones.
Después de calcularse la función discriminante, el investigador debe valorar el nivel

de significación. Se dispone de varios criterios estadísticos. El criterio convencional
de 0,05 o superior se utiliza a menudo. Todos los programas de automáticos
proporcionan al investigador la información necesaria para averiguar el número de
funciones necesarias para obtener significación estadística, sin incluir funciones
discriminantes que no incrementen la capacidad discriminatoria significativamente.
Entre los estadísticos más destacados se encuentra la λ de Wilks.
La λ de Wilks es un estadístico que mide el poder discriminante de las variables.

Tiene una distribución con p, q-1 y n-q grados de libertad (n es el número de casos
válidos, p el número de variables y q es el número de grupos). En la λ de Wilks cada
variable independiente candidata a entrar en el modelo se evalúa mediante un
estadístico Fcambio que mide el cambio que se produce en la λ al incorporar cada
variable al modelo. Obtenido el valor Fcambio para cada variable, se incorpora al
modelo la variable a la que le corresponde el mayor valor Fcambio (la que produce
un mayor cambio en la λ de Wilks). En la función aquellas VIs que minimicen la λ de
Wilks.
Además de la λ de Wilks, se pueden utilizar otros criterios como la distancia de

Mahalanobis, la V de Rao y la menor razón F.
La D² de Mahalanobis es una medida de distancia que determina la similitud entre

dos variables aleatorias multidimensionales. Se incorpora en cada paso la variable
que maximiza la D² de Mahalanobis entre los dos grupos más próximos.
La V de Rao es un estadístico que es directamente proporcional a la distancia entre

los grupos. Al utilizar este criterio, la variable que se incorpora al modelo es aquella
que produce un mayor incremento en el valor de V.
La menor razón F incorpora en cada paso la variable que maximiza la menor razón
de F para las parejas de los grupos. El estadístico F utilizado es la distancia de
Mahalanobis ponderada por el tamaño de los grupos.
Independientemente del método seleccionado en la estimación por pasos siempre

se comienza seleccionando la variable independiente en la que más se diferencian
los grupos. Una vez seleccionada debe cumplir el criterio de entrada. A
continuación se selecciona la variable que contribuye a conseguir que la función
discriminante diferente a los grupos. Cada vez que se incorpora una variable al
modelo, las variables previamente seleccionadas son de nuevo evaluadas, de modo
que si aparece una variable que incrementa la potencia discriminativa de la función
esta entra y otra variable puede cumplir el criterio de salida y es excluida del
modelo.
Con programas automáticos como el SPSS podemos fijar cual es el criterio de

entrada y salida para incorporar o excluir las variables. Por defecto, una variable
pasa a formar parte del modelo si el estadístico F es mayor de 3,84 y es expulsada si
el valor de F es menor de 2,71. O una variable entra si el valor crítico asociado al
valor del estadístico F es menor que 0,05 y sale si el valor crítico asociado al valor
del estadístico F es mayor que 0,10.
Una vez que se han identificado las funciones discriminantes significativas, la

atención se desplaza a averiguar el ajuste global de la(s) función(es)
discriminante(s) considerada(s). Esta valoración conlleva a tres tareas:
1) Calcular la puntuación Z discriminante para cada observación.
Las puntuaciones Z vienen dadas por:
Zjk = a + W1 X1k + W2 X2k + …….. + Wp Xpk
donde
Zjk : Puntuación z discriminante de la función discriminante j para

el objeto k
a: Constante
Wi: Ponderación discriminante para la variable independiente i
Xik: Variable independiente i para el objeto k
Estas puntuaciones Z pueden emplear valores y ponderaciones

estandarizados o no estandarizados. La versión estandarizada es más útil en
la interpretación, pero la versión no estandarizada es más fácil de utilizar en
el cálculo de la puntuación Z discriminante.
Debemos darnos cuenta de que la función discriminante difiere de

la función de clasificación, también conocida como la función
discriminante lineal de Fisher. Las funciones de clasificación, una
para cada grupo, pueden utilizarse al clasificar observaciones. En
este método de clasificación, unos valores de la observación para
las variables independientes se incluyen en las funciones de
clasificación y se calcula una puntuación de clasificación para cada
grupo para esa observación. La observación se clasifica entonces
en el grupo con la mayor puntuación de clasificación. Utilizamos la
función discriminante como el medio de clasificar porque ofrece
una representación resumida y simple de cada función
discriminante, simplificando el proceso de interpretación y la
valoración de la contribución de las variables independientes.
2) Evaluar las diferencias entre grupos.
Una forma de valorar el ajuste global del modelo es determinar la magnitud

de las diferencias entre los miembros de cada grupo en términos de las
puntuaciones Z discriminantes. Una medida resumen de las diferencias entre
grupos es una comparación de los centroides (puntuaciones Z discriminantes
medias para todos los grupos). Una medida de éxito del análisis discriminante
es su capacidad para definir funciones discriminantes que den lugar a
centroides de grupo significativamente diferentes. Las diferencias entre
centroides se miden en términos de la medida D² de Mahalanobis, para la cual
se dispone de contrastes que determinan si las diferencias son
significativamente distintas.
3) Evaluar la exactitud en las predicciones de pertenencia.

Para evaluar la exactitud en las predicciones de pertenencia al grupo la

función discriminante deber ser potencialmente predictiva. Para poder
comprobarlo, el investigador debe construir matrices de clasificación donde
se revele la razón de aciertos o porcentaje correctamente clasificados.
Para construir la matriz de clasificación se debe determinar la puntuación de

corte. La puntuación de corte es el criterio (puntuación) frente al cual cada
puntuación discriminante individual es comparada para determinar dentro de
qué grupo debe ser clasificado cada objeto. También se denomina Valor Z
crítico.
Para dos grupos de igual tamaño es la media de sus centroides:
ZCE : Valor de la puntuación de corte crítica para grupos de igual

tamaño
ZA: Centroide del grupo A
ZB: Centroide del grupo B
Para dos grupos de distinto tamaño, es la media ponderada de sus centroides:

ZCU: Valor de la puntuación de corte crítica para grupos de distinto

tamaño
NA: Número del grupo A
NB: Número del grupo B
ZA: Centroide del grupo A
ZB: Centroide del grupo B
Una vez tenemos el punto de corte, elaboramos la matriz de clasificación.

Dado que tenemos la muestra dividida en dos, la muestra de análisis y la
muestra de validación, el proceso consiste en multiplicar las ponderaciones
generadas por la muestra de análisis por las medidas de la variable primaria
de la muestra de validación. Después, las puntuaciones discriminantes

individuales para la muestra de validación se comparan con el valor de la
puntuación de corte crítica y se clasifica de la siguiente forma: se clasifica un
objeto en el Grupo A si Zn < Zct; se clasifica un objeto en el Grupo B si Zn >Zct
(Zn = Puntuación Z discriminante para el individuo n-ésimo; Zct = Valor de la
puntuación de corte crítica).
4) Valorar la capacidad predictiva de la función discriminante.
La capacidad predictiva de la función discriminante se mide con la razón de

aciertos, el cual se obtiene en la matriz de clasificación. Para determinar cuál
es el nivel aceptable de capacidad predictiva para una función discriminante,
debemos tener en cuenta cuál sería el porcentaje que podría ser clasificado
correctamente de forma aleatoria (sin la ayuda de la función discriminante),
determinar el Criterio de Aleatoriedad. Si los tamaños muéstrales son iguales,
basta con dividir 1 por el número de grupos (1/n grupos) (por ejemplo, en una
función de dos grupos la probabilidad sería de 0,5 y para una función de tres
grupos la probabilidad sería de 0,33); si los tamaños de los grupos son
distintos aplicamos el Criterio de Aleatoriedad Proporcional)
CPRO = p2 + (1-p)2
p = proporción de individuos del grupo 1
p -1 = proporción de individuos del grupo 2
La precisión clasificatoria debe ser, por lo menos, ¼ mayor que la obtenida por
azar (para 2 grupos: 62,5%).
5) Interpretar los resultados
Hay que examinar la función discriminante para determinar la importancia

relativa de cada variable independiente en la discriminación de los grupos.
Distinguimos tres estrategias:
a) Ponderaciones discriminantes estandarizadas (Coeficientes

discriminantes).
Los coeficientes son estandarizados para facilitar la interpretación, sus

magnitudes están comprendidas entre -1 y 1, lo que permite ver la
importancia relativa de cada variable. Si ignoramos el signo, el
coeficiente estandarizado de la función representa la contribución de

cada variable en cuestión al modelo discriminante. Cuanto mayor sea su
valor, mayor será la aportación a la capacidad predictiva del modelo. El
signo representa el efecto, positivo o negativo, de la variable sobre la
diferenciación entre grupos. Los coeficientes estandarizados sirven
para clasificar y, a través de los mismos se calculan los centroides.
b) Las cargas discriminantes (Correlaciones de estructura).
Miden la correlación lineal simple entre cada variable independiente y

las puntuaciones Z. Informan de la función relativa de cada variable a la
función, pero sin tener en cuenta el resto de las variables (puede llevar a
confusión).
Carga al cuadrado = Variabilidad Compartida
c) Valores parciales de la F. es útil en el método por etapas (Stepwise). A

mayor F mayor importancia de la variable independiente que entra en
cada grupo.
Y ………¿cuando hay más de dos grupos?
Cuando hay más de dos grupos, hay más de una función. La

interpretación se complica, ya que tenemos tantas funciones como
grupos-1, con lo que es difícil saber la capacidad discriminante de cada
función y de cada predictor.
Las funciones discriminantes se extraen de manera jerárquica. La

primera es la que mejor explica las diferencias entre los grupos (mayor
autovalor), la segunda la mayor parte de las diferencias que quedan aún
por explicar y así sucesivamente.
Las funciones son independientes y complementarias. La 1ª discrimina

entre dos grupos concretos y la 2ª entre los dos grupos que se
encuentran más próximos en la 1ª función.
Se recomienda:
a) Prestar atención a los centroides en cada función. Centroides muy

distintos.
b) Recurrir a una solución gráfica llamada mapa territorial (Figura 1.

Fuente: propia). El mapa territorial muestra la localización de los
centroides en el plano definido por las dos primeras funciones
discriminantes, así como las fronteras territoriales utilizadas en la
clasificación.
c) Valorar la F y la λ asociadas en cada función.
d) F para distancias por parejas (grupos). Permite conocer entre qué

grupos discrimina cada función.
Figura 1. Mapa territorial
6. Validar los resultados
El objetivo de la validación de los resultados es asegurar que los resultados tienen

validez (estabilidad).
¿Cómo?
Existen 2 métodos:
a) Validación cruzada. Dividimos la muestra en dos mitades al azar.

Comprobamos si el modelo funciona igual de bien y permanece estable en la
segunda muestra.
Se puede realizar el proceso incluso varias veces y promediar los resultados.
Y se pueden estimar los resultados con k – 1 muestras, es decir, dejando cada

vez un sujeto fuera, y promediándolos (Método de dejar uno fuera). Útil
cunado trabajamos con muestras muy pequeñas.
b) Diseño de Grupos.
Se caracterizan los perfiles de los grupos en base a las variables

discriminantes significativas.
¿En qué se diferencian?
¿Cuáles son sus medias en cada VI?
¿Son interpretables?, ¿encajan a nivel teórico?
EJEMPLO I
Supongamos que tenemos 2 grupos que siguen un Programa de Alcoholismo. Un grupo

que sigue el programa y otro que decide abandonarlo.
Z = a + W1X1 + W2X2 + W3X3
Tenemos tres variables predictoras:
X1: autoconciencia del estado de salud
X2: interés por matenerse sano
X3: Ansiedad
El grupo que abandona se caracteriza por: baja autoestima, bajo interés y alta
ansiedad.
El grupo que sigue: alta autoestima, alto interés y baja ansiedad
6.2. DISCRIMINACIÓN ENTRE DOS GRUPOS CON

DISTRIBUCIONES CONOCIDAS (μi y Σ conocidas).
ENFOQUE POBLACIONAL

6.2.1. Np (μi, Σ i) Σ 's iguales: Σ1 = Σ2 = Σ. Función L. Discriminante de Fisher
La diferencia entre las dos medias se expresa:
La distancia de Mahalanobis entre ellas:
Nuevo elemento, de población desconocida:
Discriminar mediante una combinación lineal L(x) ≡at x
Dicha combinación lineal es la función L denominada “Función Lineal

Discriminante de Fisher”, que se utiliza para construir diferentes reglas de
clasificación.
A partir de L(x0) (valor que toma la función lineal discriminante L para la nueva
observación x0), decido a qué población se asigna la nueva observación x0.
Para ello se utiliza la Regla de clasificación :
Regla de discriminación lineal de Fisher: x0 1 si at x0> k0, es decir (Figura 2;

Fuente: Google)
6.2.2. Np (μi, Σ i) Σ 's diferentes: Σ1 ≠ Σ2. Función Discriminante Cuadrática
Criterio de Mínima Distancia (MD): se asigna a la población de cuya media diste

menos.
6.3. DISCRIMINACIÓN ENTRE DOS GRUPOS CON

DISTRIBUCIONES CONOCIDAS Y PARÁMETROS
DESCONOCIDOS (μi desconocidas, Σ conocida). ENFOQUE
MUESTRAL.

6.3.1. Np (μi, Σ i) Σ 's iguales: Σ1 = Σ2 = Σ. Función L. Discriminante de Fisher
Observo n1 individuos en la población 1; media muestral Ẋ1
Observo n2 individuos en la población 2; media muestral Ẋ2
Sustituyo en la Figura 2 las μi, ahora desconocidas por sus estimaciones, por Ẋi, y
tengo una nueva versión de la regla de discriminación lineal de Fisher Figura 3;
Fuente: Google:
6.4. DISCRIMINACIÓN ENTRE MÁS DE DOS GRUPOS

6.4.1. Asumiendo Σ1=...=Σk=k=Σ (desconocida). Enfoque muestral.
Ẋi: vector media muestral basado en ni observaciones de la población i.
Sp: matriz de covarianzas muestral “pooled” con g. de l.
Nuevo elemento: x0 ~ Np (μ0, Σ)
Regla MD de Mínima Distancia (Figura 4; Fuente: Google)
Regla de Discriminación lineal (Figura 5; Fuente: Google)
6.4.2. Sin asumir Σ1=...=Σk (desconocida). Enfoque muestral.
Asignamos de forma similar que en 6.4.1, pero utilizando en la regla de la Figura 5

cada Si en lugar del estimador común pooled Sp:
Regla de Discriminación lineal (Figura 6; Fuente: Google)
6.5. SELECCIÓN DE VARIABLES

El problema de la selección de variables intenta responder a la pregunta ¿Son necesarias

todas las variables clasificadoras para discriminar?
Para responder existen básicamente tres tipos de algoritmos: selección de variables

hacia delante, eliminación hacia atrás y de regresión por pasos.
Los algoritmos de selección hacia delante comienzan eligiendo las variables que más
discriminan entre los q grupos. A continuación seleccionan la segunda más discriminante
y así sucesivamente. Si de las variables que quedan por elegir ninguna discrimina de
forma significativa entre los grupos analizados el algoritmo finaliza.
Los algoritmos de eliminación hacia atrás proceden de forma inversa. Se comienza

suponiendo que todas las variables son necesarias para discriminar y se elimina la menos
discriminante entre los grupos analizados y así sucesivamente. Si las variables no
eliminadas discriminan significativamente entre los grupos analizados el algoritmo
finaliza.
Los algoritmos de regresión por pasos utilizan una combinación de los dos anteriores
algoritmos permitiendo la posibilidad de arrepentirse de decisiones tomadas con
precipitación bien eliminando del conjunto una variable introducida o introduciendo una
variable eliminada anteriormente.
Para determinar que variables entran y salen en cada paso se utilizan diversos criterios
de entrada y salida. Uno de los más utilizados es de la lambda de Wilks.
Tema 7 - Análisis de regresión Logística
TEMA 7. ANÁLISIS DE REGRESIÓN LOGÍSTICA
7.1. FUNDAMENTO DEL MODELO DE REGRESIÓN

LOGÍSTICA. EL CONCEPTO DE “ODD” (O “RIESGO”).
FORMA ANALÍTICA DEL MODELO DE REGRESIÓN
LOGÍSTICA

La Regresión Logística (RLG) es una técnica analítica que permite relacionar

funcionalmente una variable categórica (dicotómica o multinomial) con un conjunto de
variables independientes.
La RLG explica y predice la probabilidad de que ocurra un evento. Realiza pronósticos de

pertenencia a un grupo en base a la estimación de probabilidades (entre 0 y 1), a partir de
los valores de los objetos o puntuaciones de los sujetos en las VIs.
Por analogía, puede considerarse una extensión de la Regresión Lineal (RL), con la
particularidad de que el dominio de salida de la función (conjunto de todos los valores
dependientes posibles que la relación VI - VD puede producir) está acotado al intervalo
[0,1] y que el procedimiento de estimación, en lugar de mínimos cuadrados, es de
máximo-verosimilitud. En términos interpretativos es similar a la RL
La RLG también presenta una analogía con el Análisis Discriminante (AD). Cuando la VD
tiene sólo dos grupos, es dicotómica, puede utilizarse el AD o la RLG indistintamente. Sin
embargo, la RLG tiene cualidades que le otorgan gran poder estadístico por encima del
AD:
Es menos restrictiva. Las VIs pueden ser cualitativas o cuantitativas

indistintamente.
Es más robusta cuando las VIs no cumplen los supuestos de normalidad
El Análisis de RLG tiene una gran utilidad en muchos campos de investigación, siendo
especialmente empleado en investigación socio-sanitaria. Su gran utilidad deviene de su
capacidad para identificar factores de riesgo o de estimar cuánto aumenta la
probabilidad de sufrir una patología si se dan una serie de características o condiciones.
Por ejemplo, la RLG sería el modelo fundamental si pretendemos estimar la probabilidad
de que un individuo sufra un infarto a partir de las condiciones: nivel de colesterol, edad,
presión arterial, sexo y antecedentes familiares. Así mismo, lo aplicaríamos si deseamos

conocer la probabilidad de que un determinado individuo sufra esquizofrenia, en función
de sus características clínicas, familiares y sociales. También, si queremos conocer las
variables que explican la conducta de dejar de fumar o predecir el éxito o fracaso de una
terapia. No es lo mismo probar si un tratamiento funciona, que recoger datos de
antemano de la aplicación de un tratamiento y predecir si va a ser eficaz.
La función logística podría estar representada como se muestra a continuación (Figura 1;

Fuente: propia).
En dicha función se presenta la estimación de que un sujeto presente uno de los valores
posibles (1 = Recuperación; 0 = Recaída), en función de determinas VIs. Normalmente se
trabaja con el valor 1 de referencia, este valor 1 se le otorga a lo que queremos predecir,
la Recuperación. Se toma como primera variable explicativa a la variable constante que
vale 1.
Como se puede observar el sujeto (0, 25) resulta ser un caso anómalo que rompe el ajuste
del modelo.
Si la probabilidad estimada es < de 0,5 la predicción será Recaída.
Si la probabilidad estimada es > de 0,5 la predicción será Recuperación.
Como se puede observar el sujeto (0, 25) resulta ser un caso anómalo que rompe el ajuste
del modelo.
El Modelo de RLG compara la probabilidad de ocurrencia de un evento con la

probabilidad de que no ocurra. Al cociente entre ambos se le denomina ODD (ratio de
riesgo)
P (A) / P (B) = a + b1 X1 + b2 X2 +……. bn Xn
El objetivo de la RLG es hallar los coeficientes (b1, b2,……. bn) que mejor se ajusten a la
expresión funcional.
Se trata de identificar aquellas variables que implican cambios en ese ratio de

probabilidad, aumentándolo o disminuyéndolo de forma significativa. La ratio o razón de
probabilidad es un cociente entre dos cantidades y señala cuantas veces una cantidad es
mayor o menor respecto a la otra.
La ODD RATIO sería la razón o cociente entre la probabilidad de que un evento ocurra
bajo unas determinadas circunstancias que bajo otras. (Ej-. Hay el triple de probabilidad
de sufrir un trastorno de ansiedad en una familia monoparental que biparental).
La ODD RATIO es el cociente entre dos ODD. El ODD de que un evento ocurra entre el
ODD de que un evento no ocurra en función de una condición, una VI. Nos informa de la
ventaja / desventaja de tener un nivel u otro de la VI para la VD (Recuperación). Es el
cociente entre dos ODD asociados, el obtenido al realizar el incremento y el anterior al
mismo, suponiendo que ha habido un incremento unitario en la variable X:
ODD RATIO = ODD 2 / ODD 1
Cuando la ODD RATIO alcanza el valor 1 quiere decir que no hay diferencias.
EJEMPLO I
Imaginemos que nos presentan las siguientes Odds ratio:
OR = 3,12 (IC 95%: (2,33; 5,12)
OR = 10,2 (IC 95%: (0,73; 105,12)
OR = 2,5 (IC 95%: (2,42; 2,82)
Podemos afirmar que hay dos Odds ratio significativas, la de 3,12 y la de 2,5 porque sus
intervalos de confianza no contienen al 1. La OR 10,2 es la mayor cuantitativamente pero
no es significativa, porque su intervalo de confianza del 95% incluye al 1. La OR de 2,5
tiene un intervalo de confianza más estrecho, lo que indica que el tamaño de la muestra
es mucho mayor. Tanto la OR 3,12 como la OR 2,5 son significativas, pero debemos
concluir que la mayor es la de 3,12 porque el valor de estimación puntual es mayor.
EJEMPLO II
Supongamos ahora, que nos presentan las siguientes Odds ratio:
OR = 3,1 (IC 95%: (0,2; 0,45)
OR = 2,8 (IC 95%: (1,24; 4,95)
OR = 2,5 (IC 95%: (2,1; 3,2)
Podemos observar que la primera Odds ratio es incoherente porque ésta simpre debe
estar contenida en el intervalo de confianza
EJEMPLO III
Por último, imaginemos que las siguientes Odds ratio:
OR = 1,5 (IC 95%: (1,1; 2,45)
OR = 2 (IC 95%: (0,91; 5,2)
OR = 0,6 (IC 95%: (0,35; 0,87)
Concluiremos que la OR de 0,6 es la que indica una mayor relación dado que si pensamos
en su inversa 1/0,6 = 1,66666, es mayor que 1,5. La OR de 2 no es necesario considerarla
porque no es significativa dado que su intervalo de confianza del 95% incluye al 1.
Dado que la VD tiene que ser necesariamente un valor entre 0 y 1, el modelo debe asumir
una expresión matemática particular, concretamente logarítmica imprescindible para
hacer las predicciones

ln [P / 1 – P] = a + b1 X1 + b2 X2 + ……. bn Xn
Está será la RLG a partir de la cuál hallamos la probabilidad:
P (1 / VI1, VI2, ……VIn) = 1 / 1 +e (a + b1 X1 + b2 X2 + ……. bn Xn)
Qué probabilidad (P) tiene un sujeto de alcanzar la Recuperación si tiene unas

características VI1, VI2, VI3.
Lo que la RLG pretende es identificar aquellas VIs que hacen variar esa ODD.
Por ejemplo, si la P (Recuperación) = 0,2 y la P (Recaída) = 0,8, entonces la ODD será 0,2 /
0,8 = 0,25, lo que significa que existe la cuarta parte de probabilidad de recuperación que
de recaer.
La RLG utiliza una función de Enlace Logarítmica, para pasar de los valores cualesquiera
en las VI a predicciones entre 0 y 1.
El Modelo de RLG asume que existe una relación lineal entre los predictores y el
logaritmo de la probabilidad de ocurrencia de un evento (LOGIT).
El LOGIT es simplemente el logaritmo de ODD
LOGIT = ln (ODD) = ln [P / 1 – P]
Así, se puede apreciar que el estimador del parámetro b2 se podrá interpretar como la
variación en el término Logit originada por una variación unitaria en la variable X2
(suponiendo constantes el resto de las variables explicativas).
El LOGIT es la VD de la RLG.
El LOGIT tiene dos características que serán muy útiles: 1) puede tomar cualquier valor
real (- ∞, + ∞); 2) permite una lectura simétrica de la relación entre proporciones.
Al riesgo instántaneo de presentar un evento, es decir, al cociente entre quienes

presentan el evento y quienes estaban a riesgo de presentarlo, se le denomina en inglés:
Hazard.
Los pasos a seguir en la RLG son básicamente los mismos que en el Análisis
Discriminante:
1. Planteamiento del proble u objetivos
2. Diseño de la investigación (selección de variables, muestra, etc….)
3. Comprobación de supuestos
4. Estimación del modelo y evaluación del ajuste
5. Interpretación de los resultados
6. Validación de resultados.
Los supuestos de la RLG son:
a) No es necesario que las VI sean métricas, normales, y ni siquiera cuantitativas
b) El modelo debe estar especificado correctamente, con las VIs relevantes.
c) La relación entre cada VI y el Logaritmo de las ODD (LOGIT), debe ser lineal
d) No existe multicolinealidad
e) El error a la hora de medir las VIs es mínimo.
7.2. ESTIMACIÓN DEL MODELO DE REGRESIÓN

LOGÍSTICA

En la RL se hacía siguiendo el criterio de Mínimos Cuadrados, en la RLG se hace siguiendo

el de Máxima Verosimilitud.
En lugar de minimizar las diferencias entre Y e Y´, trata de maximizar la verosimilitud de

que un suceso tenga lugar.
Se generan Coeficientes Logísticos para las distintas VIs
Los coeficientes de la ecuación (b1; b2; b3; …) se utilizan para hacer las estimaciones de
probabilidad de que ocurra el evento.
Los métodos de los cuales disponemos para poder realizar la estimación son los mismos
que en la RL: el método simultáneo ENTER y el STEPWISE.
Una vez construido el modelo de RLG comprobamos cómo de bueno es el ajuste de los
valores predichos por el modelo a los valores observados. Existen diversas formas de
medir la bondad de ajuste, de manera global, ésta puede ser evaluada a través de medidas
tipo R² (Coeficiente de Determinación), de la tasa de clasificaciones correctas o a través

de test estadísticos.
Estos test estadísticos se diferencian y clasifican según se basen en los patrones de las
covariables, en las probabilidades estimadas por el modelo, en residuos suavizados y tipo
R²
a) Test basados en patrones de covariables:
Test basado en la devianza D
Test chi-cuadrado de Pearson. Compara frecuencias observadas y

esperadas en un contexto binomial. El número de observaciones para
cada combinación de las variables explicativas debe ser grande, por eso
no se aplica en casos de covariables continuas.
b) Test basados en probabilidades estimadas
Contraste de bondad de ajuste de Hosmer- Lemeshow. Hosmer-

Lemeshow construyeron una serie de test basados en la agrupación de
las observaciones según las probabilidades estimadas por el modelo. Los
dos test más utilizados son los denominados Cg y Hg, cuya diferencia
fundamental es que el test Cg agrupa las probabilidades estimadas bajo
el modelo de regresión y el test Hg se basa en la formación de grupos de
acuerdo a puntos fijos y preestablecidos. El contraste paso a paso Cg
evalúa la bondad de ajuste del modelo construyendo una tabla de
contingencia a la que aplica un contraste chi-cuadrado.
c) Test basados en residuos suavizados
Estadístico de le Cessie y Van Houweligen
d) Test tipo R²
R2 de Cox y Snell (0 y 1)
R2 de Nagelkerte (0 y 1)
La Bondad de ajuste también se evalúa mediante el análisis de los residuos del modelo y
de su influencia en la estimación del vector de parámetros, se evalúa la bondad de ajuste
caso por caso. Los programas automáticos nos ofrecen el cálculo de los residuos: R.
estandarizados, R. studentizados, R. desviación.
Finalmente la Bondad de ajuste se determina en base a las medidas de influencia, esto es,
cuantificando la influencia que cada observación ejerce sobre la estimación del vector de
parámetros o sobre las predicciones hechas a partir del mismo de forma que, cuanto más
grandes son, mayor es la influencia que ejerce una observación en la estimación del
modelo. Distinguimos: Medida de Apalancamiento de Leverage, Distancia de Cook y
Dfbeta.
7.3. TEST GLOBAL DE UN AJUSTE. ANÁLISIS DE LAS

“DEVIANCES”

En estadística el término Deviance hace referencia a la calidad del ajuste estadístico de

un modelo. Es una generalización de la idea de utilizar la suma de cuadrados de los
residuos de mínimos cuadrados ordinarios para los casos en que el modelo de ajuste se
efectúa por máxima verosimilitud.
La deviance para un modelo M0, basado en un conjunto de datos, se define como:
D(y) = -2 (log (p(y│θ´0 )) - log (p(y│θ´s )) )
Donde:
θ´0 = denota los valores ajustados de los parámetros en el modelo M0
θ´s = denota los parámetros de ajuste para el modelo saturado.
Ambos conjuntos de valores ajustados son implícitamente funciones de las

observaciones y.
El modelo saturado es un modelo con un parámetro para cada observación, de modo que
los datos se ajustan exactamente.
Su expresión es, simplemente, -2 veces la relación logaritmica de verosimilitud del

modelo reducido emparado con el modelo completo.
La deviance se utiliza para comparar dos modelos, en particular, en el caso de los modelos
lineales generalizados, donde la función es similar a la varianza residual de la ANOVA en
modelos lineales.
Supongamos en el contexto de los modelos lineales generalizados tenemos dos modelos

anidados agrupados, M1 y M2. En particular supongamos que M1 contiene los
parámetros M2 y k parámetros adicionales. Entonces, bajo la hipótesis nula de que el
modelo M2 es cierto, la diferencia entre las desviaciones de los dos modelos sigue una
distribución aproximada chi- cuadrado con k grados de libertad.
7.4. SIGNIFICACIÓN DE UN PARÁMETRO: MÉTODO DE

WALD

En la RL se recurría un contrastre “t” para saber si cada uno de los predictores eran o no
significativamente distintos de cero. En la RLG se recurre al Estadístico de Wald.
Lo que propone el modelo de Wald es fijarnos en el peor resultado de cada alternativa y

de estos peores escoger el mejor con valores más bajos dentro de todas las posibles
respuestas, el más alto entre los peores, la filosofía es la mejor de las peores.
Es el criterio más conservador, pues está basado en conseguir lo mejor en las peores
condiciones posibles. Si X ij representa ganancias para el decisor, para ai la peor ganancia,
independientemente de lo que e j pueda ser, es
Este resultado recibe el nombre de nivel de seguridad (al elegir ai se garantiza al menos
un beneficio de unidades).
Wald sugirió que el decisor debe adoptar aquella alternativa que tenga el mayor nivel de
seguridad, es decir, elegir ai asociada a
Este criterio recibe el nombre de criterio maximin, y corresponde a un pensamiento

pesimista, pues se basa en lo peor que le puede ocurrir al decisor cuando elige una
alternativa.
7.5. MODELO DE REGRESIÓN MULTINOMIAL

La regresión logística multinomial es una generalización del modelo de regresión logística

donde la variable dependiente tiene más de dos categorías y puede ser nominal o bien
ordinal. A su vez, las variables explicativas pueden ser categóricas o cuantitativas.
Se trata de un modelo que se utiliza para predecir las probabilidades de los diferentes
resultados posibles de una distribución categórica como variable dependiente, dado un
conjunto de variables independientes
En los modelos de regresión multinomial se asume que los recuentos de las categorías de
Y tienen una distribución multinomial. Esta distribución es, a su vez, una generalización
de la distribución binomial.
Será común que encontréis una amplia variedad de denominaciones para referirse a la
regresión multinomial como: regresión multiclase LR, Softmax function regression, Logit
multinomial, clasificador de máxima entropía (MaxEnt), etc
La regresión logit es una solución particular al problema de clasificación que asume que
una combinación lineal de las características observadas y algunos parámetros
específicos del problema pueden ser utilizadas para determinar la probabilidad de cada
resultado, en particular de la variable dependiente.
Existen dos tipos de modelos de regresión logística multinomial:
a) Modelos Logit para respuestas nominales
Se parte de n observaciones independientes que se localizan en las distintas

categorías de la variable Y.
La distribución de probabilidad del número de observaciones de las categorías de Y

sigue una distribución multinomial. La distribución determinará la probabilidad de
cada una de las posibles maneras en que las n observaciones pueden repartirse
entre las categorías.
Se toma una categoría como respuesta base, por ejemplo la última categoría y
se define un modelo logit con respecto a ella:
Donde:
J = número de categorías de la variable Y ; (j = 1,…….J-1). El modelo tiene J - 1

ecuaciones con sus propios parámetros, y los efectos varían con respecto a la
categoría que se ha tomado como base.
= probabilidad de las distintas respuestas
Cuando J = 2, el modelo equivale a una _única ecuación log (1 /2) = logit( 1)

y se obtiene el modelo de regresión logística estándar.
b) Modelos Acumulados para datos ordinales
Cuando las respuestas de la variable categórica son ordinales se pueden utilizar

modelos logit acumulados.
La probabilidad acumulada de una variable Y es la probabilidad de que Y sea menor

o igual que un determinado valor j. Así, para una categoría dada j se define la
probabilidad acumulada como:
P (Y ≤ j) = 1,………….. j
Para j = 1, …., J.
Las probabilidades acumuladas reflejan el orden entre las categorías:
P (Y ≤ 1) ≤ P (Y ≤ 2) ≤…………….≤ P (Y ≤ J) = 1

EJEMPLO IV
En el libro Categorical Data Analysis (2002) de Agresti (pag. 279) se muestran los datos
de un estudio sobre una enfermedad mental donde se trata de relacionarla con dos
variables explicativas. La enfermedad mental se resume en una variable categórica con
los siguientes niveles: buen estado, síntomas leves, síntomas moderados y enfermedad.
Como variables predictoras tenemos:
x1 = mide el número de sucesos impactantes en la vida de la persona en los últimos tres

años (divorcios, fallecimientos, etc.).
x2 = Estatus socio-económico con niveles 1 (alto) y 0 (bajo).
La enfermedad mental, como variable respuesta, es un factor que presenta ordenación

entre sus categorías.
EJEMPLO V
Se tiene una muestra de 735 personas a los que se pregunta por sus preferencias en
cuanto a tres variedades (brands) de algunos productos. Se considera además el género y
la edad de las personas de la encuesta.
La variable dependiente es brand. La variable female se codifica como 0 para hombres y 1

para mujeres.
Se aplica el modelo de regresión multinomial.
Para cada observación de la base de datos se presentan 3 observaciones: una para cada
una de los valores de la variable brand.
En los resultados se obtienen los coeficientes y sus p-valores (Figura 2; Fuente: Google)
Los resultados mostraron que por cada aumento en una unidad de la variable edad, el
logaritmo del ratio de las probabilidades, P(brand = 2) / P(brand = 1)), se incrementa en 0,
368, y el logaritmo del ratio de las dos probabilidades, P(brand = 3) / P(brand = 1)), se
incrementa en 0, 686. Por tanto, en general, cuanto mayor sea una persona tendrá más
preferencia por brand igual a 2 ó a 3, que por brand igual a 1.
A continuación, se muestran los resultados de la regresión en términos de las

probabilidades.
Por ejemplo, se muestra un rango de distintas edades y se calculan las probabilidades de

escoger cada categoría de brand para mujeres y hombres. Se generan los valores
predichos en la escala logit usando los coeficientes del modelo. En brand = 1, el valor se
fija en 0.
Las columnas etiquetadas como pred.1, pred.2, y pred.3, contienen las probabilidades
predichas de que brand sea igual a 1, 2 y 3 respectivamente (Figura 3; Fuente: Google)
Las mujeres parecen preferir brand igual a 2 ó igual a 3 en comparación con brand igual a
1. Por otro lado, cuanto mayor es una persona es más probable que prefiera brand igual a
2 ó a 3 que brand igual a 1.
Se observa que con el cambio en una unidad en la variable age (un año mayor), se espera
que la razón de odds entre elegir brand = 2 respecto de brand = 1 se incrementa en exp
(0,3682) = 1,45.
En el caso del sexo de las personas, female, la razón de odds de elegir brand = 2 respecto
de 1 se incrementa en exp (0,5238) = 1, 69.
Tema 8 - Análisis Conjunto
TEMA 8. ANÁLISIS CONJUNTO
8.1. INTRODUCCIÓN

El Análisis Conjunto o Modelo Multiatributo es una técnica estadística basada en el ajuste

de modelos lineales a variables ordinales, que permite explorar y cuantificar el sistema de
valores de los sujetos en el momento de elegir una alternativa entre varias posibles.
Esta técnica nace de la psicología matemática y comercial, hoy se utiliza en las ciencias
sociales y ciencias aplicadas como el marketing o administración del producto, aunque,
en general, podríamos decir que resulta útil siempre que se desee identificar las actitudes
de los consumidores en la decisión de compra, profundizar en la dinámica de productos y
servicios.
El análisis conjunto asume un modelo de comportamiento multiatributo según el cuál los

sujetos tienen la capacidad de percibir cada uno de los atributos que configuran un
estímulo. Con su aplicación podremos conocer qué importancia tiene una determinada
característica en la decisión global de preferencia del sujeto hacia un producto. Las
preferencias del consumo de bienes y servicios responderían a una percepción evaluativa
de sus atributos y no a una percepción global. Cualquier estímulo es percibido por
múltiples atributos que, además, son evaluados de manera compensatoria. Es decir, un
sujeto puede preferir un estímulo con un déficit en un atributo si este déficit se puede
compensar con el resto de atributos. Los estímulos son, por tanto, multiatributos, y las
preferencias serán el resultado del efecto conjunto de las características del estímulo.
Los efectos de las características de un estímulo son aditivos; niveles de atributo no

deseados pueden ser compensados con otros niveles de atributo. Determinadas
opciones pueden ser compensadas con otras.
U = U1 (X1) + U2 (X2) +…….+ Ui (Xi)
Donde: U es la utilidad total; Ui es la utilidad parcial del atributo i y Xi es el nivel del

atributo i.
En una situación de decisión real, los estímulos son imperfectos y, en consecuencia, los
sujetos se ven obligados a renunciar a unos atributos en beneficio de otros. Por ello el
Análisis Conjunto se define como un modelo aditivo.
Pero, para explicar las preferencias el modelo multiatributo no es la única estrategia. Por
otro lado nos encontramos con la conocida Teoría de la decisión. La diferencia entre
ambas: en la primera el énfasis se pone en el objeto, en la segunda el estudio se realiza
sobre el propio sujeto.
Como mencionamos en los párrafos anteriores cualquier estímulo se configura a partir de

una serie de atributos. Un atributo es una propiedad extraída de la experiencia humana,
una propiedad que atribuimos nosotros al estímulo y no una característica del estímulo
en sí misma.
En la Metodología Conjunta se distingue entre la dimensión del objeto físico (o

característica) y la percepción de dicha característica (o atributo). Por ejemplo, una cosa
es la cantidad de glucosa de un alimento (característica) y otra es la sensación de sabor
dulce que experimenta el sujeto (atributo).
Dentro de cada atributo pueden existir distintas alternativas u opciones, denominadas

niveles, algunos aportarán valor final al objeto y otros pueden restárselo.
Finalmente, las preferencias (o juicio asociado a un estímulo) será el resultado del efecto
conjunto de los niveles de atributo que definen al estímulo.
La manera más sencilla de entender el Análisis Conjunto podría ser a través de la

formalización que Anderson (1974) hace del Modelo Mutiatributo de toma de decisiones
y que renombra como Teoría de la Integración de la Información: “Los juicios de preferencia
(Y) se pueden expresar como una función entre las características de los estímulos (X) y
unos coeficientes (C) que ponderan la aportación de cada característica a la preferencia
global [Y = f (C, X)]”.
El Análisis Conjunto va a ser, precisamente, el que nos a permitir estimar los coeficientes
que modelan las propiedades de los estímulos.
A la hora de medir el valor o utilidad que le da el consumidor a cada uno de los niveles de
los atributos de un producto existen dos aproximaciones:
a) Modelos Composicionales (de Balance o Autoexplicados). Tratan de determinar

el valor de un producto preguntando directamente al sujeto por cada uno de los
niveles de los atributos (escalas de medida clásicas). Normalmente se presentan los
atributos de 2 en 2, y finalmente se estima la preferencia global.
Se caracterizan por: considerar toda respuesta como importante, las respuestas

son estereotipadas, se consideran atributos poco relevantes y poco realistas.
El algoritmo más conocido para este caso es el TRADE- OFF, implementado en el

paquete estadístico PCMDS (Smith, 1990)
b) Modelos Descomposicionales. Tratan de medir el valor de un producto a partir

de la opinión del individuo acerca de una serie de perfiles globales (combinación de
niveles de atributos). Tratan de descomponer la preferencia o juicio para
determinar el valor de cada atributo y sus niveles.
Son más realistas porque el sujeto tiene que considerar todas las características a la
vez, poniendo en funcionamiento su verdadera estructura de valores y
preferencias. Proporcionan un mejor indicador de la importancia relativa de cada
característica.
Son más precisos ya que los sujetos toman decisiones analizando los descartes que
hay entre las características (características que consideran simultáneamente). El
consumidor busca un equilibrio entre lo que gana y lo pierde, y el análisis conjunto
busca este equilibrio.
Permiten desarrollar nuevos productos en base a un producto hipotético.
Se basa en el algoritmo CONJOINT implementado en el paquete estadístico SPSS.
El Análisis Conjunto pertenece a estos últimos.
De ambos modelos el Modelo Descomposicional es el más seguido dado su mayor

realismo.
Desde una perspectiva descomposicional, el Análisis Conjunto se define como

(Green y Rao, 1971):
“Un conjunto de técnicas y modelos que buscan sustituir las respuestas subjetivas
de los consumidores, por parámetros que estimen la utilidad de cada nivel de
atributo en la respuesta de preferencia manifestada por éstos”.
Por su parte, Varela (2000) distingue dos tipos de definición:
a) Definición restrictiva: una técnica estadística que nos a permitir explicar una
variable de respuesta (o dependiente de tipo ordinal a partir de dos o más variables
explicativas nominales (atributos o factores).
b) Definición amplia: una metodología de investigación que incluye una serie de

etapas. Desde la fase de identificación de atributos, la elección del modelo de
estimación, la estrategia de recogida de datos, hasta la interpretación de los
resultados.
El desarrollo del Análisis Conjunto implica las siguientes fases:
1. Problema de investigación.
¿Cuáles son los objetivos?
¿Cuál es el producto o servicio objeto de estudio?
¿Cuáles son sus elementos relevantes?
¿Cuáles son los criterios de elección que utilizan los sujetos?
2. Diseño de la investigación.
Selección de atributos y niveles. Atributos relevantes, independientes

conceptualmente y limitados (nunca más de 6). Niveles amplios,
representativos y limitados (3 ó 4)
Diseño de los estímulos. Determinar el número de combinaciones

posible. Optar por la totalidad de estímulos o por una parte
representativa (ORTHOPLAN)
Preparación de estímulos. Matrices Trade-Off ó Perfiles Completos.

Estimulos reales o simulados.
3. Recogida de datos
4. Estimación del modelo y Evaluación del ajuste.
Método por Mínimos Cuadrados Ordinarios (OLS)
Ajuste: Correlación de Kendall o Tarjetas Holdout
5. Interpretación de los resultados
Utilidades parciales / Utilidad global de un objeto (Índice BTL)
Resultados a tres niveles: muestra global, segmentos, sujeto individual
6. Validación
A nivel interno: Kendall y Holdout
A nivel externo: individual (intención de compra) y colectivo (resultado

en el mercado)
8.2. DISEÑO DEL ANÁLISIS CONJUNTO

No todos los atributos de un producto son igualmente determinantes en el

establecimiento de las preferencias del sujeto. La mejor forma de identificar atributos
determinantes consiste en aplicar alguno de los enfoques siguientes:
a) Preguntar al sujeto directamente cuales son los atributos que determinan sus
preferencias suponiendo que conoce y es capaz de identificarlas. Los atributos son
clasificados como determinantes si se encuentran entre las razones de preferencia
mas frecuentemente citadas o se les asigna una puntuación media elevada en una
lista presentada al sujeto (obtenida preferentemente de modo indirecto).
b) Entrevistar en profundidad a consumidores y expertos en la fabricación y venta

de los productos estudiados. Es importante analizar del contenido de las
respuestas, ir mas allá de las respuestas superficiales proporcionadas analizando
las motivaciones de las preferencias.
c) Utilizar el método de Kelly ofreciendo productos de tres en tres al sujeto con la

intención de que agrupe los dos mas iguales y especifique en función de qué
atributos son semejantes y diferentes. Así se obtiene una relación de atributos
determinantes.
d) Aplicar diversos algoritmos como el análisis multidimensional métrico y el

análisis factorial que permitan identificar a posteriori atributos determinantes a
partir de ciertos inputs de información.
El establecimiento de los niveles asignados a cada atributo supone decidir la amplitud de

variación de los atributos determinantes previamente identificados. En primer lugar se
considera útil utilizar los niveles de los atributos determinantes correspondientes a los
productos que actualmente compiten entre sí. También se recomienda incorporar nuevos
niveles en todos o algún atributo determinante identificados mediante entrevistas a
expertos, sugerencias de consumidores y experiencia innovadora.
Si los atributos son continuos (precio) el investigador deberá realizar un pretest para
asegurar que los niveles son lo suficiente mente diferentes.
Por supuesto, el número de niveles no tiene que ser similar para todos los atributos.
Para seleccionar adecuadamente los niveles se puede optar por seleccionar una muestra
representativa y a cada individuo de la muestra se le solicita sus preferencias por un
conjunto de estímulos resultantes de la combinación de los atributos de estudio a
diferentes niveles.
Determinar el número de combinaciones posible no es una tarea sencilla. Si deseamos

mantener el interés de los sujetos en la investigación, el número de estímulos no debe
sobrepasar un límite razonable (< 6) puesto que en caso contrario la capacidad de
evaluación del individuo (sobrecarga informativa) influiría negativamente en la calidad de
las respuestas obtenidas.
El investigador puede optar por presentar sólo una pequeña fracción del total de
combinaciones denominada fracción del diseño factorial completo. El número de estímulos
requerido en un diseño factorial fraccionado depende de los objetivos del investigador.
Cuantos más efectos principales y de interacción (no confundidos entre sí) desee estimar
mayor número de estímulos necesitará.
Los estímulos se representan en una matriz X que refleja las características del Diseño
Factorial Fraccionado. En términos informáticos se denomina PLAN, donde las filas
representan los perfiles de los productos o estímulos objeto de estudio, y las columnas
los distintos atributos definidos. A dicha matriz de diseño X se le añade una columna “l”
con el objeto de estimar coeficientes β. En cuanto a las columnas que representan los
atributos o factores, cabe matizar que si para un atributo se definen mi niveles discretos,
entonces dicho atributo dará lugar a mi -1 columnas. Por el contrario, si los niveles de ese
factor son lineales entonces habrá una columna de valores centrados en ese factor.
En la aplicación CONJOINT (SPSS) el comando ORTHOPLAN permite especificar una

lista de variables determinantes, una lista de valores para cada variable y generar un plan
con el número mínimo de combinaciones. Sirve para extraer un diseño ortogonal (diseño
óptimo submuestras de todas las combinaciones posibles para disminuir el número de
estímulos)
Por último, respecto a la preparación de los estímulos, existen dos procedimientos

básicos: procedimiento de dos atributos a 1a vez (Trade-Off) y el enfoque del perfil
completo (Full-Profi1e)
a) Método Trade-Off
En el procedimiento de dos factores a la vez (procedimiento de compensación entre

los niveles de dos atributos) se requiere al sujeto que el ranking de preferencias (en
una escala de más a menos preferido) para las combinaciones posibles de niveles de
dos atributos.
Sencillo y fácil para el entrevistado, sin sobrecarga de información (si son pocos
atributos)
Poco realismo (sólo dos factores), alarga la tarea, la fatiga y la confusión, imposible
utilizar estímulos gráficos o reales
Se representan matrices de pares de atributos (Tabla I).
Tabla I. Ranking de Preferencias para el procedimiento Trade-Off.
Motor Precio
10.00020.00030.000
1.4 6 3 9
1.8 5 2 8
2.0 4 1 7
b) Método de Perfil Completo (Full Profile).
El método del perfil completo es de amplia utilización. Ofrece una descripción mas
realista de los productos sobre los que se solicita preferencias contrastando su
validez cuando las corre1aciones entre los atributos son elevadas.
La técnica de mayor popularidad en la recogida de datos es la entrevista personal.

El uso de encuestas por correo y entrevistas telefónicas es poco frecuente. En los
últimos años el desarrollo de software para el tratamiento del análisis conjunto,
permite que el entrevistado interactúe directamente con el ordenador facilitándole
datos sobre sus preferencias y agilizando la estimación de la importancia de los
atributos y sus niveles.
Para terminar, cabe mencionar, que CONJOINT también ofrece la posibilidad de

seleccionar productos simulados, que los sujetos no consideran pero que el
programa los determina en función de las preferencias mostradas hacia estímulos
alternativos.
8.3. ESTIMACIÓN POR MÍNIMOS CUADRADOS

La utilidad subjetiva de un estímulo puede ser calculada si se conoce la secuencia de

ordenación del sujeto, a partir de las estimaciones de los pesos b de cada nivel de atributo
y la presencia o ausencia de éstos, de manera aditiva. A esos pesos o utilidades b
estimados para cada característica o nivel (j) del atributo (k) le llamaremos utilidades o
partworth (μjk)
Yi = β0 + βjXij + ei
Para determinar la contribución de cada uno de los atributos y sus niveles (efectos
principales y efectos interacción) a las preferencias del sujeto, las investigaciones sobre
análisis conjunto emplean principalmente la siguiente metodología:
Si la variable respuesta es métrica, el procedimiento mas apropiado es la Regresión

Múltiple por Mínimos Cuadrados Ordinarios (OLS).
OLS es un método robusto para la estimación de las utilidades o, para identificar la

preferencia para cada nivel de un grupo de atributos del producto y, para ello, recurre a la
utilización de una matriz dummy de las variables independientes. Cada variable
independiente indica la presencia o ausencia de un nivel particular de un atributo. Y las
respuestas de los sujetos, o variable dependiente, es función de la descripción del perfil
descrito por las variables independientes.
La modelización de las respuestas de evaluación dadas por un sujeto a cada uno de los
perfiles descritos por las variables independientes (presencia o ausencia de un nivel
particular de atributo), viene dado por:
Zi = f (y i1, y i2,……yim) = í1i1 (x1i1) + í2i2 (x2i2) + ….. ímim (xmim)
Donde: í son los pesos beta estimados en la regresión; x es la matriz de valores Dummy
identificativos de los niveles del diseño factorial; e y son las evaluaciones de rangos o
clasificaciones del sujeto.
Una vez que tenemos los rangos que ocupan cada producto o estímulo para cada sujeto,
es el momento de proceder a la estimación de utilidades. Al respecto cabe señalar los
trabajos de Cattin y (1984) y Hagerty (1985), que contribuyeron a optimizar la decisión
del investigador a la hora de seleccionar el modelo con mayor validez predictiva.
Haberty (1991) propuso un índice que nos permite comparar los diferentes modelos de
preferencia que podemos seleccionar, es decir, el tipo de relación que suponemos entre
las preferencias de los sujetos y los niveles de atributo: discreta, lineal, ideal y anti-ideal.
Una vez estimadas las utilidades es conveniente analizar los errores estándar de las
utilidades.
Así mismo, es relevante analizar la importancia de cada factor o atributo,

independientemente de sus niveles.
Tiene la ventaja de proporcionar desviaciones típicas para comprobar el grado de

significación de los efectos principales y de interacción.
Si la variable respuesta se obtiene mediante una ordenación del conjunto de estímulos de

mayor a menor preferencia (es de naturaleza ordinal) el método mas difundido es el
Análisis Monótono de la Varianza (MONANOVA). Sólo es aplicable cuando se especifican
efectos principales sin efectos interacción.
Cualquiera de estos métodos de estimación se pueden aplicar a nivel individual o a nivel

agregado. En los modelos a nivel individual se estima la importancia de los niveles de los
atributos para cada sujeto a partir de los datos de preferencia obtenidos. Este enfoque
permite al investigador utilizar las estimaciones obtenidas en un modelo de simulación
para pronosticar preferencias actuales o potenciales.
Los modelos a nivel agregado, inicialmente pueden obtener las medias de preferencia de
cada perfil de producto para toda la muestra y posteriormente estimar las utilidades de
los niveles de los atributos para el conjunto de individuos. Sólo es válido cuando la
población es homogénea en sus criterios de preferencia. Por ello, normalmente se
aconseja el método de análisis individual, aunque la operación es más laboriosa. También
es deseable poder combinar los aspectos positivos de ambos enfoques (elevado poder
predictivo en modelos individuales y estimación de un menor número de funciones de
utilidad en modelos agregados). La alternativa sería agrupar individuos de acuerdo con
sus preferencias (por ejemplo, aplicando un análisis cluster y a continuación estimar los
parámetros del modelo para cada segmento obtenido.
La evaluación del ajuste de la función de regresión trata de ver hasta qué punto las
Utilidades estimadas nos sirven para reproducir eficazmente las (preferencias)
ordenaciones de los sujetos.
Tenemos dos opciones:
Correlación de Kendall.
Tarjetas Holdout o de validación. Permiten comparar cómo el sujeto

ordenó las tarjetas con el pronóstico hecho por un modelo que no las ha
utilizado en la estimación.
8.4. INTERPRETACIÓN DE LOS RESULTADOS

Utilidades parciales / Utilidad global de un objeto
Las utilidades parciales nos informan del valor que aporta cada característica concreta o
nivel del atributo a su preferencia global. Puede asumir valores + o – ya que pueden
aportar o quitar valor. La importancia de cada factor o atributo es la diferencia entre el
nivel con mayor utilidad de ese atributo y el nivel con menor rango partido por el
sumatorio de rangos de todos los atributos x100.
El atributo más importante es aquel cuyos niveles son más extremos en términos de
Utilidad.
Una vez tenemos las utilidades podemos pasar a determinar una posible probabilidad de
elección. Existen tres modelos de predicción:
a) Utilidad Máxima
Este modelo indica la preferencia máxima en términos de probabilidad de elección

de un producto
b) Índice BTL
Calcula la probabilidad máxima de un producto, la utilidad global de un producto, y

la divide por el sumatorio de las utilidades de todos los productos utilizados en la
simulación.
c) Logit
Este modelo es similar al BTL pero, en este caso, utiliza el logaritmo natural de las
utilidades en lugar de las utilidades directas.
Bloque III - Técnicas de Interdependencia
Tema 9 - Análisis Factorial
TEMA 9. ANÁLISIS FACTORIAL
9.1. EL MODELO FACTORIAL: FACTORES COMUNES Y

ESPECÍFICOS

El Análisis Factorial (AF) es una técnica multivariante que consiste en resumir la

información contenida en una matriz de datos con “V” variables mediante un reducido
número de factores “F”, siendo el número de factores una representación de las variables
originales, con una pérdida mínima de información.
El objetivo esencial del AF es describir, si fuera posible, las correlaciones o covarianzas

observadas entre un conjunto de variables en términos de un menor número de variables
aleatorias no observables (Factores), latentes o constructos (Johnson & Wichern, 1982).
Es una técnica de reducción de datos que sirve para encontrar grupos homogéneos de
variables a partir de un conjunto numeroso de variables. Los grupos homogéneos se
forman con las variables que correlacionan mucho entre sí y procurando, inicialmente,
que unos grupos sean independientes de otros.
Fundamentalmente lo que se pretende con el AF es simplificar la información que nos da

una matriz de correlaciones para hacerla más fácilmente interpretable. Si unas variables
se relacionan más entre sí y menos con otras, se supone que es porque existen otras
dimensiones o factores que explican por qué se relacionan más.
Las finalidades del AF son:
1. Conseguir una representación gráfica de una realidad que es imposible

representar en toda su extensión, visualizar una visión aproximada de una nube de
puntos original que es imposible visualizar por exceso de dimensiones.
2. Conseguir combinaciones de las variables originales que nos ayuden a discernir

tipos de relaciones que se establecen entre las variables del estudio.

EJEMPLO I.
Imaginemos que queremos estudiar la estructura factorial de la matriz de correlaciones

observadas entre las asignaturas de 7º curso (Matemáticas, Ciencias, Inglés, Lengua,
Historia y Gimnasia) a partir de la matriz de correlaciones entre las asignaturas (R). La
matriz de correlaciones es (Tabla I. Matriz de correlaciones. Elaboración: propia):
Ciencias Mates Inglés Historia Lengua
Ciencias 1 0,804 0,366 0,427 0,232
Mates 1 0,138 0,426 0,408
Inglés 1 0,813 0,787
Historia 1 0,812
Lengua 1
En la matriz se pueden identificar dos grupos de variables con correlaciones altas entre sí
y bajas con el resto. Un grupo estaría formado por las asignaturas Ciencias, y Mates
(0,804) y el otro por Inglés, Historia y Lengua. Cada grupo representaría a un factor. Una
representación gráfica en el plano definido por los dos factores implícitos en la matriz de
correlaciones nos da idea de la similitud entre las variables (Figura 1. Representación
factorial de las variables del ejemplo. Elaboración: propia)
El AF va permitir obtener e interpretar un conjunto conjunto reducido de variables

latentes que permiten dar cuenta de la covariación existente entre las d variables
originales, con la restricción de que el número de factores sea menor que el número de
variables. Gráficamente dos variables Mates y Ciencias están correlacionadas porque, en
mayor o menor medida, son indicadores de la misma variable latente (Figura 2. Variable
latente como principio explicativo de las covariaciones observadas. Elaboración: propia).
El modelo matemático del AF es parecido al de la Regresión Múltiple, en el hecho de que

cada variable se expresa como una combinación lineal de los factores subyacentes. Y se
diferencia del Análisis de Varianza y de la Regresión, en que en el AF todas las variables
del análisis cumplen el mismo papel: todas son independientes en el sentido de que no
existe a priori una dependencia conceptual de unas variables sobre otras.
X1 = a11 F1+ a12 F2 + .… + a1c Fc + u1
X2 = a21 F1+ a22 F2 + .… + a2c Fc + u2
Xd = ad1 F1+ ad2 F2 + .… + adc Fc + ud
- X1, X2,………, Xd , son las variables estandarizadas
- F1, F2, ……..., Fc , son los factores comunes. Los factores son independientes entre
ellos. Se crean un número c de factores que es siempre menor que d, d debe ser
menor c, es decir, el número de factores cuanto más pequeño mejor, que con dos o
tres factores tengamos suficiente, que unos pocos acumulen mucha información,
mucha varianza de la nube de puntos original. Los factores realmente no existen
como entidad propia, lo que existe de cada sujeto u objeto es la suma de sus
respuestas o medidas, una combinación lineal de variables.
Para que el AF tenga sentido deberían cumplirse dos condiciones básicas: Parsimonia e
Interpretabilidad. Según el principio de parsimonia los fenómenos deben explicarse con
el menor número de elementos posibles. Según el principio de interpretabilidad los
factores deben ser susceptibles de interpretación sustantiva, interpretables.
- a11, a12,….. , a1c son las puntuaciones factoriales. Coeficientes estandarizados de

regresión múltiple de las variables en un factor común.
- u1, u2,…….., ud son los factores únicos de cada variable. Cada uno de ellos es único
y distinto en cada una de las variables originales. Son una especie de residuo, un
elemento individual de cada una de las d variables originales y que es lo que queda
por explicar de cada una de ellas después de haber sumado una combinación
peculiar y única de los factores en cada una de las variables, después de haber
introducido en ellas lo que tienen de lo común, de lo que se explica por los factores
comunes elegidos.
- c: número de factores comunes
- Cabe señalar en relación con la expresión matemática propuesta que los factores
únicos no están correlacionados entre sí ni con los factores comunes. Los factores
comunes pueden expresarse como una combinación lineal de todas las variables
originales:
F1 = b11 X1+ b12 X2 + .… + b1d Xd
F2 = b21 X1+ b22 X2 + .… + b2d Xd
Fc = bc1 X1+ bc2 X2 + .… + bcd Xd
- F1, F2, ……..., Fc, son las estimaciones de los factores
- b11, b12,….. , b1c, son los pesos o coeficientes del factor
- d, es el número de variables
Los pesos de cada variable pueden ser grandes o pequeños, positivos o negativos.
Generalmente, en cada factor hay ítems variables con pesos grandes y otros próximos a
cero; las variables que más pesan en cada factor son las que lo definen.
El AF se reduce a la búsqueda de estos pesos para localizar medidas distintas

(puntuaciones factoriales o factor score) a partir de las variables originales, y de manera
que, a poder ser, entre todas las nuevas medidas agoten o expliquen toda la varianza
presente en las variables originales.
Es posible elegir pesos o coeficientes de calificación del factor de manera que el primer
factor explique la mayoría de la varianza total. Luego se selecciona un segundo conjunto
de pesos de forma que el segundo factor dé cuenta de la mayoría de la varianza residual,
siempre que no esté correlacionado con el primer factor.
Ponemos entender bien lo que hace el AF con la siguiente explicación. El AF se encarga

de analizar la varianza común a todas las variables. Partiendo de una matriz de
correlaciones, trata de simplificar la información que ofrece, trabajando con las
correlaciones elevadas al cuadrado r2 (coeficientes de determinación), esto es, con la
proporción de varianza común entre las variables. En cada casilla de la matriz de

correlaciones se refleja la proporción de varianza común a dos variables, excepto en la
diagonal principal (donde cada variable coincide consigo mismo). En la diagonal principal
se refleja la varianza específica o única de cada variable que se representa con 1. Si se
desea analizar exclusivamente la varianza compartida habrá que eliminar los unos de la
matriz de correlaciones y poner en su lugar la proporción de varianza que cada variable
tiene en común con todos los demás.
En el AF, por tanto, caben dos enfoques:
1. Analizar TODA la varianza (común y no común). En este caso utilizamos los unos
de la matriz de correlaciones. El método más usual es el de Análisis de
Componentes Principales.
2. Analizar SOLO la varianza común. En este caso, se substituyen los unos de la

diagonal por estimaciones de la varianza que cada variable tiene en común con las
demás (y que se denominan Comunalidades). Para la estimación de las
comunalidades no hay un cálculo único, existen diversos procedimientos
(correlaciones múltiples de cada variable con todas las demás, coeficientes de
fiabilidad). El procedimiento por el que se sustituyen los unos por las
comunalidades se denomina Análisis de Factores Comunes. Los dos enfoques
caben bajo la denominación genérica de AF, aunque es el Análisis de Factores
Comunes al que con más propiedad se le aplica la denominación de AF. Ambos
enfoques dan resultados similares y se interpretan de manera casi idéntica.
Así mismo, el AF puede ser:
1. Exploratorio, AFE, se usa para tratar de descubrir la estructura interna de un

número relativamente grande de variables. La hipótesis a priori del investigador es
que pueden existir una serie de factores asociados a grupos de variables. Las cargas
de los distintos factores se utilizan para intuir la relación de éstos con las distintas
variables. Es el tipo de AF más común.
2. Confirmatorio, AFC, trata de determinar si el número de factores obtenidos y sus

cargas se corresponden con los que cabría esperar a la luz de una teoría previa
acerca de los datos. La hipótesis a priori es que existen unos determinados factores
preestablecidos y que cada uno de ellos está asociado con un determinado
subconjunto de las variables. El AFC entonces arroja un nivel de confianza para
poder aceptar o rechazar dicha hipótesis.
¿Cómo realizamos un AF?
Figura 3. Esquema del Análisis Factorial. Elaboración: propia
Supongamos que tenemos las variables X1, X2,…, Xd tipificadas. Si no lo estuvieran el

análisis se realizaría de forma similar pero la matriz utilizada para calcular los factores no
sería la matriz de correlación sino la de varianzas y covarianzas.
El investigador mide estas variables sobre n individuos, obteniéndose la siguiente matriz

de datos (Tabla II. Matriz de datos. Elaboración: propia)
Variables
Sujetos
X1 X2 … Xd
1 X11 X12 … X1d
2 X21 X22 … X2d
.
… … … …
n Xn1 Xn2 … Xnd
El modelo del AF viene dado por las ecuaciones:
X1 = a11 F1+ a12 F2 + .… + a1c Fc + u1
X2 = a21 F1+ a22 F2 + .… + a2c Fc + u2
Xd = ad1 F1+ ad2 F2 + .… + adc Fc + ud
Donde, (F1, F2, …, FC) (cFactores Comunes, (u1, u2, …, ud) los Factores únicos o específicos, y
los Coeficientes (aij) {i = 1, …, d; j=1, ... ,c} las Cargas factoriales.
En notación matricial el sistema de ecuaciones viene dado por (Figura 4. Expresión

matricial. Fuente: Google)
x, f y u son vectores que contienen, respectivamente, d variables observadas, c factores

comunes y d factores específicos. La matriz A de orden d×c y de término general {aij} es la
matriz de cargas, pesos o saturaciones factoriales.
x = Af + u
Las variables incluidas en el modelo x = Af + u son variables tipificadas. Es decir:
E(xi) = 0 E(fj) = 0 E(ui) = 0
Var(xi) = 1 Var(fj) = 1 Var(ui) = 1
Y que las relaciones entre factores comunes y específicos son las siguientes:
Los factores comunes (fj) no correlacionan con los factores específicos

(ui)
Corr (fj, ui) = 0
Los factores específicos no correlacionan entre sí
Corr (ui,uk) = 0
Los factores comunes están incorrelacionados entre sí
Corr (fj, fi) = 0 si i < j,
Si asumimos estas tres relaciones entre los factores comunes y específicos el modelo x =
Af + u recibe el nombre de Modelo de Factores Comunes Ortogonales. Las variables se
pueden expresar en función de factores independientes, en el sentido de que no existe
entre ellos interdependencia lineal. Este modelo se usa en el AF Exploratorio dado el
desconocimiento de la estructura factorial subyacente.
Si, por el contrario, consideramos que los factores comunes pueden covariar el modelo es
el Modelo de Factores Oblicuos. Se aplica en el AF Confirmatorio.
Asumiendo, por tanto, factores comunes incorrelacionados el problema del AF va a

reducirse a determinar la matriz A de pesos factoriales y a interpretar los factores
obtenidos a partir de dichos pesos. Para determinar la matriz A es necesario relacionarla
con la matriz de correlaciones (o de varianzas-covarianzas) entre las variables
observadas.
La relación entre variables observadas y factores es la misma que entre las variables del
modelo de regresión lineal múltiple (los pesos aij pueden ser interpretados de modo
similar a los parámetros de la regresión y, en los dos casos, la relación entre variables
criterio y predictoras no es exacta, por lo que aparece un término de error). No obstante
existen diferencias sustanciales: a) En el modelo de regresión lineal múltiple las variables
predictoras y criterio son observadas; en cambio, en el modelo factorial las variables
predictoras son variables no observadas y las variables criterio observadas; b) En la
regresión los parámetros del modelo pueden ser estimados, en el modelo factorial no
porque no se conocen las medidas en los factores.
Dado que la diferencia en las variables predictoras hace que los parámetros del modelo
factorial no puedan ser estimados, como en la regresión porque no conocemos las
puntuaciones de los sujetos en los factores, la estructura de la matriz de correlaciones (R)
viene definida por “u”.
Para determinar la estructura de R multiplicamos la ecuación x = Af + u por x' y tomamos

esperanzas matemáticas (valores esperados, valor medio):
R= E(xx’) = E((Af+u)(Af+u)’) o lo que es lo mismo x = Af + u ⇔ X = FA' + U
En la matriz de correlaciones (R) podemos distinguir dos tipos de elementos: los

elementos de la diagonal (todos iguales a 1) y los elementos exteriores a la diagonal (rik).
La correlación de una variable consigo misma siempre va a ser 1, no es otra cosa que la
varianza de una variable tipificada y se descompone en:
Siendo la varianza de la variable xi explicada por el conjunto de factores
comunes (equivale al coeficiente de determinación en regresión lineal múltiple). A este

término, en AF, se le conoce como comunalidad de la variable Xi, y se le representa por
h2i. El término d2i es la varianza de Xi no explicada por los factores comunes. A este
término se le denomina unicidad o especificidad. La expresión quedaría entonces
Los factores comunes serían los que explican las relaciones existentes entre las variables.
Gráficamente podemos representar la partición de la varianza de una variable en un

modelo de tres factores comunes recurriendo a los diagramas de Venn (Figura 5.
Partición de varianza de una variable en un modelo de tres factores ortogonales.
Elaboración: propia)
En la Figura 5 aparece representada la comunalidad y la especificidad de la variable xi
Los elementos externos a la diagonal de R corresponden a las correlaciones entre las

variables observadas (rik)
En esta expresión se observa que la correlación entre dos variables observadas puede
obtenerse multiplicando los pesos factoriales de ambas variables en el conjunto de
factores comunes. Como era de esperar las especificidades de las variables observadas
no intervienen en las correlaciones.
Continuando con el EJEMPLO I, a partir de la matriz de correlaciones entre las variables:

Notas en Ciencias Naturales (CN), Matemáticas (M), Inglés (I), Historia (HIS) y Lengua
(LEN) se obtuvo la siguiente matriz de pesos factoriales
Y calcular los siguientes valores:
a) Comunalidad de cada variable.
b) Unicidad de cada variable.
c) Porcentaje de varianza de cada variable explicada por cada uno de los factores
comunes.
d) Interpretación de los factores obtenidos.
Para la matriz factorial dada las comunalidades son:
La especificidad de cada variable viene dada por:
El porcentaje de varianza de cada variable explicada por cada uno de los factores
comunes podemos expresarlo como (Tabla III)
Factor 1 Factor 2 Comunalidad
Ciencias 64 4 68
Mates 81 1 82
Inglés 1 81 82
Historia 9 64 73
Lengua 4 64 68
Por último, respecto a la interpretación de los factores obtenidos, recordemos la Figura

1. Las variables se representan por puntos en el plano definido por los factores comunes,
siendo las coordenadas de dichos puntos los pesos factoriales. Observamos dos
agrupamientos de variables: uno con las variables Ciencias Naturales y Matemáticas que
dan contenido al factor 1 y otro, el formado por las variables Inglés, Historia y Lengua,
que dan contenido al factor 2. En todos los casos las correlaciones entre variables
observadas y factores son positivas. Los factores comunes son etiquetas para grupos de
variables que caracterizan estos conceptos. Así, en la primera columna de la matriz de
correlaciones A (Tabla 1), las variables con pesos más altos son Ciencias Naturales y
Matemáticas; a este factor le denominamos: habilidad lógico-formal. En la segunda
columna las variables con pesos altos son: Francés, Latín y Literatura; este segundo factor
lo etiquetamos como habilidad verbal.
Una vez construida la matriz de correlaciones es necesario analizarla para comprobar si

sus características son las adecuadas para realizar un AF. Uno de los requisitos que deben
cumplirse es que las variables se encuentran altamente
intercorrelacionadas. También se espera que las variables que tengan correlación muy
alta entre sí la tengan con el mismo factor o factores. En consecuencia, si las
correlaciones entre todas las variables son bajas, tal vez no sea apropiado el
AF. Pueden utilizarse diferentes métodos para comprobar el grado de asociación entre
las variables:
a) Determinante de la matriz de correlaciones. El determinante es un polinomio que

resulta de obtener todos los productos posibles de la matriz). Si el determinante es
muy bajo, entonces, las intercorrelaciones son altas, ideal para el AF. Si es cero,
algunas de las variables son linealmente dependientes y no se podría aplicar el AF. Y
si es alto, indica altas correlaciones.
b) Test de Barttlett. Contrasta, bajo la hipótesis de normalidad multivariante, si la

matriz de correlaciones de las d variables se ajusta a la matriz identidad. La matriz
de identidad es una matriz en la que los elementos de la diagonal principal son 1 y
los elementos por encima y por debajo de ella son nulos (0). Si el estadístico de
Bartlett toma valores grandes quiere decir que las variables están
intercorrelacionadas (se rechaza la Ho) y el determinante es cero. Si el estadístico
de Bartlett toma valores pequeños quiere decir que la matriz de correlaciones se
ajusta a la matriz de identidad y las intercorrelaciones entre las variables son cero
(se acepta la Ho), las variables no están intercorrelacionadas. Y el determinante es
1. En este último caso debería reconsiderarse la aplicación de un AF. Es muy útil
cuando el tamaño muestral es pequeño.
c) Índice KMO de Kayser-Meyer-Olkin. Es una medida de adecuación de la muestra

a las hipótesis del modelo de AF. Se utiliza para comparar las magnitudes de los
coeficientes de correlación parcial entre las variables, es decir, el grado de
relaciones entre dos variables, eliminando la influencia del resto. Cuánto más
pequeño sea su valor, mayor será el valor de los coeficientes de correlación
parciales rij(d) y, en consecuencia, menos apropiado es realizar un AF. Por norma si:
KMO ≥ 0,75 ⇒ Bien; KMO ≥ 0, 5 ⇒ Aceptable; KMO < 0, 5 ⇒ Inaceptable. La
experiencia práctica aconseja que es precipitado tomar el índice KMO como única
medida, sobre todo si hay un número pequeño de variables consideradas.
9.2. INDETERMINACIÓN DE LAS SOLUCIONES

FACTORIALES

¿Cómo extraemos los factores?
Determinar la matriz factorial A, en un modelo de factores ortogonales, es un proceso

complicado porque existen infinitas soluciones para dicha matriz.
La indeterminación factorial se resuelve imponiendo restricciones matemáticas que den

un significado a los factores comunes.
Los diferentes métodos propuestos en la literatura para determinar la matriz A,

conocidos como métodos de extracción factorial, obedecen a tres tipos de criterios:
1. Explicar el máximo de la varianza observada. Análisis de Componentes

Principales (ACP). Este método es uno de los más utilizados y está implementado
en los paquetes estadísticos de uso frecuente en investigación
2. Reproducir lo mejor posible las correlaciones observadas. Factores Principales

(FP)
3. Obtener los mejores estimadores de la matriz factorial poblacional. Máxima

Verosimilitud (ML)
Los métodos de extracción factorial proporcionan soluciones únicas para la matriz

factorial si se aceptan las restricciones de dichos métodos. Sin embargo, no hay garantía
de que las soluciones proporcionadas por los diferentes métodos sean absolutamente
equivalentes.
9.3. OBTENCIÓN DE SOLUCIONES: EL MÉTODO DEL

FACTOR PRINCIPAL Y EL MÉTODO DE MÁXIMA
VEROSIMILITUD

a) Método del Factor Principal o Ejes principales
El método de Ejes Principales es el método más utilizado en el AF junto con el análisis de

Componentes Principales.
El AF es un método analítico de condensación de la varianza total de las medidas de las

variables. Esta varianza tiene tres componentes: la varianza común (comunalidades), que
es la proporción de la varianza de las variables que es explicada por los factores comunes;
la varianza específica (especificidad), que es el porcentaje de varianza particular de cada
variable; y la varianza de error, que es el porcentaje de varianza no explicada, atribuible al
error de la medida.
Pues bien, el método de Ejes Principales contempla únicamente la varianza que las
variables tienen en común o covarianza, excluyendo a la varianza específica y la varianza
de error. Esta característica lo distingue perfectamente del método de Componentes
Principales, ya que este último explica la mayor cantidad de varianza posible en los datos
observados, analiza la varianza total asociada a las variables, incluyendo la varianza
específica y la varianza de error.
A efectos prácticos, la característica esencial del método de Ejes Principales es que la

extracción de factores no se realiza en base a la matriz de correlaciones entre las
variables observadas sino, a la matriz Ra, matriz de correlaciones reducida, que no es otra
cosa que, la matriz de correlaciones en donde se han sustituido los 1 de la diagonal por las
comunalidades de las variables.
El modelo en el que se basa el análisis de Ejes Principales es:
Como podemos observar en el modelo el factor único se ha eliminado.
La indeterminación factorial se resuelve imponiendo que la suma de cuadrados de los

pesos factoriales del conjunto de variables en el primer factor sea máxima. Es decir:
Debe ser máxima. Se impone, además, la restricción de que las correlaciones observadas
deben ser reproducidas exactamente por los pesos factoriales lo que implica residuales
cero. Esta segunda restricción se expresa como

Maximizar sujeta a la restricción
implica resolver la ecuación
característica de la matriz de correlaciones reducida:
Los pesos (ai1) de las variables en el primer factor común se obtienen resolviendo el
sistema de ecuaciones que se deriva de la expresión
El segundo factor se elige de manera que explique el máximo de la varianza resultante al

eliminar la explicada por el primer factor y, además, este segundo factor debe estar
incorrelacionado con el primero. El proceso continúa hasta explicar el 100% de la
varianza total factorizada. No obstante, conviene comentar las dos situaciones que nos
podemos encontrar en cuanto al número de factores comunes. Sabemos que las
varianzas explicadas por los factores comunes se obtienen de la resolución de la ecuación
. Dicha ecuación proporciona d valores que no tienen porque ser
todos positivos, a diferencia del método de componentes principales. En caso de que

encontremos c valores positivos y su suma no supere la varianza total factorizada éste
será el número de factores comunes elegidos para reproducir la matriz de correlaciones.
Si la suma del número de autovalores positivos supera ámpliamente la varianza total
elegiremos un número menor de manera que la varianza explicada por el conjunto de
factores comunes esté lo más próxima posible a la varianza total factorizada.
La matriz factorial resultante será
Donde como ya sabemos:
a) la varianza de una variable explicada por los c factores comunes será
b) la varianza de las d variables observadas explicada por cada factor común viene
dada por
c) las correlaciones reproducidas vendrán dadas por
Como mencionamos anteriormente, el método de Factores Principales utiliza para la

factorización la matriz de correlaciones reducida (Ra). Esta matriz se obtiene
sustituyendo en la matriz R los unos de la diagonal por la varianza de cada variable
explicada por el conjunto de factores comunes.
Esta varianza es, en principio, desconocida y tiene que ser estimada por algún
procedimiento. Varios han sido los criterios utilizados para estimar las comunalidades; de
todos ellos el más utilizado e implementado en el paquete estadístico SPSS consiste en
utilizar como estimación de la comunalidad de una variable el coeficiente de correlación
múltiple al cuadrado (R2i.1,2,...(i),..d) de dicha variable con el resto.
EJEMPLO II.
En la matriz de correlaciones del EJEMPLO I se sustituyeron los elementos de la diagonal

por las siguientes comunalidades (Tabla IV. Matriz de correlaciones: Comunalidades.
Elaboración: propia):
Ciencias Mates Inglés Historia Lengua
Ciencias 0,96859 0,804 0,366 0,427 0,232
Mates 0,82227 0,138 0,426 0,408
Inglés 0,96918 0,813 0,787
Historia 0,78572 0,812
Lengua 0,8470
Sabiendo que los autovalores de la matriz de correlaciones reducida (Ra) fueron:
2, 73429 1,71607 0,03955 -0,03955 -0,02452 -0.0726
a) ¿Cuántos factores elegirías como solución?.
b) ¿Qué proporción de varianza explica cada factor del conjunto de variables

observadas?
c) Método de máxima verosimilitud
Este es el primer método de extracción de naturaleza estadística, los anteriores que son
de naturaleza algebraica.
Este método considera la obtención de la matriz factorial como un problema de

estimación puntual de parámetros. Se parte del desconocimiento tanto de la matriz de
correlaciones poblacional (R) como de la matriz factorial poblacional (A) y el objetivo es
obtener una estimación que haga máxima la probabilidad de obtener las correlaciones
observadas.
El procedimiento para calcular esta estimación, denominada estimación “hat” o de

“sombrero”, es bastante complejo. Simplemente decir que requiere del supuesto de
normalidad multivariante, no requiere de estimación inicial de las comunalidades
aunque, si es necesario decidir previamente el número de factores comunes que
desearíamos obtener.
Este procedimiento de extracción tiene asociado un test de significación para el número

de factores elegidos.
Formula la hipótesis nula : Ho: La matriz factorial poblacional (A) es de rango c
Si se acepta esta hipótesis el número de factores elegido es correcto. Si se rechaza habría

que ensayar una solución con c + 1 factores comunes.
9.4. ROTACIÓN DE LAS SOLUCIONES

En la práctica, los métodos de extracción de factores pueden no proporcionar matrices de

cargas factoriales adecuadas para la interpretación. Rara vez, la matriz factorial obtenida
con alguno de los métodos de extracción descritos en la primera parte de este tema sirve
de base para la interpretación de los factores.
Cuando dijimos que los métodos de extracción hacen únicas las cargas factoriales
aclaramos que dichas cargas son únicas en función del criterio particular elegido pero, en
ningún momento podemos pensar que hemos resuelto el problema de la indeterminación
factorial. Quiere esto decir que existirán infinitas matrices factoriales, obtenidas rotando
a una situación espacial distinta la solución factorial directa, que conserven el número de
factores comunes, la varianza total explicada por el conjunto de factores, las
comunalidades de las variables y que sean más fáciles de interpretar.
De las infinitas soluciones posibles obtenidas por rotación sólo nos van a interesar
aquellas que conserven la ortogonalidad de los factores (rotación ortogonal frente a
oblicua) y que nos lleven a una matriz factorial con determinadas características.
Para acometer este problema están los procedimientos de Rotación de Factores que, a
partir de la solución inicial, buscan factores cuya matriz de cargas factoriales los hagan
más fácilmente interpretables. Estos métodos intentan aproximar la solución obtenida al
Principio de Estructura Simple (Louis Leon Thurstone, 1935), según el cual la matriz de
cargas factoriales debe reunir tres características:
1. Cada factor debe tener unos pocos pesos altos y los demás próximos a cero.
2. Cada variable no debe estar saturada más que en un factor.
3. No deben existir factores con la misma distribución, esto es, dos factores
distintos deben presentar distribuciones diferentes de cargas altas y bajas.
De esta manera, dado que hay más variables que factores comunes, cada factor tendrá
una correlación alta con un grupo de variables y baja con el resto de las variables.
Los principios enunciados están encaminados a encontrar una matriz factorial en
términos de factores disjuntos es decir, factores definidos por agrupamientos diferentes
de variables. Un ejemplo de una matriz factorial simple en los términos expresados
anteriormente sería la siguiente (Tabla V. Matriz Factorial simple; Elaboración: propia):

Variables F1 F2 F3
X1 0 X 0
X2 0 X 0
X3 0 X 0
X4 X 0 0
X5 X 0 0
X6 X 0 0
X7 0 0 X
X8 0 0 X
X9 0 0 X
donde los 0 representan pesos factoriales muy pequeños y las X pesos factoriales altos.
Aunque no siempre encontremos matrices tan fáciles de interpretar como la anterior con
la rotación si se va a eliminar buena parte de la dificultad que tiene interpretar la matriz
factorial directa.
Al examinar las características de las variables de un grupo asociado a un determinado

factor se pueden encontrar rasgos comunes que permitan identificar el factor y darle una
denominación que responda a esos rasgos comunes. Si se consigue identificar claramente
estos rasgos, además de reducir la dimensión del problema, también se desvela la
naturaleza de las interrelaciones existentes entre las variables originales.
Existen dos formas básicas de realizar la Rotación de Factores: la Rotación Oblicua y la

Rotación Ortogonal. Se elige uno u otro procedimiento según que los factores rotados
sigan siendo ortogonales o no. Señalar que en ambas rotaciones la comunalidad de cada
variable no se modifica, esto es, la rotación no afecta a la bondad del ajuste de la solución
factorial: aunque cambie la matriz factorial, las especificidades no cambian y, en
consecuencia, las comunidades permanecen invariantes. Sin embargo, cambia la varianza
explicada por cada factor, por tanto, los nuevos factores no están ordenados de acuerdo
con la información que contienen, cuantificada mediante su varianza.
En la Rotación Ortogonal los ejes se rotan de forma que quede preservada la

incorrelación entre los factores. Es decir, los nuevos ejes (ejes rotados) son
perpendiculares de igual forma que lo son los factores sin rotar. La rotación se apoya en
el problema de falta de identificabilidad de los factores obtenidos por rotaciones
ortogonales, de forma que si T es una matriz ortogonal con T T' = T' T =I, entonces:

X =FA' +U=FT T'A' +U= GB' +U
La matriz G geométricamente es una rotación de F, verificando las mismas hipótesis que

ésta.
Realmente lo que se realiza es un giro de ejes, de forma que cambian las cargas
factoriales y los factores.
Se trata de buscar una matriz T tal que la nueva matriz de cargas factoriales B tenga
muchos valores nulos o casi nulos, y unos pocos valores cercanos a la unidad de acuerdo
con el principio de estructura simple.
Los métodos empleados en la rotación ortogonal de factores son: Varimax, Quartimax,

Equamax, Oblimin y Promax.
Todos ellos tienden a simplificar la matriz factorial directa. Según el criterio utilizado, el
objetivo será simplificar filas o la complejidad de las variables en el conjunto de factores
comunes (ej-. método Quartimax) o simplificar columnas o factores.
a) Método Varimax. Es un método de rotación que minimiza el número de variables

con cargas altas en un factor, mejorando así la interpretación de factores. El
método considera que, si se logra aumentar la varianza de las cargas factoriales al
cuadrado de cada factor consiguiendo que algunas de sus cargas factoriales tiendan
a acercarse a 1 mientras que otras se aproximan a 0, se obtiene una pertenencia
más clara e inteligible de cada variable al factor.
Los nuevos ejes se obtienen maximizando la suma para los k‐factores retenidos de
las varianzas de las cargas factoriales al cuadrado dentro de cada factor. Para evitar
que las variables con mayores comunalidades tengan más peso en la solución final,
se efectúa la normalización de Kaiser (dividiendo cada carga factorial al cuadrado
por la comunalidad de la variable correspondiente).
En consecuencia, el método Varimax determina la Matriz B de forma que maximice

la suma de las varianzas.
b) Método Quartimax. El objetivo es que cada variable tenga correlaciones

elevadas con un pequeño número de factores. Para ello, maximiza la varianza de las
cargas factoriales al cuadrado de cada variable en los factores.
Con ello, se logra que cada variable concentre su pertenencia en un determinado

factor, esto es, presente una carga factorial alta mientras que, en los demás
factores, sus cargas factoriales tienden a ser bajas.
De este modo, la interpretación gana en claridad por cuanto la comunalidad total

de cada variable permanece constante, quedando más evidente hacia qué factor se
inclina con más fuerza cada variable. El método será más clarificador, cuanto mayor
número de factores se hayan calculado. Este método tiende a producir un primer

factor general, conocido con el nombre de tamaño, y el resto de factores presentan
ponderaciones menores que las dadas por el método Varimax.
c) Método Equamax. Es un método que es combinación del método Varimax, que

simplifica los factores, y el método Quartimax, que simplifica las variables. Este
método minimiza tanto el número de variables que saturan alto en un factor como
el número de factores necesarios para explicar una variable.
En la Rotación oblicua la matriz T de rotación no tiene que ser ortogonal (cuando una
matriz multiplicada por su transpuesta es la matriz identidad T T' =I ) sino únicamente no
singular (matriz cuadrado cuyo determinante no es cero). De esta manera, los factores
rotados no tienen por qué ser ortogonales y tener, por tanto, correlaciones distintas de
cero entre sí. La rotación oblicua puede utilizarse cuando es probable que los factores en
la población tengan una correlación muy fuerte. Es necesario ir con mucha atención en la
interpretación de las rotaciones oblicuas, pues la superposición de factores puede
confundir la significación de los mismos.
Los métodos empleados en la rotación ortogonal de factores son: Oblimin y Promax.
a) Método Oblimin. Trata de encontrar una estructura simple si que importe el

hecho de que las rotaciones sean ortogonales, esto es, las saturaciones no
representan ya la correlación entre los factores y las variables. Se considera un
parámetro que controla el grado de correlación entre los factores, con los valores
preferentemente entre -0,5 y 0,5.
b) Método Promax. Altera los resultados de una rotación ortogonal hasta crear una
solución con cargas factoriales lo más próximas a la estructura ideal. La estructura
ideal se obtiene elevando a una potencia (entre 2 y 4) las cargas factoriales
obtenidas en una rotación ortogonal. Cuanto mayor sea la potencia, más oblicua es
la solución obtenida.
Sea H la matriz de cargas buscada por el método Promax, busca una matriz T tal que AT
=H.
Multiplicando ambos miembros por la matriz (A'A)−1 A' , se tiene: T = (A'A)−1 A' H.
9.5. PUNTUACIONES FACTORIALES

Habiendo determinado los factores rotados, se calcula las matrices de puntuaciones

factoriales F.
Son variadas las posibilidades de analizar las puntuaciones factoriales de los sujetos:
Conocer qué sujetos son los más raros o extremos, es decir, la

representación gráfica de las puntuaciones factoriales para cada par de
ejes factoriales facilita detectar casos atípicos.
Conocer dónde se ubican ciertos grupos o subcolectivos de la muestra

(ejemplo; clase alta frente a clase baja, una provincia frente a las otras
provincias, jóvenes frente a mayores, etc.)
Conocer en qué factor sobresalen unos sujetos y n qué factor no.
Explicar, atendiendo las informaciones anteriores, por qué han aparecido

dichos factores en el AF realizado.
Es necesario conocer los valores que toman los factores en cada observación, pues en
ocasiones, el AF es un paso previo a otros análisis: Regresión Múltiple o Análisis Cluster,
en los que sustituye el conjunto de variables originales por los factores obtenidos.
Existen diversos métodos de estimación de la matriz F, Métodos del Cálculo de las

Puntuaciones. Las propiedades deseables que verificasen los factores estimados son:
Cada factor estimado presente una correlación alta con el verdadero

factor.
Cada factor estimado tenga correlación nula con los demás factores
verdaderos.
Los factores estimados son incorrelados dos a dos (mutuamente

ortogonales si son ortogonales).
Los factores estimados sean estimadores insesgados de los verdaderos

factores.
Señalar que el problema de estimación es complejo por la propia naturaleza de los

factores comunes. Se puede demostrar que los factores no son, en general, combinación
lineal de lasm variables originales. Por otra parte, en la mayoría de las situaciones, no
existirá una solución exacta ni siquiera será única.
Todos los métodos de obtención de puntuaciones factoriales parten de la expresión:
X =FA'+U
buscando estimar el valor de F.
Los métodos de estimación más utilizados:
a) Regresión. Estima F por el método de los mínimos cuadrados:
= (A' A)-1 A' X.
El Método de Regresión da lugar a puntuaciones con máxima correlación con las

puntuaciones teóricas. Sin embargo, el estimador no es insesgado, ni unívoco y, en
caso de que los factores sean ortogonales, puede dar lugar a puntuaciones
correladas.
b) Barlett. Utiliza el método de los mínimos cuadrados generalizados estimando las

puntuaciones factoriales. El Método de Barlett da lugar a puntuaciones correladas
con las puntuaciones teóricas, insesgadas y unívocas. Sin embargo, en caso de que
los factores sean ortogonales, puede dar lugar a puntuaciones correladas.
c) Anderson‐Rubin. Estima F mediante el método de los mínimos cuadrados

generalizados, imponiendo la condición F'F =I. El Método de Anderson‐Rubin da
lugar a puntuaciones ortogonales que están correladas con las puntuaciones
teóricas. Sin embargo, el estimador no es insesgado ni unívoco.
En ocasiones, el investigador preferirá seleccionar las variables más representativas de

los factores, en lugar de calcular sus puntuaciones. Por ejemplo, si se utiliza el AF para
reducir el número de datos, por razones de economía, si se quieren aplicar los resultados
obtenidos a objetos diferentes de los estudiados en el análisis, es más interesante
seleccionar algunas de las variables originalmente medidas, dada la dificultad del cálculo
de las puntuaciones factoriales para las que se necesitaría medir todas las variables
utilizadas en el estudio.
Una forma de llevar a cabo la selección de variables es estudiar la matriz de correlaciones

de las variables con los factores, seleccionando como representante de cada factor la
variable con la correlación más elevada en éste, que sea más fácil de medir y que tenga
más sentido desde un punto de vista teórico. En cualquier caso, conviene elegir las
variables de forma que una misma variable no se utilice para medir dos factores distintos.
Una vez elegidas las variables, se les asigna pesos basados en su correlación con el factor,
y se comprueba su validez estimando su correlación con los factores que desea estimar
mediante la fórmula:
Rfs =A'Wdiag (Rss)
Donde Rss es la matriz de correlaciones de las puntuaciones estimadas.
El último paso en el AF es estudiar la validez del modelo. El proceso de Validación del

modelo debe realizarse en dos direcciones: Analizando la bondad de ajuste y la
Generalidad de los resultados.
a) Bondad de Ajuste. Consiste en estudiar las diferencias (residuos) entre las

correlaciones observadas (matriz de correlación de entrada) y las correlaciones
reproducidas (como se estiman a partir de la matriz factorial), dado que una
suposición básica subyacente al AF es que la correlación observada entre las
variables puede atribuirse a factores comunes. Por consiguiente, las correlaciones
entre variables pueden deducirse o reproducirse a partir de las correlaciones
estimadas entre las variables y los factores.
El modelo factorial es adecuado cuando los residuos son pequeños. Si hay un

porcentaje elevado de residuos superiores a una cantidad pequeña prefijada (por
ejemplo, 0,05), será una indicación de que el modelo factorial estimado no se ajusta
a los datos. Se sabe además que hay más estabilidad en los resultados si el número
de casos por variable es alto.
b) Generalidad de los resultados. Para alcanzar la generalidad de los resultados

podemos realizar nuevos análisis factoriales sobre nuevas muestras extraídas de la
población objeto de estudio y, en caso de no ser posible, sobre submuestras de la
muestra original. Se pueden realizar otros análisis factoriales en base, no al
conjunto total de la muestra o población, sino referido a subcolectivos o grupos que
están presentes en la muestra y que pueden formarse utilizando las categorías de
las variables primarias (sexo, clase social, tipo de centro, tipo de metodología
pedagógica, tipos de actitud, etc.). Otra posibilidad es realizar nuevos análisis
factoriales modificando las variables consideradas, bien sea eliminando aquellas
variables que no tienen relación con ningún factor o eliminando las variables con
relaciones más fuertes tratando de descubrir cómo se comporta el resto de ellas sin
su presencia.
Tema 10 - Análisis de Componentes Principales
TEMA 10. ANÁLISIS DE COMPONENTES

PRINCIPALES
10.1. DEFINICIÓN Y PROPIEDAD DE LAS COMPONENTES

PRINCIPALES

El Análisis de Componentes Principales (ACP) es una técnica estadística de síntesis que

consiste en extraer tantas componentes (Factores) como variables observables. El
objetivo es reducir las variables a las componentes suficientes y necesarias perdiendo la
menor cantidad de información posible.
Las componentes principales son un conjunto de nuevas variables incorrelacionadas

entre sí (no tienen repetición o redundancia en la información) que surge de la
transformar un conjunto original de variables correlacionadas.
Los nuevos componentes principales o factores serán una combinación lineal de las
variables originales, y además serán independientes entre sí.
De modo ideal, se buscan c < d variables que sean combinaciones lineales de las p
originales y que no estén correlacionadas, recogiendo la mayor parte de la información o
variabilidad de los datos.
El ACP no requiere de partida que se cumpla el supuesto de normalidad multivariante,

pero si se cumple puede dar lugar a una interpretación más profunda de los
componentes.

El modelo de ACP es:
Para realizar el cálculo de las CP se considera una serie de variables (x1, x2, …, xd) sobre un
grupo de objetos o individuos y se trata de calcular, a partir de ellas, un nuevo conjunto de
variables (y1, y2, …, yd), incorrelacionadas entre sí, cuyas varianzas vayan decreciendo
progresivamente.
Las componentes se extraen de manera que la primera componente Y1, explique el

máximo posible de la varianza total disponible. La varianza total es la suma de las
varianzas de las variables observables consideradas en la investigación, como hemos
considerado variables tipificadas la varianza total es d. La segunda componente Y2,
explica el máximo de la varianza que queda al eliminar la varianza explicada por la
primera componente y con la restricción adicional de que esté incorrelacionada con la
primera. El proceso continúa hasta explicar toda la varianza disponible para lo cual hay
que extraer tantas componentes como variables. Las varianzas explicadas por cada
componente (Yj) se denominan valores propios o raíces características.
La suma de las varianzas explicadas por las componentes es:
Normalmente suele proporcionarse el porcentaje de varianza total que explica cada

componente.
Este porcentaje se calcula como
Las varianzas explicadas por cada componente se obtienen resolviendo la ecuación

denominada ecuación característica de la matriz de correlaciones entre variables
observadas (R) (que se demuestra utilizando el procedimiento de multiplicadores de
Lagrange):
Por su parte, los pesos (vij) de las componentes en las variables se obtienen resolviendo
el sistema de ecuaciones que se deriva de la expresión:
Una vez obtenida la matriz de pesos de las componentes en las variables, lo normal es
derivar a partir de la misma la matriz A que relaciona las variables observables con las
componentes. La relación entre estas dos matrices es:
Donde D1/2 es una matriz diagonal que contiene las raíces de las varianzas explicadas por
cada componente del conjunto de variables observadas. Los pesos o saturaciones
factoriales se obtienen de vij según la expresión:
La matriz factorial así obtenida es una matriz de orden d y con las siguientes propiedades:
a) La comunalidad o varianza de una variable observada explicada por las d

componentes será igual a 1. Es decir:
b) La varianza de las d variables observadas explicada por cada componente viene

dada por
El número de componentes que se extraen con el procedimiento descrito es igual al

número de variables observadas con lo cual no se cumple el objetivo básico del análisis
factorial: reducir el número de variables necesario para la descripción del fenómeno.
Existen, no obstante, varios criterios que nos permiten seleccionar un número menor de
componentes que reproducen razonablemente bien las correlaciones observadas.
Algunos de los criterios más utilizados son:
a) Determinación “a priori”. Es el criterio más fiable si los datos y las variables están
bien elegidos y el investigador conoce la situación, lo ideal es plantear el AF con una
idea previa de cuántos factores hay y cuáles son.
b) Criterio de Kaiser: Según este criterio se seleccionan las c primeras componentes

siempre que la varianza explicada sea mayor que 1. Este es el criterio utilizado por
los muchos paquetes estadísticos como SPSS. La lógica de este criterio es que un
factor explique al menos la varianza de una variable tipificada.
c) Gráfico de sedimentación ("scree test"). Consiste en representar en el eje de

ordenadas los autovalores -o varianzas explicadas por cada componente- y en el eje
de abscisas las componentes extraídas según su orden de extracción. En la curva
que nos proporciona el "scree test" se pueden distinguir, habitualmente, dos
tramos: un primer tramo constituido por muy pocos puntos y con una pendiente
negativa muy grande; y un segundo tramo, en el que se encuentran la mayoría de
los puntos, que exhibe un decaimiento muy lento. El criterio consiste en elegir
tantas componentes como puntos haya en el primer tramo de la curva. Este criterio
suele coincidir con el anterior (Figura 1. Gráfico de sedimentación. Elaboración:
propia)
En la Figura 1 sería suficiente con retener 3 componentes.
d) Test de significación de Lawley (Cuadras, 1981). Es el método de máxima

verosimilitud contrastando la adecuación del número de factores extraídos.
e) Retención de componentes. Consiste en fijar una cantidad mínima de varianza

explicada por el conjunto de componentes retenidas. Con este criterio retenemos
componentes hasta alcanzar un 95% de varianza explicada si la investigación se
realiza en ciencias naturales y entre 60% y 70% en ciencias sociales.
f) Criterio de división a la mitad. La muestra se divide en dos partes iguales tomadas

al azar y se realiza el AF en cada una de ellas. Solo se conservan los factores que
tienen alta correspondencia de cargas de factores en las dos muestras. Antes de
aplicarlo, conviene comprobar que no existen diferencias significativas entre las
dos muestras en lo que se refiere a las variables estudiadas.
En general, no se suelen coger más de tres componentes principales, a ser posible, para poder
representarlos gráficamente.
10.2. OBTENCIÓN DE LAS COMPONENTES PRINCIPALES

A PARTIR DE UNA MUESTRA

Para aclarar algunos de los conceptos desarrollados acerca del ACP podemos realizar el
siguiente ejercicio.
Supongamos que vamos a estudiar el beneficio y la dimensión (número de reses) de 9

explotaciones bovinas ecológicas.
La primera pregunta que tenemos que poder responder es: ¿Cuántas variables vamos a
utilizar?
La respuesta es: Beneficio: € por explotación y Dimensión: inversión € por explotación
Tabla I. Variables originales
Variables originales
Explotación Inversión (€) Beneficios (€)
1 580,104 23,795
2 520,218 58, 778
3 470,963 1,531
4 431,003 - 12,756
5 337, 745 - 14,729
6 299,991 9,059
7 289,155 12,541
8 248,465 13,495
9 215,853 -34.828
El primer paso para la obtención de los CP es saber si: ¿Hay correlación entre ambas
variables?
Tabla II. Matriz de correlaciones
Correlaciones
Número de vacas Beneficio
0,5460
Número de vacas ( 9)
0,1283
0,5460

( 9)
Beneficio
0,1283

A nivel gráfico la representación de la nube de puntos (datos originales) que refleja la

correlación entre las variables se muestra en la Figura 2 (Fuente: Google)
El segundo paso será: eliminar el problema de la escala (Figura 3; Fuente: Google)
Si se tipifican las variables:
a) la matriz de correlación es igual a la matriz de covarianzas
b) Σ бcomponentes principales = Σ бvariables = Σ variables tipificadas (2 en este caso)
La representación gráfica en puntuaciones típicas se presenta en la (Figura 4; Fuente:

Google)
El tercer paso es: obtener los componentes principales. Para ello:
a) Calculamos las raíces de la matriz de covarianzas:
λ1 = 1,54603 λ2 = 0,45397
La б de cada CP es igual al valor de la raíz característica.
La primera CP se obtiene de forma que maximice б.
En general tiene una б mayor que cualquier variable original.
Si la variable está tipificada, la б CP1 > 1.
Si las variables originales están incorrelacionadas, las CP coincidirán

exactamente con las variables originales.
En el caso de 2 variables, б de CP1 = б de una de las variables tipificadas

+ coeficiente de correlación: 1 + 0,54603 = 1,54603
λ1 = 1,54603 λ2 = 0,45397
б de CP2 = 2 - б de CP1 (siendo 2 = Σ бcomponentes principales = Σ

бvariables = Σ variables tipificadas).
Aplicando un programa estadístico, como el SPSS la salida del programa muestra

(Figura 5; Fuente: Google)
Analysis Summary
Data variables:
Inversion
beneficio
Data input: observations
Number of complete cases: 9
Missing value treatment: listwise
Standardized: yes
Number of components extracted: 2
Principal Components
Analysis
-----------------------------------------------
--------------------------------------
Components Number Peercent of

variance Cumulative Percentage
1 1,54604 77,302

77,302
2 0,453963
22,698 100,000
-----------------------------------------------
---------------------------------------
b) Cada raíz tiene asociado un vector característico, que con dos variables:
u1 = ( u11; u12)
u2 = ( u21; u22)
Deben cumplir: u211+ u212 = 1
u221+ u222 = 1
Si los datos están tipificados, siempre con 2 variables se obtienen los siguientes vectores: u1 =
(07071; 07071); u2 = (07071; - 07071)
Los coeficientes de los vectores son los coeficientes que hay que aplicar a
las variables tipificadas para obtener los CP:
CP1 = u11* X1 + u12* X2
CP2 = u21* X1 + u22* X2

CP1 = 0,7071 * inversión + 0,7071 * beneficio
CP2 = 0,7071 * inversión – 0,7071 * beneficio
Con el programa estadístico (Figura 6; Fuente: Google):
Table of Component Weights
Component 1 Component 2
-----------------------------------------------
--------
inversion 0,707107

0,707107
beneficio 0,707107
-0,707107
The SrarAdvisor
-----------------
This table shows the equitations od the principal

components. For example, the first component has
the equation
0,707107 *inversion + 0,707107*beneficio
Estos coeficientes CP1 = 0,7071 * inversión + 0,7071 * beneficio
¿Qué significado tienen?
Son los senos y los cosenos del ángulo de rotación entre los ejes de los CP y los ejes de las
variables tipificadas (ver Figura 4)

Primer eje: cos 45º = 0,7071 sen 45º = 0,7071
Segundo eje: cos 135º = 0,7071 sen 135º = -0,7071
c) Determinamos las cargas factoriales:
- Correlación de cada variable con cada CP (Tabla III)
CP1 con inversión: 0,7071 * √1,54603

= 0,87821
r = u* √λ CP1 con beneficio: 0,7071 * √1,54603 =

0,87821
CP2 con inversión: 0,7071 * √0,43397

= 0,47643
CP2 con beneficio: -0,7071 *

√0,43397 = -0,47643
Tabla III. Matriz factorial o Matriz de Componentes
Variables Inversión Beneficio PCOMP_1PCOMP_2
0,5460 0,8792 0,4764
Inversión (9) (9) (9)
0,1283 0,0018 0,1948
0,5460 0,8792 - 0,4764
Beneficio (9) (9) (9)
0,1283 0,0018 0,1948
0,8792 0,8792 0,0000
PCOMP_1 (9) (9) (9)
0,0018 0,0018 1,0000
0,4764 - 0,4764 0,0000
PCOMP_2 (9) (9) (9)
0,1948 0,1948 1,0000
d) Determinamos las puntuaciones tipificadas de cada componente (Figura 7;

Fuente: Google):
Si las variables están tipificadas, la proporción de variabilidad original captada por un CP

es igual a su raíz característica dividida por el número de variables originales (Figura 8;
Fuente: Google):
El número de componentes a retener será el número de aquellas CP cuya raíz

característica (λ) supere la media de las raíces características. Y si las variables están
tipificadas todas aquellas que superen el valor 1 (Figura 9; Fuente: Google):
10.3. APLICACIONES

Quimiometría (PCA) en Farmacéutica: desarrollo de tabletas, fabricación y garantía

de la calidad. (Ingunn Tho y Annette Bauer-Brandl, 2012)
ACP en la búsqueda de nuevas dianas terapéuticas. Estudios

sistemáticos de permeabilidad de la estructura basados en ACP de
relaciones de permeabilidad de estructura (por ejemplo, capacidad
para atravesar las barreras intestinales, transporte de fármacos a
través de la barrera hematoencefálica)
ACP en el desarrollo y procesamiento de formulaciones. Para el

desarrollo de la formulación (composición) y del proceso (manejo),
durante toda la fabricación del producto final. El ACP se aplica en
todas las etapas tales como en la determinación de la composición
química, para establecer la distribución del tamaño de la partícula que

va a predecir el flujo del polvo, elegir el tipo de embalaje o para
modelar y predecir la dureza de las tabletas.)
ACP para garantizar de la calidad de las tabletas. El ACP se combina

frecuentemente con métodos espectroscópicos para permitir la
detección de relaciones multivariantes entre diferentes variables
como materias primas, para conocer la difracción de rayos X.
ACP en la liberación de fármacos. Para poder parametrizar la

liberación del fármaco cinético.
ACP para monitorizar. Para controlar la variación en un proceso

dentro de unos límites de especificación.
ACP para el futuro desarrollo de la fabricación de tabletas.

Tradicionalmente, las manufacturas farmacéuticas utilizaban
métodos de control de la producción basados en la muestra
(procedimiento de muestreo) con todas sus inconvenientes. Hoy día la
aplicación del ACP permite monitorizar el procesamiento en tiempo
real. Para poder controlar las etapas de procesamiento en lugar del
punto final en el producto.
Perfil Farmacofóro: Diseño de Nuevos Medicamentos Potenciales con Análisis de

ACP (Érica C. M. Nascimento y João B. L. Martins)
La búsqueda del perfil farmacóforo, propiedades electrónicas, estructurales,

electrostáticas y topológicas, de los lugares activos del receptor, así como, de las
interacciones del receptor con el ligando son fundamentales para el desarrollo de
nuevos fármacos potenciales para varias enfermedades tales como trastornos
cerebrales degenerativos, enfermedad de Alzheimer, Parkinson, Diabetes Mielittus y
cáncer.
En la química computacional moderna, los farmacóforos se utilizan para definir las

características esenciales de una o más moléculas con la misma actividad biológica
para el descubrimiento de fármacos tenga una contribución sobre el modelado
farmacóforo y así poder identificar y desarrollar nuevas moléculas potenciales con el
efecto biológico deseado.
El análisis multivariado (análisis de componentes principales - ACP) y cálculos de

química cuántica (teoría funcional de densidad - TFD) son algunas de las estrategias
que pueden conducir a la identificación de la principal información requerida para
describir lo esencial del perfil farmacóforo. El ACP se puede aplicar en los problemas
que implican la determinación del perfil farmacóforo de una clase particular de
moléculas.
Estudio empírico: ¿Es dificil para los administradores de fondos contrarrestar el

sentimiento de los inversores? (Tsai-Ling Liao, Chih-Jen Huang y Chieh-Yuan Wu)
En este artículo se evalúa la relación entre el sentimiento de los inversores y la medida

en que los gerentes de fondos mantienen sus operaciones. El estudio utiliza el ACP
como medio para extraer la medida de sentimiento no observado compuesto por diez
indicadores del mercado que pueden clasificarse en tres grupos: indicador de
sentimiento de valores individuales, indicador de sentimiento de mercado general y
indicador de sentimiento de fondo.
Aplicación del ACP para divulgar factores que influyen en la composición de

consorcios fúngicos que deterioran los tallos de los frutos en los cerezos amargos
(Donát Magyar y Gyula Oros)
En las ciencias agrícolas, donde se usan conjuntos de datos complejos con variables
bióticas y abióticas, la aplicación de estadísticas multivariadas es fundamental. En
estos estudios, el APC se aplica principalmente para reducir el número de variables de
entrada. Además, estos cálculos se usan para desarrollar aplicaciones de agricultura
de precisión usando el monitoreo de cultivos, para descubrir gradientes de la
estructura del terreno, para determinar el momento de la cosecha (Garcia-Mozo y
cols., 2007) o para evaluar métodos de muestreo. PCA se aplicó para analizar la
variabilidad de la producción de frutos a partir de datos de polen aerobiológicos, así
como para conectar los parámetros meteorológicos con los períodos de altas
concentraciones de polen. Este método demostró ser fiable para identificar las
fuentes y los patrones de dispersión de las bacterias aerotransportadas y las esporas
de hongos patógenos de las plantas, lo que resultó en el énfasis de su posible uso tanto
para la señalización de la aparición como para la identificación de fuentes de
patógenos vegetales. Esto último es importante para un control eficaz de plagas
Magyar 2007).
Aplicación del APC en la investigación taxonómica (Halina Kucharczyk y Marek

Kucharczyk)
El ACP es ampliamente utilizado en la investigación taxonómica de plantas y animales.
En este artícullo se aplica el ACP del insecto Thysanoptera
PCA - Un método potente para analizar nichos ecológico.
La diferenciación y partición de nichos es una cuestión ecológica en la que se utiliza

con frecuencia ACP. Eso permite la diferenciación eficiente entre las especies
parapatricas relacionadas. Para acceder al problema, los autores utilizan varios datos
de entrada disponibles, que pueden ser mediciones directas del nicho. Dado que la
forma y la composición del cuerpo pueden relacionarse fácilmente con la adaptación
al medio ambiente, la morfometría figura como un método de sustitución adecuado
para estudiar el nicho. Las características morfométricas representan un conjunto de
datos viable para evaluar la relación organismo-ambiente.
El índice de acceso a servicios de salud como determinante de la detección tardía del

cáncer (Eric Belasco, Billy U. Philips, Jr. y Gordon Gong).
Análisis de componentes principales aplicado a SPECT y datos de PET de pacientes

con demencia - Una revisión (Elizabeth Stühler y Dorit Merhof)
Índice de Valor Estético de Parques Públicos (M. K. Mohamad Roslan y M. I.

Norashikin)
Tema 11 - Análisis de Correspondencias
TEMA 11. “ANÁLISIS DE CORRESPONDENCIAS”
11.1. CONSTRUCCIÓN DE LAS NUBES DE PUNTOS Y

ELECCIÓN DE LAS DISTANCIAS

El Análisis de Correspondencias (ACO) es una técnica descriptiva o exploratoria cuyo

objetivo es resumir una gran cantidad de datos en un número reducido de dimensiones o
factores, con la menor pérdida de información posible.
El objetivo, por tanto, es similar al de los métodos factoriales, pero el método de ACO se
aplica sobre variables categóricas u ordinales. El ACO es, en realidad, un
análisis equivalente al Análisis de componentes principales y al Análisis factorial pero con
variables cualitativas.
Se distinguen, habitualmente, dos tipos de ACO, el análisis de correspondencias simples

(ACOS), que se utiliza cuando los datos a analizar tienen forma de tabla de contingencia
de dos variables nominales u ordinales y evalúa la relación existentes entre dichas
variables, y el análisis de correspondencias múltiple (ACOM), que se utiliza cuando los
datos tienen forma de tabla de contingencia multidimensional y se evalúa la relación
existente entre más de dos variables nominales (Figura 1; Fuente: Google)
Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una
variable cuyas categorías aparecen en filas y la otra variable cuyas categorías son
representadas en columnas, el ACO consiste en resumir la información presente en las
filas y columnas de manera que pueda proyectarse sobre un subespacio reducido, y
representarse simultáneamente los puntos fila y los puntos columna, pudiéndose
obtener conclusiones sobre relaciones entre las dos variables nominales u ordinales de
origen. Es decir, el ACO hay que entenderlo como una técnica descriptiva que nos va a
permitir elaborar un mapa perceptual de las categorías de las variables analizadas en un
espacio de pocas dimensiones (habitualmente 2). La mayor o menor distancia entre los
puntos representados reflejan relaciones de dependencia y semejanza más o menos
fuertes entre las categorías representadas (Peña, 2002).
Así, si la variable cualitativa fila representa el nivel cultural de las familias (bajo, medio y
alto) y la variable columna diferentes percepciones que los padres tienen sobre si ser hijo
único es bueno o malo (bueno, malo, depende, no sabe), el ACO produce un gráfico con
dos ejes en los cuales cada categoría fila y cada categoría columna están representadas
por puntos distintos (Figura1; Fuente: Google)
El ACO nos permite identificar las dimensiones básicas subyacentes a la combinación de

modalidades o niveles de dos o más variables cualitativas. El número máximo de
dimensiones que se pueden identificar en un ACS depende del número de categorías de
cada variable. Concretamente, si una variable tiene i categorías y la otra tiene j
categorías, el número de dimensiones (o factores) es min {I-1, J-1}). En el ACOM el
número máximo de dimensiones es Min {m, N-1}, donde m es el número de categorías de
las variables sin datos perdidos menos el número de dichas variables y N es el tamaño de
la muestra.
Los campos en los que se pueden aplicar el ACO y las preguntas a las que puede dar
respuesta son múltiples, por ejemplo, nos puede permite conocer si:
Existe alguna relación entre la opinión de los padres acerca de ser hijo
único y el nivel cultural
Determinados atributos de los coches están relacionados con determi

nadas marcas.
Existe alguna relación entre tener o no estrés laboral y el sector al que se

pertenece en la universidad.
Existe relación entre ser fumador con el género, con la hipertensión y

con la presencia de enfermedades cardiovasculares.
Existe relación entre las diferentes estrategias de búsqueda de empleo,

la provincia, el estrato de edad y el género.
Para resolver el problema, esto es, para analizar, desde un punto de vista gráfico, las
relaciones de dependencia e independencia de un conjunto de variables categóricas a
partir de los datos de una tabla de contingencia, debemos asociar a cada una de las
modalidades de la tabla, un punto en el espacio Rn (generalmente n=2) de forma que las
relaciones de cercanía/lejanía entre los puntos calculados reflejen las relaciones de
dependencia y semejanza existentes entre ellas.
11.2. ANÁLISIS DE LAS NUBES DE PUNTOS EN Rp Y Rn Y

RELACIONES ENTRE ELLAS

El punto de partida del ACO es una tabla de contingencia o tabla de correspondencias.

Supongamos que queremos estudiar las ideas de los padres acerca de si ser hijo único es
bueno o malo y el nivel cultural (Palacios, 1987). Para ello se selecciona una muestra de
600 madres y padres de la Comunidad Autónoma de Madrid de la que se obtiene la
siguiente información (Tabla I. Fuente: Google).
Marginal
Bueno Malo Depende No sabe
Nivel
Bajo 6 158 31 4 199
Medio 0 136 61 3 200
Alto 3 111 81 6 201
Marginal Opinión 9 405 173 13 600
En la Tabla I los valores que se encuentran en la intersección de cada fila y columna

corresponden a las frecuencias absolutas (número de sujetos) de cada combinación de
opinión por nivel cultural. A dichos valores se les denota genéricamente por nij. Don de i
representa a las categorías de la variable representada en las filas y j a las categorías de la

variable representada en las columnas. A la Tabla I, tabla de frecuencias, se le denomina
tabla de correspondencias o tabla de contingencia.
Además de las frecuencias para cada combinación de las categorías de las variables en la
tabla aparecen varios totales:
Marginal de fila: ni.: son los totales de cada fila
Marginal de columna: nj: son los totales de cada columna
Total: N es la suma de las frecuencias absolutas de todas las casillas
Tabla II. Matriz de Frecuencias Absolutas
1 2 3 4 Marginal Fila
1 n11 n12 n13 n14 n1.
2 n21 n22 n23 n24 n2.
3 n31 n32 n33 n34 n3.
Marginal Columna n.1 n.2 n.3 n.4 N
Tabla III. Matriz de Frecuencias Relativas
1 2 3 4 Marginal Fila
1 f11 f12 f13 f14 n1.
2 f21 f22 f23 f24 n2.
3 f31 f32 n33 f34 n3.
Marginal Columna f.1 f.2 f.3 f.4 N
Dónde
La tabla de correspondencias es el resultado de multiplicar dos matrices de datos

obtenidas a partir de la definición de I (i=1,…,n) variables binarias o dicotómicas
correspondientes a las categorías de una de las variables incluidas en el análisis y J (j=1,
…,p) variables binarias correspondientes a las categorías de la segunda variable incluida
en el análisis. Para los datos que estamos considerando las matrices serían (Figura 2.
Fuente: Google).
Xf es de orden 600x3. Las columnas corresponden a las tres categorías de la variable

Nivel cultural (colocada en las filas de la tabla). La matriz Xc es de orden 600x4. Las
columnas de corresponden a cuatro variables binarias (dicotómicas) definidas de las
cuatro categorías de la variable opinión (colocada en las columnas). Multiplicando
X’aXfb(o bien X’bXa) sumamos a todos los padres y madres que tienen cada par de
características y obtenemos la tabla de contingencia.
El análisis clásico de la posible relación entre las variables cualitativas se realiza mediante
una prueba de hipótesis nula. La H0: establece que las variables son independientes, la
H1: establece que las variables son dependientes. El estadístico de contraste es:
Donde nob son las frecuencias absolutas y nesp las esperadas bajo la H0.
Las frecuencias esperadas se obtienen aplicando la fórmula:
Para los datos que estamos analizando las frecuencias observadas y esperadas junto a
los residuales tipificados vienen dadas en la siguiente tabla (Tabla SPSS) (Figura 3. Fuente:
Google):
El estadístico de contraste se distribuye con (n-1) x (p-1) grados de libertad y se rechaza

la hipótesis nula si p < α. Los residuos tipificados corregidos se calculan con la expresión:
Mediante el test chi-cuadrado se puede comprobar que p < α, en consecuencia se rechaza

la H0. (Figura 4. Fuente: Google):
La distribución marginal de las variables es descrita por los perfiles marginales y vienen
dados por:
Tabla IV
Perfil Marginal de Fila
n1./N = f1.(199/600=0,3317)
n2./N = f2. (200/600=0,3333)
n3. /N = f3. (201/600=0,3350)
El conjunto de marginales fila (f1., f2., f3.) corresponde a la columna promedio se le

denomina centro de gravedad o centroide de las columnas.
Tabla V
Perfil Marginal Columna n.1/N=f.1 n.2/N=f.2 n.3/N=f.3 n.4/N
(9/600=0,02) (405/600=0,67) (173/600=0,29) (13/60
El conjunto de marginales columna (f.1, f.2, f.3, f.4) corresponde a la fila promedio se le
denomina centro de gravedad o centroide de las filas.
La distribución conjunta asociada a la tabla de correspondencias es descrita por los

perfiles condicionales.
Se pueden construir dos tablas de perfiles condicionales:
Tabla de perfiles-fila que describe la distribución condicionada de las

columnas para cada fila y se obtiene dividiendo las frecuencias absolutas
de la tabla de contingencia entre los marginales de fila (Tabla VI)
F(J/I) Bueno Malo Depende No sabe Marginal nivel
Bajo 6/199=0,03 158/199=0,79 31/199=0,16 4/199=0,02 1
Medio 0 136/200= 0,68 61/200=0,30 3/200=0,01 1
Alto 3/201=0,01 111/201=0,55 81/201=0,40 6/201=0,30 1
Perfil Marginal Columna 0,01 0,67 0,29 0,02
Tabla de perfiles-columna describe la distribución condicionada de la

variable nivel para cada categoría de la variable opinión y se obtiene
dividiendo las frecuencias absolutas entre los marginales de columna y
multiplicando por 100 (Tabla VII):
F(J/I) Bueno Malo Depende No sabe Perfil Marginal de Fila
Bajo 6/9=0,67 158/405=0 3931/173=0 184/13=0,31 0,33
Medio 0 136/405=0,3 461/173=0,35 3/13=0,23 0,33
Alto 3/9=0,33 111/405=0,27 81/173=0,47 6/13=0,46 0,33
1 1 1 1
Así pues existen dos nubes de puntos: una constituida por n puntos en Rp de
coordenadas y la otra constituida por p puntos en Rn de coordenadas, cuyos puntos
están afecta afectados de masas fi. Y f.j, respectivamente.
Para analizar el parecido de los perfiles-fila podemos construir un gráfico de líneas

colocando en el eje de abscisas la variable opinión (J). De la misma manera,
podemos representar los perfiles-columna colocando en el eje de abscisas el nivel
cultural (I) (Figura 5. Fuente: Google):
A la tabla (matriz) de perfiles-fila la denotamos como F. A la tabla (matriz) de

perfiles-columna la denotamos como C. Las filas de F pueden considerarse como
puntos en el espacio de las columnas (Rp). De la misma manera las columnas de C
pueden considerarse como puntos en el espacio de las filas (Rn). Para medir la
distancia entre los puntos representados indistintamente en el espacio Rp o Rn se
utiliza la distancia 2. La distancia 2 entre la fila 1 y la fila 2 de F (correspondientes a
los perfiles de nivel bajo y medio) vendría dada por:
La matriz de distancias Df obtenida a partir de F viene dada por (Figura 6. Fuente:
Google):
Del mismo modo, podemos calcular la matriz de distancias 2 entre los perfiles
columna. La distancia entre las columna 1 y 2 de C viene dada por:
Y la matriz de distancia es (Figura 7. Fuente: Google):
En el ACO existe una matriz similar a la matriz de correlaciones o de varianzas

covarianzas del AF, denominada matriz de dispersión o matriz de inercia. La matriz de
inercia se obtiene multiplicando la matriz X cuyo término general es:

Por la traspuesta de X, la matriz de inercia a partir de las filas viene dada por:
SF=X’ X
La suma de los elementos de la diagonal de S equivale a la varianza inicial a

factorizar y viene dada por:
El resto de los elementos de S equivalen a las covarianzas.
Análogamente la matriz de dispersión para las columnas se puede obtener

mediante el producto:
Sc=X X’
La suma de la inercia de las filas (traza de la matriz X’X) es igual a la suma de la

inercia de las columnas (traza de la matriz XX’) y la inercia es igual al estadístico 2
dividido por el número de sujetos N.
Una vez obtenida la matriz de inercia, el ACO es equivalente al ACP. Se obtiene la

primera componente de manera que explique la máxima varianza, la segunda
componente de manera que explique la máxima varianza de la restante y así hasta
obtener tantas componentes como (J-1) (I-1).
11.3. RECONSTRUCCIÓN DE LA TABLA DE FRECUENCIAS

ORIGINAL

El objetivo último de las técnicas factoriales en general es resolver, teniendo en cuenta

determinados criterios, un problema de aproximación de la matriz inicial de datos X, a
partir de la que actúa la respectiva técnica factorial en cada caso, mediante un número
menor de valores numéricos. Por ejemplo, en el ACP y el ACO, no es la matriz bruta inicial
de datos sino ciertas matrices transformadas de ella.
La aproximación tiene lugar mediante matrices de bajo rango, en el contexto del

problema general de obtener la aproximación de una matriz dada (mediante un criterio
de mínimos cuadrados). Y ello se consigue, desde un punto de vista general, mediante la
descomposición de valores singulares. En el AF este problema es resuelto mediante los
autovalores-autovectores de X´X y de XX′.
En términos de λ1, . . . , λq, se verifica que:
La fórmula de reconstrucción en el ACO viene dada por:
11.4. POSICIÓN DE LOS ELEMENTOS SUPLEMENTARIOS

Los elementos suplementarios son filas o columnas de la tabla de contingencia no

utilizadas en el cálculo de los ejes factoriales pero que, una vez calculados éstos, se sitúan
en el diagrama cartesiano con el fin de ayudar en la interpretación de los resultados
obtenidos. Sus coordenadas se calculan utilizando las relaciones baricéntricas existentes
entre los puntos fila y columna.
Relaciones baricéntricas.
Tomando un punto como origen, para todo punto P del plano del triángulo ABC, se
denota por el vector con extremo en este punto y, para dos puntos P y Q, se tiene que
. Como , forman una referencia afín, existen unos únicos
escalares x, y, z .
Los escalares están determinados por el punto P y el triángulo ABC. Se

dice que x, y, z son las coordenadas barométricas (absolutas) de P, repecto a ABC y se
pone P (x, y, z) (Figura 8. Fuente: Google):
11.5. INTERPRETACIÓN DE LOS RESULTADOS:

CONTRIBUCIONES ABSOLUTAS Y RELATIVAS
La inercia de un eje α es la suma de las inercias de los puntos fila proyectados en dicho
eje, λα = ... o de los puntos columna proyectados en dicho eje, λα = ...
La contribución absoluta de un punto fila o columna a un eje es la cantidad de inercia que

aporta una categoría (un punto fila o columna) a la inercia de un eje.
Las categorías con contribuciones absolutas más altas son las protagonistas en la
construcción del eje, y nos van a servir para interpretar el sentido de los ejes principales.
La contribución relativa nos indica si los puntos están bien representados en los nuevos
ejes.
Existen algunas reglas fundamentales para interpretar del ACO:
Existe asociación entre variables si se rechaza la hipótesis nula de

independencia. Aún sin rechazarse la existencia de grandes diferencias
en los porcentajes de varianza explicada de los distintos factores se
interpretaría en términos de asociación de variables.
Buscamos los puntos (categorías) que más contribuyan (contribuciones

absolutas) a la inercia de la dimensión.
Buscamos los puntos (categorías) mejor explicados por un factor

(contribuciones relativas). Cuanto mayor sea la contribución relativa
mejor representada está la categoría en el factor.
Los cosenos al cuadrado permiten saber si un punto está bien

representado sobre el eje factorial. La calidad de la representación de un
punto sobre el eje será tanto mayor cuando más próximo a 1 sea el
coseno al cuadrado.
La proximidad entre categorías de variables se interpreta en términos de

asociación o dependencia. Una regla que se suele utilizar es que se
pueden considerar categorías próximas aquellas que forman ángulos
menores de 60 grados.
Para interpretar los factores se buscan categorías contrapuestas.
11.6. CONTRASTES DE HIPÓTESIS

La existencia o no de algún tipo de relación entre las variables X e Y se analiza mediante

contrastes de hipótesis sobre la independencia de dichas variables. El test de hipótesis
habitualmente utilizado es el de la χ2 de Pearson. En dicho test la hipótesis nula es H0: X e
Y son independientes y la alternativa es H1: X e Y son dependientes El test se basa en

comparar los perfiles fila y columna con los perfiles marginales correspondientes,
teniendo en cuenta que si H0 es cierta todos los perfiles fila (resp. columna) son iguales
entre sí e iguales al perfil marginal de X (resp. de Y).
Como mencionamos en el apartado 11.1, mediante el test chi-cuadrado se puede

comprobar que p < α, y en consecuencia rechazar la H0.
Si la hipótesis nula se rechaza, las variables X e Y son dependientes. En este caso

conviene analizar los perfiles condicionales fila y columna así como los residuos del
modelo para estudiar qué tipo de dependencia existe entre ellas. Los residuos más
utilizados son los llamados residuos tipificados corregidos:
Los residuos se distribuyen asintóticamente como una N(0,1) la hipótesis H0 y, a un nivel

del 95.5% de confianza, residuos con un valor absoluto mayor que dos se consideran
como valores anormalmente altos.
Tema 12 - Análisis de Conglomerados
TEMA 12. ANÁLISIS DE CONGLOMERADOS
12.1. DISTANCIAS Y SIMILARIDADES

El principio en el que se basa el Análisis de Conglomerados (AC) es la maximización de la

homogeneidad intragrupos (conglomerados, segmentos) y simultáneamente la
maximización de la heterogeneidad intergrupos (Figura 1. Fuente: Google).
El objetivo es identificar grupos de manera que la variabilidad intra clase sea inferior a la
variabilidad entre clases.
Dado que el objetivo fundamental es realizar una partición de la muestra en grupos

similares, el punto de partida o primera etapa en el AC es una matriz de similaridades o
matriz de distancias entre los sujetos, objetos o variables que queremos agrupar.
Partiendo de la matriz de datos original obtenemos una matriz de similaridades.
Si X es una muestra de m individuos sobre los que medimos p variables, los valores que
toman los individuos para cada variable que se estudia se puede representar en una
matriz de datos (Figura 2, Fuente: Google)
Una vez tenemos la matriz debemos buscar los segmentos o grupos (clusters) en que se
pueden dividir los m individuos de forma que cada individuo pertenezca a un grupo y
solamente a uno.
En la Figura 3 se ilustra muy bien como obtenemos una matriz de similaridades a partir de
la matriz de origen.
Es de suponer que si queremos agrupar a los elementos de la muestra en grupos en

primer lugar tenemos que definir que criterio o criterios vamos a utilizar para formar los
conglomerados.
El AC puede realizarse por variables o sujetos:
Si se pretende agrupar a los individuos en grupos se ha de realizar un

análisis cluster (conglomerados) de los individuos
Si se pretende agrupar las variables más parecidas se debe realizar un

análisis cluster de las variables, para ello basta considerar la matriz de
datos inicial X'
Para poder unir variables o individuos es necesario tener algunas medidas numéricas que
caractericen las relaciones entre las variables o los individuos. Cada medida refleja
asociación en un sentido particular y es necesario elegir una medida apropiada para el
problema concreto que se esté tratando.
La medida de asociación puede ser una distancia o una similaridad.
Cuando se elige una distancia como medida de asociación (por ejemplo,

la distancia euclídea, la distancia "ordinaria" que se mediría con una regla
entre dos puntos) los grupos formados contendrán individuos parecidos
de forma que la distancia entre ellos ha de ser pequeña. La distancia
verifica que:
d(x,x) ≥ 0
d(x,y) = 0; x = y
d(x,y) = d(y,x)
d(x,z) ≤ d(x,y) + d(y,z)
Cuando se elige una medida de similaridad (por ejemplo, el coeficiente de

correlación) los grupos formados contendrán individuos con una
similaridad alta entre ellos. La similaridad verifica que si S0 es un número
real finito arbitrario, entonces:
S (x,y) ≤ S0
S (x,x) = S0
S (x,y) = S(y,x)
S (x,y) = S0; x = y
│S (x,y) + S (y,z) │ S (x,z) ≥ S (x,y) S (y,z)
Dependiendo del tipo de análisis (por variables o por individuos) que se realiza, existen
distintas medidas de asociación aunque, técnicamente, todas las medidas pueden
utilizarse en ambos casos (Tabla I)
Medidas de asociación para variables Medidas de asociación para individuos
Coseno del ángulo de dos vectores Distancia Euclídea
Coeficiente de correlación Distancia de Minkowski
Medidas para datos dicotómicos Distancia d1 o ciudad (City Block)
Medida de Ochiai Distancia de Tchebychev o del máximo
Medida de Russell y Rao Distancia de Mahalanobis
Medida Φ Distancia χ2
Medida de Parejas simples
Medida de Jaccard
Medida de Dice
Medida de Rogers-Tanimoto
Los métodos de AC se dividen en:
1. Métodos Jerárquicos. Su objetivo es agrupar cluster para formar uno nuevo o

separar alguno ya existente para dar origen a otros dos de forma que se maximice
una medida de similaridad o se minimice alguna distancia. A su estos pueden ser:
a. Asociativos o Aglomerativos: Se parte de tantos grupos como individuos

hay en el estudio y se van agrupando hasta llegar a tener todos los casos en un
mismo grupo.
b. Disociativos: Se parte de un solo grupo que contiene todos los casos y a

través de sucesivas divisiones se forman grupos cada vez más pequeños.
Una característica especial de los métodos jerárquicos es que permiten construir

un árbol de clasificación llamado dendograma. Es una representación gráfica en
forma de árbol que resume el proceso de agrupación en un análisis de clusters,
muestra: a) qué elementos se han ido uniendo en cada paso; b) cómo se organizan
los casos; y c) cuántos conglomerados podemos distinguir en los datos. Los objetos
similares se conectan mediante enlaces cuya posición en el diagrama está
determinada por el nivel de similitud/disimilitud entre los objetos. Para crear un
dendograma, de partida cada observación es considerada como un conglomerado
independiente (Figura 4A). A continuación se agrupan los dos casos más próximos
entre sí (Figura 4B). Después se agrupan los siguientes casos con menores
distancias entre ellos (Figura 4C). Posteriormente se junta la obs 3 en el cluster 1
(Figura 4D) y para terminar se unen los dos clusters 1 y 2, quedando un sólo caso
desparejado: un outlier (Figura 4E)
Figura 4
2. Métodos no Jerárquicos: están diseñados para la clasificación de individuos (no

de variables) en K grupos. El procedimiento es elegir una partición de los individuos
en K grupos e intercambiar los miembros de los clusters para tener una partición
mejor.
En la Figura 5 aparece representado un esquema con todos los métodos de AC que

podemos utilizar, clasificados en jerárquicos y no jerárquicos
Y, en la Figura 6, se representan las principales tipologías de agrupamiento
12.2. CLASIFICACIÓN ASCENDENTE JERÁRQUICA:

MÉTODO DE LA UNIÓN SIMPLE, MÉTODO DE LA UNIÓN
COMPLETA, MÉTODOS DEL CENTROIDE

12.2.1. MÉTODO DE LA UNIÓN SIMPLE O LINKAGE SIMPLE

AGLOMERATIVO (VECINO MÁS PRÓXIMO)
Una vez que se conocen las distancias existentes entre cada dos individuos se
observa cuáles son los individuos más próximos en cuanto a esta distancia o
similaridad (qué dos individuos tienen menor distancia o mayor similaridad). Estos
dos individuos forman un grupo que no vuelve a separarse durante el proceso. Se
repite el proceso, volviendo a medir la distancia o similaridad entre todos los
individuos de nuevo (tomando el grupo ya formado como sí de un solo individuo se
tratara) de la siguiente forma:
Cuando se mide la distancia entre el grupo formado y un individuo,

se toma la distancia mínima de los individuos del grupo al nuevo
individuo.
Cuando se mide la similitud o similaridad entre el grupo formado y

un individuo, se toma la máxima de los individuos del grupo al
nuevo individuo.
La distancia entre A y B se calcula mediante dAB = min (dij).
El proceso se puede representar en un árbol de clasificación llamado

dendograma (Figura 7; Fuente: Google)
El número de grupos se puede decidir a posteriori.
Si se desea clasificar estos elementos en dos grupos, la clasificación

resultante es: B‐D y A‐C
Si se desean tres grupos, se toma la clasificación en el paso

anterior: B‐D, A y C.
12.2.2. MÉTODO DE LA UNIÓN COMPLETA O LINKAGE COMPLETO

AGLOMERATIVO (VECINO MÁS CERCANO)
Conocidas las distancias o similaridades existentes entre cada dos individuos se

observa cuáles son los individuos más próximos en cuanto a esta distancia o
similaridad (qué dos individuos tienen menor distancia o mayor similaridad). Estos
dos individuos formarán un grupo que no vuelve a separarse durante el proceso.
Posteriormente, se repite el proceso, volviendo a medir la distancia o similaridad
entre todos los individuos de la siguiente forma:
Cuando se mide la distancia entre el grupo formado y un individuo, se

toma la distancia máxima de los individuos del grupo al nuevo individuo.
Cuando se mide la similitud o similaridad entre el grupo formado y un

individuo, se toma la mínima de los individuos del grupo al nuevo
individuo.
El proceso se puede representar en un árbol de clasificación, dendograma (Figura 8;

Fuente: Google)
La distancia entre A y B se calcula mediante dAB = max (dij).
12.2.3. MÉTODOS DEL CENTROIDE
El método de agrupación de centroides calcula la distancia entre dos

conglomerados como la distancia entre sus vectores de medias. Con este método la
matriz de distancias original sólo se utiliza en la primera etapa. En las etapas
sucesivas se utiliza la matriz de distancias actualizada en la etapa previa. En cada
etapa, el algoritmo utiliza la información d ellos dos conglomerados (o elementos)
fundidos en esa etapa previa y el conglomerado que se intenta unir esa etapa. La
distancia entre el conglomerado AB y el elemento C se calcula:
Una desventaja de este método es que la distancia entre dos conglomerados puede
disminuir a medida que progresa el análisis, ya que los conglomerados unidos en los
últimos pasos son más diferentes entre sí que los que se unen en las primeras
etapas.
En este método el centroide de un conglomerado es la combinación ponderada de

los dos centroides de sus dos últimos conglomerados (o elementos), siendo las
ponderaciones proporcionales a los tamaños de los conglomerados.
12.3. CLASIFICACIÓN JERÁRQUICA DESCENDENTE:

MÉTODO MONOTÉTICO Y MÉTODO POLITÉTICO

12.3.1. MÉTODO MONOTÉTICO
El método monotético es un método disociativo, que procede separando entre

individuos que la tienen una característica definida de los que no la tienen.
Se utiliza cuando todas las variables son binarias,(0 o 1).
En primer lugar, se elige la variable con mayor asociación con las demás. Usando
esta variable, se divide el conglomerado en dos, uno en que ésta toma el valor 0, y
otro en que toma el valor 1. Se repite en proceso en los dos conglomerados
resultantes. El proceso se detiene cuando todos los conglomerados tienen un solo
objeto o bien tienen objetos idénticos.
12.3.2. MÉTODO POLITÉTICO
Es un método basado en un gran número de características y no se exige que todos

los miembros de un conglomerado posean todas las características, (aunque sí que
tengan cierta homogeneidad en ellas). Usualmente se procede en estos casos de
forma aglomerativa.
12.4. CLASIFICACIÓN NO JERÁRQUICA: AGREGACIÓN DE

CENTROS MÓVILES

El análisis no jerárquico, a diferencia del análisis jerárquico, parte de la matriz original de

las puntuaciones y no de la matriz de proximidades, y los clusters resultantes no están
anidados unos en otros, sino que son independientes.
Muchos autores consideran que los métodos no jerárquicos son los que mejor se adaptan
a los estudios sociológicos y de mercados caracterizados por el empleo de grandes
conjuntos de datos.
Se aconseja su utilización cuando se desea, no tanto analizar la estructura jerárquica de

los individuos, sino conocer el número de grupos construidos y las características de cada
uno. En muchas situaciones conviene realizar el análisis de conglomerados no jerárquico
aplicando puntuaciones factoriales. Una de las ventajas de utilizar puntuaciones
factoriales es la facilidad para conseguir que los datos cumplan los requisitos
imprescindibles para utilizar el AC.
Estos métodos calculan en cada etapa las distancias entre los casos y el centroide de los
conglomerados, a diferencia de los métodos jerárquicos que calculan las distancias entre
todos los pares de objetos.
Las diferencias fundamentales entre los clusters jerárquicos y no jerárquicos son (Tabla
II):
JERÁRQUICO NO JERÁRQUICO
No exigen una definición previa del número de

Exigen definir previamente el número de
conglomerados. ƒ
clusters.

Llevan a cabo un proceso iterativo, de abajo hacia arriba

Poseen algunos índices que indican el número
con (n-1) pasos, partiendo de n grupos para terminar en
óptimo de conglomerados.
1 (aglomerativos).

Proporcionan los valores de los centroides de los

Permite obtener distintos tipos de resultados gráficos y
grupos, lo que facilita la interpretación. ƒ
numéricos que facilitan la interpretación de los
resultados. ƒ
Ofrecen resultados adicionales que permiten

seleccionar las variables para la interpretación de
Precisan una gran cantidad de cálculos, que en
los conglomerados.
ocasiones limita la posibilidad de aplicación con
muestras muy grandes. ƒ
Sólo pueden aplicarse sobre casos. Dan

soluciones de tipo óptimo.
Pueden aplicarse sobre los casos y sobre las variables. ƒ
Entre los métodos no jerárquicos, el más importante es el método K- medias sin

especificar los centros de los conglomerados. Con centros desconocidos, el método K -
medias comienza con una división del conjunto de los datos en (x) grupos configurados al
azar y posteriormente busca mejorar esta primera clasificación reasignando los
elementos al centroide del cluster más cercano, tratando de reducir la distancia media
entre cada elemento de un grupo y su centroide.
El proceso de funcionamiento de este método es el siguiente:
1. Se comienza con una partición inicial de los datos en un especifico número de

agrupamientos, para calcular posteriormente el centroide de cada uno. Esta
partición inicial comienza con los casos más alejados entre sí.
2. El siguiente paso trata de reasignar cada caso al agrupamiento más cercano,

aquel cuya distancia al centro de gravedad del conglomerado sea menor. No hay
que olvidar que en el método de K-medias, al formar parte de los métodos de
reasignación, un caso asignado a un conglomerado en una determinada iteración
puede ser reasignado a otro caso en una iteración posterior.
3. Calcula los nuevos centroides de los conglomerados cada vez que se incorpora un
nuevo caso.
4. Repite alternativamente el segundo y el tercer paso hasta que ninguna

reasignación de un caso a un nuevo cluster permita reducir más la distancia entre
los individuos dentro de cada agrupamiento, ni aumentar la distancia entre los
distintos clusters.
Tema 13 - Escalonamiento
TEMA 13. ESCALONAMIENTO
13.1. ESCALONAMIENTO DE OBJETOS Y/O SUJETOS

El Escalamiento Multidimensional (EMD) es un conjunto de técnicas que persiguen como

objetivo la representación de datos a través de la construcción de una configuración de
puntos cuando se conoce una determinada información sobre proximidades entre
objetos. Es decir, su propósito es transformar los juicios de similitud o preferencia
llevados a cabo por una serie de individuos sobre un conjunto de objetos o estímulos en
distancias susceptibles de ser representadas en un espacio multidimensional.
En la actualidad, el EMD puede ser apto para gran cantidad de tipos diferentes de datos
de entrada (tablas de contingencia, matrices de proximidad, datos de perfil,
correlaciones, etc.).
Y puede ayudar a determinar por ejemplo, ƒ qué dimensiones utilizan los encuestados a
la hora de evaluar a los objetos; cuántas dimensiones utilizan; la importancia relativa de
cada dimensión; cómo se relacionan perceptualmente los objetos.
Los requisitos para poder llevar a cabo un EMD son:
a) Partir de un conjunto de números, llamados proximidades o similaridades, que

expresan todas o la mayoría de las combinaciones de pares de similaridades dentro
de un grupo de objetos, y,
b) Contar con un algoritmo implementado computacionalmente para llevar a cabo

el análisis.
El primer requisito trata con los conceptos de objeto-estímulo y de similaridad–

disimilaridad–distancia y el segundo requisito se refiere al procedimiento para alcanzar
una configuración de puntos que refleje las similaridades observadas o percibidas.
Los términos objeto y estímulo se usan de manera intercambiable. Realmente un objeto

es simplemente una cosa, un individuo o un evento, mientras que estímulo se refiere al
objeto percibido, o sea, a la percepción del objeto.
Las medidas de semejanza, como una aplicación de valores numéricos que permiten
expresar numéricamente el vínculo existente entre estímulos, son aquí fundamentales.
Los conceptos de similaridad, disimilaridad y distancia, como medidas de semejanza,
poseen propiedades específicas que deben tenerse en cuenta.
El punto de partida es una matriz de disimilaridades entre n objetos, con el elemento δij
en la fila i y en la columna j, que representa la disimilaridad del objeto i al objeto j.
También se fija el número de dimensiones, m, para hacer el gráfico de los objetos en una
solución particular. Generalmente el camino que se sigue es:
1. Organizar los n objetos en una configuración inicial en m dimensiones, esto es,

suponer para cada objeto las coordenadas (x1, x2, ..., xm) en el espacio de m
dimensiones.
2. Calcular las distancias euclidianas entre los objetos de esa configuración, esto es,
calcular las dij, que son las distancias entre el objeto i y el objeto j.
3. Hacer una regresión de dij, sobre δij. Esta regresión puede ser lineal, polinomial o
monótona. Por ejemplo, si se considera lineal se tiene el modelo: dij = a + b δij. . Y
utilizando el método de los mínimos cuadrados se obtienen estimaciones de los
coeficientes a y b, y de ahí puede obtenerse lo que genéricamente se conoce como
una “disparidad”.
4. A través de algún estadístico conveniente se mide la bondad de ajuste entre las

distancias de la configuración y las disparidades. Existen diferentes definiciones de
este estadístico, pero la mayoría surge de la definición del llamado índice de
esfuerzo (en inglés: STRESS).
5. Las coordenadas (x1, x2, ..., xm) de cada objeto se cambian ligeramente de tal
manera que la medida de ajuste se reduzca.
Los pasos del 2 al 5 se repiten hasta que al parecer la medida de ajuste entre las
disparidades y las distancias de configuración no puedan seguir reduciéndose. El
resultado final del análisis es entonces las coordenadas de los n objetos en las m
dimensiones. Estas coordenadas pueden usarse para elaborar un gráfico que muestre
cómo están relacionados los objetos. Lo ideal sería encontrar una buena solución en
menos de tres dimensiones, pero esto no es siempre posible.
13.2. MODELOS DE ESCALONAMIENTO

De modo general, podemos decir que el EMD toma como entrada una matriz de
proximidades Δ∈Μnxn, donde n es el número de estímulos. Cada elemento δij de Δ
representa la proximidad entre el estímulo i y el estímulo j (Figura 1; Fuente: Google)
A partir de esta matriz de proximidades nos proporciona como salida una matriz
X∈Μnxm, donde n, al igual que antes, es el número de estímulos, y m es el número de
dimensiones. Cada valor xij representa la coordenada del estímulo i en la dimensión j
(Figura 2; Fuente: Google).
A partir de esta matriz X se puede calcular la distancia existente entre dos estímulos
cualesquiera i y j, simplemente aplicando la fórmula general de la distancia dij = a + b δij.
A partir de estas distancias podemos obtener una matriz de distancias que denominamos
D∈Mnxn (Figura 3; Fuente: Google)
La solución proporcionada por el EMD debe ser de tal modo que haya la máxima
correspondencia entre la matriz de proximidades inicial Δ y la matriz de distancias
obtenidas D. Para que exista la máxima correspondencia EMD proporciona varias
medidas, que veremos más adelante, y que nos informan sobre la bondad del modelo.
Existen dos modelos básicos de EMD que son: el modelo de escalamiento métrico y el
modelo de escalamiento no métrico. En el primero de ellos consideramos que los datos
están medidos en escala de razón o en escala de intervalo y en el segundo consideramos
que los datos están medidos en escala ordinal. No se ha desarrollado todavía ningún
modelo para datos en escala nominal.
Modelo de escalamiento métrico. Todo modelo de escalamiento parte de

la idea de que las distancias son una función de las proximidades, es decir,
dij = f (δij). En el modelo de escalamiento métrico partimos del supuesto
de que la relación entre las proximidades y las distancias es de tipo lineal:
dij = a+bδij.
El procedimiento consiste en transformar la matriz de proximidades Δ∈Μnxn, en

una matriz de distancias D∈Mnxn, de tal forma que verifique los tres axiomas de la
distancia euclídea:
1. No negatividad dij ≥ 0 = dii
2. Simetría dii = dii
3. Desigualdad triangular dii ≤ dik + dkjj
Los dos primeros axiomas son fáciles de cumplir, pero el tercer axioma no se cumple
siempre. Este problema se conoce con el nombre de “estimación de la constante
aditiva”. Torgerson solucionó este problema, estimando el valor mínimo de c que
verifica la desigualdad triangular de la siguiente forma:
Cmin = max (i j k ){δij, δ ik , δ kj}
De esta forma las distancias se obtienen sumando a las proximidades la constante c,

es decir, dij=δij+c.
Una vez obtenida la matriz D∈Mnxn es necesario transformarla en una matriz

B∈Mnxn de productos escalares entre vectores mediante la siguiente
transformación (Figura 4 y 5; Fuente: Google):
Una vez llegados a este punto, lo único que queda es transformar la matriz B∈Mnxn
en una matriz X∈Μnxm tal que B=X·X’, siendo X la matriz que nos da las
coordenadas de cada uno de los n estímulos en cada una de las m dimensiones.
Cualquier método de factorización permite transformar B en X·X’.
En resumen el procedimiento consiste en transformar:
Δ (Proximidades) → D (Distancias) → B (Productos escalares) → X (coordenadas)
Modelo de escalamiento no métrico.- A diferencia del escalamiento

métrico, el modelo de escalamiento no métrico no presupone una
relación lineal entre las proximidades y las distancias, sino que establece
una relación monótona creciente entre ambas, es decir, si:
δij < δkl ⇒dij ≤ dkl

Su desarrollo se debe a Shepard (1962) quién demostró que es posible obtener

soluciones métricas asumiendo únicamente una relación ordinal entre
proximidades y distancias. Posteriormente Kruskal (1964) mejoró el modelo.
El procedimiento se basa en los siguientes apartados:
1) Transformación de la matriz de proximidades en una matriz de rangos,

desde 1 hasta (n (n – 1))/2.
2) Obtención de una matriz X∈Μnxm de coordenadas aleatorias, que nos da la

distancia entre los estímulos.
3) Comparación de las proximidades con las distancias, obteniéndose las

disparidades (ďij).
4) Definición del Stress.
5) Minimización del Stress.
Tanto para el modelo métrico como para el modelo no métrico es necesario obtener
un coeficiente que nos informe sobre la bondad del modelo. Sabemos que las
distancias son una función de las proximidades, es decir:
f: δij(x) →dij(x)
De esta forma se tiene que dij=f(δij). Esto no deja ningún margen de error, sin
embargo, en las proximidades empíricas es difícil que se dé la igualdad, con lo que
generalmente ocurre que dij ≈ f(δij).
A las transformaciones de las proximidades por f se le denomina disparidades. A

partir de aquí podemos definir el error cuadrático como:
e2 ijij= (f (δij )- d2ij
Como medida que nos informa de la bondad del modelo podemos utilizar el Stress
que Kruskal definió como (Figura 6; Fuente:Google):
Mientras mayor sea la diferencia entre las disparidades y las distancias, es decir,
entre f(δij) y dij, mayor será el Stress y por tanto peor será el modelo. Por tanto, el
Stress no es propiamente una medida de la bondad del ajuste, sino una medida de la
no bondad o “maldad” del ajuste. Su valor mínimo es 0, mientras que su límite
superior para n estímulos es la raiz cuadrada de 1−(2/ n) .
Kruskal (1964) sugiere las siguientes interpretaciones del Stress:
0.2 → Pobre
0.1 → Aceptable
0.05 → Bueno
0.025 → Aceptable
0.0 → Excelente
También se suele utilizar una variante del Stress que se denomina S-Stress, definida
como (Figura 7; Fuente:Google):
Otra medida que se suele utilizar es el coeficiente de correlación al cuadrado (RSQ),

que nos informa de la proporción de variabilidad de los datos de partida que es
explicada por el modelo. Los valores que puede tomar oscilan entre 0 y 1, al ser un
coeficiente de correlación al cuadrado. Valores cercanos a 1 indican que el modelo
es bueno y valores cercanos a 0 indican que el modelo es malo. Su expresión es
(Figura 8; Fuente:Google):
La mayoría de los paquetes estadísticos tienen implementados tanto los algoritmos

para obtener soluciones con EMD así como las medidas para determinar si el
modelo es adecuado o no. En la actualidad todo los algoritmos implementados en
los paquetes estadísticos son reiterativos, de forma que se alcance la mejor
solución posible.
Bibliografía
BIBLIOGRAFÍA
BLOQUE 1

UNIDAD FORMATIVA 1
Catena A, Ramos M y Trujillo H (2003). Análisis Multivariado. Un manual

para investigadores. Madrid: Biblioteca Nueva.
Cuadras CM (1981) Métodos de análisis multivariante. Barcelona:

Eunibar. Segunda edición PPU, 1991.
González B (1991) Analisis multivariante. Aplicación al ámbito sanitario.
Johnson RA y Wichern D (1998) Applied multivariate statistical análisis.

2nd Edition. Prentice Hall. Nueva Jersey
Kendall, MG y Buckland WR. (1957) A dictionary of Statistical Terms , 1st

edition. International Statistical Institute by Oliver & Boyd, London.
Kinnear TC y Taylor JR (1971) Multivariate methods in marketing

research: A further attempt at classification. Journal of Marketing.
Peña D (2001). Fundamentos de Estadística. Madrid. Alianza.
Seber GAF (1984) Multivariate Observations, John Wiley.
Sheth JN (1968) Applications of Multivariate Methods in Marketing
UNIDAD FORMATIVA 2
Cuadras CM (2014). Nuevos Métodos de análisis multivariante. CMC.

Editions. Barcelona.
Waller, NG (2011). The geometry of enhancement in multiple regresion.

Psychometrika, 76, 634-649.
UNIDAD FORMATIVA 3
Härdle W. y Simar L. (2007).
Peña D. (2002). Análisis de datos multivariantes. Mc Graw Hill.
UNIDAD FORMATIVA 4
Seber GAF (1984) Multivariante observations. Wiley
Anderson TW (1984) An introduction to Multivariate Statistical

Analysis. Wiley
BLOQUE 2

UNIDAD FORMATIVA 5
CUADRAS CH (1991) Métodos de Análisis Multivariante. Universitaria

de Barcelona.
HAIR JF, TATHAM RL, ANDERSON RE Y BLACK W (1998) Multivariate

Data Analysis (5th Edition). Prentice.
JOHNSON RA y WICHERN DW (2002) Applied Multivariate Statistical

Analysis, 5ª edición. Prentice Hall.
PEÑA D (2002) Análisis de datos multivariantes. McGraw Hill, 2002.
PEÑA D (2002) Regresión y diseño de experimentos. Alianza

Universidad Textos.
UNIDAD FORMATIVA 6
Cuadras, Carles M. (2008), Nuevos Métodos de Análisis Multivariante,

Universidad de Barcelona, España.
Dobson, Annette J. (2002), An introduction to generalized linear models,

second edition, Chapman & Hall/crc, United States of America.
Fahrmeir, L. And Kaufman, H. (1985). Consistency and asymptotic

normality of the maximun likelihood estimator in generalized linear
models
Hardin, James W.; Hilbe, Joseph M. (2007), Generalized Linear Models

and Extensions, second edition, Stata Press. United States of America.
J. F. Hair, Jr., R. E. Anderson, R. L. Tatham, W. C. Black, 1999, Análisis

Multivariante, quinta edición, Pearson Prentice Hall.
Lindsey, James K. (1997), Applying Generalized Linear Models, Springer

Verlag. McCullagh, P and Nelder, J. A. (1989), Generalized Linear Models,
second edition, Chapman and Hall.
Peña, Daniel. (2002), Análisis de Datos Multivariante, primera edición,

McGraw-Hill \ Interamericana de España.
UNIDAD FORMATIVA 7
Agresti A (2002). Categorial Data Analysis. Wiley
Catena A, Ramos M y Trujillo H (2003). Análisis multivariado. Madrid:

Biblioteca nueva.
Hair JF, Anderson RE, Tatham RL, y Blac
Pardo A (2002). Análisis de datos categóricos
Silva Aycaguer LC (1994). Excursión a la regresión logística en Ciencias

de la Salud. Madrid: Díaz de Santos
UNIDAD FORMATIVA 8
CATTIN, P. y WITTINK, D.R. (1.982):"Commercia1 Use of Conjoint

Analysis: A Survey". Journa1 of Marketing.46 (verano), pp. 44-53.
GREEN, P.E. y RAO, V.R. (1.971):"Conjoint Measurement for Quanti -

fying Judgmental Data". Journa1 of Marketing Research.vol.8 (mayo), pp.
355-363.
HAGERTY, M.R. (1.985):"Improving the Predictive Power of Conjoint
Analysis. The Use of Factor Analysis and Cluster Analysis". Journa1 of

Marketing Research.v o 1. 22 (mayo), pp. 168-184.
Varela, J. (2000). Modelización de atributos múltiples. Escalamiento

multidimensional y análisis conjunto. En J. Martínez Gastey y otros
(Coords.), La investigación en marketing (Tomo II, pp. 609-676).
Barcelona: AEDEMO
Smith, S. M. (1990). PC-MDS. Multidimensional Statistics Package. User

´s Manual. Provo, UT: Brigham Young University
Varela, J., Rial, A. y García, A. (2003). Análisis conjunto. En J. Varela y J. P.

Levy (Eds.), Análisis multivariable para las ciencias sociales (pp. 507-566).
Madrid: Pearson Educación.
BLOQUE 3

UNIDAD FORMATIVA 9
Peña D (1987). Estadística, Modelos y Métodos. Volumen 2. Alianza

Editorial. Madrid. ISBN: 84-206-811-5
Shlens J (2002). A tutorial on Principal Component Analysis
UNIDAD FORMATIVA 10

Principal Component Analysis- Multidisciplinary Applications. Edited by

Parinya Sanguansant. ISBN: 987-953-51-0129-1
UNIDAD FORMATIVA 11
Peña, D. (2002). Análisis de datos multivariantes. Mc Graw Hill.
UNIDAD FORMATIVA 12
Picón, E. Varela, J. y Real, E. (2003): Clasificación y Segmentación Post

Hoc mediante el Análisis de Conglomerados. En J.P. Lévy y J Varela (Dirs):
Análisis Multivariante para las Ciencias Sociales. Madrid: Pearson
Educación.
UNIDAD FORMATIVA 13
ARCE, C. (1993): Escalamiento Multidimensional. Una Técnica

Multivariante par el Análisis de Datos de Proximidad y Preferencia. PPU,
Barcelona.
ARCE, C. (1994): Técnicas de Construcción de Escalas Psicológicas.

Síntesis, Madrid.
BORG, I. y GROENEN, P. (1997): Modern Multidimensional Scaling.

Springer, New York.
COXON, A. P. (1982): The User’s Guide to Multidimensional Scaling.

Heinemann Educational Books, London.
GREEN, P. E. y CARMONE, F. J.(1969): Multidimensional Scaling: An

Introduction and Comparison of Nonmetric Unfolding Techniques.
Journal of Maketing Research, 6, 330-341.
HAIR, J. F., ANDERSON R.E., TATHAM, R. L., BLACK, W. C. (1999):

Análisis Multivariante. Prentice Hall, Madrid.
KRUSKAL, J. B. (1964): Nonmetric Multidimensional Scaling: A

Numerical Method. Psychometrika, 2, 115-129.
LUQUE, T. (2000): Técnicas de Análisis de Datos en Investigación de

Mercados. Pirámide, Madrid.
REAL, J. E. (2001): Escalamiento Multidimensional. La Muralla, Madrid.
SCHIFFMAN, S. S., REYNOLDS, M. L. y YOUNG, F. W. (1981):

Introduction to Multidimensional Scaling: Theory, Methods and
Applications. Academic Press, New York.
Ejercicios
EJERCICIOS
EJERCICIO 1
Dada una muestra aleatoria simple de tamaño tres, se encuentra el resultado

x = (2; 7, 3). Si se obtiene el valor del estadístico Ẋ = 4. Calcular la función de
verosimilitud y su logaritmo.
El contenido no debe sobrepasar los 2MB

Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5
días antes de la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la
acción formativa.
EJERCICIO 2
Se ha llevado a cabo un estudio sobre implantes dentales, y se han comparado

dos implantes: A y B. A cien pacientes se les ha colocado el implante A y a
otros 100 pacientes el implante B. Algunos de los pacientes han mostrado
rechazo a sus implantes. Ante tal respuesta, se han buscado factores
asociados con el fracaso de los implantes sin distinguir entre tipos de
implantes y añadiendo datos de otros estudios similares. Los resultados han
mostrado las siguientes Odds Ratio, calculados entre las variables que se
especifican a continuación y el fracaso del implante:
Edad: OR = 2,33; IC 95%: (1,45; 4,17)
Fumar: OR = 4,55; IC 95%: (3,15; 7,32)
Sexo mujer: OR = 0,55; IC 95%: (0,15; 0,87)
Enfermedad periodontal: OR = 1,99; IC 95%: (1,15; 3,77)
En base a esta información una conclusión que podemos inferir es:
Cuanta mayor edad más riesgo de fracaso del implante
¿Qué otras conclusiones podemos inferir?

Enviar al tutor
acción formativa.
Ver solución / contenido oculto
EJERCICIO 3
Tenemos un grupo de 15 alumnos. Sus notas en diferentes asignaturas se

representan en la siguiente tabla. Además, conocemos el sexo de cada uno.
Busca la variable o combinación de variables que mejor pronostique la

variable sexo en un modelo de Regresión Logística

Enviar al tutor
acción formativa.
EJERCICIO 4
Una empresa productora de un nuevo refresco está interesada en

incrementar sus ventas para lo cual, diseña una campaña de publicidad
basándose en los resultados de una encuesta. La encuesta constaba una serie
de afirmaciones a las que los sujetos contestaban desde 1 (muy en
desacuerdo) hasta 5 (muy de acuerdo). Las cuestiones planteadas en la
encuesta fueron:
X1: Me gusta beber refrescos cuando estoy con los amigos
X2: Me gusta beber un refresco cuando estoy charlando con alguien
X3: A mí los refrescos me van bien para las ocasiones divertidas
X4: Me gusta beber siempre la misma marca de refrescos
X5: A los sitios donde voy pido siempre el mismo refresco
X6: Cambio de un refresco a otro porque para mí es mucho mejor que

tomar siempre el mismo.
X7: Los refrescos sólo me gusta tomarlos mezclados con alcohol
X8: Una de mis bebidas favoritas es el refresco combinado con alcohol
X9: Principalmente mezclo los refrescos para rebajar las bebidas

alcohólicas
La matriz de correlaciones ha sido factorizada utilizando el Análisis de

Componentes Principales y rotación varimax, obteniendo la siguiente matriz
factorial:
A partir de la matriz factorial calcula los siguientes valores:
a. Comunalidad y unicidad para cada variable.
b. Porcentaje de varianza explicada por cada factor y porcentaje de

varianza explicada por el conjunto de factores.
c. Interpreta y nombra los factores obtenidos. ¿En qué debería incidir la

campaña publicitaria en base a los resultados obtenidos con el análisis
factorial?

Enviar al tutor
acción formativa.

Temario 1º Cursos Analisis Multivariantes

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Temario 1º Cursos Analisis Multivariantes

Cargado por

Copyright:

Formatos disponibles

29/11/21 16:53 Campus Virtual

Bloque Tema Apartados

Bloque I.- El 1.1. Historia del Análisis Multivariante.

1.4. La organización de los datos.

2.1. Definición y caracterización.

2.2. Distribuciones marginales y

3.2. Función de verosimilitud

3.4. Estimación máximo verosímil.

4.1. Contrastes de la razón de

4.2. Contrastes de unión-intersección.

4.3. Contrastes de hipótesis acerca del valor

4.5. Contrastes de hipótesis múltiples.

Bloque II. 5.1. Introducción.

5.3. Teorema de Gauss-Markov.

Tema 5. “Regresión 5.4. Análisis de los residuales.

5.6. Contrastes de hipótesis.

5.7. Intervalos de confianza simultáneos.

5.8. Matrices singulares de diseño.

6.2. Discriminación entre dos grupos con

Tema 6. “Análisis 6.3. Discriminación entre dos grupos con

6.4. Discriminación entre más de dos grupos.

6.5. Selección de variables.

7.1. Fundamento del modelo de Regresión

7.2. Estimación del Modelo de Regresión

7.4. Significación de un parámetro: Método

7.5. Modelo de Regresión Multinomial

8.2. Diseño del análisis conjunto.

8.4. Interpretación de los resultados

Bloque III.- 9.1. El modelo factorial: factores comunes y

9.4. Rotación de las soluciones.

9.5. Puntuaciones factoriales.

10.1. Definición y propiedades de las

11.1. Construcción de las nubes de puntos y

11.2. Análisis de las nubes de puntos en Rp y

11.3. Reconstrucción de la tabla de

11.5. Interpretación de los resultados:

11.6. Contrastes de hipótesis

12.1. Distancias y similaridades.

12.2. Clasificación ascendente jerárquica:

12.4. Clasificación no jerárquica: agregación

13.1. Escalonamiento de objetos y/o sujetos.

Aprendizaje de los conceptos y procedimientos básicos el Análisis

Desarrollo de la capacidad de formular hipótesis contrastables en el

Adquirir la habilidad para interpretar resultados de análisis aplicados

Conseguir que el alumno discrimine que herramienta estadística es más

Aprender el uso de la tecnología para la realización de cálculos

La asignatura análisis multivariantes es una asignatura del master en investigación en

Se trata de una asignatura de 6 créditos de carácter teórico-práctico en la que se

El objetivo general de la asignatura es que el alumno adquiera competencia en las

Bloque I - El Análisis Multivariante

Tema 1 - Introducción al análisis multivariante

TEMA 1. INTRODUCCIÓN AL ANÁLISIS

1.1. HISTORIA DEL ANÁLISIS MULTIVARIANTE (AM).

La estadística es un cuadro de herramientas en el que podemos diferenciar tres niveles

Nivel 1: Descriptivo-Univariante. Resume e ilustra la información en una

Nivel 2: Inferencial-Bivariante. Estima parámetros, contrasta hipótesis,

Nivel 3: Modelización-Multivariante. Elabora modelos, ecuaciones o

Para explicar que significa “análisis multivariado” se encuentran en la literatura distintas

Kendall (1957) interpreta el análisis multivariable como el conjunto de técnicas

Seber (1984) se refiere al análisis multivariable como aquel orientado al estudio de

Johnson y Wichern (1998) define el AM es una bolsa mixta que contiene métodos

Reducción de dimensionalidad o simplificación estructural. El fenómeno en estudio

Agrupamiento y Clasificación. Se desea crear, a partir de las