Curso Analisis Multivariante CSIF

Fundamentos de la investigación en ciencias de
la salud: análisis multivariante (CSIF)

Índice
ÍNDICE
Bloque Tema Apartados
1.1. Historia del Análisis Multivariante.
1.2. Objetivos del Análisis Multivariante.

Tema 1. “Introducción al
Análisis Multivariante”
1.3. Clasificación de las técnicas multivariantes.
1.4. La organización de los datos.
2.1. Definición y caracterización.
2.2. Distribuciones marginales y condicionadas.

Bloque I.- El Análisis Tema 2. “Distribución
Multivariante normal multivariante” 2.3. Caso bidimensional y tridimensional.
2.4. Distribuciones asociadas: formas cuadráticas aleatorias

normales.
3.1. Introducción
3.2. Función de verosimilitud

Tema 3. “Estimación”
3.3. Matriz de información de Fisher
3.4. Estimación máximo verosímil.

4.1. Contrastes de la razón de verosimilitudes.
4.2. Contrastes de unión-intersección.
4.3. Contrastes de hipótesis acerca del valor de medias.

Tema 4. “Contraste de
Hipótesis” 4.4. Contrastes de hipótesis acerca de la matriz de
varianzas-covarianzas. Intervalos de confianza múltiples.
4.5. Contrastes de hipótesis múltiples. MANOVA
5.1. Introducción.
5.2. Estimadores mínimo cuadráticos: propiedades.
5.3. Teorema de Gauss-Markov.
5.4. Análisis de los residuales.

Tema 5. “Regresión Lineal
Múltiple”
5.5. Correlaciones múltiple y parcial.
5.6. Contrastes de hipótesis.
Bloque II. Técnicas de

5.7. Intervalos de confianza simultáneos.
Dependencia
5.8. Matrices singulares de diseño.
6.1. Introducción.
6.2. Discriminación entre dos grupos con distribuciones

conocidas.
Tema 6. “Análisis
Discriminante”
6.3. Discriminación entre dos grupos con distribuciones conocidas
y parámetros desconocidos.
6.4. Discriminación entre más de dos grupos.

6.5. Selección de variables.
7.1. Fundamento del modelo de Regresión Logística. El concepto

de “odd” (o “riesgo”). Forma analítica del modelo de Regresión
Logística. Interpretación de los parámetros del modelo de
Regresión Logística.
Tema 7. “Análisis de 7.2. Estimación del Modelo de Regresión Logística.

Regresión Logística”
7.3. Test global de un ajuste. Análisis de las “deviances”.
7.4. Significación de un parámetro: Método de Wald.
7.5. Modelo de Regresión Multinomial
8.1. Introducción.
8.2. Diseño del análisis conjunto.

Tema 8. “Análisis
Conjunto”
8.3. Estimación por mínimos cuadrados.
8.4. Interpretación de los resultados
9.1. El modelo factorial: factores comunes y específicos.
9.2. Indeterminación de las soluciones factoriales.
Tema 9. “Análisis 9.3. Obtención de soluciones: el método del factor principal y el

Factorial” método de máxima verosimilitud.
Bloque III.- Técnicas

9.4. Rotación de las soluciones.
de Interdependencia
9.5. Puntuaciones factoriales.
10.1. Definición y propiedades de las componentes principales.

Tema 10.”Análisis de
componentes principales” 10.2. Obtención de las componentes principales a partir de una
muestra.
10.3. Aplicaciones.
11.1. Construcción de las nubes de puntos y elección de las

distancias.
11.2. Análisis de las nubes de puntos en Rp y Rn y relaciones

entre ellas.
Tema 11. “Análisis de 11.3. Reconstrucción de la tabla de frecuencias original.

Correspondencias”
11.4. Posición de los elementos suplementarios.
11.5. Interpretación de los resultados: contribuciones absolutas y

relativas.
11.6. Contrastes de hipótesis
12.1. Distancias y similaridades.
12.2. Clasificación ascendente jerárquica: método de la unión

simple, método de la unión completa, métodos del centroide.
Tema 12. “Análisis de
Conglomerados” 12.3. Clasificación jerárquica descendente: método monotético y
método politético.
12.4. Clasificación no jerárquica: agregación alrededor de centros

móviles
13.1. Escalonamiento de objetos y/o sujetos.

Tema 13.”Escalonamiento”
13.2. Modelos de escalonamiento
Objetivos
OBJETIVOS GENERALES
• Aprendizaje de los conceptos y procedimientos básicos el Análisis Multivariante
• Desarrollo de la capacidad de formular hipótesis contrastables en el campo de las

ciencias de la salud
• Adquirir la habilidad para interpretar resultados de análisis aplicados
• Conseguir que el alumno discrimine que herramienta estadística es más adecuada para
la resolución de distintos interrogantes
• Aprender el uso de la tecnología para la realización de cálculos estadísticos
Presentación
PRESENTACIÓN
La asignatura análisis multivariantes es una asignatura del master en investigación en ciencias de la

salud.
Se trata de una asignatura de 6 créditos de carácter teórico-práctico en la que se pretende dotar al

alumno del conocimiento sobre las herramientas multivariantes que le permitan comprender y
desarrollar investigaciones de las estructuras y procesos biomédicos, de las relaciones entre conjuntos
de variables
El objetivo general de la asignatura es que el alumno adquiera competencia en las técnicas

multivariantes, seleccionando en cada momento la herramienta necesaria.
Bloque I - El Análisis Multivariante
Tema 1 - Introducción al análisis multivariante
TEMA 1. INTRODUCCIÓN AL ANÁLISIS

MULTIVARIANTE
1.1. HISTORIA DEL ANÁLISIS MULTIVARIANTE (AM).
La estadística es un cuadro de herramientas en el que podemos diferenciar tres niveles de análisis:
• Nivel 1: Descriptivo-Univariante. Resume e ilustra la información en una matriz de

datos.
• Nivel 2: Inferencial-Bivariante. Estima parámetros, contrasta hipótesis, compara el

comportamiento de dos o más grupos y analiza la relación entre pares de variables.
• Nivel 3: Modelización-Multivariante. Elabora modelos, ecuaciones o funciones que

permiten explicar unas variables a partir de otras o identificar variables latentes y
grupos homogéneos para resumir la información.
Para explicar que significa “análisis multivariado” se encuentran en la literatura distintas definiciones:
Kendall (1957) interpreta el análisis multivariable como el conjunto de técnicas estadísticas que
analizan simultáneamente más de dos variables. Con esta definición, cualquier técnica estadística para
el estudio de asociaciones y relaciones puede considerarse una técnica de análisis multivariado. “Es
una extensión del análisis univariable y bivariable al análisis simultáneo de más de dos variables en un
muestreo de observaciones”.
Seber (1984) se refiere al análisis multivariable como aquel orientado al estudio de vectores de
variables aleatorias correlacionadas.
Johnson y Wichern (1998) define el AM es una bolsa mixta que contiene métodos apropiados para
investigaciones científicas y tecnológicas donde los objetivos son uno o varios de los siguientes:
Reducción de dimensionalidad o simplificación estructural. El fenómeno en estudio involucra

numerosas variables, para facilitar su interpretación se desea representarlo tan simple como sea
posible sin sacrificar información valiosa (Ej-. Análisis de Componentes Principales, Análisis de
Correspondencias, Coordenadas Principales, Escalamiento Multimensional Métrico, y los gráficos
conocidos como Biplots)
• Agrupamiento y Clasificación. Se desea crear, a partir de las características medidas,

grupos de objetos o variables “similares”. Alternativamente, se puede requerir el
establecimiento de reglas para clasificar objetos en grupos bien definidos (Ej-. Análisis
de Conglomerados).
• Investigación de la dependencia entre variables. La naturaleza de la correlación

entre varias variables es de interés. Son todas las variables mutuamente
independientes? o ¿Existen una o más variables dependientes de las otras? Si esto es
cierto, cómo dependen? (Ej-. Análisis de Correlaciones Canónicas y las Regresiones
Multivariadas)
• Predicción. La relación entre variables debe ser determinada para predecir los valores
de una o más variables sobre la base de observaciones de las otras (Ej-. Análisis de
Discriminante).
• Construcción y Prueba de Hipótesis. Se prueban hipótesis estadísticas específicas,

formuladas en término de los parámetros de distribuciones multivariadas (Ej-. Análisis
Multivariado de Varianza (MANOVA))
En general, todas las definiciones del AM hacen referencia a un conjunto de técnicas estadísticas
diseñadas para trabajar simultáneamente con la información de un conjunto de variables referidos a
un grupo de individuos u objetos.
El AM provee herramientas que permiten descubrir estructuras, establecer relaciones de dependencia

entre las variables medidas simultáneamente sobre la misma unidad, para comparar, agrupar y/o
clasificar observaciones multivariadas e incluso para comparar, agrupar y clasificar variables.
El AM surge como una forma de hacer asimilable al entendimiento humano la gran cantidad de datos
que hay en la realidad, sintetizando los aspectos más relevantes y perdiendo el mínimo de
información posible.
Las razones que han potenciado la aparición del AM son:
1. Las necesidades de investigación. La complejidad de los fenómenos clínicos y sociales

requiere de un tratamiento de datos multidimensional.
2. El desarrollo de la informática y los ordenadores. Posibilidad de realizar cálculos complejos

en pocos segundos.
3. Utilidad en numerosos campos
4. Proliferación de la investigación de mercados y los estudios de opinión.
5. Abundante bibliografía aplicada (artículos, manuales y series monográficas).
Las ciencias de la salud y sociales soportan una realidad llena de necesidades que supone cantidades
ingentes de datos y, en consecuencia, requieren nuevos métodos para diseccionarlos. Es ilusorio
pretender responder a cuestiones complejas de investigación mediante la exclusiva utilización de
análisis estadísticos univariables.
Claro que, con el aumento de la complejidad se han acumulado riesgos. El AM conlleva una serie de
“peligros” que es necesario tener en cuenta:
• Fácil estimación y difícil interpretación. Nos permite trabajar con un conjunto enorme
de variables a la vez, pero qué relaciones podemos establecer, qué significa.
• A mayor número de variables, mejor modelo. Es necesario considerar aquellas

variables que nos permitan desarrollar el mejor modelo, no por tener más variables
tendremos mejor modelo, “parsimonia”.
• Olvidar la teoría. Evitar modelizar por modelizar.
• Adecuar el tamaño muestral. Cuantas más variables consideremos el tamaño muestral

aumentará significativamente.
• Relevancia conceptual y significación estadística. Alcanzar la significación estadística

no implica necesariamente que exista relevancia conceptual. Al tener una muestra muy
grande es probable encontrar, por ejemplo, correlaciones significativas, pero ello no
quiere decir que sean relevantes.
• Casos anómalos. Una muestra muy amplia suele contener casos anómalos, no
podemos desestimar el modelo por unos casos anómalos, debemos detectarlos y
eliminarlos de la muestra.
1.2. OBJETIVOS DEL ANÁLISIS MULTIVARIANTE
El análisis multivariante (Cuadras, 1981) es una rama de la estadística y del análisis de datos, que
estudia, interpreta y elabora el material estadístico sobre un conjunto de n > 1 de variables, que
pueden ser cuantitativas, cualitativas o una mezcla. Por esta razón los objetivos que persigue son:
1. Resumir los datos mediante un conjunto de nuevas variables con la mínima pérdida de
información.
2. Encontrar grupos en los datos, si existen.
3. Clasificar nuevas observaciones en grupos definidos.
4. Relacionar conjuntos de variables.
5. Esclarecer la distribución real de varias variables.
6. Desarrollar un modelo de predicción basado en múltiples variables.
7. Hallar relaciones causa-efecto entre las variables.
Básicamente estos objetivos pueden sintetizarse en dos:
1. Proporcionar métodos cuya finalidad es el estudio de datos multivariantes que el análisis

estadística uni y bidimensional es incapaz de conseguir. Poder medir, explicar y predecir el
grado de existe entre las variables y las múltiples combinaciones existentes entre ellas.
2. Ayudar al investigador a tomar decisiones óptimas en el contexto en el que se encuentre

teniendo en cuenta la información disponible por el conjunto de datos analizados.
El número de campos en los que puede ser aplicado es amplísimo:
• Administración de empresas. Para construir tipologías de clientes
• Agricultura. Para clasificar terrenos de cultivo por fotografía aérea.
• Arqueología. Para clasificar restos arqueológicos.
• Biometría. Para identificar los factores que determinan la forma de un organismo vivo.
• Computación: Para diseñar algoritmos de clasificación automática.
• Educación. Para investigar la efectividad del aprendizaje a distancia.
• Medio ambiente. Para determinar las dimensiones de la contaminación ambiental
• Documentación. Para clasificar revistas por su contenido
• Economía. Para determinar las dimensiones del desarrollo económico.
• Geología. Para clasificar sedimentos.
• Lingüística. Para encontrar patrones de asociación de palabras.
• Medicina. Para identificar tumores.
• Psicología. Para identificar factores que componen la inteligencia humana.
1.3. CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES
No existe una regla general para clasificar a los métodos de Análisis
Múltivariante, se suelen clasificar atendiendo a diversos criterios.

Kinnear y Taylor (1971), los clasifican atendiendo a la existencia o inexistencia de variables
dependientes y si las variables dependientes o independientes son métricas.
González B. (1991), clasifica a los métodos múltivariantes según sus objetivos, la naturaleza de los
datos y las escalas de medidas.
Sheth (1968) se plantea tres preguntas en el momento de hacer una clasificación de las técnicas
multivariantes:
a) ¿Son unas variables dependientes de otras?
Sí: Regresión No: Análisis Factorial, Clusters
b) ¿Cuántas variables dependientes hay?
c) ¿Cuáles son las propiedades de los datos?
Métricos No Métricos
Sheth plantea, entonces, dos graandes grupos:
1. Métodos de dependencia. Algunas variables son dependientes de otras. Suponen que las
variables analizadas están divididas en dos grupos: variables dependientes y variables
independientes. Su objetivo es determinar si el conjunto de variables independientes afecta
al conjunto de variables dependientes y de qué forma.
2. Métodos de Interdependencia. Las variables no son dependientes unas de otras. No

distingue entre variables dependientes e independientes y su objetivo es identificar qué
variables están relacionadas, cómo lo están, y por qué.
En la Tabla I, podemos ver el conjunto de modelos multivariados clasificados en función de los

criterios de Sheth.
Dependencia Regresión
Métrica
Se especifican una o más variables como si se hubiesen pronosticado (VD) mediante un Supervivencia
conjunto (VI)
MANOVA
Correlación Canónica
Discriminante
No
Regresión Logística
Métrica
Conjoint
Componentes
principales
Factorial
Métrica
Cluster
Interdependencia Escalas
multidimensionales
Todas las variables son tomadas como un conjunto, no se designa ninguna variable como si
se hubiesen pronosticado mediante otras variables. Correspondencias
Modelos log-lineales
No
Métrica Cluster
Escalas
multidimensionales
1.4. LA ORGANIZACIÓN DE LOS DATOS

El análisis multivariante (AM) es la parte de la estadística y del análisis de datos que estudia, analiza,
representa e interpreta los datos que resultan de observar más de una variable estadística sobre una
muestra de individuos. Las variables observables son homogéneas y correlacionadas, sin que alguna
predomine sobre las demás. La información estadística en el AM es de carácter multidimensional, por
lo tanto la geometría, el cálculo matricial y las distribuciones multivariantes juegan un papel
fundamental.
Un paso fundamental en el AM es el análisis exploratorio inicial de los datos. Las razones:
a) Depurar el archivo de datos.
Controlar errores e incongruencias entre los datos, por ejemplo, recoger opiniones de sujetos
sobre la calidad del servicio de urgencias mediante una encuesta, cuando estos nunca han
estado en el.
Para depurar el archivo de datos podemos utilizar medidas de seguridad activas, como una
plantilla para evitar errores, o pasivas, aplicando una tabla de frecuencias podemos detectar
si hay algún valor 3 al clasificar el sexo (1 ó 2).
Para detectar los errores podemos seleccionar una submuestra, comprobar cuantos errores
hay y calcular el porcentaje en la muestra total. Para seleccionar esa submuestras podemos
emplear un muestreo aleatorio (en el SPSS en el menú datos tenemos la opción seleccionar
muestra aleatoria de casos) o no aleatorio (elegimos los primeros 50 casos).
b) Resolver los casos “missing” (Falta de respuesta).
Identificar y clasificar los datos missing. Los datos missing tienen consecuencias nefastas para
el potencial del contraste (tamaño de la muestra) y la capacidad de generalización de los
resultados (sesgos que no se distribuyen al azar)
El potencial del contraste o capacidad de estimación se ve afectado si hay muchos datos

missing, ya que la estimación va a estar sujeta a un mayor rango de error, los intervalos de
error van a ser más grandes y la estimación es más imprecisa. Incluso si comparamos grupos
pequeños, los datos missing, van a provocar que no se detecten diferencias significativas
aunque las haya.
La capacidad de generalización se ve mermada porque lo que en principio era una muestra
adecuada se convierte en inadecuada y no representativa. Es necesario comprobar si los
datos missing se distribuyen aleatoriamente. Es peligroso dar por hecho que los sujetos que
no responden a un ítem tienen una opinión hacia ese ítem similar a los sujetos que si
responden. Estaríamos suponiendo que responden igual y mantenemos la misma media.
Los datos missing en muchas ocasiones son producidos por rechazos, rechazos a preguntas
comprometidas o por falta de confidencialidad, etc. También pueden deberse al
desconocimiento, la falta de motivación para participar, la falta de memoria en las personas
mayores. Hay que percatarse de si son iguales los sujetos que responden y los que no
responden.
En los cuestionarios es importante identificar los sujetos con muchos missing (analizar los
patrones), a estos sujetos normalmente se les elimina del análisis porque sus respuestas ya
no van a resultar fiables, e identificar las variables con muchos missing (probar la
aleatoriedad), los sujetos no responden por azar o hay alguna razón.
Para comprobar la aleatoriedad el investigador cuenta con distintas estrategias: 1) comprobar

si los distintos segmentos de la muestra (sexo, edad. etc.) presentan un porcentaje similar de
falta de respuesta (ji-cuadrado); 2) identificar variables relacionadas (ej-. nivel económico y
voto) y comprobar que los que responden y los que no, se comportan de manera similar y no
existen diferencias entre ambos grupos (opiniones) (T de Student).
A veces un paso necesario para poder tratar los datos con determinadas técnicas es la
imputación o sustitución de valores missing por otros. Un procedimiento de imputación
conocido es el denomino Hot Deck. Se trata de un procedimiento de duplicación, cuando un
valor es ausente otro valor es publicado para presentar ese valor missing. Concretamente
este método se aplica cuando los missing se producen en una variable cualitativa.
c) Controlar los valores extremos.
Controlar los valores que caen fuera del rango normal de los datos. Como criterio aplicamos
la distancia respecto al cuerpo central de la distribución (50% de los casos, entre el P75 y el
P25). El valor numérico entre el P75 y el P25 se denomina IQR, Recorrido Intercuartílico. El
caso anómalo se separa bien por arriba o por debajo del cuerpo central 1,5 veces el IQR.
Debemos diferenciar entre valores outliers (± 1,5 – 3 IQR), que alteran la media disparándola
hacia arriba o hacia abajo y valores extremos (± 3 IQR), que alteran los resultados mucho
más.
Imaginemos dos casos anómalos, uno podría ser el gasto promedio semanal del hijo de un
narco, y el otro, los ingresos anuales de Messi.
Si existen estos casos tenemos que optar por acudir a contrastes y estadísticos más
resistentes, como los contrastes no paramétricos y la mediana (en lugar de la media).
Los casos anómalos tienen mucha incidencia en el proceso de modelización, por ejemplo
estropean el ajuste del gráfico de dispersión o disminuyen el coeficiente de determinación
(R2) por lo que desciende el porcentaje de varianza que puedo explicar. La solución:
detectarlos y eliminarlos.
Para detectarlos a nivel univariante, podemos utilizar gráficos de caja o basarnos en el IQR; a
nivel bivariado, utilizando gráficos de dispersión; y a nivel multivariado, mediante estadísticos
que analicen los residuos.
d) Comprobar los supuestos paramétricos.
Comprobar que los datos tienen las condiciones adecuadas para poder ser analizados bajo
los supuestos que posee cada técnica. Por ejemplo, si los datos no se distribuyen
normalmente nos veremos obligados a renunciar a las técnicas paramétricas. Otro ejemplo, la
Regresión Logística tiene una ventaja muy importante y es que se puede usar aunque las
variables no sean cuantitativas ni se distribuyan normalmente.
Los supuestos que tenemos que comprobar son:
• Normalidad. Se comprueba mediante la prueba K-S de Lillefors (SPSS: Analizar/

Estadísticos descriptivos / Explorar / Gráficos).
• Muy importante. Si no se cumple el supuesto de Normalidad podemos transformar las

variables. Mediante SPSS menú Transformar/ Calcular. Por ejemplo, multiplicar por 10
todos los valores para cambiar el rango de los datos y así poder aplicar pruebas
paramétricas.
Posibles Transformaciones:
Asimetría positiva fuerte: -1/X3 ó -1/X
suave: log X ó
Asimetría negativa fuerte: antilog X
suave: X2 ó X3
• Aleatoriedad o independencia de las medias: que los sujetos hayan sido

seleccionados al azar. Prueba de Rachas (SPSS: Analizar/ Pruebas no paramétricas/
Rachas).
• Homocedasticidad u homogeneidad de varianzas: que los distintos grupos posean

una variabilidad similar. Por ejemplo, cuando comparamos hombres y mujeres para
ciertas variables es necesario tener en cuenta que no se distribuiran del mismo modo.
Para corregirlo se aplica la prueba de Levene (SPSS: Analizar/ Estadísticos descriptivos
/ Explorar / Gráficos).
• Linealidad. Relación lineal entre las variables a analizadas. Mediante un gráfico de

dispersión podemos representar la VD con cada una de las VI y ver si se relacionan
linealmente o no. Gráfico de Correlación y Dispersión.
• Colinealidad. Evitarla. Evitar que un predictor explique mucho de otro predictor.
e) Resumir la información que contienen los datos, informar de las tendencias, relaciones
entre variables, etc.
Tema 2 - Distribución normal multivariante
TEMA 2. DISTRIBUCIÓN NORMAL

MULTIVARIANTE
2.1. DEFINICIÓN Y CARACTERIZACIÓN

El concepto de variable aleatoria surge de la necesidad de transformar el espacio muestral asociado a
un experimento aleatorio en un espacio cuantitativo, lo que se consigue asignando un valor real a
cada resultado elemental del experimento (a cada elemento del espacio muestral).
Este valor se obtiene midiendo una determinada característica numérica de los resultados del
experimento que describa alguna propiedad de interés. En muchas ocasiones, para describir las
propiedades de interés de los resultados de un experimento es preciso considerar varias
características. Por ejemplo, en el experimento consistente en la elección de un individuo de una
determinada población, se consideran las variables “altura” y “peso”.
Es evidente que al considerar diversas características para describir los resultados de un experimento
aleatorio (o sea, diversas variables aleatorias), estas estarán a menudo relacionadas, por lo que será
conveniente realizar un estudio conjunto de ellas que refleje dichas relaciones, más que analizarlas
individualmente. De esta forma aparece el concepto de variable aleatoria multidimensional o vector
aleatorio que, en términos generales, puede definirse como una función que asigna a cada elemento
del espacio muestral un conjunto finito de números reales que describen el valor de cada una de las
características bajo estudio en dicho elemento.
Los datos en AM suelen provenir de una población caracterizada por una distribución
multivariante. Sea X = (X 1 , ……,X p ) un vector aleatorio con distribución absolutamente continua y
función de densidad ƒ (x 1 , ……., x p ).
Conocida ƒ (x 1 ,……., x p ).podemos encontrar la función de densidad de cada variable marginal Xj

mediante la integral:
ƒ j (x j ) = ∫ ƒ (x 1 , ….., x j , ……., x p ) dx 1 , ……., dx j-1 d j+1 …….d xp.
Sea X una variable aleatoria con distribución N (μ; σ 2); es decir, con media μ y varianza σ 2: La
función de densidad de X es (Figura 1. Adaptado de Cuadras, 2014):
Comprendamos la distribución normal multivariante N p (μ; σ Σ) como una generalización de la
normal univariante. Por una parte, la Figura 1 sugiere definir la densidad de X como (Figura 2 y 3.
Adaptado de Cuadras, 2014):
Según:
Siendo x = (x 1 , ……., xp) ,́ μ = (μ 1 , ……., μ p ) ́ y Σ = (σij) una matriz definida positiva. Por
otra parte, la Figura 2 sugiere definir la distribución X como una combinación lineal
de p variables Y 1 ,…………., Y p independientes con distribución N(0; 1) (Figura 4. Adaptado de
Cuadras, 2014):
Que podemos escribir como X = μ + AY siendo Y = (Y 1 , ……., Y p ) ́ y A = ( α ij) una matriz p* p que
verifica AA´ = Σ
La distribución normal multivariante se caracteriza por:
1. E(X) = μ y que la matriz de covarianzas es:
E [(X- μ) (X- μ)´ ] = E (AYY´ A´) = AI P A´ = Σ
2. La distribución de cada variable marginal Xi es normal univariante:
X i ̴ N (μ i ; σii), i = 1,….., p.
3. Toda combinación lineal de las variables X 1 ,……., X p

Z = b 0 + b 1 X 1 + …..+ b P X P
Es también normal univariante. Z Es combinación lineal de N (0; 1) independientes.
4. Si Σ = diag (σ11,..........,σpp,) es matriz diagonal, es decir, σij = 0; i ≠ j, entonces las

variables (X 1 , ….. , X P ) son estocásticamente independientes.
En efecto, la función de densidad conjunta resulta igual al producto de las funciones de

densidad marginales:
ƒ (x 1 , ……., x p ; μ, Σ) = f (x 1 ; ……., μ 1 ,σ 11 * …….* f (x p ; μ p ,σ pp )
5. La distribución de la forma cuadrática
U = (x- μ)´ Σ -1 (x- μ)
Es ji-cuadrado con p grados de libertad. En efecto, U = YÝ = ² es suma de los cuadrados de

p variables N (0,1) independientes.
2.2. DISTRIBUCIONES MARGINALES Y CONDICIONADAS

Si se definen más de una variable aleatoria en un experimento, es importante distinguir entre la
distribución de probabilidad conjunta y la distribución de probabilidad de cada variable
individualmente. A la distribución de cada variable se le denomina distribución marginal.
Si tenemos dos variables discretas: X e Y, con función de probabilidad conjunta p (x, y) las funciones
marginales de ambas variables serán:
Si las variables son continuas: X e Y, con función de densidad conjunta ƒ (x, y) las funciones de
densidad marginal de ambas variables serían:
Siendo dx un infinitésimo (cantidad infinitamente pequeña).
Por otra parte, cuando se definen más de una variable aleatoria en un experimento, el conocimiento
de una de las variables puede afectar a las probabilidades que se asocian con los valores de la otra
variable.
Cuando se definen más de una variable aleatoria en un experimento, el conocimiento de una de las
variables puede afectar a las probabilidades que se asocian con los valores de la otra variable.
Dadas dos variables discretas, X e Y con función de probabilidad conjunta p(x, y) la función de
probabilidad de Y condicionada a X = x0:
Dadas dos variables continuas, X e Y con función de densidad p(x, y) la función de densidad de Y
condicionada a X
2.3. CASO BIDIMENSIONAL Y TRIDIMENSIONAL
Como hemos estado comentando en el apartado anterior, si disponemos de dos variables aleatorias
podemos definir distribuciones bidimensionales. Para el caso de variables discretas tendremos:
Y, si las variables son continuas: X e Y, con función de densidad conjunta ƒ (x, y) las funciones de
densidad marginal de ambas variables serían:
Siendo dx un infinitésimo (cantidad infinitamente pequeña).
La distribución multinomial es una generalización de la distribución binomial. La distribución

multinomial permite estudiar la ocurrencia de tres o más sucesos, proporciona probabilidades de
obtener, en m repeticiones independientes de un experimento, x1 el suceso A 1 , x 1 veces el
suceso A 2 ,…., X n veces el suceso A n , donde dichos sucesos forman una partición del espacio
muestral, es decir:
Tal que para i ≠ j y donde p i = p[A i ], por tanto, se cumple:
Así, considerando que Xi es el número de veces que se presenta el suceso Ai en las m repeticiones
tenemos que la variable n-dimensional (X1, X2,…..Xn) sigue una distribución multinomial de
parámetros n, p1, ….pn y su función de probabilidad es:
Para Xi = 0,1,…., m con X 1 + …… + X n = m
Hay que tener en cuenta que si (X 1 , X 2 ,…..X n ) es una variable multidimensional entonces existe una
relación lineal entre sus componentes ya que X 1 +…… + X n = m, por lo que una de las variables,
por ejemplo X n , se puede poner como combinación lineal del resto, X n = m-X 1 – X 2 -…… X n-1. Por
tanto el fenómeno que describe la variable (X 1 , X 2 ,…..X n ) queda igualmente descrito por una
variable de dimensión menor (X 1 , X 2 ,……, X n-1 ) sin que esta pérdida de dimensión suponga una
pérdida de información. Por ejemplo, una variable multinomial de dimensión dos (X 1 , X 2 ), M(n, p 1 ,
p 2 .) se puede describir considerando un componente cualquiera que tiene una distribución binomial,
por lo que en realidad esta variable es unidimensional y no bidimensional.
Además, de cada una de las variables, Xi,que forman una multinomial M(n, p1, pn) siguen
distribuciones binomiales B (m,pi), es decir, las distribuciones marginales de una multinomial son
binomiales, por lo tanto la esperada y la varianza de cada una de estas variables es:
E [X i ] = = mp i
Var (Xi) = mp i (1-p i )
Además la covarianza entre dos cualesquiera de sus componentes es:

Cov (x i ,x j ) = - mp i p j
Estos datos de las variables componentes de una multinomial se pueden agrupar en forma de matriz
dando lugar a las denominadas matriz de esperanzas y matriz de varianzas-covarianzas, que recogen
las características teóricas principales de la distribución multinomial (medias, varianzas y
covarianzas) (Figura 5. Adaptado de Cuadras, 2014):
EJEMPLO
El entrenador de un equipo de baloncesto opina que los jugadores A, B y C tienen similares aptitudes
para ser titulares del equipo en la posición de base. Así, determina que jueguen el mismo número de
minutos cada partido. Se sabe que el 40% de las canastas son de C, mientras que A y B consiguen un
30%. Calcular la probabilidad de que en un partido con 9 canastas de dos puntos, A consiguiera dos,
B tres y C cuatro.
Sea la variable tridimensional (x 1 ,x 2 ,x 3 ) que recoge el número de canastas de A, de B y de C,

respectivamente. Dicha variable es una multinomial con n = 9, p1= 0,3, p2 = 0,3 y p3 = 0,4. Así,
2.4. DISTRIBUCIONES ASOCIADAS: FORMAS CUADRÁTICAS
ALEATORIAS NORMALES
Sea X un vector aleatorio p-dimensional y A una matriz no aleatoria. En muchas situaciones aparece
de forma natural la forma cuadrática XÁX, por lo que el estudio de cómo se distribuye esta nueva
variable aleatoria unidimensional ha sido profundamente abordado.
Para comprender los elementos básicos de la teoría de las distribuciones de formas cuadráticas
aleatorias normales partiremos de un vector normal
X ̴ Np [µ; Σ] y nos planteamos, en general, la distribución de XÁX, donde A es una matriz p × p no

aleatoria y sobre la que existen algunas restricciones.
El resultado más inmediato es bien conocido: Si Σ = I p , entonces X´X ̴ χ p

2
(δ) con δ = µ ´µ. Si
este resultado se generaliza:
Sea X ̴ Np [µ; Σ] con Σ > 0. Entonces:
1. (X − µ) ´Σ −1 (X − µ) ̴ χ p
2
p.
2. X´Σ −1X ̴ χp
2
(δ), donde δ = µ´ Σ −1µ.
Generalizamos la situación al caso en el que la matriz A no es la inversa de la matriz de covarianzas

de X.
En segundo lugar: Si X ̴ Np [µ; Σ] y A pxp una matriz no aleatoria de rango k (k ≤ p). Entonces:
1. Si Σ = Ip, XÁX ̴ χ k2 (δ) si y sólo si A es idempotente, en cuyo caso δ = µ µÁµ
2. Si Σ 6= Ip, XÁX ̴ χ k2 (δ) si y sóolo si AΣ es idempotente, en cuyo caso δ = µÁµ.

Además de los resultados anteriores podemos considerar otros aún más generales y que se enmarcan
dentro del tratamiento de la distribución de formas cuadráticas normales a partir de la metodología
general de la función característica. La situación genérica que se plantea es la siguiente: sea el
polinomio y = XÁX + 2b´X + c con las características:
1. X ̴ Np [µ; Σ].
2. Ap×p es una matriz simétrica de rango r ≤ p.
3. bp×1 es un vector no aleatorio
4. c es una constante
Por último, la siguiente expresión proporciona condiciones necesarias y suficientes para que el
polinomio anterior se distribuya según una ley chi-cuadrado:
Sea X ̴ Np [0; Ip].
En las condiciones anteriores, y ̴ χ r2 (δ) si y sólo si A es idempotente, b = Ab y δ = c = b 0b =

b 0Ab.
Tema 3 - Estimación
TEMA 3. ESTIMACIÓN
3.1. INTRODUCCIÓN
Las funciones de distribución dependen de uno o más parámetros para determinar propiedades de
las distribuciones.
Como sabemos, los parámetros son características poblacionales habitualmente desconocidas en un

estudio experimental, y el propósito de la inferencia estadística es obtener información acerca de su
valor a partir de los datos contenidos en la muestra.
La inferencia estadística tiene dos vertientes, la estimación de parámetros y el contraste de hipótesis.

La estimación consiste en asignar un valor a los parámetros a partir de los datos contenidos en la
muestra. Los cuatro métodos más comunes de estimación son el método de los momentos, mínimos
cuadrados, máxima verosimilitud y estimación bayesiana.
En la estimación, los parámetros se indican por letras griegas, por ejemplo θ , y el
símbolo representa su correspondiente estimador. Por tanto θ se refiere al valor poblacional y el

símbolo se refiere al valor estimado en la muestra, el valor asignado a a partir de los datos
observados.θ y son cosas distintas, y puede no ser correcto, puede diferir de θ.
3.2. FUNCIÓN DE VEROSIMILITUD
Según se ha visto una variable X sigue una función f(x). Si se toma una muestra aleatoria simple
de n observaciones, la función de probabilidad (o de densidad) de la muestra es el producto de la
función de probabilidad (o densidad) de cada una de las observaciones:
ƒ (x) = ƒ (x 1 ,…., x n )= ƒ (x 1 ),…., ƒ (x n )

donde el símbolo representa el producto de n términos, siendo similar al símbolo del
sumatorio pero multiplicando los elementos en lugar de sumarlos.
El método de máxima verosmilitud toma f (x) como base para realizar la estimación.
Supongamos que se ha tomado una muestra aleatoria simple (x) y el propósito es estimar el
parámetro θ. La función de verosimilitud es la función ƒ (x), entendida como una función de θ y
manteniendo fijo el valor encontrado en la muestra. Esto suele representarse como:
L (θ) = ƒ (x), donde L proviene de likelihood (verosimilitud en inglés).
EJEMPLO I
Imaginemos que X es una variable aleatoria con una distribución de probabilidad de Weibull.
La distribución de Weibull es una distribución normal y viene definida por dos parámetros:
k : parámetro de forma (0 < k < ∞). Indica la forma o perfil de la distribución.
λ: parámetro de escala (0 < λ < ∞). Indica que tan aguda o plana es la función.
La función de densidad de una variable aleatoria con la distribución de Weibull es:

Si tomamos una muestra aleatoria simple de n observaciones, su función de densidad sería:
Por tanto, la función ƒ(x) depende únicamente de la media muestral Ẋ no de ningún otro dato o
cantidad observada en la muestra. Cuando esto sucede así, se dice que Ẋ es un estadístico suficiente
para λ. Es decir, toda la información observada se resume en Ẋ, que contiene toda la información
necesaria para realizar la estimación de λ. Bastaría con que supiéramos el valor de Ẋ para poder
estimar λ. No necesitamos conocer ninguna otra característica de la muestra tal como la varianza, etc.
EJEMPLO II
Supongamos que hemos tomado una muestra aleatoria simple de tamaño tres y se encuentra el
resultado x = (2; 7, 3). El valor del estadístico Ẋ que se obtiene es 4, por tanto, la función de
verosimilitud sería:
El método de máxima verosimilitud consiste en asignar a los parámetros aquel valor que haga
máxima la probabilidad de los datos observados.
Si X es una variable aleatoria cuya función de densidad (o probabilidad) es ƒ(x) y que depende del
parámetro θ. Sea x una muestra aleatoria simple procedente de ƒ(x). El estimador máximo verosímil
de θ es el valor de θ que hace máxima L(θ).
Es importante tener en cuenta que, L(θ) no es la probabilidad de θ sino la probabilidad de x dado un

valor de θ . Por esto, al variar L(θ) en función de θ no estamos obteniendo la probabilidad de que
cada valor de θ sea el correcto, sino como de verosímil es cada valor. Entendiendo que un valor es
inverosímil cuando, si ese valor fuese el correcto, haría improbable encontrar unos datos, x, como los
que realmente se han obtenido.
La forma práctica de saber cual es el estimador máximo verosímil consiste en utilizar los conceptos
del cálculo diferencial para encontrar el máximo de una función. En primer lugar, en la mayoría de las
ocasiones no se trabaja directamente con L(θ) sino con su logaritmo, denominado l(θ) = log L(θ).
Entre otros motivos, esto se debe a que l(θ) suele ser más sencilla que L(θ) aunque ambas alcanzan
su valor máximo en el mismo punto de θ, por lo que es más cómodo trabajar con l(θ). Es decir, para
saber cuál es el máximo de la función l(θ), se utiliza la propiedad de que en el máximo de una función
su derivada toma el valor cero. Por ello, se calcula la derivada de l(θ) con respecto a θ, y se busca el
valor de θ que hace que dicha derivada sea cero.
EJEMPLO III
Continuando con el EJEMPLO II, hemos visto que a partir de la muestra x = (2; 7, 3) se obtenía
una Ẋ = 4. Entonces, la función de verosimilitud y su logaritmo son:
Utilizando el cálculo diferencial, la derivada de l(λ) con respecto a λ es:
El estimador máximo verosímil es el valor de λ que resuelve la ecuación de estimación: l´(λ) = 0. Es

decir:
EJEMPLO IV
Supongamos que a un sujeto realiza 25 veces una determinada tarea. El resultado de cada
presentación se clasifica como éxito o fracaso, y se considera que la probabilidad de
éxito permanece constante a lo largo del experimento. ¿Cuál es la probabilidad estimada de

éxito asumiendo independencia entre las distintas realizaciones?
La variable Xi describe el resultado de la ejecución i, y sigue la distribución de Bernoulli:
La función de probabilidad del vector de resultados de las 25 ejecuciones tiene la forma:
Supongamos que el numero de éxitos se indica por x, siendo x = i. Entonces, la función de

verosimilitud es:
Tomamos el logaritmo de la función de verosimilitud por su mayor sencillez:

El estimador máximo verosímil es el valor que maximiza l ( ). La derivada de l ( ) es cero:
La solución de la ecuación de estimación l´( ) = 0 proporciona el estimador máximo verosímil de :
Este razonamiento no basta para asegurar que ´ es un estimador máximo verosímil. Esto se debe
a que la derivada l´( ) se anula tanto si l ( ) tiene un máximo como si tiene un mínimo. En caso
de que la función tenga un máximo, se cumple que su segunda derivada es negativa. En nuestro
ejemplo:
l( ) alcanza su máximo en ´, por lo que su valor es necesariamente menor que 0.
3.3. MATRIZ DE INFORMACIÓN DE FISHER
Una comparación entre estimadores de un mismo parámetro en base a su error cuadrático medio
puede no dar un único óptimo porque la clase de todos los posibles estimadores es muy amplia.
Una manera de buscar el mejor estimador es restringir la búsqueda en la clase de estimadores

insesgados. Se trata de localizar aquel estimador insesgado uniformemente de mínima varianza.
Encontrar ese estimador no es sencillo, una posibilidad es buscar, fijar, una cota inferior para la
varianza de cualquier estimador insesgado y después encontrar el estimador insesgado cuya varianza
no alcance esa cota.
La cantidad de información acerca del valor del parámetro contenida en una observación de la
variable aleatoria X, se denomina información de Fisher.
La matriz de información de Fisher (MIF) para una distribución normal toma una formulación especial.
El elemento (m,n) de la MIF para X ̴ N( μ (), Σ( σ ) ) es:
Donde
“tr” es la función denominada traza de una matriz. La traza de una matriz cuadrada de nxn está
definida como la suma de los elementos de la diagonal principal de la matriz. Es decir
3.4. ESTIMACIÓN MÁXIMO VEROSÍMIL. CASOS PARTICULARES

PARA LA NORMALMULTIVARIANTE
El estimador de Máxima Verosimilitud es el estimador que hace la función de verosimilitud ƒ n (x1,
x2, …..xn) l θ ) máxima. Tal estimador puede entonces no ser único, o bien no existir.
Cuando existe, el estimador de Máxima Verosimilitud tiene algunas propiedades interesantes:
• Generalmente es consistente
• Es asintóticamente normal
• No es siempre insesgado, pero lo es asintóticamente
• Es función de un estadístico suficiente, cuando existe uno
• Entre todos los estimadores asintóticamente insesgados, tiene la varianza

asintóticamente más pequeña (es eficiente).
• Si el estimador de Máxima Verosimilitud es un estadístico suficiente, entonces es un

estadístico suficiente minimal.
• Tiene la propiedad de invarianza
Tema 4 - Contraste de hipótesis
TEMA 4. CONTRASTE DE HIPÓTESIS
4.1. CONTRASTES DE LA RAZÓN DE VEROSIMILITUDES
La pregunta que tratamos de responder es: ¿cómo se puede usar el test de razón de verosimilitudes
para hacer inferencia en poblaciones multivariantes?
Para comenzar conviene recordar la situación univariante, en la cual la inferencia se apoya en el
teorema de Fisher que dice que la media tiene distribución normal (con cierta media y varianza), la
varianza muestral tiene distribución ji-cuadrado, y son independientes. De igual el vector de medias
muestral es normal multivariante, la matriz de covarianzas muestral tiene distribución de Wishart, y
son independientes.
Así, por ejemplo, en base a este resultado se puede hacer inferencia sobre el vector de medias
cuando la matriz de covarianzas es desconocida, recurriendo a la distribución de Hotelling.
El vector de medias muestral y la matriz de covarianzas muestral son estimadores naturales de sus
análogos poblacionales. Pero también tenemos la razón de verosimilitudes.
Partiendo del concepto simple de vector aleatorio, lo definimos como una colección de variables
aleatorias medidas simultáneamente sobre el mismo individuo o sobre el mismo resultado de un
experimento aleatorio. Cada una de las componentes de un vector aleatorio (Figura 1; Fuente:
Google) es una variable aleatoria, y por tanto se puede calcular su media, su varianza y su
distribución. Sin embargo, hay algunas propiedades conjuntas dentro de un vector aleatorio, como
son la covarianza (o la correlación) y la distribución conjunta. En concreto, se define el vector de
medias como (Figura 2; Fuente: Google):
y la matriz de covarianzas como (Figura 3; Fuente: Google):

El vector de medias y la matriz de covarianzas se comportan de la siguiente manera ante
transformaciones lineales:
E (α + AX) = α + AE(X) Cov (α + AX, β+ BY ) = ACov (X, Y )B´
Siendo α y β vectores de dimensión q ≤ d, y A y B matrices q x d. Como caso particular de

transformaciones lineales, se encuentran los cambios de localización y escala. Así, ante un cambio de
localización, como el que representa sumar el vector α, el vector de medias queda desplazado en la
misma dirección α, para situarse de nuevo en el centro de la distribución. La matriz de covarianzas, sin
embargo, es invariante ante cambios de localización. Respecto de cambios de escala, podemos decir
que cada componente del vector de medias está medido en la misma escala que la variable (por
ejemplo, en centímetros o en metros si la variable representa una longitud), mientras que cada
varianza se mide en la escala de la variable elevada al cuadrado, y la covarianza en el producto de las
escalas de las dos variables involucradas.
Hay una transformación lineal que tiene un interés especial, que se conoce como estandarización. La
estandarización de una variable aleatoria se consigue restando la media y dividiendo por la desviación
típica (raíz cuadrada de la varianza). En el caso de un vector aleatorio, su estandarización es:
Que así construido verifica E(Y ) = 0 y Cov (Y, Y´) = Y d
Puede surgir alguna duda sobre cómo obtener la matriz . A este respecto es útil tener
presente que toda matriz de covarianzas es una matriz simétrica y semidefi nida positiva. Por ejemplo,
si A es una matriz simétrica, entonces (Figura 4; Fuente: Google):
Siendo v 1 , …………,v d una base ortonormal de autovectores de A y λ 1 , …….., λ d sus autovalores

asociados.
A se dice definida positiva si todos los autovalores de A son positivos. En ese caso se puede emplear
para definir una norma (y una distancia) (Figura 5; Fuente: Google):
A se dice semidefinida positiva si todos los autovalores son no negativos. En ese caso los autovalores
nulos provocan una reducción de dimensión.
Dado que toda matriz de covarianzas es una matriz simétrica y semidefinida positiva.
Su rango, número de autovalores no nulos, coincide con la dimensión del espacio lineal en el que se
puede incluir el vector aleatorio. De hecho, dicho espacio lineal es el generado por los autovectores
asociados a los autovalores no nulos.
Las potencias de una matriz simétrica se pueden obtener, simplemente elevando a la potencia
correspondiente la matriz diagonal de los autovalores, esto es, si R, entonces (Figura 6; Fuente:
Google):
Ahora, si consideramos una muestra aleatoria simple entonces (Figura 7; Fuente: Google):
De vectores aleatorios independientes y con la misma distribución normal multivariante.
La función de verosimilitud sería entonces (Figura 8; Fuente: Google):

La razón de verosimilitud es el estadístico (Figura 9; Fuente: Google):
maximiza la función de verosimilitud (L) sin restricciones y maximiza L cuando se impone la
condición de que pertenezca a la región paramétrica . La hipótesis que se pretende comprobar

mediante la razón de verosimilitud es:
Aceptamos la hipótesis H 0 si λ R es próxima a 1 y aceptamos la alternativa H 1 si λ R es

significativamente próximo a 0.
4.2. CONTRASTES DE UNIÓN-INTERSECCIÓN

Es un principio general que permite construir contrastes multivariantes a partir de contrastes
univariantes y se aplica a diversas situaciones.
Imaginemos que planteemos la hipótesis nula multivariante H 0 : μ = μ 0 como un test univariante.
Sea Xa = Xa una variable compuesta con media μ (a) = μá.
El test univariante H 0 (a): μ (a) = μ 0 (a) contra la alternativa H 1 (a): μ (a) ≠ μ 0 (a) se resuelve mediante
la t de Student (Figura 10; Fuente: Google):
Aceptaremos H 0 : μ = μ 0 si aceptamos todas las hipótesis univariantes H 0 (a), y nos decidiremos por la
alternativa H 1 : μ ≠ μ0 si aceptamos una sola de las alternativas H 1 (a), es decir, formalmente
(principio de unión-intersección) (Figura 11; Fuente: Google):
Así rechazaremos H 0 si la máxima t(a) resulta signicativa.
Además, la T2 de Hotelling es precisamente el cuadrado de esta máxima t de Student, que al ser

tomada sobre todas las combinaciones lineales, ya no sigue la distribución t de Student si p > 1.
4.3. CONTRASTES DE HIPÓTESIS ACERCA DEL VALOR DE MEDIAS

Un primer método para construir contrastes sobre los parámetros de una población normal se basan
en estadísticos con distribución conocida (ji-cuadrado, F).
• Test sobre la media: una población
Supongamos que las filas de X nxp son independientes N p (μ; Σ)
μ 0 es un vector de medias conocido.
La hipótesis que queremos comprobar mediante un test es: H 0 : μ = μ 0
Pues:
1. Si Σ es conocida, como la media es N p (μ; Σ/ n), el estadístico de contraste es (Figura

12; Fuente: Google):
2. Si Σ es desconocida, el estadístico de contraste será (Figura 13; Fuente: Google):

En ambos casos, para valores grandes significativos del estadístico
• Test sobre la media: dos poblaciones
Supongamos que ahora tenemos dos matrices de datos independientes X n1xp y X n2xp que
provienen de distribuciones N p (μ 1 ; Σ), N p (μ 2 ; Σ).
Construimos un test para comprobar la hipótesis
H0: μ 1 = μ 2
Pues:
1. Si Σ es conocida, como la media es N p (μ 1 - μ 2 , (1/ n 1 + 1/ n 2 ) Σ), el estadístico de

contraste es (Figura 14; Fuente: Google):
2. Si Σ es desconocida, el estadístico de contraste será (Figura 15; Fuente: Google):

La mayoría de los resultados expuestos en este apartado son consecuencia del
denominado Teorema de Cochran.
4.4. CONTRASTES DE HIPÓTESIS ACERCA DE LA MATRIZ DE

VARIANZAS-COVARIANZAS
Existe una gran variedad de hipótesis sobre la matriz de varianzas-covarianzas de una población
normal, o sobre las matrices de covarianzas de más de una población.
Los casos más representativos son el contraste de hipótesis de igualdad de matrices de covarianzas
en dos poblaciones normales y el contraste de hipótesis de la diagonal por bloques de la matriz de
covarianzas de una población normal
• Contraste de igualdad de matrices de covarianzas en dos poblaciones

normales.
Imaginemos dos poblaciones normales de las que tenemos diversas muestras, como por ejemplo:
Muestra 1: X 1 , X 2 ,……… X N1 Nd (μ 1 ; Σ 1 )
Muestra 2: Y 1 , Y 2 ,……… Y N2 Nd (μ 2 ; Σ 2 )
La hipótesis nula que intentamos comprobar es:

Para ello, el estimador de las matrices de covarianzas en cada población y de la matriz de covarianzas
conjunta es (Figura 16; Fuente: Google):
Siendo:
• Contraste de la diagonal por bloques de la matriz de covarianzas de una

única población normal.
La hipótesis nula queremos comprobar es:
Bajo esta hipótesis nula, la matriz en el numerador es una distribución de Wishart W p (N

−q−1,Σ 11 ) y la del denominador Wp(N−1,Σ 11 ). Una distribución que se expresa como suma de
productos
La distribución de Wishart es una extensión al caso multivariante de la distribución ji-cuadrado. La

distribución ji-cuadrado se atribuye a estimadores de la varianza, como la varianza muestral, y la
distribución de Wishart corresponde matrices de covarianzas muestrales.
El estimador es (Figura 17; Fuente: Google):
4.4.1. CONTRASTES DE HIPÓTESIS MÚLTIPLES. MANOVA
El analisis multivariante de la varianza o MANOVA (Multivariate analysis of variance) es una

extensión del análisis de la varianza o ANOVA para cubrir los casos donde hay más de una
variable dependiente que no pueden ser consideradas de manera simple)
Si el análisis de la varianza univariante pretende contrastar hipótesis lineales sobre la
influencia de los distintos niveles de uno o varios factores en el comportamiento de una
variable (unidimensional), el análisis multivariante de la varianza (MANOVA) tiene la misma
pretensión, pero considerando un vector (multidimensional) de variables.
La aplicación paradigmática del análisis de la varianza es determinar si existen diferencias

significativas entre los distintos niveles o grupos de un factor (categórico), a través del
contraste de igualdad de medias. Pero, además, el MANOVA intenta identificar las
interacciones entre las variables independientes y su grado de asociaci
Los supuestos del análisis MANOVA son:
1. Consideramos un vector aleatorio Y de dimensión n sobre el cuál obtenemos g

muestras correspondientes a los g niveles, categorías o grupos considerados.
2. Suponemos que Y sigue, en cada una de las poblaciones de los g grupos una
distribución Normal n-variante con vector de medias M (i= 1,2,...g), eventualmente
distinto para cada grupo y matriz de covarianzas V, la misma para todas las
poblaciones.
Bajo estos supuestos, consideraremos, también, que cada observación n-dimensional para
cada grupo, i, puede expresarse de acuerdo con el siguiente modelo:
Yi = M + Ai + Ei
Donde:
M es el vector de medias general.
Ai es un vector n-dimensional que nos indica el efecto propio del nivel o grupo
i-simo.
Ei es un vector aleatorio que nos indica la desviación errática de las observaciones y

se supone que sigue una distribución normal n-dimensional con vector de medias el vector
nulo y matriz de varianzas V, la misma para todos los grupos (i=1,2,...g)
Por tanto, deducimos que el vector Yi tendrá, en cada grupo, i, una distribución:
Y i → N [ (M + A i ); V ]
Sobre este modelo nosplanteamos contrastar la hipótesis nula de que todos los
vectores A sean nulos:
H 0 : A 1 = A 2 =....= Ag = 0
Esta hipótesis equivale a considerar que no hay diferencias en los vectores de medias de Y en
cada uno de los grupos o que las medias en cada grupo son las mismas y coinciden el vector
M. Para la realización del contraste, partimos, como en el caso univariante, de la
descomposición de la varianza total; en este caso de la matriz de varianzas y covarianzas
total.
La matriz de varianzas muestrales T puede verse como la suma de otras dos matrices de
varianzas: T = B + W
Donde:
• B es la matriz de varianzas "entre-grupos" (between-groups) y W es la matriz de

varianza "intragrupos" (within-groups).
• B expresa las varianzas y covarianzas, considerando los centroides de los grupos como
observaciones.
• W, en cambio, expresa la suma para todos los grupos de las varianzas y covarianzas de
las observaciones de cada grupo.
Pues bien, la matriz NB, donde N es el número total de observaciones muestrales, puede
probarse que sigue una distribución de Wishart con parámetros n, g-1, V (lo que se expresa
como W n (g-1, V ) ).
La distribución puede considerarse como una generalización de la distribución ji-cuadrado de

Pearson, que puede definirse de acuerdo con el siguiente esquema general:
Si tenemos una matriz de n columnas y m filas, Z; donde cada columna está formada por un
vector aleatorio m-dimensional que tiene una distribución normal m-variante con vector de
medias el vector nulo y matriz de varianzas V, la misma para todas las columnas de la matriz;
entonces la matriz A = Z'Z sigue una distribución de parámetros n, m y V (lo que puede
expresarse como):
W n (m,V)
Una propiedad importante de esta distribución es que si realizamos un muestreo aleatorio de

tamaño N sobre una población normal multivariante N [M,V], la matriz formada por el
producto del escalar N y la matriz de varianzas muestral, S, sigue una distribución de
parámetros n, N-1, V:
NS→ W n (N-1, V )
Es, precisamente, a partir de esta propiedad como puede probarse el resultado de que:
NB→W n (g-1,V)
Igualmente puede probarse también que si la hipótesis nula: H 0 : A1= A2 =....= A g = 0 es
cierta, entonces la matriz NW seguirá, también una distribución de parámetros n, N-g, V y
será independiente de la distribución de NB.
Obviamente también, considerando esa misma propiedad, NS (siendo S la matriz de

varianzas totales muestral) seguirá también una distribución Wn (N-1,V)
Teniendo en cuenta esto, el contraste de la hipótesis nula: H 0 : A 1 = A 2 =....= A g = 0 se lleva a

cabo evaluando el valor del estadístico λ (lambda de Wilks):
λ = |W| / |T|
Estadístico que sigue una distribución λ de Wilks de parámetros n, N-g ,g-1.
Es, precisamente este estadístico el que nos conducirá a determinar si los vectores de medias
de los grupos son significativamente diferentes o no; es decir, si la hipótesis nula es
rechazable o no:
Para un nivel de significación α:
• Aceptaremos la hipótesis nula si λ > λα
• Rechazamos la hipótesis nula si λ < λα
Siendo λ el valor crítico que verifica P ( λ > λα) = α en una distribución λ (n, N-g,g-1).
En la práctica el contraste se realiza después de una transformación previa del estadístico en

una F o una ji-cuadrado.
Bloque II - Técnicas de dependencia

Tema 5 - Regresión Lineal Múltiple
TEMA 5. REGRESIÓN MÚLTIPLE LINEAL
5.1. INTRODUCCIÓN
Figura 1. Esquema Técnicas Multivariantes.

La selección de la técnica de dependencia apropiada depende de:
1. El número de variables que se han designado como dependientes
2. Los niveles de escala de las variables dependientes e independientes
Las principales Técnicas de Dependencia se muestran en la Figura 2:

La Regresión Múltiple (RM) es una extensión directa de la Regresión Simple (RS). La diferencia
fundamental es que en la RM se analiza la relación entre dos o más variables independientes,
mientras que la RS implica una sola variable independiente. Por tanto, la RS cuenta con dos
parámetros (X e Y) y la RM cuenta con varios parámetros (X i e Y).
La ecuación predictiva para una situación de dos variables independientes es:
Ŷ i = a + b 1 X 1 + b 2 X 2 + …….
Donde, Ŷ i es la variable dependiente (criterio); X 1 , X 2 son las variables independientes (predictoras);

y a, b 1 y b 2 son los coeficientes de regresión calculados a partir de los datos de la muestra. Son
estadísticos que estiman los parámetros de la población.
Hasta el momento conocemos que podemos cuantificar la intensidad de la relación entre dos
variables mediante el Coeficiente de Correlación de Pearson, y que el Análisis de Regresión es un
procedimiento poderoso y flexible para analizar las relaciones asociadas entre una variable
dependiente y una o más variables independientes.
La RM es una técnica que nos permitirá explicar una variable (VD) mediante un conjunto de otras
variables explicativas (VIs).
Por ejemplo, mediante esta técnica podemos saber si la variación en la venta de un producto puede
explicarse en términos de variación en las inversiones publicitarias y al presupuesto destinado a
promociones, o saber si las percepciones de los consumidores sobre la calidad del producto están
determinadas por su consideración sobre los precios, la imagen de la marca y del servicio post-venta.
EJEMPLO I
Supongamos que el director de una empresa de esquí quiere saber cuáles son las variables que mejor
explican que los usuarios esquíen mucho o esquíen poco en su estación. Para conseguir este objetivo,
entrevista a una muestra de 217 clientes de la estación. Con los datos obtenidos se plantea realizar un
modelo de regresión múltiple, cuya variable a explicar, VD, es el número de días de esquí durante la
temporada en la estación. Las variables explicativas, VIs, después de seleccionar las más relevantes
son: la edad del cliente, los años de experiencia, el gasto medio por día durante su estancia, la
satisfacción general con la estación (escala de 0 a 10) y el número de personas con las que esquía.
Los fines de la regresión son:
1. Determinar la función que relaciona las VIs con la VD que explica la relación con las VIs
2. Determinar si las VIs explican una variación significativa de la VD; es decir, determinar si
existe tal relación
3. Determinar la importancia de la relación de asociación entre las VIs y la VD; es decir,

determinar la fuerza de la relación.
4. Predecir los valores de la VD
5. Controlar otras VIs al evaluar las contribuciones de una variable específica o un conjunto
de variables.
El Método a seguir cuando aplicamos el análisis de Regresión Múltiple es (Figura 3) 2 :
Fase I: Diseño del análisis
Siguiendo nuestro EJEMPLO I el objetivo del director de la empresa consiste en determinar cuáles
son las variables que mejor explican el que un sujeto esquíe mucho o poco. Para ello, trató de explicar
el número de días que los esquiadores volvían a su estación durante una temporada (V1). Para ello
registro:
• Edad de los esquiadores (V2)
• Años de experiencia (V3)
• Gasto medio por día durante la estancia (V4)
• Satisfacción general (V5)
• Número de personas con las que esquía (V6)
Todas las variables deben ser métricas o de intervalo.
En el análisis de Regresión Múltiple intervienen cuatro elementos:
1. Variables: VD (Y i ) y VIs (X 1 ; X 2 ; X 3 ; ……., X p )
2. Parámetros o coeficientes de regresión:
Son los valores que relacionan las variables (β1, β2, β3, …….. βp)
• β p : es el cambio esperado en Y debido al cambio en una unidad en Xp cuando el resto

de las variables se mantienen constantes.
• Los efectos combinados de las distintas Xp son aditivos (Si X 1 ; X 2 ; X 3 ; ……., Xp cambian
una unidad, el cambio esperado en Y sería β 1 , β 2 , β 3 , …….. β p ).
• La estimación de los parámetros β p es el fin de la Regresión.
3. Término residual: es el error (e) del modelo de Regresión debido a:
• Variables explicativas omitidas en el modelo
• Errores de medición
• Errores debidos al comportamiento cambiante del sujeto
4. Modelo General:
Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + …………..+ β p X p + e i
Los supuestos del Modelo son:
a) Relación lineal entre variables, el valor esperado de la variable dependiente

depende linealmente de las variables independientes (Linealidad)
b) La varianza de los errores es constante (Homocedasticidad)
c) Ausencia de multicolinealidad, es decir, ausencia de correlación alta entre las

VIs, no se pisan. Si no fuera así, no podríamos saber cuánto contribuye cada
variable por sí misma. No podríamos interpretar los β p . Si las variables están
correlacionadas es necesario recurrir al Análisis Factorial.
d) Los residuales deben distribuirse normalmente (Normalidad)
e) Independencia de los residuos (Independencia)
f) Existen limites de tolerancia que colocan límites sobre las mediciones que se
llevan a cabo sobre la distribución (Tolerancia)
Fase II: Estimación de los parámetros β . p
El Modelo General se expresa así:
Ŷ = β´ 0 + β´ 1 X 1 + β´ 2 X 2 + β´ 3 X 3 + …………..+ β´ p X p
Donde, Y = Ŷ + e y a y bi son los estimadores de β´0 y βí
En el Modelo de Regresión Lineal Simple, la estimación de parámetros significaba la obtención de la

línea que mejor se ajusta a la nube de puntos (Y, X). En el Modelo de Regresión Múltiple, se trata de
ajustar un plano (cuando tenemos dos VIs) o un hiperplano (+ 2 VIs) (Figura 4; Fuente: Google).
5.2. ESTIMADORES MÍNIMO CUADRÁTICOS: PROPIEDADES
El método de estimación más común es “mínimos cuadrados” que consiste en la minimización del
término residual “e”.
Consiste en descomponer la variación total de Y en dos fuentes de variación, la procedente de las

variables explicativas Xp (la explicada por el modelo) y la procedente del error o no explicada por el
modelo.
Donde, Y es el parámetro, Ŷ es el estimador e Ӯ es la media.
El método consiste en minimizar la suma de los cuadrados de los residuos, como se expresa en el
recuadro superior: min
Los estimadores obtenidos se denominan estimadores de mínimos cuadrados (MC) y gozan de ciertas
propiedades estadísticas deseables:
a) Insesgadez
Un estimador, por ejemplo, β´ 2 es insesgado si su esperanza matemática (valor esperado) es igual al

parámetro que trata de estimar, β 2 . Si bien es cierto que el estimador β 2 ´ es una variable aleatoria que
en cada muestra de y toma un valor diferente, en promedio, es decir, teniendo en cuenta los
infinitos valores que puede tomar β´ 2 , es igual al parámetro β 2 .
Con cada muestra de y se obtiene un valor específico de β´ 2 , es decir, una estimación. En la Figura 5A
aparecen representados dos estimadores de β2, β´ 2 (1) y β´ 2(2) . La primera estimación β´ 2(1) está
relativamente cerca de β 2 , mientras que β´ 2(2) está mucho más alejada
La insesgadez es una propiedad deseable, ya que nos asegura que el estimador en promedio está
centrado sobre el parámetro.
En la Figura 5B, por el contrario, el estimador β´ 2 es sesgado, ya que su esperanza no es igual a β2. El
sesgo es precisamente E(β´ 2 ) - β 2 . En este caso también se han representado dos hipotéticas
estimaciones: β´ 2(1) y β´ 2(2) . Como puede verse β´ 2(1) está más cerca de β 2 que el estimador
insesgado β´ 2(2) . Aunque se debe simplemente al azar, que β´ 2(1) esté más cerca que β´ 2(2) , por ser
sesgado no está centrado en promedio sobre el parámetro. Siempre es preferible un estimador
insesgado puesto que, con independencia de lo que ocurra en una muestra concreta, no tiene una
desviación sistemática respecto al valor del parámetro.
b) Eficiencia
Esta propiedad hace referencia a la varianza de los estimadores. En las Figuras 6A y 6B se han
representado dos hipotéticos estimadores insesgados. El primero de ellos (6A) tiene una varianza más
pequeña que el segundo (6B).
En ambas figuras se han representado dos estimaciones de β 2 : β´ 2(3) y β´ 2(4) . La estimación que está
más cerca de β 2 es β´ 2(3) en la figura 6B. Se ha mostrado así para resaltar el papel jugado por el azar,
sin embargo, la mejor estimación siempre es β´ 2(4) en la figura 6A porque el mejor estimador es el que
tiene la varianza más pequeña.
c) Linealidad
La relación entre la variable dependiente o explicada: y, las variables explicativas: x, y la perturbación

aleatoria es lineal en los parámetros:
y = β1 + β2x + e
Es necesario que exista una relación lineal en los parámetros.
5.3. TEOREMA DE GAUSS-MARKOV

El teorema de Gauss-Markov demuestra que los estimadores de MC tienen la menor varianza de entre
todos los estimadores lineales e insesgados. Por esta razón se dice que los estimadores de MC son
estimadores lineales, insesgados y óptimos (ELIO).
Este teorema se basa en 10 supuestos; supuestos que se conocen como los supuestos de
Gauss-Markov:
1. El modelo está correctamente especificado
2. Debe ser lineal en los parámetros: y = β1 + β2x + e
3. El valor de la media condicional debe ser 0.
4. Hay homocedasticidad. La varianza del error de la variable endógena y, la que se va a

predecir, se mantiene a lo largo de las observaciones. Las perturbaciones tienen una
varianza constante.
5. No existe correlación entre las pertubaciones. Es decir, las perturbaciones correspondientes

a diferentes individuos o a diferentes momentos de tiempo, no están correlacionadas entre
sí. Este supuesto de no autocorrelación o no correlación serial, al igual que en el caso de
homoscedasticidad, es contrastable a posteriori. La transgresión de este supuesto se produce
con bastante frecuencia en los modelos que utilizan datos de series temporales.
6. La covarianza entre la perturbación y las variables explicativas es 0
7. El número de observaciones es mayor que el del parámetro
8. No existe variabilidad entre las variables explicativas (x). Es decir, el regresor x no contiene
errores de medición.
9. Las variables explicativas (x) no son estocásticas, es decir, son fijas en muestras repetidas.
Es decir, cada observación de x toma el mismo valor para diferentes muestras de y.
10. No hay multicolinealidad perfecta. No existe una correlación perfecta entre las variables
explicativas.
Fase III: Interpretación de los resultados
Además de la estimación de los parámetros β p , los paquetes estadísticos informan de la fuerza de

asociación:
La fuerza de asociación viene especificada por el Coeficiente de Determinación (R²) y el R² ajustado.
R² * 100 = Medida de Bondad de Ajuste del Modelo
La bondad de ajuste es la proporción de varianza de Y explicada por Xp. Sus valores van de 0 a 1,
valores próximos a 0 indican que el modelo no se ajusta bien a los datos.
La bondad de ajuste R² nos informa como se ajusta el modelo a la muestra con la que trabajamos.
Pero nuestro objetivo es desarrollar un modelo para predecir a nivel poblacional, por eso se ajusta el
R², ya que éste aumenta con el número de VI y el tamaño de la muestra.
R² ajustado = ; porque R² aumenta en función del número de VI y n.
Así mismo, βp indica la dirección de la relación y la intensidad de la relación.
Si β p > 0: un incremento, e una unidad, de la variable Xp implica un incremento en Y en unidades.

Si β p < 0: un incremento, en una unidad, de la variable asociada Xp, implica una disminución de la
variable a explicar Y en β p .
Por otro lado, hay que tener en cuenta que si las Xp fueron medidas en escalas diferentes (años,
euros, número de personas, etc.) los coeficients β p NO SON COMPARABLES ENTRE SÍ. Para evaluar la
importancia de cada variable explicativa, Xp hay que normalizar los coeficientes (N β p ). Para ello se
estandarizan (normalizan) las variables explicativas Z xp (N, 0, 1). Estos parámetros se relacionan entre
sí:
A partir de los coeficientes normalizados N β p , además, podemos conocer el peso de cada VI a la

hora de explicar la VD. Para ello aplicamos:
Si retomamos nuestro ejemplo: empresa de esquí; entrevista a una muestra de 217
Tenemos los siguientes resultados:

La variable V3 es la variable más influyente, explica el 44,6% de la varianza, mientras que V5 sería la
menos influyente.
5.4. ANÁLISIS DE LOS RESIDUALES
El análisis de residuos permite identificar valores outliers (fuera de rango) para los que la relación
lineal planteada entre la VD y las VIs no existe. No se ajusta a las respuestas dadas. Es decir, los
valores estimados de la VD difieren notablemante de los valores reales ei = Yi -Ŷi
Los outliers influyen negativamente en el ajuste general del modelo. Unos pocos outliers son
suficientes para distorsionar los resultados.
Para identificar los outliers los pasos a seguir son:
Normalizar los términos residuales obtenidos:

Para cada elemento de la muestra contrastar las siguientes hipótesis:
Dado que el estadístico t se corresponde con el valor de Ne i , si Ne i > 1,96 rechazamos la H 0 (α =

5%). Estos serán los outliers.
Esto también se resuelve representando gráficamnte los valores residuales normalizados de toda la
muestra.
5.5. CORRELACIONES MÚLTIPLE Y PARCIAL
Una manera objetiva de cuantificar la intensidad de la relaicón es mediante el cálculo del Coeficiente
de Correlación de Pearson.
Trazando la media de las dos variables en un gráfico tenemos 4 cuadrantes (Figura 7):
En el cuadrante 1: los valores de X e Y están por encima de sus respectivas medias, tienen
desviaciones positivas.
En el cuadrante 2: los valores de X tienen desviaciones negativas y los de Y desviaciones positivas.
En el cuadrante 3: ambos tienen desviaciones negativas
En el cuadrante 4: X tiene desviaciones positivas e Y negativas.
Si los puntos caen en cuadrantes diagonales evidencian relación entre ambas variables.
Para cuantificar esta relación tenemos que:
• Definir x = (X i - Ẋ i ) e y = (Y i - Ӯ i ), desviaciones de sus respectivas medias.

• Al multiplicar las dos desviaciones obtenemos un valor con un signo, que nos dice algo
acerca del cuadrante en el que cae un punto de los datos: xy = (X i - Ẋ i ) (Y i - Ӯ i ). De
forma que si x e y son positivos, xy es positivo (cuadrante 1); si x es negativo
e y positivo, xy es negativo (cuadrante 2); si x e y son negativos, xy es positivo
(cuadrante 3); y si x e y son negativos, xy es negativo (cuadrante 4). Por tanto, si la
nube de puntos cae en los cuadrantes 1 y 3 la relación es positiva y si cae en los
cuadrantes 2 y 4 es negativa.
• Si sumamos todos los Σxy, el signo indicará la dirección de la relación. Pero tiene dos
inconvenientes: 1) el valor de Σxy depende del número de datos u observaciones; y 2)
el valor Σxy depende de la unidad de medición de x e y.
• Para corregir los efectos del tamaño de la muestra dividimos Σxy entre los grados de
libertas del tamaño de la muestra, n – 1, y así creamos la Medida de Covarianza.
La covarianza es la relación sistemática entre dos variables, en la cual el cambio en una implica un
cambio correspondiente en la otra.
Eliminamos el efecto de las unidades de medición dividiendo entre las desviaciones estándar
de X e Y, y obteniendo el denominado Coeficiente de Correlación de Pearson:
r xy =cov xy / S x S y
La correlación es una medida estandarizada de la Covariación.

Permite que se comparen dos correlaciones independientes de las unidades en que se midan y las
observaciones.
r xy un número absoluto y no se expresa como cualquier unidad de medición. No importan las

unidades subyacentes de las 2 variables que intervienen.
-1 < rxy < +1: es una medida de la dirección y fuerza de la relación.
El % exacto de variación que comparten dos variables se calcula elevando al cuadrado r, al que
conocemos, el Coeficiente de Determinación.
El Coeficiente de correlación parcial nos ofrece la posibilidad de conocer el verdadero grado de

asociación entre dos variables, manteniendo al margen la influencia de una tercera o terceras
variables.
Este coeficiente puede calcularse a partir del conocimiento de las correlaciones sencillas, sin utilizar
informaciones individuales de los elementos de la muestra. La fórmula para la correlación parcial se
define como se muestra en la Figura 8
Para concluir, cabe hacer mención especiales a aquellas situaciones en las que deseamos conocer la
asociación que existe entre variables que no son métricas (no tienen propiedades de una escala de
intervalo y no presentan una distribución norma.
En estos casos, podemos recurrir a los índices rho de Spearman y Ƭ de Kendall, cuando la distribución
no es normal pero sí son numéricas y ordinales las variables. La rho de Spearman se aproxima cuando
tenemos muchas categorías, la T de Kendall es preferida cuando muchos casos entran en un número
selectivamente bajo de categorías.
5.6. CONTRASTES DE HIPÓTESIS: PRUEBAS DE SIGNIFICACIÓN

Para probar si cada VI (Xp) por sí sola influye significativamente sobre VD (Y)
El estadístico de contraste se llama estadístico t o cociente t (t ratio) de βp
P son los grados de libertad del numerador = glr - glnr, donde gl = numero de observaciones-
número de parámetros estimados.
n-P-1 = grados de libertad del denominador: gl nr
Por otro lado, si lo que queremos es comprobar globalmente la relación entre todas las VI y la VD,
aplicaremos:
El estadístico de contraste en este caso se llama estadístico F:
F nunca es negativo Es un estimador insesgado de σ ²
P son los grados de libertad del numerador
n-P-1 = grados de libertad del denominador: gl nr
5.7. INTERVALOS DE CONFIANZA SIMULTÁNEOS
Los intervalos de confianza a los que estamos habituados a utilizar son intervalos uno por uno,
denominamos “estop es”. Son los tipos usuales de intervalo de confianza o predicción, en donde el
coeficiente de confianza 1- α indica la proporción de estimaciones correctas que resulta cuando se
seleccionan muestras aleatorias repetidas. En algunos problemas se necesita construir varios
intervalos de confianza con los mismos datos de la muestra, necesitamos un coeficiente de confianza
que se aplique de forma simultánea, o al mismo tiempo, a todo el conjunto de estimaciones por
intervalo. Un conjunto de intervalos de confianza que son todos ciertos de forma simultánea, con 1-
α de probabilidad, se llama conjunto de intervalos simultáneos o conjuntos de confianza.
Es relativamente fácil definir una región de confianza conjunta para los parámetros β del modelo de
Regresión Múltiple (Figura 9).
Y eso implica que (Figura 10).
En consecuencia, una región de confianza conjunta de 100(1−α) por ciento, para todos los
parámetros en β es (Figura 11):
5.8. MATRICES SINGULARES DE DISEÑO

Se dice que existe multicolinealidad entre las variables explicativas cuando existe algún tipo de
dependencia lineal entre ellas, o lo que es lo mismo, si existe una fuerte correlación entre las mismas.
La correlación no solamente se refiere a las distintas variables dos a dos, sino a cualquiera de ellas con
cualquier grupo de las restantes. Por esta razón no es suficiente (aunque sí necesaria) que en la matriz
de correlaciones bivariadas haya correlaciones altas.
El principal inconveniente de la multicolinealidad consiste en que se incrementan la varianza de los

coeficientes de regresión estimados hasta el punto que resulta prácticamente imposible establecer su
significación estadística, ya que como se sabe, el valor de t para un determinado coeficiente de
regresión es el valor de dicho coeficiente dividido por su desviación. Si este es grande, el valor de t
será bajo y no llegara a la significación.
La varianza de los estimadores tiene que ver con (X´X)-1, donde X es la matriz de los valores de las
variables independientes. Cuando las columnas de X son colineales, la matriz es singular y no tiene
inversa. En este sentido los autovalores de la matriz X´X (normalizada) nos puede proporcionar
información del grado de singularidad de la misma. A este respecto, disponemos del Indice de
Condición, cuyo valor es la raíz cuadrada del cociente entre el máximo autovalor y el mínimo de la
matriz X´X:
Se considera que a partir de un valor de 20 hay cierta multicolinealidad y que ésta es alta a partir de
30.
Podemos conocer además qué variables presentan multicolinealidad analizando la proporción de

varianza de los estimadores de los coeficientes de regresión en los componentes con un índice de
condición alto. Variables, cuya proporción de varianza en dichos componentes, sea superior a 0.5 son
indicativos de colinealidad.
En el SPSS, para conocer la posible colinealidad marcaremos en Regresión lineal/estadísticos,

Diagnósticos de colinealidad.
Fase IV: Selección del número optimo de variables explicativas
Uno de las cuestiones más importantes a la hora de encontrar el modelo de ajuste más adecuado
para explicar la variabilidad de una característica cuantitativa es la correcta especificación del llamado
modelo teórico. En otras palabras, debemos seleccionar de entre todas las variables candidatas a ser
explicativas de la variable dependiente un subconjunto que resulte suficientemente explicativo
Para ello debe eliminarse las variables Xp con βp no significativas y volver a repetir el análisis para
obtener estimaciones correctas.
Entre otros, existen tres métodos:
Foward selection Backward elimination Stepwise
El Método Forward comienza por un modelo que no contiene ninguna variable explicativa y se
añade como primera de ellas a la que presente un mayor coeficiente de correlación -en valor
absoluto- con la variable dependiente. En los pasos sucesivos se va incorporando al modelo aquella
variable que presenta un mayor coeficiente de correlación parcial con la variable dependiente dadas
las independientes ya incluidas en el modelo. El procedimiento se detiene cuando el incremento en el
coeficiente de determinación debido a la inclusión de una nueva variable explicativa en el modelo ya
no es importante.
El Método Backward comienza por considerar incluidas en el modelo teórico a todas las variables
disponibles y se van eliminando del modelo de una en una según su capacidad explicativa. En
concreto, la primera variable que se elimina es aquella que presenta un menor coeficiente de
correlación parcial con la variable dependiente-o lo que es equivalente, un menor valor del estadístico
t– y así sucesivamente hasta llegar a una situación en la que la eliminación de una variable más
suponga un descenso demasiado acusado en el coeficiente de determinación.
El Método stepwise es uno de los más empleados y consiste en una combinación de los dos
anteriores. En el primer paso se procede como en el método forward pero a diferencia de éste en el
que cuando una variable entra en el modelo ya no vuelve a salir, en el procedimiento stepwise es
posible que la inclusión de una nueva variable haga que otra que ya estaba en el modelo resulte
redundante y sea “expulsada” de él.
Es obvio que, el modelo de ajuste al que se llega partiendo del mismo conjunto de variables
explicativas es distinto según cuál sea el método de selección de variables elegido. Pero ninguno de
los llamados métodos automáticos garantiza encontrar el modelo óptimo -en el sentido, por ejemplo
de maximizar el coeficiente de determinación o cualquier otro criterio que nos parezca relevante-.
EJEMPLO III
Imaginemos que tenemos un conjunto de 40 observaciones de tres variables a las que llamaremos Y
(la dependiente) y X1 y X2 (las explicativas). Si sobre estos datos aplicamos un procedimiento de
tipo forward o de tipo stepwise, el modelo óptimo según los procedimientos forward o stepwise es el
que no contiene ninguna variable explicativa.
Los resultados para ambos modelos son:
Figura 12. Método Foward
Debido a que ninguna de las dos variables, cuando son consideradas de manera independiente,
supera los criterios mínimos para ser incluida en el modelo (que su coeficiente t lleve asociada una
probabilidad crítica inferior a 0,05), no se incluye ninguna variable X en el modelo según el Método
Foward.
Si por el contrario consideramos un procedimiento backward el resultado será el siguiente:
Figura 13. Método Backward
El coeficiente de determinación para este modelo con dos variables explicativas es 0,987 y al
coeficiente F asociado le corresponde una probabilidad crítica inferior a 0,001. Adicionalmente, a los
estadísticos t asociados a cada una de las dos variables explicativas les corresponden probabilidades
críticas muy reducidas. Hemos encontrado, por tanto, un buen modelo lineal para explicar el
comportamiento de Y a partir del comportamiento de X1 y X2. El problema radica en que si
hubieramos elegido de forma acrítica utilizar un procedimiento forward o stepwise, jamás lo
habríamos encontrado.
Tema 6 - Análisis Discriminante
TEMA 6. ANÁLISIS DISCRIMINANTE

6.1. INTRODUCCIÓN
El Análisis Discriminante (AD) es una técnica estadística multivariante cuya finalidad es analizar,
describir, si existen diferencias significativas entre grupos de objetos o sujetos respecto a un conjunto
de variables medidas sobre los mismos para, en el caso de que existan, explicar en qué sentido se dan
y proporcionar procedimientos de asignación sistemática de nuevas observaciones de origen
desconocido en uno de los grupos analizados, utilizando para ello sus valores en las variables
clasificadoras.
El AD ayuda a identificar las características que diferencian (discriminan) a dos o más grupos y a crear
una función capaz de distinguir con la mayor precisión posible a los miembros u objetos de uno u
otro grupo.
Para llegar a conocer en que se diferencian los grupos necesitamos conocer la información
(cuantificada en una serie de variables) en la suponemos se distinguen. El AD puede decirnos cuáles
son las variables realmente discriminantes, suficientes y necesarias, para alcanzar el mejor modelo
predictivo.
Podemos ver este procedimiento como un modelo de predicción, un análisis de regresión, donde la
variable dependiente es categórica (variable grupo con tantas categorías como grupos) y las variables
independientes son continuas (variables clasificatorias) y determinan a qué grupos pertenecen los
objetos.
• Permite encontrar relaciones lineales entre las variables continuas que mejor discriminen
en los grupos dados a los objetos.
• Construir una regla de decisión que asigne un objeto nuevo con un cierto grado de
riesgo, cuya clasificación previa se desconoce, a uno de los grupos prefijados
Independiente del área de conocimiento en el que trabajemos, el análisis discriminante nos permite
distinguir grupos patológicos y normales, distinguir grupos de pacientes respondedores y no
respondedores, predecir si una empresa va a entrar en bancarrota o si un alumno va a superar una
asignatura.
• Semejanzas y diferencias con otras técnicas
o Se diferencia de la Regresión Lineal en que la VD no es métrica es

categórica
o Se diferencia de la Regresión Logística en que las VIs tienen que ser
necesariamente métricas y normales
o Se diferencia del Análisis de Clusters en que los grupos en el AD son

conocidos de antemano.
• Supuestos
1. Existe una variable categórica (VD) y el resto de variables son de intervalo o de

razón (VIs) y son independientes respecto de ella.
2. Se necesitan al menos dos grupos, y para cada grupo se necesitan dos o más casos.
3. El número de variables discriminantes debe ser menor que el número de objetos

menos 2, es decir, (X1, X2 ,….. , Xp) donde p < (n−2) siendo n = número de objetos.
4. Ninguna variable discriminante puede ser combinación lineal de otras variables

discriminantes.
5. El número máximo de funciones discriminantes es el mínimo entre el número de

grupos menos 1 y el número de variables p. [q−1, p]
6. Las matrices de covarianzas dentro de cada grupo deben de ser aproximadamente

iguales.
7. Las variables continuas deben seguir una distribución normal multivariante.
• Filosofía
El AD estima la relación entre una VD categórica y un conjunto de VIs métricas, de modo que
podamos comprender la pertenencia a un grupo.
Partiendo de q grupos a los cuales se asignan una serie de objetos y de p variables medidas sobre
ellos (X1 , X2 ,….. , Xp) , se trata de obtener para cada objeto una serie de puntuaciones que indican
el grupo al que pertenecen (Y1 , Y2 ,….. , Ym), de modo que sean funciones lineales de (X1 , X2 ,…..
, Xp):
Y 1 = W 11 X 1 + W 12 X 2 + W 13 X 3 +………..+ W 1p X p + W 10
………………………………………………………………………………………….
…………………………………………………………………………………………
Y m = W m1 X 1 + W m2 X 2 + W m3 X 3 +………..+ W mp X p + W 10
Donde:
m = mín[q−1, p ], tales que discriminen lo máximo posible a los q grupos. Estas combinaciones
lineales de las p variables deben maximizar la varianza entre los grupos y minimizar la varianza dentro
de los grupos.
Wp = ponderación discriminante para las VIs
Xp = variables independientes p
El AD contrasta la hipótesis de que las medias de los grupos en un conjunto de VIs son iguales.
Para que una VI sea un predictor significativo, las medias de los grupos deben ser distintas.
Para saber si una función discriminante es o no es estadísticamente significativa debemos comparar la

distribución de las puntuaciones discriminantes de los grupos establecidos. Si el solapamiento es muy
pequeño la función discrimina o separa bien los grupos.
El procedimiento a seguir en el AD:
1. Plantear los objetivos del análisis
Identificamos las variables que mejor discriminan entre los grupos, y determinamos en qué
medida lo hace cada una. De este modo podremos: a) comprender las diferencias entre los
grupos y b) pronosticar el grupo de pertenencia de un objeto o sujeto (clasificar)
2. Diseñar la investigación
Hay varios elementos que van a condicionar el éxito del AD:
a) Selección de las variables
La VD mejor opción es escoger una VD con 2-4 grupos o categorías. El número

de categorías debe ajustarse al poder discriminante de los predictores
Las VIs deben ser métricas y con distribución normal seleccionadas en base a
investigaciones previas, bibliografía, etc… No deben ser excesivas.
Los grupos deben ser mutuamente excluyentes
b) Tamaño muestral
El AD es muy sensible a la ratio entre tamaño muestral y número de variables

predictoras (recomendable 20 casos por VI, 5 como mínimo).
El tamaño de los grupos debe ser similar (si es necesario trabajaremos con un
submuestras del grupo más grande)
El grupo más pequeño debe ser mayor que el número de predictores.
c) División de la muestra
La muestra se divide en dos: una mitad para estimar a función discriminante y

otra para validarla. Para ello aplicamos el enfoque de validación cruzada (muestra
de análisis + muestra ampliada), garantizando un tamaño muestral total suficiente
y aplicando muestreo estratificado proporcional en ambas muestras.
3. Comprobar que se cumplen los supuestos
La correcta aplicación del AD va a depender de: la normalidad de las VIs (si no se cumple se
aplica la Regresión Logística); la no multicolinealidad entre las VI (baja relación entre las VI);
ninguna variable de ser combinación lineal de otras, y la similaridad de las matrices de
covarianzas intergrupales.
4. Estimar el modelo y evaluar el ajuste global
Para estimar matemáticamente la función discriminante existen dos métodos de cálculo:
a) La estimación simultánea (ENTER).
La estimación simultánea implica el cálculo de la función discriminante donde todas las

variables independientes son consideradas simultáneamente, sin considerar la capacidad
discriminante de cada variable independiente. Se puede realizar en una sola etapa, se
recomienda cuando el número de variables es reducido y existe interés por el conjunto.
b) La estimación por pasos (SEPTWISE)
La estimación por pasos es una alternativa al enfoque simultáneo. Incluye las variables
independientes dentro de la función discriminante de una en una, según su capacidad
discriminatoria. El enfoque por etapas comienza eligiendo la variable que mejor discrimina.
La variable inicial se empareja entonces con cada una de las variables independientes (de una
en una), y se elige la variable que más consigue incrementar la capacidad discriminante de la
función en combinación con la primera variable. La tercera y posteriores variables se
seleccionan de una manera similar. Mientras se incluyen variables adicionales, algunas
variables seleccionadas previamente pueden ser eliminadas si la información que contienen
sobre las diferencias del grupo está contenida en alguna combinación de otras variables
incluidas en posteriores etapas. Al final, o bien todas las variables habrán sido incluidas en la
función, o se habrá considerado que las variables excluidas no contribuyen significativamente
a una mejor discriminación.
Se puede realizar en varias etapas, se recomienda cuando hay un número amplio de variables
o se duda del modelo teórico.
Es útil para ver la capacidad explicativa de cada VI, analizar las distintas combinaciones de VIs
o para valorar la parsimonia de las VIs.
Con esta estrategia, las variables discriminantes se van incorporando a la función

discriminante una a una y, de esta manera, es posible, por un lado, construir una función
utilizando únicamente aquellas variables que son realmente útiles para la clasificación y, por
otra parte, evaluar la contribución individual de cada variable al modelo discriminante.
Se comienza seleccionando aquella VI que más diferencia a los grupos, la que permite hacer
mejores clasificaciones.
Después de calcularse la función discriminante, el investigador debe valorar el nivel de

significación. Se dispone de varios criterios estadísticos. El criterio convencional de 0,05 o
superior se utiliza a menudo. Todos los programas de automáticos proporcionan al
investigador la información necesaria para averiguar el número de funciones necesarias para
obtener significación estadística, sin incluir funciones discriminantes que no incrementen la
capacidad discriminatoria significativamente.
Entre los estadísticos más destacados se encuentra la λ de Wilks.
La λ de Wilks es un estadístico que mide el poder discriminante de las variables. Tiene una
distribución con p, q-1 y n-q grados de libertad (n es el número de casos válidos, p el
número de variables y q es el número de grupos). En la λ de Wilks cada variable
independiente candidata a entrar en el modelo se evalúa mediante un estadístico Fcambio
que mide el cambio que se produce en la λ al incorporar cada variable al modelo. Obtenido
el valor Fcambio para cada variable, se incorpora al modelo la variable a la que le
corresponde el mayor valor Fcambio (la que produce un mayor cambio en la λ de Wilks). En
la función aquellas VIs que minimicen la λ de Wilks.
Además de la λ de Wilks, se pueden utilizar otros criterios como la distancia de Mahalanobis,

la V de Rao y la menor razón F.
La D² de Mahalanobis es una medida de distancia que determina la similitud entre

dos variables aleatorias multidimensionales. Se incorpora en cada paso la variable que
maximiza la D² de Mahalanobis entre los dos grupos más próximos.
La V de Rao es un estadístico que es directamente proporcional a la distancia entre los

grupos. Al utilizar este criterio, la variable que se incorpora al modelo es aquella que produce
un mayor incremento en el valor de V.
La menor razón F incorpora en cada paso la variable que maximiza la menor razón de F para
las parejas de los grupos. El estadístico F utilizado es la distancia de Mahalanobis ponderada
por el tamaño de los grupos.
Independientemente del método seleccionado en la estimación por pasos siempre se

comienza seleccionando la variable independiente en la que más se diferencian los grupos.
Una vez seleccionada debe cumplir el criterio de entrada. A continuación se selecciona la
variable que contribuye a conseguir que la función discriminante diferente a los grupos. Cada
vez que se incorpora una variable al modelo, las variables previamente seleccionadas son de
nuevo evaluadas, de modo que si aparece una variable que incrementa la potencia
discriminativa de la función esta entra y otra variable puede cumplir el criterio de salida y es
excluida del modelo.
Con programas automáticos como el SPSS podemos fijar cual es el criterio de entrada y
salida para incorporar o excluir las variables. Por defecto, una variable pasa a formar parte del
modelo si el estadístico F es mayor de 3,84 y es expulsada si el valor de F es menor de 2,71. O
una variable entra si el valor crítico asociado al valor del estadístico F es menor que 0,05 y
sale si el valor crítico asociado al valor del estadístico F es mayor que 0,10.
Una vez que se han identificado las funciones discriminantes significativas, la atención se
desplaza a averiguar el ajuste global de la(s) función(es) discriminante(s) considerada(s). Esta
valoración conlleva a tres tareas:
1) Calcular la puntuación Z discriminante para cada observación.
Las puntuaciones Z vienen dadas por:
Z jk = a + W 1 X 1k + W 2 X 2k + …….. + W p X pk
donde
Zjk : Puntuación z discriminante de la función discriminante j para el

objeto k
a: Constante
Wi: Ponderación discriminante para la variable independiente i
Xik: Variable independiente i para el objeto k

Estas puntuaciones Z pueden emplear valores y ponderaciones estandarizados o no
estandarizados. La versión estandarizada es más útil en la interpretación, pero la versión
no estandarizada es más fácil de utilizar en el cálculo de la puntuación Z discriminante.
• Debemos darnos cuenta de que la función discriminante difiere de la función de

clasificación, también conocida como la función discriminante lineal de Fisher.
Las funciones de clasificación, una para cada grupo, pueden utilizarse al clasificar
observaciones. En este método de clasificación, unos valores de la observación
para las variables independientes se incluyen en las funciones de clasificación y
se calcula una puntuación de clasificación para cada grupo para esa observación.
La observación se clasifica entonces en el grupo con la mayor puntuación de
clasificación. Utilizamos la función discriminante como el medio de clasificar
porque ofrece una representación resumida y simple de cada función
discriminante, simplificando el proceso de interpretación y la valoración de la
contribución de las variables independientes.
2) Evaluar las diferencias entre grupos.
Una forma de valorar el ajuste global del modelo es determinar la magnitud de las
diferencias entre los miembros de cada grupo en términos de las puntuaciones Z
discriminantes. Una medida resumen de las diferencias entre grupos es una
comparación de los centroides (puntuaciones Z discriminantes medias para todos los
grupos). Una medida de éxito del análisis discriminante es su capacidad para definir
funciones discriminantes que den lugar a centroides de grupo significativamente
diferentes. Las diferencias entre centroides se miden en términos de la medida D² de
Mahalanobis, para la cual se dispone de contrastes que determinan si las diferencias
son significativamente distintas.
3) Evaluar la exactitud en las predicciones de pertenencia.
Para evaluar la exactitud en las predicciones de pertenencia al grupo la función

discriminante deber ser potencialmente predictiva. Para poder comprobarlo, el
investigador debe construir matrices de clasificación donde se revele la razón de
aciertos o porcentaje correctamente clasificados.
Para construir la matriz de clasificación se debe determinar la puntuación de corte. La
puntuación de corte es el criterio (puntuación) frente al cual cada puntuación
discriminante individual es comparada para determinar dentro de qué grupo debe ser
clasificado cada objeto. También se denomina Valor Z crítico.
Para dos grupos de igual tamaño es la media de sus centroides:
ZCE : Valor de la puntuación de corte crítica para grupos de igual tamaño
ZA: Centroide del grupo A
ZB: Centroide del grupo B
Para dos grupos de distinto tamaño, es la media ponderada de sus centroides:
ZCU: Valor de la puntuación de corte crítica para grupos de distinto tamaño
NA: Número del grupo A
NB: Número del grupo B
ZA: Centroide del grupo A
ZB: Centroide del grupo B

Una vez tenemos el punto de corte, elaboramos la matriz de clasificación. Dado que
tenemos la muestra dividida en dos, la muestra de análisis y la muestra de validación, el
proceso consiste en multiplicar las ponderaciones generadas por la muestra de análisis
por las medidas de la variable primaria de la muestra de validación. Después, las
puntuaciones discriminantes individuales para la muestra de validación se comparan
con el valor de la puntuación de corte crítica y se clasifica de la siguiente forma: se
clasifica un objeto en el Grupo A si Zn < Zct; se clasifica un objeto en el Grupo B si Zn
>Zct (Zn = Puntuación Z discriminante para el individuo n-ésimo; Zct = Valor de
la puntuación de corte crítica).
4) Valorar la capacidad predictiva de la función discriminante.
La capacidad predictiva de la función discriminante se mide con la razón de aciertos, el

cual se obtiene en la matriz de clasificación. Para determinar cuál es el nivel aceptable
de capacidad predictiva para una función discriminante, debemos tener en cuenta cuál
sería el porcentaje que podría ser clasificado correctamente de forma aleatoria (sin la
ayuda de la función discriminante), determinar el Criterio de Aleatoriedad. Si los
tamaños muéstrales son iguales, basta con dividir 1 por el número de grupos (1/n
grupos) (por ejemplo, en una función de dos grupos la probabilidad sería de 0,5 y para
una función de tres grupos la probabilidad sería de 0,33); si los tamaños de los grupos
son distintos aplicamos el Criterio de Aleatoriedad Proporcional)
C PRO = p2 + (1-p)2
p = proporción de individuos del grupo 1
p -1 = proporción de individuos del grupo 2
La precisión clasificatoria debe ser, por lo menos, ¼ mayor que la obtenida por azar
(para 2 grupos: 62,5%).
5) Interpretar los resultados

Hay que examinar la función discriminante para determinar la importancia relativa de
cada variable independiente en la discriminación de los grupos.
Distinguimos tres estrategias:
a) Ponderaciones discriminantes estandarizadas (Coeficientes discriminantes).
Los coeficientes son estandarizados para facilitar la interpretación, sus

magnitudes están comprendidas entre -1 y 1, lo que permite ver la importancia
relativa de cada variable. Si ignoramos el signo, el coeficiente estandarizado de la
función representa la contribución de cada variable en cuestión al modelo
discriminante. Cuanto mayor sea su valor, mayor será la aportación a la capacidad
predictiva del modelo. El signo representa el efecto, positivo o negativo, de la
variable sobre la diferenciación entre grupos. Los coeficientes estandarizados
sirven para clasificar y, a través de los mismos se calculan los centroides.
b) Las cargas discriminantes (Correlaciones de estructura).
Miden la correlación lineal simple entre cada variable independiente y las

puntuaciones Z. Informan de la función relativa de cada variable a la función, pero
sin tener en cuenta el resto de las variables (puede llevar a confusión).
Carga al cuadrado = Variabilidad Compartida
c) Valores parciales de la F. es útil en el método por etapas (Stepwise). A mayor

F mayor importancia de la variable independiente que entra en cada grupo.
• Y ………¿cuando hay más de dos grupos?
Cuando hay más de dos grupos, hay más de una función. La interpretación se
complica, ya que tenemos tantas funciones como grupos-1, con lo que es difícil
saber la capacidad discriminante de cada función y de cada predictor.
Las funciones discriminantes se extraen de manera jerárquica. La primera es la que

mejor explica las diferencias entre los grupos (mayor autovalor), la segunda la
mayor parte de las diferencias que quedan aún por explicar y así sucesivamente.
Las funciones son independientes y complementarias. La 1ª discrimina entre dos
grupos concretos y la 2ª entre los dos grupos que se encuentran más próximos en
la 1ª función.
Se recomienda:
a) Prestar atención a los centroides en cada función. Centroides muy distintos.
b) Recurrir a una solución gráfica llamada mapa territorial (Figura 1. Fuente:

propia). El mapa territorial muestra la localización de los centroides en el plano
definido por las dos primeras funciones discriminantes, así como las fronteras
territoriales utilizadas en la clasificación.
c) Valorar la F y la λ asociadas en cada función.
d) F para distancias por parejas (grupos). Permite conocer entre qué grupos
discrimina cada función.
Figura 1. Mapa territorial

6. Validar los resultados
El objetivo de la validación de los resultados es asegurar que los resultados tienen validez
(estabilidad).
¿Cómo?
Existen 2 métodos:
a) Validación cruzada. Dividimos la muestra en dos mitades al azar. Comprobamos si

el modelo funciona igual de bien y permanece estable en la segunda muestra.
Se puede realizar el proceso incluso varias veces y promediar los resultados.
Y se pueden estimar los resultados con k – 1 muestras, es decir, dejando cada vez un
sujeto fuera, y promediándolos (Método de dejar uno fuera). Útil cunado trabajamos
con muestras muy pequeñas.
b) Diseño de Grupos.
Se caracterizan los perfiles de los grupos en base a las variables discriminantes

significativas.
¿En qué se diferencian?
¿Cuáles son sus medias en cada VI?
¿Son interpretables?, ¿encajan a nivel teórico?
EJEMPLO I
Supongamos que tenemos 2 grupos que siguen un Programa de Alcoholismo. Un grupo que sigue el
programa y otro que decide abandonarlo.
Z = a + W1X1 + W2X2 + W3X3
Tenemos tres variables predictoras:
X1: autoconciencia del estado de salud
X2: interés por matenerse sano
X3: Ansiedad
El grupo que abandona se caracteriza por: baja autoestima, bajo interés y alta ansiedad.
El grupo que sigue: alta autoestima, alto interés y baja ansiedad
6.2. DISCRIMINACIÓN ENTRE DOS GRUPOS CON

DISTRIBUCIONES CONOCIDAS (μi y Σ conocidas). ENFOQUE
POBLACIONAL
6.2.1. Np (μi, Σ i) Σ 's iguales: Σ1 = Σ2 = Σ. Función L. Discriminante de Fisher
La diferencia entre las dos medias se expresa:
La distancia de Mahalanobis entre
ellas:
Nuevo elemento, de población desconocida:
Discriminar mediante una combinación lineal L(x) ≡at x
Dicha combinación lineal es la función L denominada “Función Lineal Discriminante de

Fisher”, que se utiliza para construir diferentes reglas de clasificación.
A partir de L(x 0 ) (valor que toma la función lineal discriminante L para la nueva
observación x 0 ), decido a qué población se asigna la nueva observación x 0 .
Para ello se utiliza la Regla de clasificación :

Regla de discriminación lineal de Fisher: x 0 1 si at x 0 > k 0 , es decir (Figura 2; Fuente:
Google)
6.2.2. Np (μi, Σ i) Σ 's diferentes: Σ1 ≠ Σ2. Función Discriminante Cuadrática
Criterio de Mínima Distancia (MD): se asigna a la población de cuya media diste menos.
6.3. DISCRIMINACIÓN ENTRE DOS GRUPOS CON

DISTRIBUCIONES CONOCIDAS Y PARÁMETROS DESCONOCIDOS
(μi desconocidas, Σ conocida). ENFOQUE MUESTRAL.
6.3.1. Np (μi, Σ i) Σ 's iguales: Σ1 = Σ2 = Σ. Función L. Discriminante de Fisher

Observo n 1 individuos en la población 1 ; media muestral Ẋ 1
Observo n 2 individuos en la población 2 ; media muestral Ẋ 2
Sustituyo en la Figura 2 las μi, ahora desconocidas por sus estimaciones, por Ẋ i , y tengo
una nueva versión de la regla de discriminación lineal de Fisher Figura 3; Fuente: Google:
6.4. DISCRIMINACIÓN ENTRE MÁS DE DOS GRUPOS
6.4.1. Asumiendo Σ1=...=Σk=k=Σ (desconocida). Enfoque muestral.
Ẋ i : vector media muestral basado en ni observaciones de la población i.
Sp: matriz de covarianzas muestral “pooled” con g. de l.
Nuevo elemento: x0 ~ Np (μ0, Σ)
Regla MD de Mínima Distancia (Figura 4; Fuente: Google)

Regla de Discriminación lineal (Figura 5; Fuente: Google)
6.4.2. Sin asumir Σ1=...=Σk (desconocida). Enfoque muestral.
Asignamos de forma similar que en 6.4.1, pero utilizando en la regla de la Figura 5 cada Si en
lugar del estimador común pooled Sp:
Regla de Discriminación lineal (Figura 6; Fuente: Google)

6.5. SELECCIÓN DE VARIABLES
El problema de la selección de variables intenta responder a la pregunta ¿Son necesarias todas las
variables clasificadoras para discriminar?
Para responder existen básicamente tres tipos de algoritmos: selección de variables hacia delante,
eliminación hacia atrás y de regresión por pasos.
Los algoritmos de selección hacia delante comienzan eligiendo las variables que más discriminan
entre los q grupos. A continuación seleccionan la segunda más discriminante y así sucesivamente. Si
de las variables que quedan por elegir ninguna discrimina de forma significativa entre los grupos
analizados el algoritmo finaliza.
Los algoritmos de eliminación hacia atrás proceden de forma inversa. Se comienza suponiendo que
todas las variables son necesarias para discriminar y se elimina la menos discriminante entre los
grupos analizados y así sucesivamente. Si las variables no eliminadas discriminan significativamente
entre los grupos analizados el algoritmo finaliza.
Los algoritmos de regresión por pasos utilizan una combinación de los dos anteriores algoritmos
permitiendo la posibilidad de arrepentirse de decisiones tomadas con precipitación bien eliminando
del conjunto una variable introducida o introduciendo una variable eliminada anteriormente.
Para determinar que variables entran y salen en cada paso se utilizan diversos criterios de entrada y
salida. Uno de los más utilizados es de la lambda de Wilks.
Tema 7 - Análisis de regresión Logística
TEMA 7. ANÁLISIS DE REGRESIÓN LOGÍSTICA

7.1. FUNDAMENTO DEL MODELO DE REGRESIÓN LOGÍSTICA. EL
CONCEPTO DE “ODD” (O “RIESGO”). FORMA ANALÍTICA DEL
MODELO DE REGRESIÓN LOGÍSTICA
La Regresión Logística (RLG) es una técnica analítica que permite relacionar funcionalmente una
variable categórica (dicotómica o multinomial) con un conjunto de variables independientes.
La RLG explica y predice la probabilidad de que ocurra un evento. Realiza pronósticos de pertenencia
a un grupo en base a la estimación de probabilidades (entre 0 y 1), a partir de los valores de los
objetos o puntuaciones de los sujetos en las VIs.
Por analogía, puede considerarse una extensión de la Regresión Lineal (RL), con la particularidad de
que el dominio de salida de la función (conjunto de todos los valores dependientes posibles que la
relación VI - VD puede producir) está acotado al intervalo [0,1] y que el procedimiento de estimación,
en lugar de mínimos cuadrados, es de máximo-verosimilitud. En términos interpretativos es similar a
la RL
La RLG también presenta una analogía con el Análisis Discriminante (AD). Cuando la VD tiene sólo dos
grupos, es dicotómica, puede utilizarse el AD o la RLG indistintamente. Sin embargo, la RLG tiene
cualidades que le otorgan gran poder estadístico por encima del AD:
• Es menos restrictiva. Las VIs pueden ser cualitativas o cuantitativas indistintamente.
• Es más robusta cuando las VIs no cumplen los supuestos de normalidad
El Análisis de RLG tiene una gran utilidad en muchos campos de investigación, siendo especialmente
empleado en investigación socio-sanitaria. Su gran utilidad deviene de su capacidad para identificar
factores de riesgo o de estimar cuánto aumenta la probabilidad de sufrir una patología si se dan una
serie de características o condiciones. Por ejemplo, la RLG sería el modelo fundamental si
pretendemos estimar la probabilidad de que un individuo sufra un infarto a partir de las condiciones:
nivel de colesterol, edad, presión arterial, sexo y antecedentes familiares. Así mismo, lo aplicaríamos si
deseamos conocer la probabilidad de que un determinado individuo sufra esquizofrenia, en función
de sus características clínicas, familiares y sociales. También, si queremos conocer las variables que
explican la conducta de dejar de fumar o predecir el éxito o fracaso de una terapia. No es lo mismo
probar si un tratamiento funciona, que recoger datos de antemano de la aplicación de un tratamiento
y predecir si va a ser eficaz.
La función logística podría estar representada como se muestra a continuación (Figura 1; Fuente:
propia).
En dicha función se presenta la estimación de que un sujeto presente uno de los valores posibles (1 =
Recuperación; 0 = Recaída), en función de determinas VIs. Normalmente se trabaja con el valor 1 de
referencia, este valor 1 se le otorga a lo que queremos predecir, la Recuperación. Se toma como
primera variable explicativa a la variable constante que vale 1.
Como se puede observar el sujeto (0, 25) resulta ser un caso anómalo que rompe el ajuste del
modelo.
Si la probabilidad estimada es < de 0,5 la predicción será Recaída.
Si la probabilidad estimada es > de 0,5 la predicción será Recuperación.
Como se puede observar el sujeto (0, 25) resulta ser un caso anómalo que rompe el ajuste del
modelo.
El Modelo de RLG compara la probabilidad de ocurrencia de un evento con la probabilidad de
que no ocurra. Al cociente entre ambos se le denomina ODD (ratio de riesgo)
P (A) / P (B) = a + b1 X1 + b2 X2 +……. b n X n
El objetivo de la RLG es hallar los coeficientes (b1, b2,……. bn) que mejor se ajusten a la expresión
funcional.
Se trata de identificar aquellas variables que implican cambios en ese ratio de probabilidad,
aumentándolo o disminuyéndolo de forma significativa. La ratio o razón de probabilidad es un
cociente entre dos cantidades y señala cuantas veces una cantidad es mayor o menor respecto a la
otra.
La ODD RATIO sería la razón o cociente entre la probabilidad de que un evento ocurra bajo unas
determinadas circunstancias que bajo otras. (Ej-. Hay el triple de probabilidad de sufrir un trastorno
de ansiedad en una familia monoparental que biparental).
La ODD RATIO es el cociente entre dos ODD. El ODD de que un evento ocurra entre el ODD de que
un evento no ocurra en función de una condición, una VI. Nos informa de la ventaja / desventaja de
tener un nivel u otro de la VI para la VD (Recuperación). Es el cociente entre dos ODD asociados, el
obtenido al realizar el incremento y el anterior al mismo, suponiendo que ha habido un incremento
unitario en la variable X:
ODD RATIO = ODD 2 / ODD 1
Cuando la ODD RATIO alcanza el valor 1 quiere decir que no hay diferencias.
EJEMPLO I
Imaginemos que nos presentan las siguientes Odds ratio:

OR = 3,12 (IC 95%: (2,33; 5,12)
OR = 10,2 (IC 95%: (0,73; 105,12)
OR = 2,5 (IC 95%: (2,42; 2,82)
Podemos afirmar que hay dos Odds ratio significativas, la de 3,12 y la de 2,5 porque sus intervalos de
confianza no contienen al 1. La OR 10,2 es la mayor cuantitativamente pero no es significativa, porque
su intervalo de confianza del 95% incluye al 1. La OR de 2,5 tiene un intervalo de confianza más
estrecho, lo que indica que el tamaño de la muestra es mucho mayor. Tanto la OR 3,12 como la OR
2,5 son significativas, pero debemos concluir que la mayor es la de 3,12 porque el valor de estimación
puntual es mayor.
EJEMPLO II
Supongamos ahora, que nos presentan las siguientes Odds ratio:
OR = 3,1 (IC 95%: (0,2; 0,45)
OR = 2,8 (IC 95%: (1,24; 4,95)
OR = 2,5 (IC 95%: (2,1; 3,2)
Podemos observar que la primera Odds ratio es incoherente porque ésta simpre debe estar contenida
en el intervalo de confianza
EJEMPLO III
Por último, imaginemos que las siguientes Odds ratio:
OR = 1,5 (IC 95%: (1,1; 2,45)

OR = 2 (IC 95%: (0,91; 5,2)
OR = 0,6 (IC 95%: (0,35; 0,87)
Concluiremos que la OR de 0,6 es la que indica una mayor relación dado que si pensamos en su
inversa 1/0,6 = 1,66666, es mayor que 1,5. La OR de 2 no es necesario considerarla porque no es
significativa dado que su intervalo de confianza del 95% incluye al 1.
Dado que la VD tiene que ser necesariamente un valor entre 0 y 1, el modelo debe asumir una
expresión matemática particular, concretamente logarítmica imprescindible para hacer las
predicciones
ln [P / 1 – P] = a + b 1 X 1 + b 2 X 2 + ……. b n X n
Está será la RLG a partir de la cuál hallamos la probabilidad:
P (1 / VI1, VI2, ……VI n ) = 1 / 1 +e (a + b1 X1 + b2 X2 + ……. bn Xn)
Qué probabilidad (P) tiene un sujeto de alcanzar la Recuperación si tiene unas características VI 1 , VI 2 ,
VI 3 .
Lo que la RLG pretende es identificar aquellas VIs que hacen variar esa ODD.
Por ejemplo, si la P (Recuperación) = 0,2 y la P (Recaída) = 0,8, entonces la ODD será 0,2 / 0,8 = 0,25,
lo que significa que existe la cuarta parte de probabilidad de recuperación que de recaer.
La RLG utiliza una función de Enlace Logarítmica, para pasar de los valores cualesquiera en las VI a
predicciones entre 0 y 1.
El Modelo de RLG asume que existe una relación lineal entre los predictores y el logaritmo de la
probabilidad de ocurrencia de un evento (LOGIT).
El LOGIT es simplemente el logaritmo de ODD
LOGIT = ln (ODD) = ln [P / 1 – P]
Así, se puede apreciar que el estimador del parámetro b2 se podrá interpretar como la variación en el
término Logit originada por una variación unitaria en la variable X2 (suponiendo constantes el resto
de las variables explicativas).
El LOGIT es la VD de la RLG.
El LOGIT tiene dos características que serán muy útiles: 1) puede tomar cualquier valor real (- ∞, +
∞); 2) permite una lectura simétrica de la relación entre proporciones.
Al riesgo instántaneo de presentar un evento, es decir, al cociente entre quienes presentan el evento y
quienes estaban a riesgo de presentarlo, se le denomina en inglés: Hazard.
Los pasos a seguir en la RLG son básicamente los mismos que en el Análisis Discriminante:
1. Planteamiento del proble u objetivos
2. Diseño de la investigación (selección de variables, muestra, etc….)
3. Comprobación de supuestos
4. Estimación del modelo y evaluación del ajuste
5. Interpretación de los resultados
6. Validación de resultados.
Los supuestos de la RLG son:
a) No es necesario que las VI sean métricas, normales, y ni siquiera cuantitativas
b) El modelo debe estar especificado correctamente, con las VIs relevantes.
c) La relación entre cada VI y el Logaritmo de las ODD (LOGIT), debe ser lineal
d) No existe multicolinealidad
e) El error a la hora de medir las VIs es mínimo.
7.2. ESTIMACIÓN DEL MODELO DE REGRESIÓN LOGÍSTICA
En la RL se hacía siguiendo el criterio de Mínimos Cuadrados, en la RLG se hace siguiendo el de

Máxima Verosimilitud.
En lugar de minimizar las diferencias entre Y e Y´, trata de maximizar la verosimilitud de que un suceso
tenga lugar.
Se generan Coeficientes Logísticos para las distintas VIs
Los coeficientes de la ecuación (b 1 ; b 2 ; b 3 ; …) se utilizan para hacer las estimaciones de probabilidad

de que ocurra el evento.
Los métodos de los cuales disponemos para poder realizar la estimación son los mismos que en la RL:
el método simultáneo ENTER y el STEPWISE.
Una vez construido el modelo de RLG comprobamos cómo de bueno es el ajuste de los valores
predichos por el modelo a los valores observados. Existen diversas formas de medir la bondad de
ajuste, de manera global, ésta puede ser evaluada a través de medidas tipo R² (Coeficiente de
Determinación), de la tasa de clasificaciones correctas o a través de test estadísticos.
Estos test estadísticos se diferencian y clasifican según se basen en los patrones de las covariables, en
las probabilidades estimadas por el modelo, en residuos suavizados y tipo R²
a) Test basados en patrones de covariables:
• Test basado en la devianza D
• Test chi-cuadrado de Pearson. Compara frecuencias observadas y esperadas en un

contexto binomial. El número de observaciones para cada combinación de las
variables explicativas debe ser grande, por eso no se aplica en casos de covariables
continuas.
b) Test basados en probabilidades estimadas
• Contraste de bondad de ajuste de Hosmer- Lemeshow. Hosmer- Lemeshow

construyeron una serie de test basados en la agrupación de las observaciones según
las probabilidades estimadas por el modelo. Los dos test más utilizados son los
denominados Cg y Hg, cuya diferencia fundamental es que el test Cg agrupa las
probabilidades estimadas bajo el modelo de regresión y el test Hg se basa en la
formación de grupos de acuerdo a puntos fijos y preestablecidos. El contraste paso a
paso Cg evalúa la bondad de ajuste del modelo construyendo una tabla de
contingencia a la que aplica un contraste chi-cuadrado.
c) Test basados en residuos suavizados
• Estadístico de le Cessie y Van Houweligen
d) Test tipo R²
• R2 de Cox y Snell (0 y 1)
• R2 de Nagelkerte (0 y 1)
La Bondad de ajuste también se evalúa mediante el análisis de los residuos del modelo y de su
influencia en la estimación del vector de parámetros, se evalúa la bondad de ajuste caso por caso. Los
programas automáticos nos ofrecen el cálculo de los residuos: R. estandarizados, R. studentizados, R.
desviación.
Finalmente la Bondad de ajuste se determina en base a las medidas de influencia, esto es,
cuantificando la influencia que cada observación ejerce sobre la estimación del vector de parámetros
o sobre las predicciones hechas a partir del mismo de forma que, cuanto más grandes son, mayor es
la influencia que ejerce una observación en la estimación del modelo. Distinguimos: Medida de
Apalancamiento de Leverage, Distancia de Cook y Dfbeta.
7.3. TEST GLOBAL DE UN AJUSTE. ANÁLISIS DE LAS

“DEVIANCES”
En estadística el término Deviance hace referencia a la calidad del ajuste estadístico de un modelo. Es
una generalización de la idea de utilizar la suma de cuadrados de los residuos de mínimos cuadrados
ordinarios para los casos en que el modelo de ajuste se efectúa por máxima verosimilitud.
La deviance para un modelo M0, basado en un conjunto de datos, se define como:
D(y) = -2 (log (p(y│‫´ט‬0 )) - log (p(y│‫´ט‬s )) )
Donde:
θ´0 = denota los valores ajustados de los parámetros en el modelo M0
θ´s = denota los parámetros de ajuste para el modelo saturado.
Ambos conjuntos de valores ajustados son implícitamente funciones de las observaciones y.

El modelo saturado es un modelo con un parámetro para cada observación, de modo que los datos
se ajustan exactamente.
Su expresión es, simplemente, -2 veces la relación logaritmica de verosimilitud del modelo reducido
emparado con el modelo completo.
La deviance se utiliza para comparar dos modelos, en particular, en el caso de los modelos lineales
generalizados, donde la función es similar a la varianza residual de la ANOVA en modelos lineales.
Supongamos en el contexto de los modelos lineales generalizados tenemos dos modelos anidados
agrupados, M1 y M2. En particular supongamos que M1 contiene los parámetros M2 y k parámetros
adicionales. Entonces, bajo la hipótesis nula de que el modelo M2 es cierto, la diferencia entre las
desviaciones de los dos modelos sigue una distribución aproximada chi- cuadrado con k grados de
libertad.
7.4. SIGNIFICACIÓN DE UN PARÁMETRO: MÉTODO DE WALD
En la RL se recurría un contrastre “t” para saber si cada uno de los predictores eran o no
significativamente distintos de cero. En la RLG se recurre al Estadístico de Wald.
Lo que propone el modelo de Wald es fijarnos en el peor resultado de cada alternativa y de estos
peores escoger el mejor con valores más bajos dentro de todas las posibles respuestas, el más alto
entre los peores, la filosofía es la mejor de las peores.
Es el criterio más conservador, pues está basado en conseguir lo mejor en las peores condiciones
posibles. Si X ij representa ganancias para el decisor, para a i la peor ganancia, independientemente de
lo que e j pueda ser, es
Este resultado recibe el nombre de nivel de seguridad (al elegir ai se garantiza al menos un beneficio
de unidades).
Wald sugirió que el decisor debe adoptar aquella alternativa que tenga el mayor nivel de seguridad,
es decir, elegir ai asociada a
Este criterio recibe el nombre de criterio maximin, y corresponde a un pensamiento pesimista, pues se
basa en lo peor que le puede ocurrir al decisor cuando elige una alternativa.
7.5. MODELO DE REGRESIÓN MULTINOMIAL
La regresión logística multinomial es una generalización del modelo de regresión logística donde la
variable dependiente tiene más de dos categorías y puede ser nominal o bien ordinal. A su vez, las
variables explicativas pueden ser categóricas o cuantitativas.
Se trata de un modelo que se utiliza para predecir las probabilidades de los diferentes resultados
posibles de una distribución categórica como variable dependiente, dado un conjunto de variables
independientes
En los modelos de regresión multinomial se asume que los recuentos de las categorías de Y tienen
una distribución multinomial. Esta distribución es, a su vez, una generalización de la distribución
binomial.
Será común que encontréis una amplia variedad de denominaciones para referirse a la
regresión multinomial como: regresión multiclase LR, Softmax function regression, Logit multinomial,
clasificador de máxima entropía (MaxEnt), etc
La regresión logit es una solución particular al problema de clasificación que asume que una
combinación lineal de las características observadas y algunos parámetros específicos del problema
pueden ser utilizadas para determinar la probabilidad de cada resultado, en particular de la variable
dependiente.
Existen dos tipos de modelos de regresión logística multinomial:
a) Modelos Logit para respuestas nominales
Se parte de n observaciones independientes que se localizan en las distintas categorías de la

variable Y.
La distribución de probabilidad del número de observaciones de las categorías de Y sigue

una distribución multinomial. La distribución determinará la probabilidad de cada una de las
posibles maneras en que las n observaciones pueden repartirse entre las categorías.
Se toma una categoría como respuesta base, por ejemplo la última categoría y
se define un modelo logit con respecto a ella:
Donde:
J = número de categorías de la variable Y ; (j = 1,…….J-1). El modelo tiene J - 1

ecuaciones con sus propios parámetros, y los efectos varían con respecto a la
categoría que se ha tomado como base.
= probabilidad de las distintas respuestas
Cuando J = 2, el modelo equivale a una _única ecuación log (1 /2) = logit( 1) y

se obtiene el modelo de regresión logística estándar.
b) Modelos Acumulados para datos ordinales
Cuando las respuestas de la variable categórica son ordinales se pueden utilizar

modelos logit acumulados.
La probabilidad acumulada de una variable Y es la probabilidad de que Y sea menor o igual

que un determinado valor j. Así, para una categoría dada j se define la probabilidad
acumulada como:
P (Y ≤ j) = 1,………….. j
Para j = 1, …., J.
Las probabilidades acumuladas reflejan el orden entre las categorías:
P (Y ≤ 1) ≤ P (Y ≤ 2) ≤…………….≤ P (Y ≤ J) = 1
EJEMPLO IV
En el libro Categorical Data Analysis (2002) de Agresti (pag. 279) se muestran los datos de un estudio
sobre una enfermedad mental donde se trata de relacionarla con dos variables explicativas. La
enfermedad mental se resume en una variable categórica con los siguientes niveles: buen estado,
síntomas leves, síntomas moderados y enfermedad.
Como variables predictoras tenemos:

x1 = mide el número de sucesos impactantes en la vida de la persona en los últimos tres años
(divorcios, fallecimientos, etc.).
x2 = Estatus socio-económico con niveles 1 (alto) y 0 (bajo).
La enfermedad mental, como variable respuesta, es un factor que presenta ordenación entre sus
categorías.
EJEMPLO V
Se tiene una muestra de 735 personas a los que se pregunta por sus preferencias en cuanto a tres
variedades (brands) de algunos productos. Se considera además el género y la edad de las personas
de la encuesta.
La variable dependiente es brand. La variable female se codifica como 0 para hombres y 1 para
mujeres.
Se aplica el modelo de regresión multinomial.
Para cada observación de la base de datos se presentan 3 observaciones: una para cada una de los
valores de la variable brand.
En los resultados se obtienen los coeficientes y sus p-valores (Figura 2; Fuente: Google)
Los resultados mostraron que por cada aumento en una unidad de la variable edad, el logaritmo del
ratio de las probabilidades, P(brand = 2) / P(brand = 1)), se incrementa en 0, 368, y el logaritmo del
ratio de las dos probabilidades, P(brand = 3) / P(brand = 1)), se incrementa en 0, 686. Por tanto, en
general, cuanto mayor sea una persona tendrá más preferencia por brand igual a 2 ó a 3, que por
brand igual a 1.
A continuación, se muestran los resultados de la regresión en términos de las probabilidades.
Por ejemplo, se muestra un rango de distintas edades y se calculan las probabilidades de escoger
cada categoría de brand para mujeres y hombres. Se generan los valores predichos en la escala logit
usando los coeficientes del modelo. En brand = 1, el valor se fija en 0.
Las columnas etiquetadas como pred.1, pred.2, y pred.3, contienen las probabilidades predichas de
que brand sea igual a 1, 2 y 3 respectivamente (Figura 3; Fuente: Google)
Las mujeres parecen preferir brand igual a 2 ó igual a 3 en comparación con brand igual a 1. Por otro
lado, cuanto mayor es una persona es más probable que prefiera brand igual a 2 ó a 3 que brand
igual a 1.
Se observa que con el cambio en una unidad en la variable age (un año mayor), se espera que la
razón de odds entre elegir brand = 2 respecto de brand = 1 se incrementa en exp (0,3682) = 1,45.
En el caso del sexo de las personas, female, la razón de odds de elegir brand = 2 respecto de 1 se
incrementa en exp (0,5238) = 1, 69.
Tema 8 - Análisis Conjunto

TEMA 8. ANÁLISIS CONJUNTO
8.1. INTRODUCCIÓN
El Análisis Conjunto o Modelo Multiatributo es una técnica estadística basada en el ajuste de modelos
lineales a variables ordinales, que permite explorar y cuantificar el sistema de valores de los sujetos en
el momento de elegir una alternativa entre varias posibles.
Esta técnica nace de la psicología matemática y comercial, hoy se utiliza en las ciencias sociales y
ciencias aplicadas como el marketing o administración del producto, aunque, en general, podríamos
decir que resulta útil siempre que se desee identificar las actitudes de los consumidores en la decisión
de compra, profundizar en la dinámica de productos y servicios.
El análisis conjunto asume un modelo de comportamiento multiatributo según el cuál los sujetos
tienen la capacidad de percibir cada uno de los atributos que configuran un estímulo. Con su
aplicación podremos conocer qué importancia tiene una determinada característica en la decisión
global de preferencia del sujeto hacia un producto. Las preferencias del consumo de bienes y
servicios responderían a una percepción evaluativa de sus atributos y no a una percepción global.
Cualquier estímulo es percibido por múltiples atributos que, además, son evaluados de manera
compensatoria. Es decir, un sujeto puede preferir un estímulo con un déficit en un atributo si este
déficit se puede compensar con el resto de atributos. Los estímulos son, por tanto, multiatributos, y
las preferencias serán el resultado del efecto conjunto de las características del estímulo.
Los efectos de las características de un estímulo son aditivos; niveles de atributo no deseados pueden
ser compensados con otros niveles de atributo. Determinadas opciones pueden ser compensadas con
otras.
U = U1 (X 1 ) + U 2 (X 2 ) +…….+ Ui (Xi)
Donde: U es la utilidad total; U i es la utilidad parcial del atributo i y X i es el nivel del atributo i.
En una situación de decisión real, los estímulos son imperfectos y, en consecuencia, los sujetos se ven
obligados a renunciar a unos atributos en beneficio de otros. Por ello el Análisis Conjunto se define
como un modelo aditivo.
Pero, para explicar las preferencias el modelo multiatributo no es la única estrategia. Por otro lado
nos encontramos con la conocida Teoría de la decisión. La diferencia entre ambas: en la primera el
énfasis se pone en el objeto, en la segunda el estudio se realiza sobre el propio sujeto.
Como mencionamos en los párrafos anteriores cualquier estímulo se configura a partir de una serie
de atributos. Un atributo es una propiedad extraída de la experiencia humana, una propiedad que
atribuimos nosotros al estímulo y no una característica del estímulo en sí misma.
En la Metodología Conjunta se distingue entre la dimensión del objeto físico (o característica) y la

percepción de dicha característica (o atributo). Por ejemplo, una cosa es la cantidad de glucosa de un
alimento (característica) y otra es la sensación de sabor dulce que experimenta el sujeto (atributo).
Dentro de cada atributo pueden existir distintas alternativas u opciones, denominadas niveles,
algunos aportarán valor final al objeto y otros pueden restárselo.
Finalmente, las preferencias (o juicio asociado a un estímulo) será el resultado del efecto conjunto de
los niveles de atributo que definen al estímulo.
La manera más sencilla de entender el Análisis Conjunto podría ser a través de la formalización que
Anderson (1974) hace del Modelo Mutiatributo de toma de decisiones y que renombra como Teoría
de la Integración de la Información: “Los juicios de preferencia (Y) se pueden expresar como una
función entre las características de los estímulos (X) y unos coeficientes (C) que ponderan la
aportación de cada característica a la preferencia global [Y = f (C, X)]”.
El Análisis Conjunto va a ser, precisamente, el que nos a permitir estimar los coeficientes que modelan
las propiedades de los estímulos.
A la hora de medir el valor o utilidad que le da el consumidor a cada uno de los niveles de los
atributos de un producto existen dos aproximaciones:
a) Modelos Composicionales (de Balance o Autoexplicados). Tratan de determinar el valor

de un producto preguntando directamente al sujeto por cada uno de los niveles de los
atributos (escalas de medida clásicas). Normalmente se presentan los atributos de 2 en 2, y
finalmente se estima la preferencia global.
Se caracterizan por: considerar toda respuesta como importante, las respuestas son
estereotipadas, se consideran atributos poco relevantes y poco realistas.
El algoritmo más conocido para este caso es el TRADE- OFF, implementado en el paquete
estadístico PCMDS (Smith, 1990)
b) Modelos Descomposicionales. Tratan de medir el valor de un producto a partir de la

opinión del individuo acerca de una serie de perfiles globales (combinación de niveles de
atributos). Tratan de descomponer la preferencia o juicio para determinar el valor de cada
atributo y sus niveles.
Son más realistas porque el sujeto tiene que considerar todas las características a la vez,
poniendo en funcionamiento su verdadera estructura de valores y preferencias. Proporcionan
un mejor indicador de la importancia relativa de cada característica.
Son más precisos ya que los sujetos toman decisiones analizando los descartes que hay entre
las características (características que consideran simultáneamente). El consumidor busca un
equilibrio entre lo que gana y lo pierde, y el análisis conjunto busca este equilibrio.
Permiten desarrollar nuevos productos en base a un producto hipotético.
Se basa en el algoritmo CONJOINT implementado en el paquete estadístico SPSS.
El Análisis Conjunto pertenece a estos últimos.
De ambos modelos el Modelo Descomposicional es el más seguido dado su mayor realismo.
Desde una perspectiva descomposicional, el Análisis Conjunto se define como (Green y Rao,
1971):
“Un conjunto de técnicas y modelos que buscan sustituir las respuestas subjetivas de los
consumidores, por parámetros que estimen la utilidad de cada nivel de atributo en la
respuesta de preferencia manifestada por éstos”.
Por su parte, Varela (2000) distingue dos tipos de definición:

a) Definición restrictiva: una técnica estadística que nos a permitir explicar una variable de
respuesta (o dependiente de tipo ordinal a partir de dos o más variables explicativas
nominales (atributos o factores).
b) Definición amplia: una metodología de investigación que incluye una serie de etapas.
Desde la fase de identificación de atributos, la elección del modelo de estimación, la
estrategia de recogida de datos, hasta la interpretación de los resultados.
El desarrollo del Análisis Conjunto implica las siguientes fases:
1. Problema de investigación.
• ¿Cuáles son los objetivos?
• ¿Cuál es el producto o servicio objeto de estudio?
• ¿Cuáles son sus elementos relevantes?
• ¿Cuáles son los criterios de elección que utilizan los sujetos?
2. Diseño de la investigación.
• Selección de atributos y niveles. Atributos relevantes, independientes conceptualmente

y limitados (nunca más de 6). Niveles amplios, representativos y limitados (3 ó 4)
• Diseño de los estímulos. Determinar el número de combinaciones posible. Optar por la

totalidad de estímulos o por una parte representativa (ORTHOPLAN)
• Preparación de estímulos. Matrices Trade-Off ó Perfiles Completos. Estimulos reales o

simulados.
3. Recogida de datos
4. Estimación del modelo y Evaluación del ajuste.
• Método por Mínimos Cuadrados Ordinarios (OLS)
• Ajuste: Correlación de Kendall o Tarjetas Holdout

5. Interpretación de los resultados
• Utilidades parciales / Utilidad global de un objeto (Índice BTL)
• Resultados a tres niveles: muestra global, segmentos, sujeto individual
6. Validación
• A nivel interno: Kendall y Holdout
• A nivel externo: individual (intención de compra) y colectivo (resultado en el mercado)
8.2. DISEÑO DEL ANÁLISIS CONJUNTO
No todos los atributos de un producto son igualmente determinantes en el establecimiento de las

preferencias del sujeto. La mejor forma de identificar atributos determinantes consiste en aplicar
alguno de los enfoques siguientes:
a) Preguntar al sujeto directamente cuales son los atributos que determinan sus preferencias
suponiendo que conoce y es capaz de identificarlas. Los atributos son clasificados como
determinantes si se encuentran entre las razones de preferencia mas frecuentemente citadas
o se les asigna una puntuación media elevada en una lista presentada al sujeto (obtenida
preferentemente de modo indirecto).
b) Entrevistar en profundidad a consumidores y expertos en la fabricación y venta de los

productos estudiados. Es importante analizar del contenido de las respuestas, ir mas allá de
las respuestas superficiales proporcionadas analizando las motivaciones de las preferencias.
c) Utilizar el método de Kelly ofreciendo productos de tres en tres al sujeto con la intención
de que agrupe los dos mas iguales y especifique en función de qué atributos son semejantes
y diferentes. Así se obtiene una relación de atributos determinantes.
d) Aplicar diversos algoritmos como el análisis multidimensional métrico y el análisis factorial

que permitan identificar a posteriori atributos determinantes a partir de ciertos inputs de
información.
El establecimiento de los niveles asignados a cada atributo supone decidir la amplitud de variación de
los atributos determinantes previamente identificados. En primer lugar se considera útil utilizar los
niveles de los atributos determinantes correspondientes a los productos que actualmente compiten
entre sí. También se recomienda incorporar nuevos niveles en todos o algún atributo determinante
identificados mediante entrevistas a expertos, sugerencias de consumidores y experiencia innovadora.
Si los atributos son continuos (precio) el investigador deberá realizar un pretest para asegurar que los
niveles son lo suficiente mente diferentes.
Por supuesto, el número de niveles no tiene que ser similar para todos los atributos.
Para seleccionar adecuadamente los niveles se puede optar por seleccionar una muestra
representativa y a cada individuo de la muestra se le solicita sus preferencias por un conjunto de
estímulos resultantes de la combinación de los atributos de estudio a diferentes niveles.
Determinar el número de combinaciones posible no es una tarea sencilla. Si deseamos mantener el

interés de los sujetos en la investigación, el número de estímulos no debe sobrepasar un límite
razonable (< 6) puesto que en caso contrario la capacidad de evaluación del individuo (sobrecarga
informativa) influiría negativamente en la calidad de las respuestas obtenidas.
El investigador puede optar por presentar sólo una pequeña fracción del total de combinaciones
denominada fracción del diseño factorial completo. El número de estímulos requerido en un diseño
factorial fraccionado depende de los objetivos del investigador. Cuantos más efectos principales y de
interacción (no confundidos entre sí) desee estimar mayor número de estímulos necesitará.
Los estímulos se representan en una matriz X que refleja las características del Diseño Factorial
Fraccionado. En términos informáticos se denomina PLAN, donde las filas representan los perfiles de
los productos o estímulos objeto de estudio, y las columnas los distintos atributos definidos. A dicha
matriz de diseño X se le añade una columna “l” con el objeto de estimar coeficientes β. En cuanto a
las columnas que representan los atributos o factores, cabe matizar que si para un atributo se definen
mi niveles discretos, entonces dicho atributo dará lugar a mi -1 columnas. Por el contrario, si los
niveles de ese factor son lineales entonces habrá una columna de valores centrados en ese factor.
En la aplicación CONJOINT (SPSS) el comando ORTHOPLAN permite especificar una lista de variables
determinantes, una lista de valores para cada variable y generar un plan con el número mínimo de
combinaciones. Sirve para extraer un diseño ortogonal (diseño óptimo submuestras de todas las
combinaciones posibles para disminuir el número de estímulos)
Por último, respecto a la preparación de los estímulos, existen dos procedimientos básicos:
procedimiento de dos atributos a 1a vez (Trade-Off) y el enfoque del perfil completo (Full-Profi1e)
a) Método Trade-Off
En el procedimiento de dos factores a la vez (procedimiento de compensación entre los

niveles de dos atributos) se requiere al sujeto que el ranking de preferencias (en una escala
de más a menos preferido) para las combinaciones posibles de niveles de dos atributos.
Sencillo y fácil para el entrevistado, sin sobrecarga de información (si son pocos atributos)
Poco realismo (sólo dos factores), alarga la tarea, la fatiga y la confusión, imposible utilizar
estímulos gráficos o reales
Se representan matrices de pares de atributos (Tabla I).
Tabla I. Ranking de Preferencias para el procedimiento Trade-Off.
Precio
Motor
10.000 20.000 30.000
1.4 6 3 9
1.8 5 2 8
2.0 4 1 7
b) Método de Perfil Completo (Full Profile).
El método del perfil completo es de amplia utilización. Ofrece una descripción mas realista de
los productos sobre los que se solicita preferencias contrastando su validez cuando las
corre1aciones entre los atributos son elevadas.
La técnica de mayor popularidad en la recogida de datos es la entrevista personal. El uso de

encuestas por correo y entrevistas telefónicas es poco frecuente. En los últimos años el
desarrollo de software para el tratamiento del análisis conjunto, permite que el entrevistado
interactúe directamente con el ordenador facilitándole datos sobre sus preferencias y
agilizando la estimación de la importancia de los atributos y sus niveles.
Para terminar, cabe mencionar, que CONJOINT también ofrece la posibilidad de seleccionar
productos simulados, que los sujetos no consideran pero que el programa los determina en
función de las preferencias mostradas hacia estímulos alternativos.
8.3. ESTIMACIÓN POR MÍNIMOS CUADRADOS
La utilidad subjetiva de un estímulo puede ser calculada si se conoce la secuencia de ordenación del
sujeto, a partir de las estimaciones de los pesos b de cada nivel de atributo y la presencia o ausencia
de éstos, de manera aditiva. A esos pesos o utilidades b estimados para cada característica o nivel (j)
del atributo (k) le llamaremos utilidades o partworth (μ jk )
Y i = β0 + β j X ij + ei
Para determinar la contribución de cada uno de los atributos y sus niveles (efectos principales y
efectos interacción) a las preferencias del sujeto, las investigaciones sobre análisis conjunto emplean
principalmente la siguiente metodología:
Si la variable respuesta es métrica, el procedimiento mas apropiado es la Regresión Múltiple por

Mínimos Cuadrados Ordinarios (OLS).
OLS es un método robusto para la estimación de las utilidades o, para identificar la preferencia para
cada nivel de un grupo de atributos del producto y, para ello, recurre a la utilización de una matriz
dummy de las variables independientes. Cada variable independiente indica la presencia o ausencia
de un nivel particular de un atributo. Y las respuestas de los sujetos, o variable dependiente, es
función de la descripción del perfil descrito por las variables independientes.
La modelización de las respuestas de evaluación dadas por un sujeto a cada uno de los perfiles
descritos por las variables independientes (presencia o ausencia de un nivel particular de atributo),
viene dado por:
Z i = f (y i1 , y i2 ,……y im ) = í1 i1 (x1 i1 ) + í2 i2 (x2 i2 ) + ….. ím im (xm im )
Donde: í son los pesos beta estimados en la regresión; x es la matriz de valores Dummy identificativos
de los niveles del diseño factorial; e y son las evaluaciones de rangos o clasificaciones del sujeto.
Una vez que tenemos los rangos que ocupan cada producto o estímulo para cada sujeto, es el
momento de proceder a la estimación de utilidades. Al respecto cabe señalar los trabajos de Cattin y
(1984) y Hagerty (1985), que contribuyeron a optimizar la decisión del investigador a la hora de
seleccionar el modelo con mayor validez predictiva.
Haberty (1991) propuso un índice que nos permite comparar los diferentes modelos de preferencia
que podemos seleccionar, es decir, el tipo de relación que suponemos entre las preferencias de los
sujetos y los niveles de atributo: discreta, lineal, ideal y anti-ideal.
Una vez estimadas las utilidades es conveniente analizar los errores estándar de las utilidades.
Así mismo, es relevante analizar la importancia de cada factor o atributo, independientemente de sus
niveles.
Tiene la ventaja de proporcionar desviaciones típicas para comprobar el grado de significación de los
efectos principales y de interacción.
Si la variable respuesta se obtiene mediante una ordenación del conjunto de estímulos de mayor a
menor preferencia (es de naturaleza ordinal) el método mas difundido es el Análisis Monótono de la
Varianza (MONANOVA). Sólo es aplicable cuando se especifican efectos principales sin efectos
interacción.
Cualquiera de estos métodos de estimación se pueden aplicar a nivel individual o a nivel agregado. En
los modelos a nivel individual se estima la importancia de los niveles de los atributos para cada sujeto
a partir de los datos de preferencia obtenidos. Este enfoque permite al investigador utilizar las
estimaciones obtenidas en un modelo de simulación para pronosticar preferencias actuales o
potenciales.
Los modelos a nivel agregado, inicialmente pueden obtener las medias de preferencia de cada perfil
de producto para toda la muestra y posteriormente estimar las utilidades de los niveles de los
atributos para el conjunto de individuos. Sólo es válido cuando la población es homogénea en sus
criterios de preferencia. Por ello, normalmente se aconseja el método de análisis individual, aunque la
operación es más laboriosa. También es deseable poder combinar los aspectos positivos de ambos
enfoques (elevado poder predictivo en modelos individuales y estimación de un menor número de
funciones de utilidad en modelos agregados). La alternativa sería agrupar individuos de acuerdo con
sus preferencias (por ejemplo, aplicando un análisis cluster y a continuación estimar los parámetros
del modelo para cada segmento obtenido.
La evaluación del ajuste de la función de regresión trata de ver hasta qué punto las Utilidades
estimadas nos sirven para reproducir eficazmente las (preferencias) ordenaciones de los sujetos.
Tenemos dos opciones:
• Correlación de Kendall.
• Tarjetas Holdout o de validación. Permiten comparar cómo el sujeto ordenó las tarjetas
con el pronóstico hecho por un modelo que no las ha utilizado en la estimación.
8.4. INTERPRETACIÓN DE LOS RESULTADOS
Utilidades parciales / Utilidad global de un objeto
Las utilidades parciales nos informan del valor que aporta cada característica concreta o nivel del
atributo a su preferencia global. Puede asumir valores + o – ya que pueden aportar o quitar valor. La
importancia de cada factor o atributo es la diferencia entre el nivel con mayor utilidad de ese atributo
y el nivel con menor rango partido por el sumatorio de rangos de todos los atributos x100.
El atributo más importante es aquel cuyos niveles son más extremos en términos de Utilidad.
Una vez tenemos las utilidades podemos pasar a determinar una posible probabilidad de elección.
Existen tres modelos de predicción:
a) Utilidad Máxima
Este modelo indica la preferencia máxima en términos de probabilidad de elección de un

producto
b) Índice BTL
Calcula la probabilidad máxima de un producto, la utilidad global de un producto, y la divide

por el sumatorio de las utilidades de todos los productos utilizados en la simulación.
c) Logit
Este modelo es similar al BTL pero, en este caso, utiliza el logaritmo natural de las utilidades
en lugar de las utilidades directas.
Bloque III - Técnicas de Interdependencia
Tema 9 - Análisis Factorial
TEMA 9. ANÁLISIS FACTORIAL
9.1. EL MODELO FACTORIAL: FACTORES COMUNES Y

ESPECÍFICOS
El Análisis Factorial (AF) es una técnica multivariante que consiste en resumir la información
contenida en una matriz de datos con “V” variables mediante un reducido número de factores “F”,
siendo el número de factores una representación de las variables originales, con una pérdida mínima
de información.
El objetivo esencial del AF es describir, si fuera posible, las correlaciones o covarianzas observadas
entre un conjunto de variables en términos de un menor número de variables aleatorias no
observables (Factores), latentes o constructos (Johnson & Wichern, 1982).
Es una técnica de reducción de datos que sirve para encontrar grupos homogéneos de variables a
partir de un conjunto numeroso de variables. Los grupos homogéneos se forman con las variables
que correlacionan mucho entre sí y procurando, inicialmente, que unos grupos sean independientes
de otros.
Fundamentalmente lo que se pretende con el AF es simplificar la información que nos da una matriz
de correlaciones para hacerla más fácilmente interpretable. Si unas variables se relacionan más entre
sí y menos con otras, se supone que es porque existen otras dimensiones o factores que explican por
qué se relacionan más.
Las finalidades del AF son:
1. Conseguir una representación gráfica de una realidad que es imposible representar en

toda su extensión, visualizar una visión aproximada de una nube de puntos original que es
imposible visualizar por exceso de dimensiones.
2. Conseguir combinaciones de las variables originales que nos ayuden a discernir tipos de
relaciones que se establecen entre las variables del estudio.
EJEMPLO I.
Imaginemos que queremos estudiar la estructura factorial de la matriz de correlaciones observadas

entre las asignaturas de 7º curso (Matemáticas, Ciencias, Inglés, Lengua, Historia y Gimnasia) a partir
de la matriz de correlaciones entre las asignaturas (R). La matriz de correlaciones es (Tabla I. Matriz
de correlaciones. Elaboración: propia):
Ciencias Mates Inglés Historia Lengua
Ciencias 1 0,804 0,366 0,427 0,232
Mates 1 0,138 0,426 0,408
Inglés 1 0,813 0,787
Historia 1 0,812
Lengua 1
En la matriz se pueden identificar dos grupos de variables con correlaciones altas entre sí y bajas con
el resto. Un grupo estaría formado por las asignaturas Ciencias, y Mates (0,804) y el otro por Inglés,
Historia y Lengua. Cada grupo representaría a un factor. Una representación gráfica en el plano
definido por los dos factores implícitos en la matriz de correlaciones nos da idea de la similitud entre
las variables (Figura 1. Representación factorial de las variables del ejemplo. Elaboración: propia)
El AF va permitir obtener e interpretar un conjunto conjunto reducido de variables latentes que

permiten dar cuenta de la covariación existente entre las d variables originales, con la restricción de
que el número de factores sea menor que el número de variables. Gráficamente dos variables Mates y
Ciencias están correlacionadas porque, en mayor o menor medida, son indicadores de la misma
variable latente (Figura 2. Variable latente como principio explicativo de las covariaciones
observadas. Elaboración: propia).
El modelo matemático del AF es parecido al de la Regresión Múltiple, en el hecho de que cada
variable se expresa como una combinación lineal de los factores subyacentes. Y se diferencia del
Análisis de Varianza y de la Regresión, en que en el AF todas las variables del análisis cumplen el
mismo papel: todas son independientes en el sentido de que no existe a priori una dependencia
conceptual de unas variables sobre otras.
X 1 = a 11 F1+ a 12 F 2 + .… + a 1c F c + u 1
X 2 = a21 F1+ a 22 F 2 + .… + a 2c F c + u 2
X d = a d1 F 1 + a d2 F 2 + .… + a dc F c + u d
- X 1 , X 2 ,………, X d , son las variables estandarizadas

- F 1 , F 2 , ……..., F c , son los factores comunes. Los factores son independientes entre ellos. Se
crean un número c de factores que es siempre menor que d, d debe ser menor c, es decir, el
número de factores cuanto más pequeño mejor, que con dos o tres factores tengamos
suficiente, que unos pocos acumulen mucha información, mucha varianza de la nube de
puntos original. Los factores realmente no existen como entidad propia, lo que existe de cada
sujeto u objeto es la suma de sus respuestas o medidas, una combinación lineal de variables.
Para que el AF tenga sentido deberían cumplirse dos condiciones básicas: Parsimonia e
Interpretabilidad. Según el principio de parsimonia los fenómenos deben explicarse con el menor
número de elementos posibles. Según el principio de interpretabilidad los factores deben ser
susceptibles de interpretación sustantiva, interpretables.
- a 11 , a 12 ,….. , a 1c son las puntuaciones factoriales. Coeficientes estandarizados de regresión

múltiple de las variables en un factor común.
- u 1 , u 2 ,…….., u d son los factores únicos de cada variable. Cada uno de ellos es único y
distinto en cada una de las variables originales. Son una especie de residuo, un elemento
individual de cada una de las d variables originales y que es lo que queda por explicar de
cada una de ellas después de haber sumado una combinación peculiar y única de los factores
en cada una de las variables, después de haber introducido en ellas lo que tienen de lo
común, de lo que se explica por los factores comunes elegidos.
- c: número de factores comunes
- Cabe señalar en relación con la expresión matemática propuesta que los factores únicos no
están correlacionados entre sí ni con los factores comunes. Los factores comunes pueden
expresarse como una combinación lineal de todas las variables originales:
F 1 = b 11 X 1 + b 12 X 2 + .… + b 1d X d
F 2 = b 21 X1+ b 22 X 2 + .… + b 2d X d
.
.
F c = b c1 X 1 + b c2 X 2 + .… + b cd X d
- F 1 , F 2 , ……..., F c , son las estimaciones de los factores
- b 11 , b 12 ,….. , b 1c , son los pesos o coeficientes del factor
- d, es el número de variables
Los pesos de cada variable pueden ser grandes o pequeños, positivos o negativos. Generalmente, en
cada factor hay ítems variables con pesos grandes y otros próximos a cero; las variables que más
pesan en cada factor son las que lo definen.
El AF se reduce a la búsqueda de estos pesos para localizar medidas distintas (puntuaciones factoriales
o factor score) a partir de las variables originales, y de manera que, a poder ser, entre todas las nuevas
medidas agoten o expliquen toda la varianza presente en las variables originales.
Es posible elegir pesos o coeficientes de calificación del factor de manera que el primer factor
explique la mayoría de la varianza total. Luego se selecciona un segundo conjunto de pesos de forma
que el segundo factor dé cuenta de la mayoría de la varianza residual, siempre que no esté
correlacionado con el primer factor.
Ponemos entender bien lo que hace el AF con la siguiente explicación. El AF se encarga de analizar la
varianza común a todas las variables. Partiendo de una matriz de correlaciones, trata de simplificar la
información que ofrece, trabajando con las correlaciones elevadas al cuadrado r2 (coeficientes de
determinación), esto es, con la proporción de varianza común entre las variables. En cada casilla de la
matriz de correlaciones se refleja la proporción de varianza común a dos variables, excepto en la
diagonal principal (donde cada variable coincide consigo mismo). En la diagonal principal se refleja la
varianza específica o única de cada variable que se representa con 1. Si se desea analizar
exclusivamente la varianza compartida habrá que eliminar los unos de la matriz de correlaciones y
poner en su lugar la proporción de varianza que cada variable tiene en común con todos los demás.
En el AF, por tanto, caben dos enfoques:

1. Analizar TODA la varianza (común y no común). En este caso utilizamos los unos de la
matriz de correlaciones. El método más usual es el de Análisis de Componentes Principales.
2. Analizar SOLO la varianza común. En este caso, se substituyen los unos de la diagonal por
estimaciones de la varianza que cada variable tiene en común con las demás (y que se
denominan Comunalidades). Para la estimación de las comunalidades no hay un cálculo
único, existen diversos procedimientos (correlaciones múltiples de cada variable con todas las
demás, coeficientes de fiabilidad). El procedimiento por el que se sustituyen los unos por las
comunalidades se denomina Análisis de Factores Comunes. Los dos enfoques caben bajo la
denominación genérica de AF, aunque es el Análisis de Factores Comunes al que con más
propiedad se le aplica la denominación de AF. Ambos enfoques dan resultados similares y se
interpretan de manera casi idéntica.
Así mismo, el AF puede ser:
1. Exploratorio, AFE, se usa para tratar de descubrir la estructura interna de un número

relativamente grande de variables. La hipótesis a priori del investigador es que pueden existir
una serie de factores asociados a grupos de variables. Las cargas de los distintos factores se
utilizan para intuir la relación de éstos con las distintas variables. Es el tipo de AF más común.
2. Confirmatorio, AFC, trata de determinar si el número de factores obtenidos y sus cargas se

corresponden con los que cabría esperar a la luz de una teoría previa acerca de los datos. La
hipótesis a priori es que existen unos determinados factores preestablecidos y que cada uno
de ellos está asociado con un determinado subconjunto de las variables. El AFC entonces
arroja un nivel de confianza para poder aceptar o rechazar dicha hipótesis.
¿Cómo realizamos un AF?

Figura 3. Esquema del Análisis Factorial. Elaboración: propia
Supongamos que tenemos las variables X1, X2,…, Xd tipificadas. Si no lo estuvieran el análisis se
realizaría de forma similar pero la matriz utilizada para calcular los factores no sería la matriz de
correlación sino la de varianzas y covarianzas.
El investigador mide estas variables sobre n individuos, obteniéndose la siguiente matriz de datos
(Tabla II. Matriz de datos. Elaboración: propia)
Variables
Sujetos
X1 X2 … Xd
1 X11 X12 … X1d
2 X21 X22 … X2d
… … … …
n Xn1 Xn2 … Xnd
El modelo del AF viene dado por las ecuaciones:
X 1 = a 11 F 1 + a 12 F 2 + .… + a 1c F c + u 1
X 2 = a 21 F 1 + a 22 F2 + .… + a2c Fc + u2
.
X d = a d1 F 1 + ad2 F 2 + .… + a dc F c + u d
Donde, (F 1, F 2 , …, F C ) (cFactores Comunes, (u 1 , u 2 , …, u d ) los Factores únicos o específicos, y

los Coeficientes (aij) {i = 1, …, d; j=1, ... ,c} las Cargas factoriales.
En notación matricial el sistema de ecuaciones viene dado por (Figura 4. Expresión matricial.
Fuente: Google)
x, f y u son vectores que contienen, respectivamente, d variables observadas, c factores comunes y d

factores específicos. La matriz A de orden d×c y de término general {aij} es la matriz de cargas, pesos
o saturaciones factoriales.
x = Af + u
Las variables incluidas en el modelo x = Af + u son variables tipificadas. Es decir:
E(x i ) = 0 E(fj) = 0 E(u i ) = 0

Var(x i ) = 1 Var(f j ) = 1 Var(u i ) = 1
Y que las relaciones entre factores comunes y específicos son las siguientes:
• Los factores comunes (f j ) no correlacionan con los factores específicos (u i )
Corr (f j , u i ) = 0
• Los factores específicos no correlacionan entre sí
Corr (u i ,u k ) = 0
• Los factores comunes están incorrelacionados entre sí
Corr (f j , f i ) = 0 si i < j,
Si asumimos estas tres relaciones entre los factores comunes y específicos el modelo x = Af +
u recibe el nombre de Modelo de Factores Comunes Ortogonales. Las variables se pueden expresar en
función de factores independientes, en el sentido de que no existe entre ellos interdependencia lineal.
Este modelo se usa en el AF Exploratorio dado el desconocimiento de la estructura factorial
subyacente.
Si, por el contrario, consideramos que los factores comunes pueden covariar el modelo es el Modelo
de Factores Oblicuos. Se aplica en el AF Confirmatorio.
Asumiendo, por tanto, factores comunes incorrelacionados el problema del AF va a reducirse a

determinar la matriz A de pesos factoriales y a interpretar los factores obtenidos a partir de dichos
pesos. Para determinar la matriz A es necesario relacionarla con la matriz de correlaciones (o de
varianzas-covarianzas) entre las variables observadas.
La relación entre variables observadas y factores es la misma que entre las variables del modelo de
regresión lineal múltiple (los pesos aij pueden ser interpretados de modo similar a los parámetros de
la regresión y, en los dos casos, la relación entre variables criterio y predictoras no es exacta, por lo
que aparece un término de error). No obstante existen diferencias sustanciales: a) En el modelo de
regresión lineal múltiple las variables predictoras y criterio son observadas; en cambio, en el modelo
factorial las variables predictoras son variables no observadas y las variables criterio observadas; b) En
la regresión los parámetros del modelo pueden ser estimados, en el modelo factorial no porque no se
conocen las medidas en los factores.
Dado que la diferencia en las variables predictoras hace que los parámetros del modelo factorial no
puedan ser estimados, como en la regresión porque no conocemos las puntuaciones de los sujetos
en los factores, la estructura de la matriz de correlaciones (R) viene definida por “u”.
Para determinar la estructura de R multiplicamos la ecuación x = Af + u por x' y tomamos esperanzas

matemáticas (valores esperados, valor medio):
R= E(xx’) = E((Af+u)(Af+u)’) o lo que es lo mismo x = Af + u ⇔ X = FA' + U
En la matriz de correlaciones (R) podemos distinguir dos tipos de elementos: los elementos de la
diagonal (todos iguales a 1) y los elementos exteriores a la diagonal (r ik ). La correlación de una
variable consigo misma siempre va a ser 1, no es otra cosa que la varianza de una variable tipificada y
se descompone en:
Siendo la varianza de la variable xi explicada por el conjunto de factores comunes

(equivale al coeficiente de determinación en regresión lineal múltiple). A este término, en AF, se le
conoce como comunalidad de la variable X i , y se le representa por h2i. El término d2i es la varianza
de X i no explicada por los factores comunes. A este término se le denomina unicidad o especificidad.
La expresión quedaría entonces
Los factores comunes serían los que explican las relaciones existentes entre las variables.
Gráficamente podemos representar la partición de la varianza de una variable en un modelo de tres

factores comunes recurriendo a los diagramas de Venn (Figura 5. Partición de varianza de una variable
en un modelo de tres factores ortogonales. Elaboración: propia)
En la Figura 5 aparece representada la comunalidad y la especificidad de la variable xi
Los elementos externos a la diagonal de R corresponden a las correlaciones entre las variables
observadas (r ik )
En esta expresión se observa que la correlación entre dos variables observadas puede obtenerse
multiplicando los pesos factoriales de ambas variables en el conjunto de factores comunes. Como era
de esperar las especificidades de las variables observadas no intervienen en las correlaciones.
Continuando con el EJEMPLO I, a partir de la matriz de correlaciones entre las variables: Notas en
Ciencias Naturales (CN), Matemáticas (M), Inglés (I), Historia (HIS) y Lengua (LEN) se obtuvo la
siguiente matriz de pesos factoriales
Y calcular los siguientes valores:
a) Comunalidad de cada variable.
b) Unicidad de cada variable.
c) Porcentaje de varianza de cada variable explicada por cada uno de los factores comunes.
d) Interpretación de los factores obtenidos.
Para la matriz factorial dada las comunalidades son:
La especificidad de cada variable viene dada por:

El porcentaje de varianza de cada variable explicada por cada uno de los factores comunes podemos
expresarlo como (Tabla III)
Factor 1 Factor 2 Comunalidad
Ciencias 64 4 68
Mates 81 1 82
Inglés 1 81 82
Historia 9 64 73
Lengua 4 64 68
Por último, respecto a la interpretación de los factores obtenidos, recordemos la Figura 1. Las
variables se representan por puntos en el plano definido por los factores comunes, siendo las
coordenadas de dichos puntos los pesos factoriales. Observamos dos agrupamientos de variables:
uno con las variables Ciencias Naturales y Matemáticas que dan contenido al factor 1 y otro, el
formado por las variables Inglés, Historia y Lengua, que dan contenido al factor 2. En todos los casos
las correlaciones entre variables observadas y factores son positivas. Los factores comunes son
etiquetas para grupos de variables que caracterizan estos conceptos. Así, en la primera columna de la
matriz de correlaciones A (Tabla 1), las variables con pesos más altos son Ciencias Naturales y
Matemáticas; a este factor le denominamos: habilidad lógico-formal. En la segunda columna las
variables con pesos altos son: Francés, Latín y Literatura; este segundo factor lo etiquetamos
como habilidad verbal.
Una vez construida la matriz de correlaciones es necesario analizarla para comprobar si sus
características son las adecuadas para realizar un AF. Uno de los requisitos que deben cumplirse es
que las variables se encuentran altamente
intercorrelacionadas. También se espera que las variables que tengan correlación muy alta entre sí la
tengan con el mismo factor o factores. En consecuencia, si las correlaciones entre todas las variables
son bajas, tal vez no sea apropiado el
AF. Pueden utilizarse diferentes métodos para comprobar el grado de asociación entre las variables:
a) Determinante de la matriz de correlaciones. El determinante es un polinomio que

resulta de obtener todos los productos posibles de la matriz). Si el determinante es muy bajo,
entonces, las intercorrelaciones son altas, ideal para el AF. Si es cero, algunas de las variables
son linealmente dependientes y no se podría aplicar el AF. Y si es alto, indica altas
correlaciones.
b) Test de Barttlett. Contrasta, bajo la hipótesis de normalidad multivariante, si la matriz de

correlaciones de las d variables se ajusta a la matriz identidad. La matriz de identidad es una
matriz en la que los elementos de la diagonal principal son 1 y los elementos por encima y
por debajo de ella son nulos (0). Si el estadístico de Bartlett toma valores grandes quiere
decir que las variables están intercorrelacionadas (se rechaza la Ho) y el determinante es cero.
Si el estadístico de Bartlett toma valores pequeños quiere decir que la matriz de correlaciones
se ajusta a la matriz de identidad y las intercorrelaciones entre las variables son cero (se
acepta la Ho), las variables no están intercorrelacionadas. Y el determinante es 1. En este
último caso debería reconsiderarse la aplicación de un AF. Es muy útil cuando el tamaño
muestral es pequeño.
c) Índice KMO de Kayser-Meyer-Olkin. Es una medida de adecuación de la muestra a las

hipótesis del modelo de AF. Se utiliza para comparar las magnitudes de los coeficientes de
correlación parcial entre las variables, es decir, el grado de relaciones entre dos variables,
eliminando la influencia del resto. Cuánto más pequeño sea su valor, mayor será el valor de
los coeficientes de correlación parciales r ij (d) y, en consecuencia, menos apropiado es realizar
un AF. Por norma si: KMO ≥ 0,75 ⇒ Bien; KMO ≥ 0, 5 ⇒ Aceptable; KMO < 0, 5 ⇒
Inaceptable. La experiencia práctica aconseja que es precipitado tomar el índice KMO como
única medida, sobre todo si hay un número pequeño de variables consideradas.
9.2. INDETERMINACIÓN DE LAS SOLUCIONES FACTORIALES
¿Cómo extraemos los factores?
Determinar la matriz factorial A, en un modelo de factores ortogonales, es un proceso complicado

porque existen infinitas soluciones para dicha matriz.
La indeterminación factorial se resuelve imponiendo restricciones matemáticas que den un significado
a los factores comunes.
Los diferentes métodos propuestos en la literatura para determinar la matriz A, conocidos como
métodos de extracción factorial, obedecen a tres tipos de criterios:
1. Explicar el máximo de la varianza observada. Análisis de Componentes Principales (ACP).

Este método es uno de los más utilizados y está implementado en los paquetes estadísticos
de uso frecuente en investigación
2. Reproducir lo mejor posible las correlaciones observadas. Factores Principales (FP)
3. Obtener los mejores estimadores de la matriz factorial poblacional. Máxima Verosimilitud

(ML)
Los métodos de extracción factorial proporcionan soluciones únicas para la matriz factorial si se
aceptan las restricciones de dichos métodos. Sin embargo, no hay garantía de que las soluciones
proporcionadas por los diferentes métodos sean absolutamente equivalentes.
9.3. OBTENCIÓN DE SOLUCIONES: EL MÉTODO DEL FACTOR

PRINCIPAL Y EL MÉTODO DE MÁXIMA VEROSIMILITUD
a) Método del Factor Principal o Ejes principales
El método de Ejes Principales es el método más utilizado en el AF junto con el análisis de

Componentes Principales.
El AF es un método analítico de condensación de la varianza total de las medidas de las variables. Esta
varianza tiene tres componentes: la varianza común (comunalidades), que es la proporción de la
varianza de las variables que es explicada por los factores comunes; la varianza específica
(especificidad), que es el porcentaje de varianza particular de cada variable; y la varianza de error, que
es el porcentaje de varianza no explicada, atribuible al error de la medida.
Pues bien, el método de Ejes Principales contempla únicamente la varianza que las variables tienen en
común o covarianza, excluyendo a la varianza específica y la varianza de error. Esta característica lo
distingue perfectamente del método de Componentes Principales, ya que este último explica la mayor
cantidad de varianza posible en los datos observados, analiza la varianza total asociada a las variables,
incluyendo la varianza específica y la varianza de error.
A efectos prácticos, la característica esencial del método de Ejes Principales es que la extracción de
factores no se realiza en base a la matriz de correlaciones entre las variables observadas sino, a la
matriz Ra, matriz de correlaciones reducida, que no es otra cosa que, la matriz de correlaciones en
donde se han sustituido los 1 de la diagonal por las comunalidades de las variables.
El modelo en el que se basa el análisis de Ejes Principales es:
Como podemos observar en el modelo el factor único se ha eliminado.
La indeterminación factorial se resuelve imponiendo que la suma de cuadrados de los pesos

factoriales del conjunto de variables en el primer factor sea máxima. Es decir:
Debe ser máxima. Se impone, además, la restricción de que las correlaciones observadas deben ser
reproducidas exactamente por los pesos factoriales lo que implica residuales cero. Esta segunda
restricción se expresa como
Maximizar sujeta a la
restricción implica resolver la ecuación

característica de la matriz de correlaciones reducida:
Los pesos (a i1 ) de las variables en el primer factor común se obtienen resolviendo el sistema de
ecuaciones que se deriva de la expresión
El segundo factor se elige de manera que explique el máximo de la varianza resultante al eliminar la
explicada por el primer factor y, además, este segundo factor debe estar incorrelacionado con el
primero. El proceso continúa hasta explicar el 100% de la varianza total factorizada. No obstante,
conviene comentar las dos situaciones que nos podemos encontrar en cuanto al número de factores
comunes. Sabemos que las varianzas explicadas por los factores comunes se obtienen de la
resolución de la ecuación . Dicha ecuación proporciona d valores que no
tienen porque ser todos positivos, a diferencia del método de componentes principales. En caso de
que encontremos c valores positivos y su suma no supere la varianza total factorizada éste será el
número de factores comunes elegidos para reproducir la matriz de correlaciones. Si la suma del
número de autovalores positivos supera ámpliamente la varianza total elegiremos un número menor
de manera que la varianza explicada por el conjunto de factores comunes esté lo más próxima posible
a la varianza total factorizada.
La matriz factorial resultante será
Donde como ya sabemos:
a) la varianza de una variable explicada por los c factores comunes será
b) la varianza de las d variables observadas explicada por cada factor común viene dada
por
c) las correlaciones reproducidas vendrán dadas por
Como mencionamos anteriormente, el método de Factores Principales utiliza para la factorización la

matriz de correlaciones reducida (R a ). Esta matriz se obtiene sustituyendo en la matriz R los unos de
la diagonal por la varianza de cada variable explicada por el conjunto de factores comunes.
Esta varianza es, en principio, desconocida y tiene que ser estimada por algún procedimiento. Varios
han sido los criterios utilizados para estimar las comunalidades; de todos ellos el más utilizado e
implementado en el paquete estadístico SPSS consiste en utilizar como estimación de la comunalidad
de una variable el coeficiente de correlación múltiple al cuadrado (R2i.1,2,...(i),..d) de dicha variable
con el resto.
EJEMPLO II.
En la matriz de correlaciones del EJEMPLO I se sustituyeron los elementos de la diagonal por las
siguientes comunalidades (Tabla IV. Matriz de correlaciones: Comunalidades. Elaboración:
propia):
Ciencias Mates Inglés Historia Lengua
Ciencias 0,96859 0,804 0,366 0,427 0,232
Mates 0,82227 0,138 0,426 0,408

Inglés 0,96918 0,813 0,787
Historia 0,78572 0,812
Lengua 0,8470
Sabiendo que los autovalores de la matriz de correlaciones reducida (Ra) fueron:
2, 73429 1,71607 0,03955 -0,03955 -0,02452 -0.0726
a) ¿Cuántos factores elegirías como solución?.
b) ¿Qué proporción de varianza explica cada factor del conjunto de variables

observadas?
c) Método de máxima verosimilitud
Este es el primer método de extracción de naturaleza estadística, los anteriores que son de naturaleza
algebraica.
Este método considera la obtención de la matriz factorial como un problema de estimación puntual
de parámetros. Se parte del desconocimiento tanto de la matriz de correlaciones poblacional (R)
como de la matriz factorial poblacional (A) y el objetivo es obtener una estimación que haga máxima
la probabilidad de obtener las correlaciones observadas.
El procedimiento para calcular esta estimación, denominada estimación “hat” o de “sombrero”, es

bastante complejo. Simplemente decir que requiere del supuesto de normalidad multivariante, no
requiere de estimación inicial de las comunalidades aunque, si es necesario decidir previamente el
número de factores comunes que desearíamos obtener.
Este procedimiento de extracción tiene asociado un test de significación para el número de factores
elegidos.
Formula la hipótesis nula : Ho: La matriz factorial poblacional (A) es de rango c

Si se acepta esta hipótesis el número de factores elegido es correcto. Si se rechaza habría que ensayar
una solución con c + 1 factores comunes.
9.4. ROTACIÓN DE LAS SOLUCIONES
En la práctica, los métodos de extracción de factores pueden no proporcionar matrices de cargas

factoriales adecuadas para la interpretación. Rara vez, la matriz factorial obtenida con alguno de los
métodos de extracción descritos en la primera parte de este tema sirve de base para la interpretación
de los factores.
Cuando dijimos que los métodos de extracción hacen únicas las cargas factoriales aclaramos que
dichas cargas son únicas en función del criterio particular elegido pero, en ningún momento
podemos pensar que hemos resuelto el problema de la indeterminación factorial. Quiere esto decir
que existirán infinitas matrices factoriales, obtenidas rotando a una situación espacial distinta la
solución factorial directa, que conserven el número de factores comunes, la varianza total explicada
por el conjunto de factores, las comunalidades de las variables y que sean más fáciles de interpretar.
De las infinitas soluciones posibles obtenidas por rotación sólo nos van a interesar aquellas que
conserven la ortogonalidad de los factores (rotación ortogonal frente a oblicua) y que nos lleven a
una matriz factorial con determinadas características.
Para acometer este problema están los procedimientos de Rotación de Factores que, a partir de la
solución inicial, buscan factores cuya matriz de cargas factoriales los hagan más fácilmente
interpretables. Estos métodos intentan aproximar la solución obtenida al Principio de Estructura
Simple (Louis Leon Thurstone, 1935), según el cual la matriz de cargas factoriales debe reunir tres
características:
1. Cada factor debe tener unos pocos pesos altos y los demás próximos a cero.
2. Cada variable no debe estar saturada más que en un factor.
3. No deben existir factores con la misma distribución, esto es, dos factores distintos deben
presentar distribuciones diferentes de cargas altas y bajas.
De esta manera, dado que hay más variables que factores comunes, cada factor tendrá una
correlación alta con un grupo de variables y baja con el resto de las variables.
Los principios enunciados están encaminados a encontrar una matriz factorial en términos de
factores disjuntos es decir, factores definidos por agrupamientos diferentes de variables. Un ejemplo
de una matriz factorial simple en los términos expresados anteriormente sería la siguiente (Tabla V.
Matriz Factorial simple; Elaboración: propia):
Variables F1 F2 F3
X1 0 X 0
X2 0 X 0
X3 0 X 0
X4 X 0 0
X5 X 0 0
X6 X 0 0
X7 0 0 X
X8 0 0 X
X9 0 0 X
donde los 0 representan pesos factoriales muy pequeños y las X pesos factoriales altos. Aunque no
siempre encontremos matrices tan fáciles de interpretar como la anterior con la rotación si se va a
eliminar buena parte de la dificultad que tiene interpretar la matriz factorial directa.
Al examinar las características de las variables de un grupo asociado a un determinado factor se
pueden encontrar rasgos comunes que permitan identificar el factor y darle una denominación que
responda a esos rasgos comunes. Si se consigue identificar claramente estos rasgos, además de
reducir la dimensión del problema, también se desvela la naturaleza de las interrelaciones existentes
entre las variables originales.
Existen dos formas básicas de realizar la Rotación de Factores: la Rotación Oblicua y la Rotación
Ortogonal. Se elige uno u otro procedimiento según que los factores rotados sigan siendo
ortogonales o no. Señalar que en ambas rotaciones la comunalidad de cada variable no se modifica,
esto es, la rotación no afecta a la bondad del ajuste de la solución factorial: aunque cambie la matriz
factorial, las especificidades no cambian y, en consecuencia, las comunidades permanecen invariantes.
Sin embargo, cambia la varianza explicada por cada factor, por tanto, los nuevos factores no están
ordenados de acuerdo con la información que contienen, cuantificada mediante su varianza.
En la Rotación Ortogonal los ejes se rotan de forma que quede preservada la incorrelación entre los
factores. Es decir, los nuevos ejes (ejes rotados) son perpendiculares de igual forma que lo son los
factores sin rotar. La rotación se apoya en el problema de falta de identificabilidad de los factores
obtenidos por rotaciones ortogonales, de forma que si T es una matriz ortogonal con T T' = T' T =I,
entonces:
X =FA' +U=FT T'A' +U= GB' +U
La matriz G geométricamente es una rotación de F, verificando las mismas hipótesis que ésta.
Realmente lo que se realiza es un giro de ejes, de forma que cambian las cargas factoriales y los
factores.
Se trata de buscar una matriz T tal que la nueva matriz de cargas factoriales B tenga muchos valores
nulos o casi nulos, y unos pocos valores cercanos a la unidad de acuerdo con el principio de
estructura simple.
Los métodos empleados en la rotación ortogonal de factores son: Varimax, Quartimax, Equamax,
Oblimin y Promax.
Todos ellos tienden a simplificar la matriz factorial directa. Según el criterio utilizado, el objetivo será
simplificar filas o la complejidad de las variables en el conjunto de factores comunes (ej-.
método Quartimax) o simplificar columnas o factores.
a) Método Varimax. Es un método de rotación que minimiza el número de variables con

cargas altas en un factor, mejorando así la interpretación de factores. El método considera
que, si se logra aumentar la varianza de las cargas factoriales al cuadrado de cada factor
consiguiendo que algunas de sus cargas factoriales tiendan a acercarse a 1 mientras que
otras se aproximan a 0, se obtiene una pertenencia más clara e inteligible de cada variable al
factor.
Los nuevos ejes se obtienen maximizando la suma para los k‐factores retenidos de las
varianzas de las cargas factoriales al cuadrado dentro de cada factor. Para evitar que las
variables con mayores comunalidades tengan más peso en la solución final, se efectúa la
normalización de Kaiser (dividiendo cada carga factorial al cuadrado por la comunalidad de la
variable correspondiente).
En consecuencia, el método Varimax determina la Matriz B de forma que maximice la suma

de las varianzas.
b) Método Quartimax. El objetivo es que cada variable tenga correlaciones elevadas con un
pequeño número de factores. Para ello, maximiza la varianza de las cargas factoriales al
cuadrado de cada variable en los factores.
Con ello, se logra que cada variable concentre su pertenencia en un determinado factor, esto
es, presente una carga factorial alta mientras que, en los demás factores, sus cargas
factoriales tienden a ser bajas.
De este modo, la interpretación gana en claridad por cuanto la comunalidad total de cada
variable permanece constante, quedando más evidente hacia qué factor se inclina con más
fuerza cada variable. El método será más clarificador, cuanto mayor número de factores se
hayan calculado. Este método tiende a producir un primer factor general, conocido con el
nombre de tamaño, y el resto de factores presentan ponderaciones menores que las dadas
por el método Varimax.
c) Método Equamax. Es un método que es combinación del método Varimax, que simplifica
los factores, y el método Quartimax, que simplifica las variables. Este método minimiza tanto
el número de variables que saturan alto en un factor como el número de factores necesarios
para explicar una variable.
En la Rotación oblicua la matriz T de rotación no tiene que ser ortogonal (cuando una matriz
multiplicada por su transpuesta es la matriz identidad T T' =I ) sino únicamente no singular (matriz
cuadrado cuyo determinante no es cero). De esta manera, los factores rotados no tienen por qué ser
ortogonales y tener, por tanto, correlaciones distintas de cero entre sí. La rotación oblicua puede
utilizarse cuando es probable que los factores en la población tengan una correlación muy fuerte. Es
necesario ir con mucha atención en la interpretación de las rotaciones oblicuas, pues la superposición
de factores puede confundir la significación de los mismos.
Los métodos empleados en la rotación ortogonal de factores son: Oblimin y Promax.
a) Método Oblimin. Trata de encontrar una estructura simple si que importe el hecho de
que las rotaciones sean ortogonales, esto es, las saturaciones no representan ya la
correlación entre los factores y las variables. Se considera un parámetro que controla el grado
de correlación entre los factores, con los valores preferentemente entre -0,5 y 0,5.
b) Método Promax. Altera los resultados de una rotación ortogonal hasta crear una solución
con cargas factoriales lo más próximas a la estructura ideal. La estructura ideal se obtiene
elevando a una potencia (entre 2 y 4) las cargas factoriales obtenidas en una rotación
ortogonal. Cuanto mayor sea la potencia, más oblicua es la solución obtenida.
Sea H la matriz de cargas buscada por el método Promax, busca una matriz T tal que AT =H.
Multiplicando ambos miembros por la matriz (A'A)−1 A' , se tiene: T = (A'A)−1 A' H.
9.5. PUNTUACIONES FACTORIALES
Habiendo determinado los factores rotados, se calcula las matrices de puntuaciones factoriales F.
Son variadas las posibilidades de analizar las puntuaciones factoriales de los sujetos:
• Conocer qué sujetos son los más raros o extremos, es decir, la representación gráfica de
las puntuaciones factoriales para cada par de ejes factoriales facilita detectar casos
atípicos.
• Conocer dónde se ubican ciertos grupos o subcolectivos de la muestra (ejemplo; clase
alta frente a clase baja, una provincia frente a las otras provincias, jóvenes frente a
mayores, etc.)
• Conocer en qué factor sobresalen unos sujetos y n qué factor no.
• Explicar, atendiendo las informaciones anteriores, por qué han aparecido dichos factores
en el AF realizado.
Es necesario conocer los valores que toman los factores en cada observación, pues en ocasiones, el AF
es un paso previo a otros análisis: Regresión Múltiple o Análisis Cluster, en los que sustituye el
conjunto de variables originales por los factores obtenidos.
Existen diversos métodos de estimación de la matriz F, Métodos del Cálculo de las Puntuaciones. Las
propiedades deseables que verificasen los factores estimados son:
• Cada factor estimado presente una correlación alta con el verdadero factor.
• Cada factor estimado tenga correlación nula con los demás factores verdaderos.
• Los factores estimados son incorrelados dos a dos (mutuamente ortogonales si son
ortogonales).
• Los factores estimados sean estimadores insesgados de los verdaderos factores.
Señalar que el problema de estimación es complejo por la propia naturaleza de los factores comunes.
Se puede demostrar que los factores no son, en general, combinación lineal de lasm variables
originales. Por otra parte, en la mayoría de las situaciones, no existirá una solución exacta ni siquiera
será única.
Todos los métodos de obtención de puntuaciones factoriales parten de la expresión:
X =FA'+U
buscando estimar el valor de F.
Los métodos de estimación más utilizados:
a) Regresión. Estima F por el método de los mínimos cuadrados:
= (A' A)-1 A' X.
El Método de Regresión da lugar a puntuaciones con máxima correlación con las

puntuaciones teóricas. Sin embargo, el estimador no es insesgado, ni unívoco y, en caso de
que los factores sean ortogonales, puede dar lugar a puntuaciones correladas.
b) Barlett. Utiliza el método de los mínimos cuadrados generalizados estimando las

puntuaciones factoriales. El Método de Barlett da lugar a puntuaciones correladas con las
puntuaciones teóricas, insesgadas y unívocas. Sin embargo, en caso de que los factores sean
ortogonales, puede dar lugar a puntuaciones correladas.
c) Anderson‐Rubin. Estima F mediante el método de los mínimos cuadrados generalizados,

imponiendo la condición F'F =I. El Método de Anderson‐Rubin da lugar a puntuaciones
ortogonales que están correladas con las puntuaciones teóricas. Sin embargo, el estimador
no es insesgado ni unívoco.
En ocasiones, el investigador preferirá seleccionar las variables más representativas de los factores, en
lugar de calcular sus puntuaciones. Por ejemplo, si se utiliza el AF para reducir el número de datos,
por razones de economía, si se quieren aplicar los resultados obtenidos a objetos diferentes de los
estudiados en el análisis, es más interesante seleccionar algunas de las variables originalmente
medidas, dada la dificultad del cálculo de las puntuaciones factoriales para las que se necesitaría
medir todas las variables utilizadas en el estudio.
Una forma de llevar a cabo la selección de variables es estudiar la matriz de correlaciones de las
variables con los factores, seleccionando como representante de cada factor la variable con la
correlación más elevada en éste, que sea más fácil de medir y que tenga más sentido desde un punto
de vista teórico. En cualquier caso, conviene elegir las variables de forma que una misma variable no
se utilice para medir dos factores distintos.
Una vez elegidas las variables, se les asigna pesos basados en su correlación con el factor, y se
comprueba su validez estimando su correlación con los factores que desea estimar mediante la
fórmula:
R fs =A'Wdiag (R ss )
Donde R ss es la matriz de correlaciones de las puntuaciones estimadas.
El último paso en el AF es estudiar la validez del modelo. El proceso de Validación del modelo debe
realizarse en dos direcciones: Analizando la bondad de ajuste y la Generalidad de los resultados.
a) Bondad de Ajuste. Consiste en estudiar las diferencias (residuos) entre las correlaciones
observadas (matriz de correlación de entrada) y las correlaciones reproducidas (como se
estiman a partir de la matriz factorial), dado que una suposición básica subyacente al AF es
que la correlación observada entre las variables puede atribuirse a factores comunes. Por
consiguiente, las correlaciones entre variables pueden deducirse o reproducirse a partir de las
correlaciones estimadas entre las variables y los factores.
El modelo factorial es adecuado cuando los residuos son pequeños. Si hay un porcentaje
elevado de residuos superiores a una cantidad pequeña prefijada (por ejemplo, 0,05), será
una indicación de que el modelo factorial estimado no se ajusta a los datos. Se sabe además
que hay más estabilidad en los resultados si el número de casos por variable es alto.
b) Generalidad de los resultados. Para alcanzar la generalidad de los resultados podemos

realizar nuevos análisis factoriales sobre nuevas muestras extraídas de la población objeto de
estudio y, en caso de no ser posible, sobre submuestras de la muestra original. Se pueden
realizar otros análisis factoriales en base, no al conjunto total de la muestra o población, sino
referido a subcolectivos o grupos que están presentes en la muestra y que pueden formarse
utilizando las categorías de las variables primarias (sexo, clase social, tipo de centro, tipo de
metodología pedagógica, tipos de actitud, etc.). Otra posibilidad es realizar nuevos análisis
factoriales modificando las variables consideradas, bien sea eliminando aquellas variables
que no tienen relación con ningún factor o eliminando las variables con relaciones más
fuertes tratando de descubrir cómo se comporta el resto de ellas sin su presencia.
Tema 10 - Análisis de Componentes Principales
TEMA 10. ANÁLISIS DE COMPONENTES

PRINCIPALES
10.1. DEFINICIÓN Y PROPIEDAD DE LAS COMPONENTES

PRINCIPALES
El Análisis de Componentes Principales (ACP) es una técnica estadística de síntesis que consiste en
extraer tantas componentes (Factores) como variables observables. El objetivo es reducir las variables
a las componentes suficientes y necesarias perdiendo la menor cantidad de información posible.
Las componentes principales son un conjunto de nuevas variables incorrelacionadas entre sí (no
tienen repetición o redundancia en la información) que surge de la transformar un conjunto original
de variables correlacionadas.
Los nuevos componentes principales o factores serán una combinación lineal de las variables
originales, y además serán independientes entre sí.
De modo ideal, se buscan c < d variables que sean combinaciones lineales de las p originales y que
no estén correlacionadas, recogiendo la mayor parte de la información o variabilidad de los datos.
El ACP no requiere de partida que se cumpla el supuesto de normalidad multivariante, pero si se

cumple puede dar lugar a una interpretación más profunda de los componentes.
El modelo de ACP es:
Para realizar el cálculo de las CP se considera una serie de variables (x 1 , x 2 , …, x d ) sobre un grupo de
objetos o individuos y se trata de calcular, a partir de ellas, un nuevo conjunto de variables (y 1 , y 2 , …,
y d ), incorrelacionadas entre sí, cuyas varianzas vayan decreciendo progresivamente.
Las componentes se extraen de manera que la primera componente Y1, explique el máximo posible
de la varianza total disponible. La varianza total es la suma de las varianzas de las variables
observables consideradas en la investigación, como hemos considerado variables tipificadas la
varianza total es d. La segunda componente Y 2 , explica el máximo de la varianza que queda al
eliminar la varianza explicada por la primera componente y con la restricción adicional de que esté
incorrelacionada con la primera. El proceso continúa hasta explicar toda la varianza disponible para
lo cual hay que extraer tantas componentes como variables. Las varianzas explicadas por cada
componente (Y j ) se denominan valores propios o raíces características.
La suma de las varianzas explicadas por las componentes es:
Normalmente suele proporcionarse el porcentaje de varianza total que explica cada componente.
Este porcentaje se calcula como
Las varianzas explicadas por cada componente se obtienen resolviendo la ecuación denominada
ecuación característica de la matriz de correlaciones entre variables observadas (R) (que se demuestra
utilizando el procedimiento de multiplicadores de Lagrange):
Por su parte, los pesos (vij) de las componentes en las variables se obtienen resolviendo el sistema de
ecuaciones que se deriva de la expresión:
Una vez obtenida la matriz de pesos de las componentes en las variables, lo normal es derivar a partir
de la misma la matriz A que relaciona las variables observables con las componentes. La relación
entre estas dos matrices es:
Donde D1/2 es una matriz diagonal que contiene las raíces de las varianzas explicadas por cada
componente del conjunto de variables observadas. Los pesos o saturaciones factoriales se obtienen
de v ij según la expresión:
La matriz factorial así obtenida es una matriz de orden d y con las siguientes propiedades:
a) La comunalidad o varianza de una variable observada explicada por las d componentes

será igual a 1. Es decir:
b) La varianza de las d variables observadas explicada por cada componente viene dada
por
El número de componentes que se extraen con el procedimiento descrito es igual al número de
variables observadas con lo cual no se cumple el objetivo básico del análisis factorial: reducir el
número de variables necesario para la descripción del fenómeno. Existen, no obstante, varios criterios
que nos permiten seleccionar un número menor de componentes que reproducen razonablemente
bien las correlaciones observadas. Algunos de los criterios más utilizados son:
a) Determinación “a priori”. Es el criterio más fiable si los datos y las variables están bien
elegidos y el investigador conoce la situación, lo ideal es plantear el AF con una idea previa
de cuántos factores hay y cuáles son.
b) Criterio de Kaiser: Según este criterio se seleccionan las c primeras componentes siempre
que la varianza explicada sea mayor que 1. Este es el criterio utilizado por los muchos
paquetes estadísticos como SPSS. La lógica de este criterio es que un factor explique al
menos la varianza de una variable tipificada.
c) Gráfico de sedimentación ("scree test"). Consiste en representar en el eje de ordenadas

los autovalores -o varianzas explicadas por cada componente- y en el eje de abscisas las
componentes extraídas según su orden de extracción. En la curva que nos proporciona el
"scree test" se pueden distinguir, habitualmente, dos tramos: un primer tramo constituido
por muy pocos puntos y con una pendiente negativa muy grande; y un segundo tramo, en el
que se encuentran la mayoría de los puntos, que exhibe un decaimiento muy lento. El criterio
consiste en elegir tantas componentes como puntos haya en el primer tramo de la curva. Este
criterio suele coincidir con el anterior (Figura 1. Gráfico de sedimentación. Elaboración:
propia)
En la Figura 1 sería suficiente con retener 3 componentes.
d) Test de significación de Lawley (Cuadras, 1981). Es el método de máxima verosimilitud

contrastando la adecuación del número de factores extraídos.
e) Retención de componentes. Consiste en fijar una cantidad mínima de varianza explicada

por el conjunto de componentes retenidas. Con este criterio retenemos componentes hasta
alcanzar un 95% de varianza explicada si la investigación se realiza en ciencias naturales y
entre 60% y 70% en ciencias sociales.
f) Criterio de división a la mitad. La muestra se divide en dos partes iguales tomadas al azar
y se realiza el AF en cada una de ellas. Solo se conservan los factores que tienen alta
correspondencia de cargas de factores en las dos muestras. Antes de aplicarlo, conviene
comprobar que no existen diferencias significativas entre las dos muestras en lo que se
refiere a las variables estudiadas.
En general, no se suelen coger más de tres componentes principales, a ser posible, para poder
representarlos gráficamente.
10.2. OBTENCIÓN DE LAS COMPONENTES PRINCIPALES A
PARTIR DE UNA MUESTRA
Para aclarar algunos de los conceptos desarrollados acerca del ACP podemos realizar el siguiente
ejercicio.
Supongamos que vamos a estudiar el beneficio y la dimensión (número de reses) de 9 explotaciones

bovinas ecológicas.
La primera pregunta que tenemos que poder responder es: ¿Cuántas variables vamos a utilizar?
La respuesta es: Beneficio: € por explotación y Dimensión: inversión € por explotación
Tabla I. Variables originales
Variables originales
Explotación Inversión (€) Beneficios (€)
1 580,104 23,795
2 520,218 58, 778
3 470,963 1,531
4 431,003 - 12,756
5 337, 745 - 14,729
6 299,991 9,059
7 289,155 12,541
8 248,465 13,495
9 215,853 -34.828
El primer paso para la obtención de los CP es saber si: ¿Hay correlación entre ambas variables?
Tabla II. Matriz de correlaciones
Correlaciones
Número de vacas Beneficio
0,5460
Número de
( 9)
vacas
0,1283
0,5460
( 9)
Beneficio
0,1283
A nivel gráfico la representación de la nube de puntos (datos originales) que refleja la correlación
entre las variables se muestra en la Figura 2 (Fuente: Google)
El segundo paso será: eliminar el problema de la escala (Figura 3; Fuente: Google)
Si se tipifican las variables:

a) la matriz de correlación es igual a la matriz de covarianzas
b) Σ б componentes principales = Σ б variables = Σ variables tipificadas (2 en este caso)
La representación gráfica en puntuaciones típicas se presenta en la (Figura 4; Fuente: Google)
El tercer paso es: obtener los componentes principales. Para ello:
a) Calculamos las raíces de la matriz de covarianzas:
λ1 = 1,54603 λ2 = 0,45397
• La б de cada CP es igual al valor de la raíz característica.
• La primera CP se obtiene de forma que maximice б.
• En general tiene una б mayor que cualquier variable original.

• Si la variable está tipificada, la б CP1 > 1.
• Si las variables originales están incorrelacionadas, las CP coincidirán exactamente con las
variables originales.
• En el caso de 2 variables, б de CP1 = б de una de las variables tipificadas + coeficiente

de correlación: 1 + 0,54603 = 1,54603
λ1 = 1,54603 λ2 = 0,45397
• б de CP2 = 2 - б de CP1 (siendo 2 = Σ бcomponentes principales = Σ бvariables = Σ

variables tipificadas).
Aplicando un programa estadístico, como el SPSS la salida del programa muestra (Figura 5;
Fuente: Google)
Analysis Summary
Data variables:
Inversion
beneficio
Data input: observations
Number of complete cases: 9
Missing value treatment: listwise
Standardized: yes
Number of components extracted: 2
Principal Components Analysis
--------------------------------------------------------
-----------------------------
Components Number Peercent of

variance Cumulative Percentage
1 1,54604 77,302
77,302
2 0,453963 22,698
100,000
--------------------------------------------------------
------------------------------
b) Cada raíz tiene asociado un vector característico, que con dos variables:
u 1 = ( u 11 ; u 12 )
u 2 = ( u 21 ; u 22 )
• Deben cumplir: u211+ u212 = 1
u221+ u222 = 1
Si los datos están tipificados, siempre con 2 variables se obtienen los siguientes vectores: u 1 = (07071;
07071); u 2 = (07071; - 07071)
• Los coeficientes de los vectores son los coeficientes que hay que aplicar a las variables
tipificadas para obtener los CP:
CP 1 = u 11 * X 1 + u 12 * X 2
CP 2 = u 21 * X 1 + u 22 * X 2
CP 1 = 0,7071 * inversión + 0,7071 * beneficio
CP 2 = 0,7071 * inversión – 0,7071 * beneficio
Con el programa estadístico (Figura 6; Fuente: Google):
Table of Component Weights
Component 1 Component 2
-------------------------------------------------------
inversion 0,707107 0,707107
beneficio 0,707107 -0,707107
The SrarAdvisor
-----------------
This table shows the equitations od the principal components.

For example, the first component has the equation
0,707107 *inversion + 0,707107*beneficio
Estos coeficientes CP 1 = 0,7071 * inversión + 0,7071 * beneficio
¿Qué significado tienen?
Son los senos y los cosenos del ángulo de rotación entre los ejes de los CP y los ejes de las variables
tipificadas (ver Figura 4)
CP 1 = 0,7071 * inversión + 0,7071 * beneficio
Primer eje: cos 45º = 0,7071 sen 45º = 0,7071
Segundo eje: cos 135º = 0,7071 sen 135º = -0,7071
c) Determinamos las cargas factoriales:

- Correlación de cada variable con cada CP (Tabla III)
CP 1 con inversión: 0,7071 * √1,54603 =

0,87821
r = u* √λ CP 1 con beneficio: 0,7071 * √1,54603 =

0,87821
CP 2 con inversión: 0,7071 * √0,43397 =

0,47643
CP 2 con beneficio: -0,7071 * √0,43397 =

-0,47643
Tabla III. Matriz factorial o Matriz de Componentes
Variables Inversión Beneficio PCOMP_1 PCOMP_2
0,5460 0,8792 0,4764
Inversión (9) (9) (9)
0,1283 0,0018 0,1948
0,5460 0,8792 - 0,4764
Beneficio (9) (9) (9)
0,1283 0,0018 0,1948
0,8792 0,8792 0,0000

PCOMP_1
(9) (9) (9)
0,0018 0,0018 1,0000
0,4764 - 0,4764 0,0000
PCOMP_2 (9) (9) (9)
0,1948 0,1948 1,0000
d) Determinamos las puntuaciones tipificadas de cada componente (Figura 7; Fuente:

Google):
CP1 = 0,7071 * inversión + 0,7071 * beneficio
CP1 = 0,7071 * inversión – 0,7071 * beneficio
Si las variables están tipificadas, la proporción de variabilidad original captada por un CP es igual a su
raíz característica dividida por el número de variables originales (Figura 8; Fuente: Google):
El número de componentes a retener será el número de aquellas CP cuya raíz característica (λ) supere
la media de las raíces características. Y si las variables están tipificadas todas aquellas que superen el
valor 1 (Figura 9; Fuente: Google):
10.3. APLICACIONES
Quimiometría (PCA) en Farmacéutica: desarrollo de tabletas, fabricación y garantía de la

calidad. (Ingunn Tho y Annette Bauer-Brandl, 2012)
• ACP en la búsqueda de nuevas dianas terapéuticas. Estudios sistemáticos de
permeabilidad de la estructura basados en ACP de relaciones de permeabilidad de
estructura (por ejemplo, capacidad para atravesar las barreras intestinales, transporte
de fármacos a través de la barrera hematoencefálica)
• ACP en el desarrollo y procesamiento de formulaciones. Para el desarrollo de la

formulación (composición) y del proceso (manejo), durante toda la fabricación del
producto final. El ACP se aplica en todas las etapas tales como en la determinación de
la composición química, para establecer la distribución del tamaño de la partícula que
va a predecir el flujo del polvo, elegir el tipo de embalaje o para modelar y predecir la
dureza de las tabletas.)
• ACP para garantizar de la calidad de las tabletas. El ACP se combina frecuentemente

con métodos espectroscópicos para permitir la detección de relaciones
multivariantes entre diferentes variables como materias primas, para conocer la
difracción de rayos X.
• ACP en la liberación de fármacos. Para poder parametrizar la liberación del fármaco

cinético.
• ACP para monitorizar. Para controlar la variación en un proceso dentro de unos límites
de especificación.
• ACP para el futuro desarrollo de la fabricación de tabletas. Tradicionalmente, las

manufacturas farmacéuticas utilizaban métodos de control de la producción basados
en la muestra (procedimiento de muestreo) con todas sus inconvenientes. Hoy día la
aplicación del ACP permite monitorizar el procesamiento en tiempo real. Para poder
controlar las etapas de procesamiento en lugar del punto final en el producto.
Perfil Farmacofóro: Diseño de Nuevos Medicamentos Potenciales con Análisis de ACP (Érica C.
M. Nascimento y João B. L. Martins)
La búsqueda del perfil farmacóforo, propiedades electrónicas, estructurales, electrostáticas y

topológicas, de los lugares activos del receptor, así como, de las interacciones del receptor con el
ligando son fundamentales para el desarrollo de nuevos fármacos potenciales para varias
enfermedades tales como trastornos cerebrales degenerativos, enfermedad de Alzheimer, Parkinson,
Diabetes Mielittus y cáncer.
En la química computacional moderna, los farmacóforos se utilizan para definir las características
esenciales de una o más moléculas con la misma actividad biológica para el descubrimiento de
fármacos tenga una contribución sobre el modelado farmacóforo y así poder identificar y desarrollar
nuevas moléculas potenciales con el efecto biológico deseado.
El análisis multivariado (análisis de componentes principales - ACP) y cálculos de química cuántica

(teoría funcional de densidad - TFD) son algunas de las estrategias que pueden conducir a la
identificación de la principal información requerida para describir lo esencial del perfil farmacóforo. El
ACP se puede aplicar en los problemas que implican la determinación del perfil farmacóforo de una
clase particular de moléculas.
Estudio empírico: ¿Es dificil para los administradores de fondos contrarrestar el sentimiento de
los inversores? (Tsai-Ling Liao, Chih-Jen Huang y Chieh-Yuan Wu)
En este artículo se evalúa la relación entre el sentimiento de los inversores y la medida en que los
gerentes de fondos mantienen sus operaciones. El estudio utiliza el ACP como medio para extraer la
medida de sentimiento no observado compuesto por diez indicadores del mercado que pueden
clasificarse en tres grupos: indicador de sentimiento de valores individuales, indicador de sentimiento
de mercado general y indicador de sentimiento de fondo.
Aplicación del ACP para divulgar factores que influyen en la composición de consorcios
fúngicos que deterioran los tallos de los frutos en los cerezos amargos (Donát Magyar y Gyula
Oros)
En las ciencias agrícolas, donde se usan conjuntos de datos complejos con variables bióticas y
abióticas, la aplicación de estadísticas multivariadas es fundamental. En estos estudios, el APC se
aplica principalmente para reducir el número de variables de entrada. Además, estos cálculos se usan
para desarrollar aplicaciones de agricultura de precisión usando el monitoreo de cultivos, para
descubrir gradientes de la estructura del terreno, para determinar el momento de la cosecha
(Garcia-Mozo y cols., 2007) o para evaluar métodos de muestreo. PCA se aplicó para analizar la
variabilidad de la producción de frutos a partir de datos de polen aerobiológicos, así como para
conectar los parámetros meteorológicos con los períodos de altas concentraciones de polen. Este
método demostró ser fiable para identificar las fuentes y los patrones de dispersión de las bacterias
aerotransportadas y las esporas de hongos patógenos de las plantas, lo que resultó en el énfasis de
su posible uso tanto para la señalización de la aparición como para la identificación de fuentes de
patógenos vegetales. Esto último es importante para un control eficaz de plagas Magyar 2007).
Aplicación del APC en la investigación taxonómica (Halina Kucharczyk y Marek Kucharczyk)
El ACP es ampliamente utilizado en la investigación taxonómica de plantas y animales.
En este artícullo se aplica el ACP del insecto Thysanoptera
PCA - Un método potente para analizar nichos ecológico.
La diferenciación y partición de nichos es una cuestión ecológica en la que se utiliza con frecuencia
ACP. Eso permite la diferenciación eficiente entre las especies parapatricas relacionadas. Para acceder
al problema, los autores utilizan varios datos de entrada disponibles, que pueden ser mediciones
directas del nicho. Dado que la forma y la composición del cuerpo pueden relacionarse fácilmente
con la adaptación al medio ambiente, la morfometría figura como un método de sustitución
adecuado para estudiar el nicho. Las características morfométricas representan un conjunto de datos
viable para evaluar la relación organismo-ambiente.
El índice de acceso a servicios de salud como determinante de la detección tardía del cáncer
(Eric Belasco, Billy U. Philips, Jr. y Gordon Gong).
Análisis de componentes principales aplicado a SPECT y datos de PET de pacientes con

demencia - Una revisión (Elizabeth Stühler y Dorit Merhof)
Índice de Valor Estético de Parques Públicos (M. K. Mohamad Roslan y M. I. Norashikin)
Tema 11 - Análisis de Correspondencias

TEMA 11. “ANÁLISIS DE CORRESPONDENCIAS”
11.1. CONSTRUCCIÓN DE LAS NUBES DE PUNTOS Y ELECCIÓN

DE LAS DISTANCIAS
El Análisis de Correspondencias (ACO) es una técnica descriptiva o exploratoria cuyo objetivo es

resumir una gran cantidad de datos en un número reducido de dimensiones o factores, con la menor
pérdida de información posible.
El objetivo, por tanto, es similar al de los métodos factoriales, pero el método de ACO se aplica sobre
variables categóricas u ordinales. El ACO es, en realidad, un análisis equivalente al Análisis de
componentes principales y al Análisis factorial pero con variables cualitativas.
Se distinguen, habitualmente, dos tipos de ACO, el análisis de correspondencias simples (ACOS), que
se utiliza cuando los datos a analizar tienen forma de tabla de contingencia de dos variables
nominales u ordinales y evalúa la relación existentes entre dichas variables, y el análisis de
correspondencias múltiple (ACOM), que se utiliza cuando los datos tienen forma de tabla de
contingencia multidimensional y se evalúa la relación existente entre más de dos variables nominales
(Figura 1; Fuente: Google)
Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una variable cuyas
categorías aparecen en filas y la otra variable cuyas categorías son representadas en columnas, el
ACO consiste en resumir la información presente en las filas y columnas de manera que pueda
proyectarse sobre un subespacio reducido, y representarse simultáneamente los puntos fila y los
puntos columna, pudiéndose obtener conclusiones sobre relaciones entre las dos variables nominales
u ordinales de origen. Es decir, el ACO hay que entenderlo como una técnica descriptiva que nos va a
permitir elaborar un mapa perceptual de las categorías de las variables analizadas en un espacio de
pocas dimensiones (habitualmente 2). La mayor o menor distancia entre los puntos representados
reflejan relaciones de dependencia y semejanza más o menos fuertes entre las categorías
representadas (Peña, 2002).
Así, si la variable cualitativa fila representa el nivel cultural de las familias (bajo, medio y alto) y la
variable columna diferentes percepciones que los padres tienen sobre si ser hijo único es bueno o
malo (bueno, malo, depende, no sabe), el ACO produce un gráfico con dos ejes en los cuales cada
categoría fila y cada categoría columna están representadas por puntos distintos (Figura1; Fuente:
Google)
El ACO nos permite identificar las dimensiones básicas subyacentes a la combinación de modalidades
o niveles de dos o más variables cualitativas. El número máximo de dimensiones que se pueden
identificar en un ACS depende del número de categorías de cada variable. Concretamente, si una
variable tiene i categorías y la otra tiene j categorías, el número de dimensiones (o factores) es min
{I-1, J-1}). En el ACOM el número máximo de dimensiones es Min {m, N-1}, donde m es el número
de categorías de las variables sin datos perdidos menos el número de dichas variables y N es el
tamaño de la muestra.
Los campos en los que se pueden aplicar el ACO y las preguntas a las que puede dar respuesta son
múltiples, por ejemplo, nos puede permite conocer si:
• Existe alguna relación entre la opinión de los padres acerca de ser hijo único y el nivel
cultural
• Determinados atributos de los coches están relacionados con determi nadas marcas.
• Existe alguna relación entre tener o no estrés laboral y el sector al que se pertenece en
la universidad.
• Existe relación entre ser fumador con el género, con la hipertensión y con la presencia
de enfermedades cardiovasculares.
• Existe relación entre las diferentes estrategias de búsqueda de empleo, la provincia, el

estrato de edad y el género.
Para resolver el problema, esto es, para analizar, desde un punto de vista gráfico, las relaciones de
dependencia e independencia de un conjunto de variables categóricas a partir de los datos de una
tabla de contingencia, debemos asociar a cada una de las modalidades de la tabla, un punto en el
espacio Rn (generalmente n=2) de forma que las relaciones de cercanía/lejanía entre los puntos
calculados reflejen las relaciones de dependencia y semejanza existentes entre ellas.
11.2. ANÁLISIS DE LAS NUBES DE PUNTOS EN Rp Y Rn Y

RELACIONES ENTRE ELLAS
El punto de partida del ACO es una tabla de contingencia o tabla de correspondencias. Supongamos
que queremos estudiar las ideas de los padres acerca de si ser hijo único es bueno o malo y el nivel
cultural (Palacios, 1987). Para ello se selecciona una muestra de 600 madres y padres de la
Comunidad Autónoma de Madrid de la que se obtiene la siguiente información (Tabla I. Fuente:
Google).
Bueno Malo Depende No sabe Marginal

Nivel
Bajo 6 158 31 4 199
Medio 0 136 61 3 200
Alto 3 111 81 6 201
Marginal Opinión 9 405 173 13 600
En la Tabla I los valores que se encuentran en la intersección de cada fila y columna corresponden a
las frecuencias absolutas (número de sujetos) de cada combinación de opinión por nivel cultural. A
dichos valores se les denota genéricamente por nij. Don de i representa a las categorías de la variable
representada en las filas y j a las categorías de la variable representada en las columnas. A la Tabla I,
tabla de frecuencias, se le denomina tabla de correspondencias o tabla de contingencia.
Además de las frecuencias para cada combinación de las categorías de las variables en la tabla
aparecen varios totales:
• Marginal de fila: n i .: son los totales de cada fila
• Marginal de columna: n j : son los totales de cada columna
• Total: N es la suma de las frecuencias absolutas de todas las casillas
Tabla II. Matriz de Frecuencias Absolutas
1 2 3 4 Marginal Fila
1 n11 n12 n13 n14 n1.
2 n21 n22 n23 n24 n2.

3 n31 n32 n33 n34 n3.
Marginal Columna n.1 n.2 n.3 n.4 N
Tabla III. Matriz de Frecuencias Relativas
1 2 3 4 Marginal Fila
1 f11 f12 f13 f14 n1.
2 f21 f22 f23 f24 n2.
3 f31 f32 n33 f34 n3.
Marginal Columna f.1 f.2 f.3 f.4 N
Dónde
La tabla de correspondencias es el resultado de multiplicar dos matrices de datos obtenidas a partir

de la definición de I (i=1,…,n) variables binarias o dicotómicas correspondientes a las categorías de
una de las variables incluidas en el análisis y J (j=1, …,p) variables binarias correspondientes a las
categorías de la segunda variable incluida en el análisis. Para los datos que estamos considerando las
matrices serían (Figura 2. Fuente: Google).
X f es de orden 600x3. Las columnas corresponden a las tres categorías de la variable Nivel cultural
(colocada en las filas de la tabla). La matriz Xc es de orden 600x4. Las columnas de corresponden a
cuatro variables binarias (dicotómicas) definidas de las cuatro categorías de la variable opinión
(colocada en las columnas). Multiplicando X’aXfb(o bien X’bXa) sumamos a todos los padres y
madres que tienen cada par de características y obtenemos la tabla de contingencia.
El análisis clásico de la posible relación entre las variables cualitativas se realiza mediante una prueba
de hipótesis nula. La H 0 : establece que las variables son independientes, la H 1 : establece que las
variables son dependientes. El estadístico de contraste es:
Donde nob son las frecuencias absolutas y nesp las esperadas bajo la H 0 .
Las frecuencias esperadas se obtienen aplicando la fórmula:

Para los datos que estamos analizando las frecuencias observadas y esperadas junto a los residuales
tipificados vienen dadas en la siguiente tabla (Tabla SPSS) (Figura 3. Fuente: Google):
El estadístico de contraste se distribuye con (n-1) x (p-1) grados de libertad y se rechaza la hipótesis
nula si p < α. Los residuos tipificados corregidos se calculan con la expresión:
Mediante el test chi-cuadrado se puede comprobar que p < α, en consecuencia se rechaza
la H 0 . (Figura 4. Fuente: Google):
La distribución marginal de las variables es descrita por los perfiles marginales y vienen dados por:
Tabla IV
Perfil Marginal de Fila
n 1 ./N = f 1 .(199/600=0,3317)
n 2 ./N = f 2 . (200/600=0,3333)
n 3 . /N = f 3 . (201/600=0,3350)
El conjunto de marginales fila (f 1 ., f 2 ., f 3 .) corresponde a la columna promedio se le denomina centro

de gravedad o centroide de las columnas.
Tabla V
Perfil Marginal Columna n.1/N=f.1 n.2/N=f.2 n.3/N=f.3 n.4/N=f.4 1
(9/600=0,02) (405/600=0,67) (173/600=0,29) (13/600=0,02)
El conjunto de marginales columna (f. 1 , f. 2 , f. 3 , f. 4 ) corresponde a la fila promedio se le denomina

centro de gravedad o centroide de las filas.
La distribución conjunta asociada a la tabla de correspondencias es descrita por los perfiles

condicionales.
Se pueden construir dos tablas de perfiles condicionales:
• Tabla de perfiles-fila que describe la distribución condicionada de las columnas para

cada fila y se obtiene dividiendo las frecuencias absolutas de la tabla de contingencia
entre los marginales de fila (Tabla VI)
Bueno Malo Depende No sabe Marginal nivel
F(J/I)
Bajo 6/199=0,03 158/199=0,79 31/199=0,16 4/199=0,02 1
Medio 0 136/200= 0,68 61/200=0,30 3/200=0,01 1
Alto 3/201=0,01 111/201=0,55 81/201=0,40 6/201=0,30 1
Perfil Marginal Columna 0,01 0,67 0,29 0,02
• Tabla de perfiles-columna describe la distribución condicionada de la variable nivel

para cada categoría de la variable opinión y se obtiene dividiendo las frecuencias
absolutas entre los marginales de columna y multiplicando por 100 (Tabla VII):
Perfil Marginal de
Bueno Malo Depende No sabe
Fila
F(J/I)
Bajo 6/9=0,67 158/405=0 3931/173=0 184/13=0,31 0,33
Medio 0 136/405=0,3 461/173=0,35 3/13=0,23 0,33
Alto 3/9=0,33 111/405=0,27 81/173=0,47 6/13=0,46 0,33
1 1 1 1
Así pues existen dos nubes de puntos: una constituida por n puntos en Rp de coordenadas y
la otra constituida por p puntos en Rn de coordenadas, cuyos puntos están afecta afectados
de masas f i . Y f .j , respectivamente.
Para analizar el parecido de los perfiles-fila podemos construir un gráfico de líneas colocando
en el eje de abscisas la variable opinión (J). De la misma manera, podemos representar los
perfiles-columna colocando en el eje de abscisas el nivel cultural (I) (Figura 5. Fuente:
Google):
A la tabla (matriz) de perfiles-fila la denotamos como F. A la tabla (matriz) de

perfiles-columna la denotamos como C. Las filas de F pueden considerarse como puntos en
el espacio de las columnas (Rp). De la misma manera las columnas de C pueden considerarse
como puntos en el espacio de las filas (Rn). Para medir la distancia entre los puntos
representados indistintamente en el espacio Rp o Rn se utiliza la distancia 2. La distancia 2
entre la fila 1 y la fila 2 de F (correspondientes a los perfiles de nivel bajo y medio) vendría
dada por:
La matriz de distancias Df obtenida a partir de F viene dada por (Figura 6. Fuente: Google):
Del mismo modo, podemos calcular la matriz de distancias 2 entre los perfiles columna. La
distancia entre las columna 1 y 2 de C viene dada por:
Y la matriz de distancia es (Figura 7. Fuente: Google):

En el ACO existe una matriz similar a la matriz de correlaciones o de varianzas covarianzas del
AF, denominada matriz de dispersión o matriz de inercia. La matriz de inercia se obtiene
multiplicando la matriz X cuyo término general es:
Por la traspuesta de X, la matriz de inercia a partir de las filas viene dada por:
S F =X’ X
La suma de los elementos de la diagonal de S equivale a la varianza inicial a factorizar y viene

dada por:
El resto de los elementos de S equivalen a las covarianzas.
Análogamente la matriz de dispersión para las columnas se puede obtener mediante el

producto:
Sc=X X’
La suma de la inercia de las filas (traza de la matriz X’X) es igual a la suma de la inercia de las
columnas (traza de la matriz XX’) y la inercia es igual al estadístico 2 dividido por el número
de sujetos N.
Una vez obtenida la matriz de inercia, el ACO es equivalente al ACP. Se obtiene la primera
componente de manera que explique la máxima varianza, la segunda componente de
manera que explique la máxima varianza de la restante y así hasta obtener tantas
componentes como (J-1) (I-1).
11.3. RECONSTRUCCIÓN DE LA TABLA DE FRECUENCIAS

ORIGINAL
El objetivo último de las técnicas factoriales en general es resolver, teniendo en cuenta determinados
criterios, un problema de aproximación de la matriz inicial de datos X, a partir de la que actúa la
respectiva técnica factorial en cada caso, mediante un número menor de valores numéricos. Por
ejemplo, en el ACP y el ACO, no es la matriz bruta inicial de datos sino ciertas matrices transformadas
de ella.
La aproximación tiene lugar mediante matrices de bajo rango, en el contexto del problema general de
obtener la aproximación de una matriz dada (mediante un criterio de mínimos cuadrados). Y ello se
consigue, desde un punto de vista general, mediante la descomposición de valores singulares. En el
AF este problema es resuelto mediante los autovalores-autovectores de X´X y de XX′.
En términos de λ1, . . . , λq, se verifica que:
La fórmula de reconstrucción en el ACO viene dada por:
11.4. POSICIÓN DE LOS ELEMENTOS SUPLEMENTARIOS
Los elementos suplementarios son filas o columnas de la tabla de contingencia no utilizadas en el

cálculo de los ejes factoriales pero que, una vez calculados éstos, se sitúan en el diagrama cartesiano
con el fin de ayudar en la interpretación de los resultados obtenidos. Sus coordenadas se calculan
utilizando las relaciones baricéntricas existentes entre los puntos fila y columna.
Relaciones baricéntricas.
Tomando un punto como origen, para todo punto P del plano del triángulo ABC, se denota por el
vector con extremo en este punto y, para dos puntos P y Q, se tiene que .
Como , forman una referencia afín, existen unos únicos escalares x, y, z .
Los escalares están determinados por el punto P y el triángulo ABC. Se dice que x, y,
z son las coordenadas barométricas (absolutas) de P, repecto a ABC y se pone P (x, y, z) (Figura 8.
Fuente: Google):
11.5. INTERPRETACIÓN DE LOS RESULTADOS: CONTRIBUCIONES
ABSOLUTAS Y RELATIVAS
La inercia de un eje α es la suma de las inercias de los puntos fila proyectados en dicho eje, λα =
... o de los puntos columna proyectados en dicho eje, λα = ...
La contribución absoluta de un punto fila o columna a un eje es la cantidad de inercia que aporta
una categoría (un punto fila o columna) a la inercia de un eje.
Las categorías con contribuciones absolutas más altas son las protagonistas en la construcción del eje,
y nos van a servir para interpretar el sentido de los ejes principales.
La contribución relativa nos indica si los puntos están bien representados en los nuevos ejes.
Existen algunas reglas fundamentales para interpretar del ACO:
• Existe asociación entre variables si se rechaza la hipótesis nula de independencia. Aún

sin rechazarse la existencia de grandes diferencias en los porcentajes de varianza
explicada de los distintos factores se interpretaría en términos de asociación de
variables.
• Buscamos los puntos (categorías) que más contribuyan (contribuciones absolutas) a la

inercia de la dimensión.
• Buscamos los puntos (categorías) mejor explicados por un factor (contribuciones

relativas). Cuanto mayor sea la contribución relativa mejor representada está la
categoría en el factor.
• Los cosenos al cuadrado permiten saber si un punto está bien representado sobre el eje
factorial. La calidad de la representación de un punto sobre el eje será tanto mayor
cuando más próximo a 1 sea el coseno al cuadrado.
• La proximidad entre categorías de variables se interpreta en términos de asociación o

dependencia. Una regla que se suele utilizar es que se pueden considerar categorías
próximas aquellas que forman ángulos menores de 60 grados.
• Para interpretar los factores se buscan categorías contrapuestas.

11.6. CONTRASTES DE HIPÓTESIS
La existencia o no de algún tipo de relación entre las variables X e Y se analiza mediante contrastes
de hipótesis sobre la independencia de dichas variables. El test de hipótesis habitualmente utilizado
es el de la χ2 de Pearson. En dicho test la hipótesis nula es H 0 : X e Y son independientes y la
alternativa es H 1 : X e Y son dependientes El test se basa en comparar los perfiles fila y columna con
los perfiles marginales correspondientes, teniendo en cuenta que si H 0 es cierta todos los perfiles fila
(resp. columna) son iguales entre sí e iguales al perfil marginal de X (resp. de Y).
Como mencionamos en el apartado 11.1, mediante el test chi-cuadrado se puede comprobar que p
< α, y en consecuencia rechazar la H 0 .
Si la hipótesis nula se rechaza, las variables X e Y son dependientes. En este caso conviene analizar los
perfiles condicionales fila y columna así como los residuos del modelo para estudiar qué tipo de
dependencia existe entre ellas. Los residuos más utilizados son los llamados residuos tipificados
corregidos:
Los residuos se distribuyen asintóticamente como una N(0,1) la hipótesis H 0 y, a un nivel del 95.5%
de confianza, residuos con un valor absoluto mayor que dos se consideran como valores
anormalmente altos.
Tema 12 - Análisis de Conglomerados
TEMA 12. ANÁLISIS DE CONGLOMERADOS
12.1. DISTANCIAS Y SIMILARIDADES
El principio en el que se basa el Análisis de Conglomerados (AC) es la maximización de la

homogeneidad intragrupos (conglomerados, segmentos) y simultáneamente la maximización de la
heterogeneidad intergrupos (Figura 1. Fuente: Google).
El objetivo es identificar grupos de manera que la variabilidad intra clase sea inferior a la variabilidad
entre clases.
Dado que el objetivo fundamental es realizar una partición de la muestra en grupos similares, el
punto de partida o primera etapa en el AC es una matriz de similaridades o matriz de distancias entre
los sujetos, objetos o variables que queremos agrupar. Partiendo de la matriz de datos original
obtenemos una matriz de similaridades.
Si X es una muestra de m individuos sobre los que medimos p variables, los valores que toman los
individuos para cada variable que se estudia se puede representar en una matriz de datos (Figura 2,
Fuente: Google)
Una vez tenemos la matriz debemos buscar los segmentos o grupos (clusters) en que se pueden
dividir los m individuos de forma que cada individuo pertenezca a un grupo y solamente a uno.
En la Figura 3 se ilustra muy bien como obtenemos una matriz de similaridades a partir de la matriz
de origen.
Es de suponer que si queremos agrupar a los elementos de la muestra en grupos en primer lugar
tenemos que definir que criterio o criterios vamos a utilizar para formar los conglomerados.
El AC puede realizarse por variables o sujetos:
• Si se pretende agrupar a los individuos en grupos se ha de realizar un análisis cluster

(conglomerados) de los individuos
• Si se pretende agrupar las variables más parecidas se debe realizar un análisis cluster de
las variables, para ello basta considerar la matriz de datos inicial X'
Para poder unir variables o individuos es necesario tener algunas medidas numéricas que caractericen
las relaciones entre las variables o los individuos. Cada medida refleja asociación en un sentido
particular y es necesario elegir una medida apropiada para el problema concreto que se esté
tratando.
La medida de asociación puede ser una distancia o una similaridad.
• Cuando se elige una distancia como medida de asociación (por ejemplo, la distancia
euclídea, la distancia "ordinaria" que se mediría con una regla entre dos puntos) los
grupos formados contendrán individuos parecidos de forma que la distancia entre
ellos ha de ser pequeña. La distancia verifica que:
d(x,x) ≥ 0
d(x,y) = 0; x = y
d(x,y) = d(y,x)
d(x,z) ≤ d(x,y) + d(y,z)
• Cuando se elige una medida de similaridad (por ejemplo, el coeficiente de correlación)

los grupos formados contendrán individuos con una similaridad alta entre ellos. La
similaridad verifica que si S0 es un número real finito arbitrario, entonces:
S (x,y) ≤ S 0
S (x,x) = S 0
S (x,y) = S(y,x)
S (x,y) = S 0 ; x = y
│S (x,y) + S (y,z) │ S (x,z) ≥ S (x,y) S (y,z)
Dependiendo del tipo de análisis (por variables o por individuos) que se realiza, existen distintas
medidas de asociación aunque, técnicamente, todas las medidas pueden utilizarse en ambos casos
(Tabla I)
Medidas de asociación para variables Medidas de asociación para individuos
Coseno del ángulo de dos vectores Distancia Euclídea
Coeficiente de correlación Distancia de Minkowski
Medidas para datos dicotómicos Distancia d1 o ciudad (City Block)
Medida de Ochiai Distancia de Tchebychev o del máximo
Medida de Russell y Rao Distancia de Mahalanobis
Medida ‫ײ‬ Distancia 2‫ק‬
Medida de Parejas simples
Medida de Jaccard
Medida de Dice
Medida de Rogers-Tanimoto
Los métodos de AC se dividen en:
1. Métodos Jerárquicos. Su objetivo es agrupar cluster para formar uno nuevo o separar
alguno ya existente para dar origen a otros dos de forma que se maximice una medida de
similaridad o se minimice alguna distancia. A su estos pueden ser:
a. Asociativos o Aglomerativos: Se parte de tantos grupos como individuos hay en el

estudio y se van agrupando hasta llegar a tener todos los casos en un mismo grupo.
b. Disociativos: Se parte de un solo grupo que contiene todos los casos y a través de
sucesivas divisiones se forman grupos cada vez más pequeños.
Una característica especial de los métodos jerárquicos es que permiten construir un árbol de
clasificación llamado dendograma. Es una representación gráfica en forma de árbol que
resume el proceso de agrupación en un análisis de clusters, muestra: a) qué elementos se
han ido uniendo en cada paso; b) cómo se organizan los casos; y c) cuántos conglomerados
podemos distinguir en los datos. Los objetos similares se conectan mediante enlaces cuya
posición en el diagrama está determinada por el nivel de similitud/disimilitud entre los
objetos. Para crear un dendograma, de partida cada observación es considerada como un
conglomerado independiente (Figura 4A). A continuación se agrupan los dos casos más
próximos entre sí (Figura 4B). Después se agrupan los siguientes casos con menores
distancias entre ellos (Figura 4C). Posteriormente se junta la obs 3 en el cluster 1 (Figura 4D)
y para terminar se unen los dos clusters 1 y 2, quedando un sólo caso desparejado: un outlier
(Figura 4E)
Figura 4
2. Métodos no Jerárquicos: están diseñados para la clasificación de individuos (no de

variables) en K grupos. El procedimiento es elegir una partición de los individuos en K grupos
e intercambiar los miembros de los clusters para tener una partición mejor.
En la Figura 5 aparece representado un esquema con todos los métodos de AC que

podemos utilizar, clasificados en jerárquicos y no jerárquicos
Y, en la Figura 6, se representan las principales tipologías de agrupamiento
12.2. CLASIFICACIÓN ASCENDENTE JERÁRQUICA: MÉTODO DE
LA UNIÓN SIMPLE, MÉTODO DE LA UNIÓN COMPLETA,
MÉTODOS DEL CENTROIDE
12.2.1. MÉTODO DE LA UNIÓN SIMPLE O LINKAGE SIMPLE AGLOMERATIVO

(VECINO MÁS PRÓXIMO)
Una vez que se conocen las distancias existentes entre cada dos individuos se observa cuáles
son los individuos más próximos en cuanto a esta distancia o similaridad (qué dos individuos
tienen menor distancia o mayor similaridad). Estos dos individuos forman un grupo que no
vuelve a separarse durante el proceso. Se repite el proceso, volviendo a medir la distancia o
similaridad entre todos los individuos de nuevo (tomando el grupo ya formado como sí de
un solo individuo se tratara) de la siguiente forma:
• Cuando se mide la distancia entre el grupo formado y un individuo, se toma
la distancia mínima de los individuos del grupo al nuevo individuo.
• Cuando se mide la similitud o similaridad entre el grupo formado y un individuo,

se toma la máxima de los individuos del grupo al nuevo individuo.
La distancia entre A y B se calcula mediante d AB = min (d ij ).
El proceso se puede representar en un árbol de clasificación llamado dendograma

(Figura 7; Fuente: Google)
• El número de grupos se puede decidir a posteriori.
• Si se desea clasificar estos elementos en dos grupos, la clasificación resultante

es: B‐D y A‐C
• Si se desean tres grupos, se toma la clasificación en el paso anterior: B‐D, A y C.
12.2.2. MÉTODO DE LA UNIÓN COMPLETA O LINKAGE COMPLETO

AGLOMERATIVO (VECINO MÁS CERCANO)
Conocidas las distancias o similaridades existentes entre cada dos individuos se observa
cuáles son los individuos más próximos en cuanto a esta distancia o similaridad (qué dos
individuos tienen menor distancia o mayor similaridad). Estos dos individuos formarán un
grupo que no vuelve a separarse durante el proceso. Posteriormente, se repite el proceso,
volviendo a medir la distancia o similaridad entre todos los individuos de la siguiente forma:
• Cuando se mide la distancia entre el grupo formado y un individuo, se toma la distancia

máxima de los individuos del grupo al nuevo individuo.
• Cuando se mide la similitud o similaridad entre el grupo formado y un individuo, se

toma la mínima de los individuos del grupo al nuevo individuo.
El proceso se puede representar en un árbol de clasificación, dendograma (Figura 8; Fuente:

Google)
La distancia entre A y B se calcula mediante d AB = max (d ij ).
12.2.3. MÉTODOS DEL CENTROIDE

El método de agrupación de centroides calcula la distancia entre dos conglomerados como la
distancia entre sus vectores de medias. Con este método la matriz de distancias original sólo
se utiliza en la primera etapa. En las etapas sucesivas se utiliza la matriz de distancias
actualizada en la etapa previa. En cada etapa, el algoritmo utiliza la información d ellos dos
conglomerados (o elementos) fundidos en esa etapa previa y el conglomerado que se intenta
unir esa etapa. La distancia entre el conglomerado AB y el elemento C se calcula:
Una desventaja de este método es que la distancia entre dos conglomerados puede
disminuir a medida que progresa el análisis, ya que los conglomerados unidos en los últimos
pasos son más diferentes entre sí que los que se unen en las primeras etapas.
En este método el centroide de un conglomerado es la combinación ponderada de los dos

centroides de sus dos últimos conglomerados (o elementos), siendo las ponderaciones
proporcionales a los tamaños de los conglomerados.
12.3. CLASIFICACIÓN JERÁRQUICA DESCENDENTE: MÉTODO

MONOTÉTICO Y MÉTODO POLITÉTICO
12.3.1. MÉTODO MONOTÉTICO
El método monotético es un método disociativo, que procede separando entre individuos

que la tienen una característica definida de los que no la tienen.
Se utiliza cuando todas las variables son binarias,(0 o 1).

En primer lugar, se elige la variable con mayor asociación con las demás. Usando esta
variable, se divide el conglomerado en dos, uno en que ésta toma el valor 0, y otro en que
toma el valor 1. Se repite en proceso en los dos conglomerados resultantes. El proceso se
detiene cuando todos los conglomerados tienen un solo objeto o bien tienen objetos
idénticos.
12.3.2. MÉTODO POLITÉTICO
Es un método basado en un gran número de características y no se exige que todos los

miembros de un conglomerado posean todas las características, (aunque sí que tengan cierta
homogeneidad en ellas). Usualmente se procede en estos casos de forma aglomerativa.
12.4. CLASIFICACIÓN NO JERÁRQUICA: AGREGACIÓN DE

CENTROS MÓVILES
El análisis no jerárquico, a diferencia del análisis jerárquico, parte de la matriz original de las
puntuaciones y no de la matriz de proximidades, y los clusters resultantes no están anidados unos en
otros, sino que son independientes.
Muchos autores consideran que los métodos no jerárquicos son los que mejor se adaptan a los
estudios sociológicos y de mercados caracterizados por el empleo de grandes conjuntos de datos.
Se aconseja su utilización cuando se desea, no tanto analizar la estructura jerárquica de los individuos,
sino conocer el número de grupos construidos y las características de cada uno. En muchas
situaciones conviene realizar el análisis de conglomerados no jerárquico aplicando puntuaciones
factoriales. Una de las ventajas de utilizar puntuaciones factoriales es la facilidad para conseguir que
los datos cumplan los requisitos imprescindibles para utilizar el AC.
Estos métodos calculan en cada etapa las distancias entre los casos y el centroide de los
conglomerados, a diferencia de los métodos jerárquicos que calculan las distancias entre todos los
pares de objetos.
Las diferencias fundamentales entre los clusters jerárquicos y no jerárquicos son (Tabla II):
JERÁRQUICO NO JERÁRQUICO
No exigen una definición previa del número de

conglomerados. ƒ Exigen definir previamente el número de clusters.
Llevan a cabo un proceso iterativo, de abajo hacia arriba Poseen algunos índices que indican el número
con (n-1) pasos, partiendo de n grupos para terminar en 1 óptimo de conglomerados.
(aglomerativos).
Proporcionan los valores de los centroides de los

Permite obtener distintos tipos de resultados gráficos y grupos, lo que facilita la interpretación. ƒ
numéricos que facilitan la interpretación de los resultados.
ƒ
Ofrecen resultados adicionales que permiten

seleccionar las variables para la interpretación de los
Precisan una gran cantidad de cálculos, que en ocasiones conglomerados.
limita la posibilidad de aplicación con muestras muy
grandes. ƒ
Sólo pueden aplicarse sobre casos. Dan soluciones

de tipo óptimo.
Pueden aplicarse sobre los casos y sobre las variables. ƒ
Entre los métodos no jerárquicos, el más importante es el método K- medias sin especificar los
centros de los conglomerados. Con centros desconocidos, el método K - medias comienza con una
división del conjunto de los datos en (x) grupos configurados al azar y posteriormente busca mejorar
esta primera clasificación reasignando los elementos al centroide del cluster más cercano, tratando de
reducir la distancia media entre cada elemento de un grupo y su centroide.
El proceso de funcionamiento de este método es el siguiente:
1. Se comienza con una partición inicial de los datos en un especifico número de

agrupamientos, para calcular posteriormente el centroide de cada uno. Esta partición inicial
comienza con los casos más alejados entre sí.
2. El siguiente paso trata de reasignar cada caso al agrupamiento más cercano, aquel cuya
distancia al centro de gravedad del conglomerado sea menor. No hay que olvidar que en el
método de K-medias, al formar parte de los métodos de reasignación, un caso asignado a un
conglomerado en una determinada iteración puede ser reasignado a otro caso en una
iteración posterior.
3. Calcula los nuevos centroides de los conglomerados cada vez que se incorpora un nuevo
caso.
4. Repite alternativamente el segundo y el tercer paso hasta que ninguna reasignación de un

caso a un nuevo cluster permita reducir más la distancia entre los individuos dentro de cada
agrupamiento, ni aumentar la distancia entre los distintos clusters.
Tema 13 - Escalonamiento
TEMA 13. ESCALONAMIENTO
13.1. ESCALONAMIENTO DE OBJETOS Y/O SUJETOS
El Escalamiento Multidimensional (EMD) es un conjunto de técnicas que persiguen como objetivo la

representación de datos a través de la construcción de una configuración de puntos cuando se
conoce una determinada información sobre proximidades entre objetos. Es decir, su propósito es
transformar los juicios de similitud o preferencia llevados a cabo por una serie de individuos sobre un
conjunto de objetos o estímulos en distancias susceptibles de ser representadas en un espacio
multidimensional.
En la actualidad, el EMD puede ser apto para gran cantidad de tipos diferentes de datos de entrada
(tablas de contingencia, matrices de proximidad, datos de perfil, correlaciones, etc.).
Y puede ayudar a determinar por ejemplo, ƒ qué dimensiones utilizan los encuestados a la hora de
evaluar a los objetos; cuántas dimensiones utilizan; la importancia relativa de cada dimensión; cómo
se relacionan perceptualmente los objetos.
Los requisitos para poder llevar a cabo un EMD son:
a) Partir de un conjunto de números, llamados proximidades o similaridades, que expresan

todas o la mayoría de las combinaciones de pares de similaridades dentro de un grupo de
objetos, y,
b) Contar con un algoritmo implementado computacionalmente para llevar a cabo el análisis.
El primer requisito trata con los conceptos de objeto-estímulo y de

similaridad–disimilaridad–distancia y el segundo requisito se refiere al procedimiento para alcanzar
una configuración de puntos que refleje las similaridades observadas o percibidas.
Los términos objeto y estímulo se usan de manera intercambiable. Realmente un objeto es

simplemente una cosa, un individuo o un evento, mientras que estímulo se refiere al objeto percibido,
o sea, a la percepción del objeto.
Las medidas de semejanza, como una aplicación de valores numéricos que permiten expresar
numéricamente el vínculo existente entre estímulos, son aquí fundamentales. Los conceptos de
similaridad, disimilaridad y distancia, como medidas de semejanza, poseen propiedades específicas
que deben tenerse en cuenta.
El punto de partida es una matriz de disimilaridades entre n objetos, con el elemento δ ij en la fila i y
en la columna j, que representa la disimilaridad del objeto i al objeto j. También se fija el número de
dimensiones, m, para hacer el gráfico de los objetos en una solución particular. Generalmente el
camino que se sigue es:
1. Organizar los n objetos en una configuración inicial en m dimensiones, esto es, suponer
para cada objeto las coordenadas (x 1 , x 2 , ..., x m ) en el espacio de m dimensiones.
2. Calcular las distancias euclidianas entre los objetos de esa configuración, esto es, calcular
las dij, que son las distancias entre el objeto i y el objeto j.
3. Hacer una regresión de d ij , sobre δ ij . Esta regresión puede ser lineal, polinomial o
monótona. Por ejemplo, si se considera lineal se tiene el modelo: d ij = a + b δ ij . . Y utilizando
el método de los mínimos cuadrados se obtienen estimaciones de los coeficientes a y b, y de
ahí puede obtenerse lo que genéricamente se conoce como una “disparidad”.
4. A través de algún estadístico conveniente se mide la bondad de ajuste entre las distancias
de la configuración y las disparidades. Existen diferentes definiciones de este estadístico, pero
la mayoría surge de la definición del llamado índice de esfuerzo (en inglés: STRESS).
5. Las coordenadas (x 1 , x 2 , ..., x m ) de cada objeto se cambian ligeramente de tal manera que
la medida de ajuste se reduzca.
Los pasos del 2 al 5 se repiten hasta que al parecer la medida de ajuste entre las disparidades y las
distancias de configuración no puedan seguir reduciéndose. El resultado final del análisis es entonces
las coordenadas de los n objetos en las m dimensiones. Estas coordenadas pueden usarse para
elaborar un gráfico que muestre cómo están relacionados los objetos. Lo ideal sería encontrar una
buena solución en menos de tres dimensiones, pero esto no es siempre posible.
13.2. MODELOS DE ESCALONAMIENTO
De modo general, podemos decir que el EMD toma como entrada una matriz de proximidades Δ∈ּ nxn ,
donde n es el número de estímulos. Cada elemento δ ij de Δ representa la proximidad entre el
estímulo i y el estímulo j (Figura 1; Fuente: Google)
A partir de esta matriz de proximidades nos proporciona como salida una matriz X∈ּ nxm , donde n, al
igual que antes, es el número de estímulos, y m es el número de dimensiones. Cada
valor x ij representa la coordenada del estímulo i en la dimensión j (Figura 2; Fuente: Google).
A partir de esta matriz X se puede calcular la distancia existente entre dos estímulos cualesquiera i y j,
simplemente aplicando la fórmula general de la distancia d ij = a + b δ ij .
A partir de estas distancias podemos obtener una matriz de distancias que

denominamos D∈M nxn (Figura 3; Fuente: Google)
La solución proporcionada por el EMD debe ser de tal modo que haya la máxima correspondencia
entre la matriz de proximidades inicial Δ y la matriz de distancias obtenidas D. Para que exista la
máxima correspondencia EMD proporciona varias medidas, que veremos más adelante, y que nos
informan sobre la bondad del modelo.
Existen dos modelos básicos de EMD que son: el modelo de escalamiento métrico y el modelo de
escalamiento no métrico. En el primero de ellos consideramos que los datos están medidos en escala
de razón o en escala de intervalo y en el segundo consideramos que los datos están medidos en
escala ordinal. No se ha desarrollado todavía ningún modelo para datos en escala nominal.
• Modelo de escalamiento métrico. Todo modelo de escalamiento parte de la idea de

que las distancias son una función de las proximidades, es decir, d ij = f (δ ij ). En el
modelo de escalamiento métrico partimos del supuesto de que la relación entre las
proximidades y las distancias es de tipo lineal: d ij = a+bδ ij .
El procedimiento consiste en transformar la matriz de proximidades Δ∈ּ nxn , en una matriz de

distancias D∈Mnxn, de tal forma que verifique los tres axiomas de la distancia euclídea:
1. No negatividad d ij ≥ 0 = d ii
2. Simetría d ii = d ii
3. Desigualdad triangular d ii ≤ d ik + d kj j
Los dos primeros axiomas son fáciles de cumplir, pero el tercer axioma no se cumple siempre.
Este problema se conoce con el nombre de “estimación de la constante aditiva”. Torgerson
solucionó este problema, estimando el valor mínimo de c que verifica la desigualdad
triangular de la siguiente forma:
C min = max (i j k ){δ ij , δ ik , δ kj}

De esta forma las distancias se obtienen sumando a las proximidades la constante c, es
decir, d ij =δ ij +c.
Una vez obtenida la matriz D∈M nxn es necesario transformarla en una matriz B∈Mnxn de
productos escalares entre vectores mediante la siguiente transformación (Figura 4 y 5;
Fuente: Google):
Una vez llegados a este punto, lo único que queda es transformar la matriz B∈M nxn en una
matriz X∈ּ nxm tal que B=X·X’, siendo X la matriz que nos da las coordenadas de cada uno de
los n estímulos en cada una de las m dimensiones. Cualquier método de factorización
permite transformar B en X·X’.
En resumen el procedimiento consiste en transformar:
Δ (Proximidades) → D (Distancias) → B (Productos escalares) → X (coordenadas)

• Modelo de escalamiento no métrico.- A diferencia del escalamiento métrico, el
modelo de escalamiento no métrico no presupone una relación lineal entre las
proximidades y las distancias, sino que establece una relación monótona creciente
entre ambas, es decir, si:
δ ij < δ kl ⇒d ij ≤ d kl
Su desarrollo se debe a Shepard (1962) quién demostró que es posible obtener soluciones
métricas asumiendo únicamente una relación ordinal entre proximidades y distancias.
Posteriormente Kruskal (1964) mejoró el modelo.
El procedimiento se basa en los siguientes apartados:
1) Transformación de la matriz de proximidades en una matriz de rangos, desde 1 hasta

(n (n – 1))/2.
2) Obtención de una matriz X∈ּ nxm de coordenadas aleatorias, que nos da la distancia
entre los estímulos.
3) Comparación de las proximidades con las distancias, obteniéndose las

disparidades (ď ij ).
4) Definición del Stress.
5) Minimización del Stress.
Tanto para el modelo métrico como para el modelo no métrico es necesario obtener un
coeficiente que nos informe sobre la bondad del modelo. Sabemos que las distancias son
una función de las proximidades, es decir:
f: δ ij (x) →d ij (x)
De esta forma se tiene que dij=f(δij). Esto no deja ningún margen de error, sin embargo, en
las proximidades empíricas es difícil que se dé la igualdad, con lo que generalmente ocurre
que dij ≈ f(δij).
A las transformaciones de las proximidades por f se le denomina disparidades. A partir de

aquí podemos definir el error cuadrático como:
e2 ijij = (f (δij )- d2ij
Como medida que nos informa de la bondad del modelo podemos utilizar el Stress que
Kruskal definió como (Figura 6; Fuente:Google):
Mientras mayor sea la diferencia entre las disparidades y las distancias, es decir, entre f(δij) y
dij, mayor será el Stress y por tanto peor será el modelo. Por tanto, el Stress no es
propiamente una medida de la bondad del ajuste, sino una medida de la no bondad o
“maldad” del ajuste. Su valor mínimo es 0, mientras que su límite superior para n estímulos es
la raiz cuadrada de 1−(2/ n) .
Kruskal (1964) sugiere las siguientes interpretaciones del Stress:
0.2 → Pobre
0.1 → Aceptable
0.05 → Bueno
0.025 → Aceptable
0.0 → Excelente
También se suele utilizar una variante del Stress que se denomina S-Stress, definida como
(Figura 7; Fuente:Google):
Otra medida que se suele utilizar es el coeficiente de correlación al cuadrado (RSQ), que nos
informa de la proporción de variabilidad de los datos de partida que es explicada por el
modelo. Los valores que puede tomar oscilan entre 0 y 1, al ser un coeficiente de correlación
al cuadrado. Valores cercanos a 1 indican que el modelo es bueno y valores cercanos a 0
indican que el modelo es malo. Su expresión es (Figura 8; Fuente:Google):
La mayoría de los paquetes estadísticos tienen implementados tanto los algoritmos para
obtener soluciones con EMD así como las medidas para determinar si el modelo es adecuado
o no. En la actualidad todo los algoritmos implementados en los paquetes estadísticos son
reiterativos, de forma que se alcance la mejor solución posible.
Bibliografía
BIBLIOGRAFÍA
BLOQUE 1
UNIDAD FORMATIVA 1
• Catena A, Ramos M y Trujillo H (2003). Análisis Multivariado. Un manual para

investigadores. Madrid: Biblioteca Nueva.
• Cuadras CM (1981) Métodos de análisis multivariante. Barcelona: Eunibar. Segunda

edición PPU, 1991.
• González B (1991) Analisis multivariante. Aplicación al ámbito sanitario.
• Johnson RA y Wichern D (1998) Applied multivariate statistical análisis. 2nd Edition.

Prentice Hall. Nueva Jersey
• Kendall, MG y Buckland WR. (1957) A dictionary of Statistical Terms , 1st edition.
International Statistical Institute by Oliver & Boyd, London.
• Kinnear TC y Taylor JR (1971) Multivariate methods in marketing research: A further

attempt at classification. Journal of Marketing.
• Peña D (2001). Fundamentos de Estadística. Madrid. Alianza.
• Seber GAF (1984) Multivariate Observations, John Wiley.
• Sheth JN (1968) Applications of Multivariate Methods in Marketing
UNIDAD FORMATIVA 2
• Cuadras CM (2014). Nuevos Métodos de análisis multivariante. CMC. Editions. Barcelona.
• Waller, NG (2011). The geometry of enhancement in multiple regresion. Psychometrika,

76, 634-649.
UNIDAD FORMATIVA 3
• Härdle W. y Simar L. (2007).
• Peña D. (2002). Análisis de datos multivariantes. Mc Graw Hill.
UNIDAD FORMATIVA 4
• Seber GAF (1984) Multivariante observations. Wiley
• Anderson TW (1984) An introduction to Multivariate Statistical Analysis. Wiley
BLOQUE 2
UNIDAD FORMATIVA 5
• CUADRAS CH (1991) Métodos de Análisis Multivariante. Universitaria de Barcelona.
• HAIR JF, TATHAM RL, ANDERSON RE Y BLACK W (1998) Multivariate Data Analysis (5th
Edition). Prentice.
• JOHNSON RA y WICHERN DW (2002) Applied Multivariate Statistical Analysis, 5ª

edición. Prentice Hall.
• PEÑA D (2002) Análisis de datos multivariantes. McGraw Hill, 2002.
• PEÑA D (2002) Regresión y diseño de experimentos. Alianza Universidad Textos.
UNIDAD FORMATIVA 6
• Cuadras, Carles M. (2008), Nuevos Métodos de Análisis Multivariante, Universidad de

Barcelona, España.
• Dobson, Annette J. (2002), An introduction to generalized linear models, second edition,

Chapman & Hall/crc, United States of America.
• Fahrmeir, L. And Kaufman, H. (1985). Consistency and asymptotic normality of the
maximun likelihood estimator in generalized linear models
• Hardin, James W.; Hilbe, Joseph M. (2007), Generalized Linear Models and Extensions,
second edition, Stata Press. United States of America.
• J. F. Hair, Jr., R. E. Anderson, R. L. Tatham, W. C. Black, 1999, Análisis Multivariante, quinta

edición, Pearson Prentice Hall.
• Lindsey, James K. (1997), Applying Generalized Linear Models, Springer Verlag.

McCullagh, P and Nelder, J. A. (1989), Generalized Linear Models, second edition,
Chapman and Hall.
• Peña, Daniel. (2002), Análisis de Datos Multivariante, primera edición, McGraw-Hill \

Interamericana de España.
UNIDAD FORMATIVA 7
• Agresti A (2002). Categorial Data Analysis. Wiley
• Catena A, Ramos M y Trujillo H (2003). Análisis multivariado. Madrid: Biblioteca nueva.
• Hair JF, Anderson RE, Tatham RL, y Blac
• Pardo A (2002). Análisis de datos categóricos
• Silva Aycaguer LC (1994). Excursión a la regresión logística en Ciencias de la Salud.

Madrid: Díaz de Santos
UNIDAD FORMATIVA 8
• CATTIN, P. y WITTINK, D.R. (1.982):"Commercia1 Use of Conjoint Analysis: A Survey".
Journa1 of Marketing.46 (verano), pp. 44-53.
• GREEN, P.E. y RAO, V.R. (1.971):"Conjoint Measurement for Quanti - fying Judgmental
Data". Journa1 of Marketing Research.vol.8 (mayo), pp. 355-363.
• HAGERTY, M.R. (1.985):"Improving the Predictive Power of Conjoint
• Analysis. The Use of Factor Analysis and Cluster Analysis". Journa1 of Marketing
Research.v o 1. 22 (mayo), pp. 168-184.
• Varela, J. (2000). Modelización de atributos múltiples. Escalamiento multidimensional y

análisis conjunto. En J. Martínez Gastey y otros (Coords.), La investigación en
marketing (Tomo II, pp. 609-676). Barcelona: AEDEMO
• Smith, S. M. (1990). PC-MDS. Multidimensional Statistics Package. User´s Manual. Provo,

UT: Brigham Young University
• Varela, J., Rial, A. y García, A. (2003). Análisis conjunto. En J. Varela y J. P. Levy (Eds.),
Análisis multivariable para las ciencias sociales (pp. 507-566). Madrid: Pearson
Educación.
BLOQUE 3
UNIDAD FORMATIVA 9
• Peña D (1987). Estadística, Modelos y Métodos. Volumen 2. Alianza Editorial. Madrid.

ISBN: 84-206-811-5
• Shlens J (2002). A tutorial on Principal Component Analysis

UNIDAD FORMATIVA 10
• Principal Component Analysis- Multidisciplinary Applications. Edited by Parinya

Sanguansant. ISBN: 987-953-51-0129-1
UNIDAD FORMATIVA 11
• Peña, D. (2002). Análisis de datos multivariantes. Mc Graw Hill.
UNIDAD FORMATIVA 12
• Picón, E. Varela, J. y Real, E. (2003): Clasificación y Segmentación Post Hoc mediante el

Análisis de Conglomerados. En J.P. Lévy y J Varela (Dirs): Análisis Multivariante para las
Ciencias Sociales. Madrid: Pearson Educación.
UNIDAD FORMATIVA 13
• ARCE, C. (1993): Escalamiento Multidimensional. Una Técnica Multivariante par el

Análisis de Datos de Proximidad y Preferencia. PPU, Barcelona.
• ARCE, C. (1994): Técnicas de Construcción de Escalas Psicológicas. Síntesis, Madrid.
• BORG, I. y GROENEN, P. (1997): Modern Multidimensional Scaling. Springer, New York.

• COXON, A. P. (1982): The User’s Guide to Multidimensional Scaling. Heinemann
Educational Books, London.
• GREEN, P. E. y CARMONE, F. J.(1969): Multidimensional Scaling: An Introduction and

Comparison of Nonmetric Unfolding Techniques. Journal of Maketing Research, 6,
330-341.
• HAIR, J. F., ANDERSON R.E., TATHAM, R. L., BLACK, W. C. (1999): Análisis Multivariante.
Prentice Hall, Madrid.
• KRUSKAL, J. B. (1964): Nonmetric Multidimensional Scaling: A Numerical Method.

Psychometrika, 2, 115-129.
• LUQUE, T. (2000): Técnicas de Análisis de Datos en Investigación de Mercados. Pirámide,

Madrid.
• REAL, J. E. (2001): Escalamiento Multidimensional. La Muralla, Madrid.
• SCHIFFMAN, S. S., REYNOLDS, M. L. y YOUNG, F. W. (1981): Introduction to

Multidimensional Scaling: Theory, Methods and Applications. Academic Press, New
York.
Ejercicios
EJERCICIOS
EJERCICIO 1
Dada una muestra aleatoria simple de tamaño tres, se encuentra el resultado x = (2; 7, 3). Si se
obtiene el valor del estadístico Ẋ = 4. Calcular la función de verosimilitud y su logaritmo.
El contenido no debe sobrepasar los 2MB
Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5 días antes de
la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la acción
formativa.
EJERCICIO 2
Se ha llevado a cabo un estudio sobre implantes dentales, y se han comparado dos implantes: A y B.
A cien pacientes se les ha colocado el implante A y a otros 100 pacientes el implante B. Algunos de
los pacientes han mostrado rechazo a sus implantes. Ante tal respuesta, se han buscado factores
asociados con el fracaso de los implantes sin distinguir entre tipos de implantes y añadiendo datos de
otros estudios similares. Los resultados han mostrado las siguientes Odds Ratio, calculados entre las
variables que se especifican a continuación y el fracaso del implante:
Edad: OR = 2,33; IC 95%: (1,45; 4,17)
Fumar: OR = 4,55; IC 95%: (3,15; 7,32)
Sexo mujer: OR = 0,55; IC 95%: (0,15; 0,87)
Enfermedad periodontal: OR = 1,99; IC 95%: (1,15; 3,77)
En base a esta información una conclusión que podemos inferir es:
• Cuanta mayor edad más riesgo de fracaso del implante
¿Qué otras conclusiones podemos inferir?

Enviar al tutor
formativa.
Ver solución / contenido oculto
Solución
• Fumar es un factor de riesgo de fracaso del implante
• Las mujeres tienen más riesgo de fracaso del implante
• Tener una enfermedad periodontal es un factor de riesgo de fracaso de implante
EJERCICIO 3
Tenemos un grupo de 15 alumnos. Sus notas en diferentes asignaturas se representan en la siguiente

tabla. Además, conocemos el sexo de cada uno.
Busca la variable o combinación de variables que mejor pronostique la variable sexo en un modelo de
Regresión Logística
Enviar al tutor
formativa.
Solución
Si se hace una selección entre las variables originales (las distintas asignaturas) la que consigue una
mejor relación con la variable sexo es la Historia. Es la que mejor separa ambas poblaciones.
Incluso si se hace un Stepwise con todas las variables la variable Historia también es la que se
selecciona como mejor pronosticador.
Las notas bajas de Historia son buenas pronosticadoras de Sexo Hombre. En cambio notas altas de
Historia son buenas pronosticadoras de Sexo mujer.
También se puede optar por combinar las variables (asignaturas), porque quizá una combinación
podría ser más potente que cada variable por separado. Una combinación posible sería unir las
asignaturas por letras y ciencias. Tendríamos así dos componentes de pronóstico. Si aplicamos esta
estrategia obtenemos un resultado similar, las asignaturas de letras, como la Historia por sí sola,
muestran que las notas bajas son buenas pronosticadoras de Sexo Hombre y notas altas son buenas
pronosticadoras de Sexo mujer.
EJERCICIO 4
Una empresa productora de un nuevo refresco está interesada en incrementar sus ventas para lo cual,
diseña una campaña de publicidad basándose en los resultados de una encuesta. La encuesta
constaba una serie de afirmaciones a las que los sujetos contestaban desde 1 (muy en desacuerdo)
hasta 5 (muy de acuerdo). Las cuestiones planteadas en la encuesta fueron:
X 1 : Me gusta beber refrescos cuando estoy con los amigos
X 2 : Me gusta beber un refresco cuando estoy charlando con alguien
X 3 : A mí los refrescos me van bien para las ocasiones divertidas
X 4 : Me gusta beber siempre la misma marca de refrescos
X 5 : A los sitios donde voy pido siempre el mismo refresco

X 6 : Cambio de un refresco a otro porque para mí es mucho mejor que tomar siempre el
mismo.
X 7 : Los refrescos sólo me gusta tomarlos mezclados con alcohol
X 8 : Una de mis bebidas favoritas es el refresco combinado con alcohol
X 9 : Principalmente mezclo los refrescos para rebajar las bebidas alcohólicas
La matriz de correlaciones ha sido factorizada utilizando el Análisis de Componentes Principales y

rotación varimax, obteniendo la siguiente matriz factorial:
A partir de la matriz factorial calcula los siguientes valores:
a.Comunalidad y unicidad para cada variable.
b. Porcentaje de varianza explicada por cada factor y porcentaje de varianza explicada

por el conjunto de factores.
c. Interpreta y nombra los factores obtenidos. ¿En qué debería incidir la campaña
publicitaria en base a los resultados obtenidos con el análisis factorial?
Enviar al tutor
formativa.
Solución
a. Comunalidad y unicidad para cada variable

b. Porcentaje de varianza explicada por cada factor y porcentaje de varianza explicada por
el conjunto de factores
c. Interpreta y nombra los factores obtenidos. ¿En qué debería incidir la campaña
publicitaria en base a los resultados obtenidos con el análisis factorial?
Observamos tres agrupamientos de variables: uno con las variables X 1 , X 2 y X 3 que dan
contenido al factor 1, otro el formado por las variables X 4 , X 5 y X 6 , que dan contenido al factor 2
y otro, el formado por las variables X 7 , X 8 y X 9 que dan contenido al factor 3. En todos los casos
las correlaciones entre variables observadas y factores son positivas.
Al factor 1 lo denominamos: …
Al factor 2 lo denominados: …….
Al factor 3 lo denominamos: …….

Curso Analisis Multivariante CSIF

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Curso Analisis Multivariante CSIF

Cargado por

Copyright:

Formatos disponibles

Fundamentos de la investigación en ciencias de

la salud: análisis multivariante (CSIF)

Bloque Tema Apartados

1.1. Historia del Análisis Multivariante.

1.2. Objetivos del Análisis Multivariante.

1.4. La organización de los datos.

2.1. Definición y caracterización.

2.2. Distribuciones marginales y condicionadas.

2.4. Distribuciones asociadas: formas cuadráticas aleatorias

3.2. Función de verosimilitud

3.4. Estimación máximo verosímil.

4.2. Contrastes de unión-intersección.

4.3. Contrastes de hipótesis acerca del valor de medias.

4.5. Contrastes de hipótesis múltiples. MANOVA

5.2. Estimadores mínimo cuadráticos: propiedades.

5.3. Teorema de Gauss-Markov.

5.4. Análisis de los residuales.

5.6. Contrastes de hipótesis.

Bloque II. Técnicas de

5.8. Matrices singulares de diseño.

6.2. Discriminación entre dos grupos con distribuciones

6.4. Discriminación entre más de dos grupos.

7.1. Fundamento del modelo de Regresión Logística. El concepto

Tema 7. “Análisis de 7.2. Estimación del Modelo de Regresión Logística.

7.4. Significación de un parámetro: Método de Wald.

7.5. Modelo de Regresión Multinomial

8.2. Diseño del análisis conjunto.

8.4. Interpretación de los resultados

9.1. El modelo factorial: factores comunes y específicos.

9.2. Indeterminación de las soluciones factoriales.

Tema 9. “Análisis 9.3. Obtención de soluciones: el método del factor principal y el

Bloque III.- Técnicas

9.5. Puntuaciones factoriales.

10.1. Definición y propiedades de las componentes principales.

11.1. Construcción de las nubes de puntos y elección de las

11.2. Análisis de las nubes de puntos en Rp y Rn y relaciones

Tema 11. “Análisis de 11.3. Reconstrucción de la tabla de frecuencias original.

11.5. Interpretación de los resultados: contribuciones absolutas y

11.6. Contrastes de hipótesis

12.1. Distancias y similaridades.

12.2. Clasificación ascendente jerárquica: método de la unión

12.4. Clasificación no jerárquica: agregación alrededor de centros

13.1. Escalonamiento de objetos y/o sujetos.

• Aprendizaje de los conceptos y procedimientos básicos el Análisis Multivariante

• Desarrollo de la capacidad de formular hipótesis contrastables en el campo de las

• Adquirir la habilidad para interpretar resultados de análisis aplicados

• Aprender el uso de la tecnología para la realización de cálculos estadísticos

La asignatura análisis multivariantes es una asignatura del master en investigación en ciencias de la

Se trata de una asignatura de 6 créditos de carácter teórico-práctico en la que se pretende dotar al

El objetivo general de la asignatura es que el alumno adquiera competencia en las técnicas

Tema 1 - Introducción al análisis multivariante

TEMA 1. INTRODUCCIÓN AL ANÁLISIS

1.1. HISTORIA DEL ANÁLISIS MULTIVARIANTE (AM).

La estadística es un cuadro de herramientas en el que podemos diferenciar tres niveles de análisis:

• Nivel 1: Descriptivo-Univariante. Resume e ilustra la información en una matriz de

• Nivel 2: Inferencial-Bivariante. Estima parámetros, contrasta hipótesis, compara el

• Nivel 3: Modelización-Multivariante. Elabora modelos, ecuaciones o funciones que

Reducción de dimensionalidad o simplificación estructural. El fenómeno en estudio involucra

• Agrupamiento y Clasificación. Se desea crear, a partir de las características medidas,

• Investigación de la dependencia entre variables. La naturaleza de la correlación

• Construcción y Prueba de Hipótesis. Se prueban hipótesis estadísticas específicas,

El AM provee herramientas que permiten descubrir estructuras, establecer relaciones de dependencia

1. Las necesidades de investigación. La complejidad de los fenómenos clínicos y sociales

2. El desarrollo de la informática y los ordenadores. Posibilidad de realizar cálculos complejos