Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ÍNDICE
3.1. Introducción
5.1. Introducción.
6.1. Introducción.
8.1. Introducción.
Objetivos
OBJETIVOS GENERALES
• Conseguir que el alumno discrimine que herramienta estadística es más adecuada para
la resolución de distintos interrogantes
Presentación
PRESENTACIÓN
Para explicar que significa “análisis multivariado” se encuentran en la literatura distintas definiciones:
Kendall (1957) interpreta el análisis multivariable como el conjunto de técnicas estadísticas que
analizan simultáneamente más de dos variables. Con esta definición, cualquier técnica estadística para
el estudio de asociaciones y relaciones puede considerarse una técnica de análisis multivariado. “Es
una extensión del análisis univariable y bivariable al análisis simultáneo de más de dos variables en un
muestreo de observaciones”.
Seber (1984) se refiere al análisis multivariable como aquel orientado al estudio de vectores de
variables aleatorias correlacionadas.
Johnson y Wichern (1998) define el AM es una bolsa mixta que contiene métodos apropiados para
investigaciones científicas y tecnológicas donde los objetivos son uno o varios de los siguientes:
• Predicción. La relación entre variables debe ser determinada para predecir los valores
de una o más variables sobre la base de observaciones de las otras (Ej-. Análisis de
Discriminante).
En general, todas las definiciones del AM hacen referencia a un conjunto de técnicas estadísticas
diseñadas para trabajar simultáneamente con la información de un conjunto de variables referidos a
un grupo de individuos u objetos.
El AM surge como una forma de hacer asimilable al entendimiento humano la gran cantidad de datos
que hay en la realidad, sintetizando los aspectos más relevantes y perdiendo el mínimo de
información posible.
Las razones que han potenciado la aparición del AM son:
Las ciencias de la salud y sociales soportan una realidad llena de necesidades que supone cantidades
ingentes de datos y, en consecuencia, requieren nuevos métodos para diseccionarlos. Es ilusorio
pretender responder a cuestiones complejas de investigación mediante la exclusiva utilización de
análisis estadísticos univariables.
Claro que, con el aumento de la complejidad se han acumulado riesgos. El AM conlleva una serie de
“peligros” que es necesario tener en cuenta:
• Fácil estimación y difícil interpretación. Nos permite trabajar con un conjunto enorme
de variables a la vez, pero qué relaciones podemos establecer, qué significa.
El análisis multivariante (Cuadras, 1981) es una rama de la estadística y del análisis de datos, que
estudia, interpreta y elabora el material estadístico sobre un conjunto de n > 1 de variables, que
pueden ser cuantitativas, cualitativas o una mezcla. Por esta razón los objetivos que persigue son:
1. Resumir los datos mediante un conjunto de nuevas variables con la mínima pérdida de
información.
• Biometría. Para identificar los factores que determinan la forma de un organismo vivo.
González B. (1991), clasifica a los métodos múltivariantes según sus objetivos, la naturaleza de los
datos y las escalas de medidas.
Sheth (1968) se plantea tres preguntas en el momento de hacer una clasificación de las técnicas
multivariantes:
Métricos No Métricos
1. Métodos de dependencia. Algunas variables son dependientes de otras. Suponen que las
variables analizadas están divididas en dos grupos: variables dependientes y variables
independientes. Su objetivo es determinar si el conjunto de variables independientes afecta
al conjunto de variables dependientes y de qué forma.
Dependencia Regresión
Métrica
Se especifican una o más variables como si se hubiesen pronosticado (VD) mediante un Supervivencia
conjunto (VI)
MANOVA
Correlación Canónica
Discriminante
No
Regresión Logística
Métrica
Conjoint
Componentes
principales
Factorial
Métrica
Cluster
Interdependencia Escalas
multidimensionales
Todas las variables son tomadas como un conjunto, no se designa ninguna variable como si
se hubiesen pronosticado mediante otras variables. Correspondencias
Modelos log-lineales
No
Métrica Cluster
Escalas
multidimensionales
Controlar errores e incongruencias entre los datos, por ejemplo, recoger opiniones de sujetos
sobre la calidad del servicio de urgencias mediante una encuesta, cuando estos nunca han
estado en el.
Para depurar el archivo de datos podemos utilizar medidas de seguridad activas, como una
plantilla para evitar errores, o pasivas, aplicando una tabla de frecuencias podemos detectar
si hay algún valor 3 al clasificar el sexo (1 ó 2).
Para detectar los errores podemos seleccionar una submuestra, comprobar cuantos errores
hay y calcular el porcentaje en la muestra total. Para seleccionar esa submuestras podemos
emplear un muestreo aleatorio (en el SPSS en el menú datos tenemos la opción seleccionar
muestra aleatoria de casos) o no aleatorio (elegimos los primeros 50 casos).
Identificar y clasificar los datos missing. Los datos missing tienen consecuencias nefastas para
el potencial del contraste (tamaño de la muestra) y la capacidad de generalización de los
resultados (sesgos que no se distribuyen al azar)
Los datos missing en muchas ocasiones son producidos por rechazos, rechazos a preguntas
comprometidas o por falta de confidencialidad, etc. También pueden deberse al
desconocimiento, la falta de motivación para participar, la falta de memoria en las personas
mayores. Hay que percatarse de si son iguales los sujetos que responden y los que no
responden.
En los cuestionarios es importante identificar los sujetos con muchos missing (analizar los
patrones), a estos sujetos normalmente se les elimina del análisis porque sus respuestas ya
no van a resultar fiables, e identificar las variables con muchos missing (probar la
aleatoriedad), los sujetos no responden por azar o hay alguna razón.
A veces un paso necesario para poder tratar los datos con determinadas técnicas es la
imputación o sustitución de valores missing por otros. Un procedimiento de imputación
conocido es el denomino Hot Deck. Se trata de un procedimiento de duplicación, cuando un
valor es ausente otro valor es publicado para presentar ese valor missing. Concretamente
este método se aplica cuando los missing se producen en una variable cualitativa.
Controlar los valores que caen fuera del rango normal de los datos. Como criterio aplicamos
la distancia respecto al cuerpo central de la distribución (50% de los casos, entre el P75 y el
P25). El valor numérico entre el P75 y el P25 se denomina IQR, Recorrido Intercuartílico. El
caso anómalo se separa bien por arriba o por debajo del cuerpo central 1,5 veces el IQR.
Debemos diferenciar entre valores outliers (± 1,5 – 3 IQR), que alteran la media disparándola
hacia arriba o hacia abajo y valores extremos (± 3 IQR), que alteran los resultados mucho
más.
Imaginemos dos casos anómalos, uno podría ser el gasto promedio semanal del hijo de un
narco, y el otro, los ingresos anuales de Messi.
Si existen estos casos tenemos que optar por acudir a contrastes y estadísticos más
resistentes, como los contrastes no paramétricos y la mediana (en lugar de la media).
Los casos anómalos tienen mucha incidencia en el proceso de modelización, por ejemplo
estropean el ajuste del gráfico de dispersión o disminuyen el coeficiente de determinación
(R2) por lo que desciende el porcentaje de varianza que puedo explicar. La solución:
detectarlos y eliminarlos.
Para detectarlos a nivel univariante, podemos utilizar gráficos de caja o basarnos en el IQR; a
nivel bivariado, utilizando gráficos de dispersión; y a nivel multivariado, mediante estadísticos
que analicen los residuos.
Comprobar que los datos tienen las condiciones adecuadas para poder ser analizados bajo
los supuestos que posee cada técnica. Por ejemplo, si los datos no se distribuyen
normalmente nos veremos obligados a renunciar a las técnicas paramétricas. Otro ejemplo, la
Regresión Logística tiene una ventaja muy importante y es que se puede usar aunque las
variables no sean cuantitativas ni se distribuyan normalmente.
Posibles Transformaciones:
suave: log X ó
Asimetría negativa fuerte: antilog X
suave: X2 ó X3
e) Resumir la información que contienen los datos, informar de las tendencias, relaciones
entre variables, etc.
Este valor se obtiene midiendo una determinada característica numérica de los resultados del
experimento que describa alguna propiedad de interés. En muchas ocasiones, para describir las
propiedades de interés de los resultados de un experimento es preciso considerar varias
características. Por ejemplo, en el experimento consistente en la elección de un individuo de una
determinada población, se consideran las variables “altura” y “peso”.
Es evidente que al considerar diversas características para describir los resultados de un experimento
aleatorio (o sea, diversas variables aleatorias), estas estarán a menudo relacionadas, por lo que será
conveniente realizar un estudio conjunto de ellas que refleje dichas relaciones, más que analizarlas
individualmente. De esta forma aparece el concepto de variable aleatoria multidimensional o vector
aleatorio que, en términos generales, puede definirse como una función que asigna a cada elemento
del espacio muestral un conjunto finito de números reales que describen el valor de cada una de las
características bajo estudio en dicho elemento.
Los datos en AM suelen provenir de una población caracterizada por una distribución
multivariante. Sea X = (X 1 , ……,X p ) un vector aleatorio con distribución absolutamente continua y
función de densidad ƒ (x 1 , ……., x p ).
Sea X una variable aleatoria con distribución N (μ; σ 2); es decir, con media μ y varianza σ 2: La
función de densidad de X es (Figura 1. Adaptado de Cuadras, 2014):
Comprendamos la distribución normal multivariante N p (μ; σ Σ) como una generalización de la
normal univariante. Por una parte, la Figura 1 sugiere definir la densidad de X como (Figura 2 y 3.
Adaptado de Cuadras, 2014):
Según:
Siendo x = (x 1 , ……., xp) ,́ μ = (μ 1 , ……., μ p ) ́ y Σ = (σij) una matriz definida positiva. Por
otra parte, la Figura 2 sugiere definir la distribución X como una combinación lineal
de p variables Y 1 ,…………., Y p independientes con distribución N(0; 1) (Figura 4. Adaptado de
Cuadras, 2014):
Que podemos escribir como X = μ + AY siendo Y = (Y 1 , ……., Y p ) ́ y A = ( α ij) una matriz p* p que
verifica AA´ = Σ
X i ̴ N (μ i ; σii), i = 1,….., p.
Si tenemos dos variables discretas: X e Y, con función de probabilidad conjunta p (x, y) las funciones
marginales de ambas variables serán:
Si las variables son continuas: X e Y, con función de densidad conjunta ƒ (x, y) las funciones de
densidad marginal de ambas variables serían:
Por otra parte, cuando se definen más de una variable aleatoria en un experimento, el conocimiento
de una de las variables puede afectar a las probabilidades que se asocian con los valores de la otra
variable.
Cuando se definen más de una variable aleatoria en un experimento, el conocimiento de una de las
variables puede afectar a las probabilidades que se asocian con los valores de la otra variable.
Dadas dos variables discretas, X e Y con función de probabilidad conjunta p(x, y) la función de
probabilidad de Y condicionada a X = x0:
Dadas dos variables continuas, X e Y con función de densidad p(x, y) la función de densidad de Y
condicionada a X
2.3. CASO BIDIMENSIONAL Y TRIDIMENSIONAL
Como hemos estado comentando en el apartado anterior, si disponemos de dos variables aleatorias
podemos definir distribuciones bidimensionales. Para el caso de variables discretas tendremos:
Y, si las variables son continuas: X e Y, con función de densidad conjunta ƒ (x, y) las funciones de
densidad marginal de ambas variables serían:
Siendo dx un infinitésimo (cantidad infinitamente pequeña).
Así, considerando que Xi es el número de veces que se presenta el suceso Ai en las m repeticiones
tenemos que la variable n-dimensional (X1, X2,…..Xn) sigue una distribución multinomial de
parámetros n, p1, ….pn y su función de probabilidad es:
Para Xi = 0,1,…., m con X 1 + …… + X n = m
Hay que tener en cuenta que si (X 1 , X 2 ,…..X n ) es una variable multidimensional entonces existe una
relación lineal entre sus componentes ya que X 1 +…… + X n = m, por lo que una de las variables,
por ejemplo X n , se puede poner como combinación lineal del resto, X n = m-X 1 – X 2 -…… X n-1. Por
tanto el fenómeno que describe la variable (X 1 , X 2 ,…..X n ) queda igualmente descrito por una
variable de dimensión menor (X 1 , X 2 ,……, X n-1 ) sin que esta pérdida de dimensión suponga una
pérdida de información. Por ejemplo, una variable multinomial de dimensión dos (X 1 , X 2 ), M(n, p 1 ,
p 2 .) se puede describir considerando un componente cualquiera que tiene una distribución binomial,
por lo que en realidad esta variable es unidimensional y no bidimensional.
Además, de cada una de las variables, Xi,que forman una multinomial M(n, p1, pn) siguen
distribuciones binomiales B (m,pi), es decir, las distribuciones marginales de una multinomial son
binomiales, por lo tanto la esperada y la varianza de cada una de estas variables es:
E [X i ] = = mp i
Estos datos de las variables componentes de una multinomial se pueden agrupar en forma de matriz
dando lugar a las denominadas matriz de esperanzas y matriz de varianzas-covarianzas, que recogen
las características teóricas principales de la distribución multinomial (medias, varianzas y
covarianzas) (Figura 5. Adaptado de Cuadras, 2014):
EJEMPLO
El entrenador de un equipo de baloncesto opina que los jugadores A, B y C tienen similares aptitudes
para ser titulares del equipo en la posición de base. Así, determina que jueguen el mismo número de
minutos cada partido. Se sabe que el 40% de las canastas son de C, mientras que A y B consiguen un
30%. Calcular la probabilidad de que en un partido con 9 canastas de dos puntos, A consiguiera dos,
B tres y C cuatro.
Sea X un vector aleatorio p-dimensional y A una matriz no aleatoria. En muchas situaciones aparece
de forma natural la forma cuadrática X´AX, por lo que el estudio de cómo se distribuye esta nueva
variable aleatoria unidimensional ha sido profundamente abordado.
Para comprender los elementos básicos de la teoría de las distribuciones de formas cuadráticas
aleatorias normales partiremos de un vector normal
1. (X − µ) ´Σ −1 (X − µ) ̴ χ p
2
p.
2. X´Σ −1X ̴ χp
2
(δ), donde δ = µ´ Σ −1µ.
En segundo lugar: Si X ̴ Np [µ; Σ] y A pxp una matriz no aleatoria de rango k (k ≤ p). Entonces:
1. X ̴ Np [µ; Σ].
4. c es una constante
Por último, la siguiente expresión proporciona condiciones necesarias y suficientes para que el
polinomio anterior se distribuya según una ley chi-cuadrado:
Tema 3 - Estimación
TEMA 3. ESTIMACIÓN
3.1. INTRODUCCIÓN
Las funciones de distribución dependen de uno o más parámetros para determinar propiedades de
las distribuciones.
Según se ha visto una variable X sigue una función f(x). Si se toma una muestra aleatoria simple
de n observaciones, la función de probabilidad (o de densidad) de la muestra es el producto de la
función de probabilidad (o densidad) de cada una de las observaciones:
El método de máxima verosmilitud toma f (x) como base para realizar la estimación.
Supongamos que se ha tomado una muestra aleatoria simple (x) y el propósito es estimar el
parámetro θ. La función de verosimilitud es la función ƒ (x), entendida como una función de θ y
manteniendo fijo el valor encontrado en la muestra. Esto suele representarse como:
EJEMPLO I
Imaginemos que X es una variable aleatoria con una distribución de probabilidad de Weibull.
La distribución de Weibull es una distribución normal y viene definida por dos parámetros:
λ: parámetro de escala (0 < λ < ∞). Indica que tan aguda o plana es la función.
Por tanto, la función ƒ(x) depende únicamente de la media muestral Ẋ no de ningún otro dato o
cantidad observada en la muestra. Cuando esto sucede así, se dice que Ẋ es un estadístico suficiente
para λ. Es decir, toda la información observada se resume en Ẋ, que contiene toda la información
necesaria para realizar la estimación de λ. Bastaría con que supiéramos el valor de Ẋ para poder
estimar λ. No necesitamos conocer ninguna otra característica de la muestra tal como la varianza, etc.
EJEMPLO II
Supongamos que hemos tomado una muestra aleatoria simple de tamaño tres y se encuentra el
resultado x = (2; 7, 3). El valor del estadístico Ẋ que se obtiene es 4, por tanto, la función de
verosimilitud sería:
El método de máxima verosimilitud consiste en asignar a los parámetros aquel valor que haga
máxima la probabilidad de los datos observados.
Si X es una variable aleatoria cuya función de densidad (o probabilidad) es ƒ(x) y que depende del
parámetro θ. Sea x una muestra aleatoria simple procedente de ƒ(x). El estimador máximo verosímil
de θ es el valor de θ que hace máxima L(θ).
La forma práctica de saber cual es el estimador máximo verosímil consiste en utilizar los conceptos
del cálculo diferencial para encontrar el máximo de una función. En primer lugar, en la mayoría de las
ocasiones no se trabaja directamente con L(θ) sino con su logaritmo, denominado l(θ) = log L(θ).
Entre otros motivos, esto se debe a que l(θ) suele ser más sencilla que L(θ) aunque ambas alcanzan
su valor máximo en el mismo punto de θ, por lo que es más cómodo trabajar con l(θ). Es decir, para
saber cuál es el máximo de la función l(θ), se utiliza la propiedad de que en el máximo de una función
su derivada toma el valor cero. Por ello, se calcula la derivada de l(θ) con respecto a θ, y se busca el
valor de θ que hace que dicha derivada sea cero.
EJEMPLO III
Continuando con el EJEMPLO II, hemos visto que a partir de la muestra x = (2; 7, 3) se obtenía
una Ẋ = 4. Entonces, la función de verosimilitud y su logaritmo son:
Utilizando el cálculo diferencial, la derivada de l(λ) con respecto a λ es:
EJEMPLO IV
Supongamos que a un sujeto realiza 25 veces una determinada tarea. El resultado de cada
presentación se clasifica como éxito o fracaso, y se considera que la probabilidad de
Este razonamiento no basta para asegurar que ´ es un estimador máximo verosímil. Esto se debe
a que la derivada l´( ) se anula tanto si l ( ) tiene un máximo como si tiene un mínimo. En caso
de que la función tenga un máximo, se cumple que su segunda derivada es negativa. En nuestro
ejemplo:
l( ) alcanza su máximo en ´, por lo que su valor es necesariamente menor que 0.
Una comparación entre estimadores de un mismo parámetro en base a su error cuadrático medio
puede no dar un único óptimo porque la clase de todos los posibles estimadores es muy amplia.
Encontrar ese estimador no es sencillo, una posibilidad es buscar, fijar, una cota inferior para la
varianza de cualquier estimador insesgado y después encontrar el estimador insesgado cuya varianza
no alcance esa cota.
La cantidad de información acerca del valor del parámetro contenida en una observación de la
variable aleatoria X, se denomina información de Fisher.
La matriz de información de Fisher (MIF) para una distribución normal toma una formulación especial.
El elemento (m,n) de la MIF para X ̴ N( μ (), Σ( σ ) ) es:
Donde
“tr” es la función denominada traza de una matriz. La traza de una matriz cuadrada de nxn está
definida como la suma de los elementos de la diagonal principal de la matriz. Es decir
• Generalmente es consistente
• Es asintóticamente normal
La pregunta que tratamos de responder es: ¿cómo se puede usar el test de razón de verosimilitudes
para hacer inferencia en poblaciones multivariantes?
Para comenzar conviene recordar la situación univariante, en la cual la inferencia se apoya en el
teorema de Fisher que dice que la media tiene distribución normal (con cierta media y varianza), la
varianza muestral tiene distribución ji-cuadrado, y son independientes. De igual el vector de medias
muestral es normal multivariante, la matriz de covarianzas muestral tiene distribución de Wishart, y
son independientes.
Así, por ejemplo, en base a este resultado se puede hacer inferencia sobre el vector de medias
cuando la matriz de covarianzas es desconocida, recurriendo a la distribución de Hotelling.
El vector de medias muestral y la matriz de covarianzas muestral son estimadores naturales de sus
análogos poblacionales. Pero también tenemos la razón de verosimilitudes.
Partiendo del concepto simple de vector aleatorio, lo definimos como una colección de variables
aleatorias medidas simultáneamente sobre el mismo individuo o sobre el mismo resultado de un
experimento aleatorio. Cada una de las componentes de un vector aleatorio (Figura 1; Fuente:
Google) es una variable aleatoria, y por tanto se puede calcular su media, su varianza y su
distribución. Sin embargo, hay algunas propiedades conjuntas dentro de un vector aleatorio, como
son la covarianza (o la correlación) y la distribución conjunta. En concreto, se define el vector de
medias como (Figura 2; Fuente: Google):
Hay una transformación lineal que tiene un interés especial, que se conoce como estandarización. La
estandarización de una variable aleatoria se consigue restando la media y dividiendo por la desviación
típica (raíz cuadrada de la varianza). En el caso de un vector aleatorio, su estandarización es:
Que así construido verifica E(Y ) = 0 y Cov (Y, Y´) = Y d
Puede surgir alguna duda sobre cómo obtener la matriz . A este respecto es útil tener
presente que toda matriz de covarianzas es una matriz simétrica y semidefi nida positiva. Por ejemplo,
si A es una matriz simétrica, entonces (Figura 4; Fuente: Google):
A se dice definida positiva si todos los autovalores de A son positivos. En ese caso se puede emplear
para definir una norma (y una distancia) (Figura 5; Fuente: Google):
A se dice semidefinida positiva si todos los autovalores son no negativos. En ese caso los autovalores
nulos provocan una reducción de dimensión.
Dado que toda matriz de covarianzas es una matriz simétrica y semidefinida positiva.
Su rango, número de autovalores no nulos, coincide con la dimensión del espacio lineal en el que se
puede incluir el vector aleatorio. De hecho, dicho espacio lineal es el generado por los autovectores
asociados a los autovalores no nulos.
Las potencias de una matriz simétrica se pueden obtener, simplemente elevando a la potencia
correspondiente la matriz diagonal de los autovalores, esto es, si R, entonces (Figura 6; Fuente:
Google):
Ahora, si consideramos una muestra aleatoria simple entonces (Figura 7; Fuente: Google):
El test univariante H 0 (a): μ (a) = μ 0 (a) contra la alternativa H 1 (a): μ (a) ≠ μ 0 (a) se resuelve mediante
la t de Student (Figura 10; Fuente: Google):
Aceptaremos H 0 : μ = μ 0 si aceptamos todas las hipótesis univariantes H 0 (a), y nos decidiremos por la
alternativa H 1 : μ ≠ μ0 si aceptamos una sola de las alternativas H 1 (a), es decir, formalmente
(principio de unión-intersección) (Figura 11; Fuente: Google):
Pues:
Supongamos que ahora tenemos dos matrices de datos independientes X n1xp y X n2xp que
provienen de distribuciones N p (μ 1 ; Σ), N p (μ 2 ; Σ).
H0: μ 1 = μ 2
Pues:
Existe una gran variedad de hipótesis sobre la matriz de varianzas-covarianzas de una población
normal, o sobre las matrices de covarianzas de más de una población.
Los casos más representativos son el contraste de hipótesis de igualdad de matrices de covarianzas
en dos poblaciones normales y el contraste de hipótesis de la diagonal por bloques de la matriz de
covarianzas de una población normal
Imaginemos dos poblaciones normales de las que tenemos diversas muestras, como por ejemplo:
Muestra 1: X 1 , X 2 ,……… X N1 Nd (μ 1 ; Σ 1 )
Muestra 2: Y 1 , Y 2 ,……… Y N2 Nd (μ 2 ; Σ 2 )
Siendo:
2. Suponemos que Y sigue, en cada una de las poblaciones de los g grupos una
distribución Normal n-variante con vector de medias M (i= 1,2,...g), eventualmente
distinto para cada grupo y matriz de covarianzas V, la misma para todas las
poblaciones.
Bajo estos supuestos, consideraremos, también, que cada observación n-dimensional para
cada grupo, i, puede expresarse de acuerdo con el siguiente modelo:
Yi = M + Ai + Ei
Donde:
Ai es un vector n-dimensional que nos indica el efecto propio del nivel o grupo
i-simo.
Y i → N [ (M + A i ); V ]
Sobre este modelo nosplanteamos contrastar la hipótesis nula de que todos los
vectores A sean nulos:
H 0 : A 1 = A 2 =....= Ag = 0
Esta hipótesis equivale a considerar que no hay diferencias en los vectores de medias de Y en
cada uno de los grupos o que las medias en cada grupo son las mismas y coinciden el vector
M. Para la realización del contraste, partimos, como en el caso univariante, de la
descomposición de la varianza total; en este caso de la matriz de varianzas y covarianzas
total.
La matriz de varianzas muestrales T puede verse como la suma de otras dos matrices de
varianzas: T = B + W
Donde:
• B expresa las varianzas y covarianzas, considerando los centroides de los grupos como
observaciones.
• W, en cambio, expresa la suma para todos los grupos de las varianzas y covarianzas de
las observaciones de cada grupo.
Pues bien, la matriz NB, donde N es el número total de observaciones muestrales, puede
probarse que sigue una distribución de Wishart con parámetros n, g-1, V (lo que se expresa
como W n (g-1, V ) ).
Si tenemos una matriz de n columnas y m filas, Z; donde cada columna está formada por un
vector aleatorio m-dimensional que tiene una distribución normal m-variante con vector de
medias el vector nulo y matriz de varianzas V, la misma para todas las columnas de la matriz;
entonces la matriz A = Z'Z sigue una distribución de parámetros n, m y V (lo que puede
expresarse como):
W n (m,V)
NS→ W n (N-1, V )
Es, precisamente, a partir de esta propiedad como puede probarse el resultado de que:
NB→W n (g-1,V)
Igualmente puede probarse también que si la hipótesis nula: H 0 : A1= A2 =....= A g = 0 es
cierta, entonces la matriz NW seguirá, también una distribución de parámetros n, N-g, V y
será independiente de la distribución de NB.
λ = |W| / |T|
Es, precisamente este estadístico el que nos conducirá a determinar si los vectores de medias
de los grupos son significativamente diferentes o no; es decir, si la hipótesis nula es
rechazable o no:
Siendo λ el valor crítico que verifica P ( λ > λα) = α en una distribución λ (n, N-g,g-1).
5.1. INTRODUCCIÓN
Ŷ i = a + b 1 X 1 + b 2 X 2 + …….
La RM es una técnica que nos permitirá explicar una variable (VD) mediante un conjunto de otras
variables explicativas (VIs).
Por ejemplo, mediante esta técnica podemos saber si la variación en la venta de un producto puede
explicarse en términos de variación en las inversiones publicitarias y al presupuesto destinado a
promociones, o saber si las percepciones de los consumidores sobre la calidad del producto están
determinadas por su consideración sobre los precios, la imagen de la marca y del servicio post-venta.
EJEMPLO I
Supongamos que el director de una empresa de esquí quiere saber cuáles son las variables que mejor
explican que los usuarios esquíen mucho o esquíen poco en su estación. Para conseguir este objetivo,
entrevista a una muestra de 217 clientes de la estación. Con los datos obtenidos se plantea realizar un
modelo de regresión múltiple, cuya variable a explicar, VD, es el número de días de esquí durante la
temporada en la estación. Las variables explicativas, VIs, después de seleccionar las más relevantes
son: la edad del cliente, los años de experiencia, el gasto medio por día durante su estancia, la
satisfacción general con la estación (escala de 0 a 10) y el número de personas con las que esquía.
1. Determinar la función que relaciona las VIs con la VD que explica la relación con las VIs
2. Determinar si las VIs explican una variación significativa de la VD; es decir, determinar si
existe tal relación
5. Controlar otras VIs al evaluar las contribuciones de una variable específica o un conjunto
de variables.
El Método a seguir cuando aplicamos el análisis de Regresión Múltiple es (Figura 3) 2 :
Fase I: Diseño del análisis
Siguiendo nuestro EJEMPLO I el objetivo del director de la empresa consiste en determinar cuáles
son las variables que mejor explican el que un sujeto esquíe mucho o poco. Para ello, trató de explicar
el número de días que los esquiadores volvían a su estación durante una temporada (V1). Para ello
registro:
Son los valores que relacionan las variables (β1, β2, β3, …….. βp)
• Los efectos combinados de las distintas Xp son aditivos (Si X 1 ; X 2 ; X 3 ; ……., Xp cambian
una unidad, el cambio esperado en Y sería β 1 , β 2 , β 3 , …….. β p ).
• La estimación de los parámetros β p es el fin de la Regresión.
• Errores de medición
4. Modelo General:
Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + …………..+ β p X p + e i
f) Existen limites de tolerancia que colocan límites sobre las mediciones que se
llevan a cabo sobre la distribución (Tolerancia)
Fase II: Estimación de los parámetros β . p
Ŷ = β´ 0 + β´ 1 X 1 + β´ 2 X 2 + β´ 3 X 3 + …………..+ β´ p X p
El método de estimación más común es “mínimos cuadrados” que consiste en la minimización del
término residual “e”.
El método consiste en minimizar la suma de los cuadrados de los residuos, como se expresa en el
Los estimadores obtenidos se denominan estimadores de mínimos cuadrados (MC) y gozan de ciertas
propiedades estadísticas deseables:
a) Insesgadez
La insesgadez es una propiedad deseable, ya que nos asegura que el estimador en promedio está
centrado sobre el parámetro.
En la Figura 5B, por el contrario, el estimador β´ 2 es sesgado, ya que su esperanza no es igual a β2. El
sesgo es precisamente E(β´ 2 ) - β 2 . En este caso también se han representado dos hipotéticas
estimaciones: β´ 2(1) y β´ 2(2) . Como puede verse β´ 2(1) está más cerca de β 2 que el estimador
insesgado β´ 2(2) . Aunque se debe simplemente al azar, que β´ 2(1) esté más cerca que β´ 2(2) , por ser
sesgado no está centrado en promedio sobre el parámetro. Siempre es preferible un estimador
insesgado puesto que, con independencia de lo que ocurra en una muestra concreta, no tiene una
desviación sistemática respecto al valor del parámetro.
b) Eficiencia
Esta propiedad hace referencia a la varianza de los estimadores. En las Figuras 6A y 6B se han
representado dos hipotéticos estimadores insesgados. El primero de ellos (6A) tiene una varianza más
pequeña que el segundo (6B).
En ambas figuras se han representado dos estimaciones de β 2 : β´ 2(3) y β´ 2(4) . La estimación que está
más cerca de β 2 es β´ 2(3) en la figura 6B. Se ha mostrado así para resaltar el papel jugado por el azar,
sin embargo, la mejor estimación siempre es β´ 2(4) en la figura 6A porque el mejor estimador es el que
tiene la varianza más pequeña.
c) Linealidad
y = β1 + β2x + e
Este teorema se basa en 10 supuestos; supuestos que se conocen como los supuestos de
Gauss-Markov:
8. No existe variabilidad entre las variables explicativas (x). Es decir, el regresor x no contiene
errores de medición.
9. Las variables explicativas (x) no son estocásticas, es decir, son fijas en muestras repetidas.
Es decir, cada observación de x toma el mismo valor para diferentes muestras de y.
10. No hay multicolinealidad perfecta. No existe una correlación perfecta entre las variables
explicativas.
Fase III: Interpretación de los resultados
La bondad de ajuste es la proporción de varianza de Y explicada por Xp. Sus valores van de 0 a 1,
valores próximos a 0 indican que el modelo no se ajusta bien a los datos.
La bondad de ajuste R² nos informa como se ajusta el modelo a la muestra con la que trabajamos.
Pero nuestro objetivo es desarrollar un modelo para predecir a nivel poblacional, por eso se ajusta el
R², ya que éste aumenta con el número de VI y el tamaño de la muestra.
Por otro lado, hay que tener en cuenta que si las Xp fueron medidas en escalas diferentes (años,
euros, número de personas, etc.) los coeficients β p NO SON COMPARABLES ENTRE SÍ. Para evaluar la
importancia de cada variable explicativa, Xp hay que normalizar los coeficientes (N β p ). Para ello se
estandarizan (normalizan) las variables explicativas Z xp (N, 0, 1). Estos parámetros se relacionan entre
sí:
El análisis de residuos permite identificar valores outliers (fuera de rango) para los que la relación
lineal planteada entre la VD y las VIs no existe. No se ajusta a las respuestas dadas. Es decir, los
valores estimados de la VD difieren notablemante de los valores reales ei = Yi -Ŷi
Los outliers influyen negativamente en el ajuste general del modelo. Unos pocos outliers son
suficientes para distorsionar los resultados.
Esto también se resuelve representando gráficamnte los valores residuales normalizados de toda la
muestra.
Una manera objetiva de cuantificar la intensidad de la relaicón es mediante el cálculo del Coeficiente
de Correlación de Pearson.
Trazando la media de las dos variables en un gráfico tenemos 4 cuadrantes (Figura 7):
En el cuadrante 1: los valores de X e Y están por encima de sus respectivas medias, tienen
desviaciones positivas.
Si los puntos caen en cuadrantes diagonales evidencian relación entre ambas variables.
• Si sumamos todos los Σxy, el signo indicará la dirección de la relación. Pero tiene dos
inconvenientes: 1) el valor de Σxy depende del número de datos u observaciones; y 2)
el valor Σxy depende de la unidad de medición de x e y.
• Para corregir los efectos del tamaño de la muestra dividimos Σxy entre los grados de
libertas del tamaño de la muestra, n – 1, y así creamos la Medida de Covarianza.
La covarianza es la relación sistemática entre dos variables, en la cual el cambio en una implica un
cambio correspondiente en la otra.
Eliminamos el efecto de las unidades de medición dividiendo entre las desviaciones estándar
de X e Y, y obteniendo el denominado Coeficiente de Correlación de Pearson:
r xy =cov xy / S x S y
El % exacto de variación que comparten dos variables se calcula elevando al cuadrado r, al que
conocemos, el Coeficiente de Determinación.
Este coeficiente puede calcularse a partir del conocimiento de las correlaciones sencillas, sin utilizar
informaciones individuales de los elementos de la muestra. La fórmula para la correlación parcial se
define como se muestra en la Figura 8
Para concluir, cabe hacer mención especiales a aquellas situaciones en las que deseamos conocer la
asociación que existe entre variables que no son métricas (no tienen propiedades de una escala de
intervalo y no presentan una distribución norma.
En estos casos, podemos recurrir a los índices rho de Spearman y Ƭ de Kendall, cuando la distribución
no es normal pero sí son numéricas y ordinales las variables. La rho de Spearman se aproxima cuando
tenemos muchas categorías, la T de Kendall es preferida cuando muchos casos entran en un número
selectivamente bajo de categorías.
P son los grados de libertad del numerador = glr - glnr, donde gl = numero de observaciones-
número de parámetros estimados.
Por otro lado, si lo que queremos es comprobar globalmente la relación entre todas las VI y la VD,
aplicaremos:
El estadístico de contraste en este caso se llama estadístico F:
Los intervalos de confianza a los que estamos habituados a utilizar son intervalos uno por uno,
denominamos “estop es”. Son los tipos usuales de intervalo de confianza o predicción, en donde el
coeficiente de confianza 1- α indica la proporción de estimaciones correctas que resulta cuando se
seleccionan muestras aleatorias repetidas. En algunos problemas se necesita construir varios
intervalos de confianza con los mismos datos de la muestra, necesitamos un coeficiente de confianza
que se aplique de forma simultánea, o al mismo tiempo, a todo el conjunto de estimaciones por
intervalo. Un conjunto de intervalos de confianza que son todos ciertos de forma simultánea, con 1-
α de probabilidad, se llama conjunto de intervalos simultáneos o conjuntos de confianza.
Es relativamente fácil definir una región de confianza conjunta para los parámetros β del modelo de
Regresión Múltiple (Figura 9).
En consecuencia, una región de confianza conjunta de 100(1−α) por ciento, para todos los
parámetros en β es (Figura 11):
La varianza de los estimadores tiene que ver con (X´X)-1, donde X es la matriz de los valores de las
variables independientes. Cuando las columnas de X son colineales, la matriz es singular y no tiene
inversa. En este sentido los autovalores de la matriz X´X (normalizada) nos puede proporcionar
información del grado de singularidad de la misma. A este respecto, disponemos del Indice de
Condición, cuyo valor es la raíz cuadrada del cociente entre el máximo autovalor y el mínimo de la
matriz X´X:
Se considera que a partir de un valor de 20 hay cierta multicolinealidad y que ésta es alta a partir de
30.
Uno de las cuestiones más importantes a la hora de encontrar el modelo de ajuste más adecuado
para explicar la variabilidad de una característica cuantitativa es la correcta especificación del llamado
modelo teórico. En otras palabras, debemos seleccionar de entre todas las variables candidatas a ser
explicativas de la variable dependiente un subconjunto que resulte suficientemente explicativo
Para ello debe eliminarse las variables Xp con βp no significativas y volver a repetir el análisis para
obtener estimaciones correctas.
El Método Forward comienza por un modelo que no contiene ninguna variable explicativa y se
añade como primera de ellas a la que presente un mayor coeficiente de correlación -en valor
absoluto- con la variable dependiente. En los pasos sucesivos se va incorporando al modelo aquella
variable que presenta un mayor coeficiente de correlación parcial con la variable dependiente dadas
las independientes ya incluidas en el modelo. El procedimiento se detiene cuando el incremento en el
coeficiente de determinación debido a la inclusión de una nueva variable explicativa en el modelo ya
no es importante.
El Método Backward comienza por considerar incluidas en el modelo teórico a todas las variables
disponibles y se van eliminando del modelo de una en una según su capacidad explicativa. En
concreto, la primera variable que se elimina es aquella que presenta un menor coeficiente de
correlación parcial con la variable dependiente-o lo que es equivalente, un menor valor del estadístico
t– y así sucesivamente hasta llegar a una situación en la que la eliminación de una variable más
suponga un descenso demasiado acusado en el coeficiente de determinación.
El Método stepwise es uno de los más empleados y consiste en una combinación de los dos
anteriores. En el primer paso se procede como en el método forward pero a diferencia de éste en el
que cuando una variable entra en el modelo ya no vuelve a salir, en el procedimiento stepwise es
posible que la inclusión de una nueva variable haga que otra que ya estaba en el modelo resulte
redundante y sea “expulsada” de él.
Es obvio que, el modelo de ajuste al que se llega partiendo del mismo conjunto de variables
explicativas es distinto según cuál sea el método de selección de variables elegido. Pero ninguno de
los llamados métodos automáticos garantiza encontrar el modelo óptimo -en el sentido, por ejemplo
de maximizar el coeficiente de determinación o cualquier otro criterio que nos parezca relevante-.
EJEMPLO III
Imaginemos que tenemos un conjunto de 40 observaciones de tres variables a las que llamaremos Y
(la dependiente) y X1 y X2 (las explicativas). Si sobre estos datos aplicamos un procedimiento de
tipo forward o de tipo stepwise, el modelo óptimo según los procedimientos forward o stepwise es el
que no contiene ninguna variable explicativa.
Debido a que ninguna de las dos variables, cuando son consideradas de manera independiente,
supera los criterios mínimos para ser incluida en el modelo (que su coeficiente t lleve asociada una
probabilidad crítica inferior a 0,05), no se incluye ninguna variable X en el modelo según el Método
Foward.
El coeficiente de determinación para este modelo con dos variables explicativas es 0,987 y al
coeficiente F asociado le corresponde una probabilidad crítica inferior a 0,001. Adicionalmente, a los
estadísticos t asociados a cada una de las dos variables explicativas les corresponden probabilidades
críticas muy reducidas. Hemos encontrado, por tanto, un buen modelo lineal para explicar el
comportamiento de Y a partir del comportamiento de X1 y X2. El problema radica en que si
hubieramos elegido de forma acrítica utilizar un procedimiento forward o stepwise, jamás lo
habríamos encontrado.
El Análisis Discriminante (AD) es una técnica estadística multivariante cuya finalidad es analizar,
describir, si existen diferencias significativas entre grupos de objetos o sujetos respecto a un conjunto
de variables medidas sobre los mismos para, en el caso de que existan, explicar en qué sentido se dan
y proporcionar procedimientos de asignación sistemática de nuevas observaciones de origen
desconocido en uno de los grupos analizados, utilizando para ello sus valores en las variables
clasificadoras.
El AD ayuda a identificar las características que diferencian (discriminan) a dos o más grupos y a crear
una función capaz de distinguir con la mayor precisión posible a los miembros u objetos de uno u
otro grupo.
Para llegar a conocer en que se diferencian los grupos necesitamos conocer la información
(cuantificada en una serie de variables) en la suponemos se distinguen. El AD puede decirnos cuáles
son las variables realmente discriminantes, suficientes y necesarias, para alcanzar el mejor modelo
predictivo.
Podemos ver este procedimiento como un modelo de predicción, un análisis de regresión, donde la
variable dependiente es categórica (variable grupo con tantas categorías como grupos) y las variables
independientes son continuas (variables clasificatorias) y determinan a qué grupos pertenecen los
objetos.
• Permite encontrar relaciones lineales entre las variables continuas que mejor discriminen
en los grupos dados a los objetos.
• Construir una regla de decisión que asigne un objeto nuevo con un cierto grado de
riesgo, cuya clasificación previa se desconoce, a uno de los grupos prefijados
Independiente del área de conocimiento en el que trabajemos, el análisis discriminante nos permite
distinguir grupos patológicos y normales, distinguir grupos de pacientes respondedores y no
respondedores, predecir si una empresa va a entrar en bancarrota o si un alumno va a superar una
asignatura.
• Supuestos
2. Se necesitan al menos dos grupos, y para cada grupo se necesitan dos o más casos.
• Filosofía
El AD estima la relación entre una VD categórica y un conjunto de VIs métricas, de modo que
podamos comprender la pertenencia a un grupo.
Partiendo de q grupos a los cuales se asignan una serie de objetos y de p variables medidas sobre
ellos (X1 , X2 ,….. , Xp) , se trata de obtener para cada objeto una serie de puntuaciones que indican
el grupo al que pertenecen (Y1 , Y2 ,….. , Ym), de modo que sean funciones lineales de (X1 , X2 ,…..
, Xp):
Y 1 = W 11 X 1 + W 12 X 2 + W 13 X 3 +………..+ W 1p X p + W 10
………………………………………………………………………………………….
…………………………………………………………………………………………
Y m = W m1 X 1 + W m2 X 2 + W m3 X 3 +………..+ W mp X p + W 10
Donde:
m = mín[q−1, p ], tales que discriminen lo máximo posible a los q grupos. Estas combinaciones
lineales de las p variables deben maximizar la varianza entre los grupos y minimizar la varianza dentro
de los grupos.
Xp = variables independientes p
El AD contrasta la hipótesis de que las medias de los grupos en un conjunto de VIs son iguales.
Para que una VI sea un predictor significativo, las medias de los grupos deben ser distintas.
Identificamos las variables que mejor discriminan entre los grupos, y determinamos en qué
medida lo hace cada una. De este modo podremos: a) comprender las diferencias entre los
grupos y b) pronosticar el grupo de pertenencia de un objeto o sujeto (clasificar)
2. Diseñar la investigación
Las VIs deben ser métricas y con distribución normal seleccionadas en base a
investigaciones previas, bibliografía, etc… No deben ser excesivas.
b) Tamaño muestral
El tamaño de los grupos debe ser similar (si es necesario trabajaremos con un
submuestras del grupo más grande)
c) División de la muestra
La correcta aplicación del AD va a depender de: la normalidad de las VIs (si no se cumple se
aplica la Regresión Logística); la no multicolinealidad entre las VI (baja relación entre las VI);
ninguna variable de ser combinación lineal de otras, y la similaridad de las matrices de
covarianzas intergrupales.
4. Estimar el modelo y evaluar el ajuste global
La estimación por pasos es una alternativa al enfoque simultáneo. Incluye las variables
independientes dentro de la función discriminante de una en una, según su capacidad
discriminatoria. El enfoque por etapas comienza eligiendo la variable que mejor discrimina.
La variable inicial se empareja entonces con cada una de las variables independientes (de una
en una), y se elige la variable que más consigue incrementar la capacidad discriminante de la
función en combinación con la primera variable. La tercera y posteriores variables se
seleccionan de una manera similar. Mientras se incluyen variables adicionales, algunas
variables seleccionadas previamente pueden ser eliminadas si la información que contienen
sobre las diferencias del grupo está contenida en alguna combinación de otras variables
incluidas en posteriores etapas. Al final, o bien todas las variables habrán sido incluidas en la
función, o se habrá considerado que las variables excluidas no contribuyen significativamente
a una mejor discriminación.
Se puede realizar en varias etapas, se recomienda cuando hay un número amplio de variables
o se duda del modelo teórico.
Es útil para ver la capacidad explicativa de cada VI, analizar las distintas combinaciones de VIs
o para valorar la parsimonia de las VIs.
La λ de Wilks es un estadístico que mide el poder discriminante de las variables. Tiene una
distribución con p, q-1 y n-q grados de libertad (n es el número de casos válidos, p el
número de variables y q es el número de grupos). En la λ de Wilks cada variable
independiente candidata a entrar en el modelo se evalúa mediante un estadístico Fcambio
que mide el cambio que se produce en la λ al incorporar cada variable al modelo. Obtenido
el valor Fcambio para cada variable, se incorpora al modelo la variable a la que le
corresponde el mayor valor Fcambio (la que produce un mayor cambio en la λ de Wilks). En
la función aquellas VIs que minimicen la λ de Wilks.
La menor razón F incorpora en cada paso la variable que maximiza la menor razón de F para
las parejas de los grupos. El estadístico F utilizado es la distancia de Mahalanobis ponderada
por el tamaño de los grupos.
Con programas automáticos como el SPSS podemos fijar cual es el criterio de entrada y
salida para incorporar o excluir las variables. Por defecto, una variable pasa a formar parte del
modelo si el estadístico F es mayor de 3,84 y es expulsada si el valor de F es menor de 2,71. O
una variable entra si el valor crítico asociado al valor del estadístico F es menor que 0,05 y
sale si el valor crítico asociado al valor del estadístico F es mayor que 0,10.
Una vez que se han identificado las funciones discriminantes significativas, la atención se
desplaza a averiguar el ajuste global de la(s) función(es) discriminante(s) considerada(s). Esta
valoración conlleva a tres tareas:
Z jk = a + W 1 X 1k + W 2 X 2k + …….. + W p X pk
donde
a: Constante
Una forma de valorar el ajuste global del modelo es determinar la magnitud de las
diferencias entre los miembros de cada grupo en términos de las puntuaciones Z
discriminantes. Una medida resumen de las diferencias entre grupos es una
comparación de los centroides (puntuaciones Z discriminantes medias para todos los
grupos). Una medida de éxito del análisis discriminante es su capacidad para definir
funciones discriminantes que den lugar a centroides de grupo significativamente
diferentes. Las diferencias entre centroides se miden en términos de la medida D² de
Mahalanobis, para la cual se dispone de contrastes que determinan si las diferencias
son significativamente distintas.
C PRO = p2 + (1-p)2
La precisión clasificatoria debe ser, por lo menos, ¼ mayor que la obtenida por azar
(para 2 grupos: 62,5%).
Cuando hay más de dos grupos, hay más de una función. La interpretación se
complica, ya que tenemos tantas funciones como grupos-1, con lo que es difícil
saber la capacidad discriminante de cada función y de cada predictor.
Se recomienda:
d) F para distancias por parejas (grupos). Permite conocer entre qué grupos
discrimina cada función.
El objetivo de la validación de los resultados es asegurar que los resultados tienen validez
(estabilidad).
¿Cómo?
Existen 2 métodos:
Y se pueden estimar los resultados con k – 1 muestras, es decir, dejando cada vez un
sujeto fuera, y promediándolos (Método de dejar uno fuera). Útil cunado trabajamos
con muestras muy pequeñas.
b) Diseño de Grupos.
EJEMPLO I
Supongamos que tenemos 2 grupos que siguen un Programa de Alcoholismo. Un grupo que sigue el
programa y otro que decide abandonarlo.
X3: Ansiedad
El grupo que abandona se caracteriza por: baja autoestima, bajo interés y alta ansiedad.
ellas:
A partir de L(x 0 ) (valor que toma la función lineal discriminante L para la nueva
observación x 0 ), decido a qué población se asigna la nueva observación x 0 .
Criterio de Mínima Distancia (MD): se asigna a la población de cuya media diste menos.
Sustituyo en la Figura 2 las μi, ahora desconocidas por sus estimaciones, por Ẋ i , y tengo
una nueva versión de la regla de discriminación lineal de Fisher Figura 3; Fuente: Google:
Asignamos de forma similar que en 6.4.1, pero utilizando en la regla de la Figura 5 cada Si en
lugar del estimador común pooled Sp:
El problema de la selección de variables intenta responder a la pregunta ¿Son necesarias todas las
variables clasificadoras para discriminar?
Para responder existen básicamente tres tipos de algoritmos: selección de variables hacia delante,
eliminación hacia atrás y de regresión por pasos.
Los algoritmos de selección hacia delante comienzan eligiendo las variables que más discriminan
entre los q grupos. A continuación seleccionan la segunda más discriminante y así sucesivamente. Si
de las variables que quedan por elegir ninguna discrimina de forma significativa entre los grupos
analizados el algoritmo finaliza.
Los algoritmos de eliminación hacia atrás proceden de forma inversa. Se comienza suponiendo que
todas las variables son necesarias para discriminar y se elimina la menos discriminante entre los
grupos analizados y así sucesivamente. Si las variables no eliminadas discriminan significativamente
entre los grupos analizados el algoritmo finaliza.
Los algoritmos de regresión por pasos utilizan una combinación de los dos anteriores algoritmos
permitiendo la posibilidad de arrepentirse de decisiones tomadas con precipitación bien eliminando
del conjunto una variable introducida o introduciendo una variable eliminada anteriormente.
Para determinar que variables entran y salen en cada paso se utilizan diversos criterios de entrada y
salida. Uno de los más utilizados es de la lambda de Wilks.
La Regresión Logística (RLG) es una técnica analítica que permite relacionar funcionalmente una
variable categórica (dicotómica o multinomial) con un conjunto de variables independientes.
La RLG explica y predice la probabilidad de que ocurra un evento. Realiza pronósticos de pertenencia
a un grupo en base a la estimación de probabilidades (entre 0 y 1), a partir de los valores de los
objetos o puntuaciones de los sujetos en las VIs.
Por analogía, puede considerarse una extensión de la Regresión Lineal (RL), con la particularidad de
que el dominio de salida de la función (conjunto de todos los valores dependientes posibles que la
relación VI - VD puede producir) está acotado al intervalo [0,1] y que el procedimiento de estimación,
en lugar de mínimos cuadrados, es de máximo-verosimilitud. En términos interpretativos es similar a
la RL
La RLG también presenta una analogía con el Análisis Discriminante (AD). Cuando la VD tiene sólo dos
grupos, es dicotómica, puede utilizarse el AD o la RLG indistintamente. Sin embargo, la RLG tiene
cualidades que le otorgan gran poder estadístico por encima del AD:
El Análisis de RLG tiene una gran utilidad en muchos campos de investigación, siendo especialmente
empleado en investigación socio-sanitaria. Su gran utilidad deviene de su capacidad para identificar
factores de riesgo o de estimar cuánto aumenta la probabilidad de sufrir una patología si se dan una
serie de características o condiciones. Por ejemplo, la RLG sería el modelo fundamental si
pretendemos estimar la probabilidad de que un individuo sufra un infarto a partir de las condiciones:
nivel de colesterol, edad, presión arterial, sexo y antecedentes familiares. Así mismo, lo aplicaríamos si
deseamos conocer la probabilidad de que un determinado individuo sufra esquizofrenia, en función
de sus características clínicas, familiares y sociales. También, si queremos conocer las variables que
explican la conducta de dejar de fumar o predecir el éxito o fracaso de una terapia. No es lo mismo
probar si un tratamiento funciona, que recoger datos de antemano de la aplicación de un tratamiento
y predecir si va a ser eficaz.
La función logística podría estar representada como se muestra a continuación (Figura 1; Fuente:
propia).
En dicha función se presenta la estimación de que un sujeto presente uno de los valores posibles (1 =
Recuperación; 0 = Recaída), en función de determinas VIs. Normalmente se trabaja con el valor 1 de
referencia, este valor 1 se le otorga a lo que queremos predecir, la Recuperación. Se toma como
primera variable explicativa a la variable constante que vale 1.
Como se puede observar el sujeto (0, 25) resulta ser un caso anómalo que rompe el ajuste del
modelo.
Como se puede observar el sujeto (0, 25) resulta ser un caso anómalo que rompe el ajuste del
modelo.
El Modelo de RLG compara la probabilidad de ocurrencia de un evento con la probabilidad de
que no ocurra. Al cociente entre ambos se le denomina ODD (ratio de riesgo)
El objetivo de la RLG es hallar los coeficientes (b1, b2,……. bn) que mejor se ajusten a la expresión
funcional.
Se trata de identificar aquellas variables que implican cambios en ese ratio de probabilidad,
aumentándolo o disminuyéndolo de forma significativa. La ratio o razón de probabilidad es un
cociente entre dos cantidades y señala cuantas veces una cantidad es mayor o menor respecto a la
otra.
La ODD RATIO sería la razón o cociente entre la probabilidad de que un evento ocurra bajo unas
determinadas circunstancias que bajo otras. (Ej-. Hay el triple de probabilidad de sufrir un trastorno
de ansiedad en una familia monoparental que biparental).
La ODD RATIO es el cociente entre dos ODD. El ODD de que un evento ocurra entre el ODD de que
un evento no ocurra en función de una condición, una VI. Nos informa de la ventaja / desventaja de
tener un nivel u otro de la VI para la VD (Recuperación). Es el cociente entre dos ODD asociados, el
obtenido al realizar el incremento y el anterior al mismo, suponiendo que ha habido un incremento
unitario en la variable X:
Cuando la ODD RATIO alcanza el valor 1 quiere decir que no hay diferencias.
EJEMPLO I
Podemos afirmar que hay dos Odds ratio significativas, la de 3,12 y la de 2,5 porque sus intervalos de
confianza no contienen al 1. La OR 10,2 es la mayor cuantitativamente pero no es significativa, porque
su intervalo de confianza del 95% incluye al 1. La OR de 2,5 tiene un intervalo de confianza más
estrecho, lo que indica que el tamaño de la muestra es mucho mayor. Tanto la OR 3,12 como la OR
2,5 son significativas, pero debemos concluir que la mayor es la de 3,12 porque el valor de estimación
puntual es mayor.
EJEMPLO II
Podemos observar que la primera Odds ratio es incoherente porque ésta simpre debe estar contenida
en el intervalo de confianza
EJEMPLO III
Concluiremos que la OR de 0,6 es la que indica una mayor relación dado que si pensamos en su
inversa 1/0,6 = 1,66666, es mayor que 1,5. La OR de 2 no es necesario considerarla porque no es
significativa dado que su intervalo de confianza del 95% incluye al 1.
Dado que la VD tiene que ser necesariamente un valor entre 0 y 1, el modelo debe asumir una
expresión matemática particular, concretamente logarítmica imprescindible para hacer las
predicciones
ln [P / 1 – P] = a + b 1 X 1 + b 2 X 2 + ……. b n X n
Qué probabilidad (P) tiene un sujeto de alcanzar la Recuperación si tiene unas características VI 1 , VI 2 ,
VI 3 .
Lo que la RLG pretende es identificar aquellas VIs que hacen variar esa ODD.
Por ejemplo, si la P (Recuperación) = 0,2 y la P (Recaída) = 0,8, entonces la ODD será 0,2 / 0,8 = 0,25,
lo que significa que existe la cuarta parte de probabilidad de recuperación que de recaer.
La RLG utiliza una función de Enlace Logarítmica, para pasar de los valores cualesquiera en las VI a
predicciones entre 0 y 1.
El Modelo de RLG asume que existe una relación lineal entre los predictores y el logaritmo de la
probabilidad de ocurrencia de un evento (LOGIT).
LOGIT = ln (ODD) = ln [P / 1 – P]
Así, se puede apreciar que el estimador del parámetro b2 se podrá interpretar como la variación en el
término Logit originada por una variación unitaria en la variable X2 (suponiendo constantes el resto
de las variables explicativas).
El LOGIT es la VD de la RLG.
El LOGIT tiene dos características que serán muy útiles: 1) puede tomar cualquier valor real (- ∞, +
∞); 2) permite una lectura simétrica de la relación entre proporciones.
Al riesgo instántaneo de presentar un evento, es decir, al cociente entre quienes presentan el evento y
quienes estaban a riesgo de presentarlo, se le denomina en inglés: Hazard.
Los pasos a seguir en la RLG son básicamente los mismos que en el Análisis Discriminante:
3. Comprobación de supuestos
6. Validación de resultados.
Los supuestos de la RLG son:
c) La relación entre cada VI y el Logaritmo de las ODD (LOGIT), debe ser lineal
d) No existe multicolinealidad
En lugar de minimizar las diferencias entre Y e Y´, trata de maximizar la verosimilitud de que un suceso
tenga lugar.
Los métodos de los cuales disponemos para poder realizar la estimación son los mismos que en la RL:
el método simultáneo ENTER y el STEPWISE.
Una vez construido el modelo de RLG comprobamos cómo de bueno es el ajuste de los valores
predichos por el modelo a los valores observados. Existen diversas formas de medir la bondad de
ajuste, de manera global, ésta puede ser evaluada a través de medidas tipo R² (Coeficiente de
Determinación), de la tasa de clasificaciones correctas o a través de test estadísticos.
Estos test estadísticos se diferencian y clasifican según se basen en los patrones de las covariables, en
las probabilidades estimadas por el modelo, en residuos suavizados y tipo R²
a) Test basados en patrones de covariables:
d) Test tipo R²
• R2 de Cox y Snell (0 y 1)
• R2 de Nagelkerte (0 y 1)
La Bondad de ajuste también se evalúa mediante el análisis de los residuos del modelo y de su
influencia en la estimación del vector de parámetros, se evalúa la bondad de ajuste caso por caso. Los
programas automáticos nos ofrecen el cálculo de los residuos: R. estandarizados, R. studentizados, R.
desviación.
Finalmente la Bondad de ajuste se determina en base a las medidas de influencia, esto es,
cuantificando la influencia que cada observación ejerce sobre la estimación del vector de parámetros
o sobre las predicciones hechas a partir del mismo de forma que, cuanto más grandes son, mayor es
la influencia que ejerce una observación en la estimación del modelo. Distinguimos: Medida de
Apalancamiento de Leverage, Distancia de Cook y Dfbeta.
En estadística el término Deviance hace referencia a la calidad del ajuste estadístico de un modelo. Es
una generalización de la idea de utilizar la suma de cuadrados de los residuos de mínimos cuadrados
ordinarios para los casos en que el modelo de ajuste se efectúa por máxima verosimilitud.
Donde:
Su expresión es, simplemente, -2 veces la relación logaritmica de verosimilitud del modelo reducido
emparado con el modelo completo.
La deviance se utiliza para comparar dos modelos, en particular, en el caso de los modelos lineales
generalizados, donde la función es similar a la varianza residual de la ANOVA en modelos lineales.
Supongamos en el contexto de los modelos lineales generalizados tenemos dos modelos anidados
agrupados, M1 y M2. En particular supongamos que M1 contiene los parámetros M2 y k parámetros
adicionales. Entonces, bajo la hipótesis nula de que el modelo M2 es cierto, la diferencia entre las
desviaciones de los dos modelos sigue una distribución aproximada chi- cuadrado con k grados de
libertad.
En la RL se recurría un contrastre “t” para saber si cada uno de los predictores eran o no
significativamente distintos de cero. En la RLG se recurre al Estadístico de Wald.
Lo que propone el modelo de Wald es fijarnos en el peor resultado de cada alternativa y de estos
peores escoger el mejor con valores más bajos dentro de todas las posibles respuestas, el más alto
entre los peores, la filosofía es la mejor de las peores.
Es el criterio más conservador, pues está basado en conseguir lo mejor en las peores condiciones
posibles. Si X ij representa ganancias para el decisor, para a i la peor ganancia, independientemente de
Este resultado recibe el nombre de nivel de seguridad (al elegir ai se garantiza al menos un beneficio
de unidades).
Wald sugirió que el decisor debe adoptar aquella alternativa que tenga el mayor nivel de seguridad,
es decir, elegir ai asociada a
Este criterio recibe el nombre de criterio maximin, y corresponde a un pensamiento pesimista, pues se
basa en lo peor que le puede ocurrir al decisor cuando elige una alternativa.
La regresión logística multinomial es una generalización del modelo de regresión logística donde la
variable dependiente tiene más de dos categorías y puede ser nominal o bien ordinal. A su vez, las
variables explicativas pueden ser categóricas o cuantitativas.
Se trata de un modelo que se utiliza para predecir las probabilidades de los diferentes resultados
posibles de una distribución categórica como variable dependiente, dado un conjunto de variables
independientes
En los modelos de regresión multinomial se asume que los recuentos de las categorías de Y tienen
una distribución multinomial. Esta distribución es, a su vez, una generalización de la distribución
binomial.
Será común que encontréis una amplia variedad de denominaciones para referirse a la
regresión multinomial como: regresión multiclase LR, Softmax function regression, Logit multinomial,
clasificador de máxima entropía (MaxEnt), etc
La regresión logit es una solución particular al problema de clasificación que asume que una
combinación lineal de las características observadas y algunos parámetros específicos del problema
pueden ser utilizadas para determinar la probabilidad de cada resultado, en particular de la variable
dependiente.
Existen dos tipos de modelos de regresión logística multinomial:
Se toma una categoría como respuesta base, por ejemplo la última categoría y
Donde:
P (Y ≤ j) = 1,………….. j
Para j = 1, …., J.
P (Y ≤ 1) ≤ P (Y ≤ 2) ≤…………….≤ P (Y ≤ J) = 1
EJEMPLO IV
En el libro Categorical Data Analysis (2002) de Agresti (pag. 279) se muestran los datos de un estudio
sobre una enfermedad mental donde se trata de relacionarla con dos variables explicativas. La
enfermedad mental se resume en una variable categórica con los siguientes niveles: buen estado,
síntomas leves, síntomas moderados y enfermedad.
La enfermedad mental, como variable respuesta, es un factor que presenta ordenación entre sus
categorías.
EJEMPLO V
Se tiene una muestra de 735 personas a los que se pregunta por sus preferencias en cuanto a tres
variedades (brands) de algunos productos. Se considera además el género y la edad de las personas
de la encuesta.
La variable dependiente es brand. La variable female se codifica como 0 para hombres y 1 para
mujeres.
Para cada observación de la base de datos se presentan 3 observaciones: una para cada una de los
valores de la variable brand.
En los resultados se obtienen los coeficientes y sus p-valores (Figura 2; Fuente: Google)
Los resultados mostraron que por cada aumento en una unidad de la variable edad, el logaritmo del
ratio de las probabilidades, P(brand = 2) / P(brand = 1)), se incrementa en 0, 368, y el logaritmo del
ratio de las dos probabilidades, P(brand = 3) / P(brand = 1)), se incrementa en 0, 686. Por tanto, en
general, cuanto mayor sea una persona tendrá más preferencia por brand igual a 2 ó a 3, que por
brand igual a 1.
Por ejemplo, se muestra un rango de distintas edades y se calculan las probabilidades de escoger
cada categoría de brand para mujeres y hombres. Se generan los valores predichos en la escala logit
usando los coeficientes del modelo. En brand = 1, el valor se fija en 0.
Las columnas etiquetadas como pred.1, pred.2, y pred.3, contienen las probabilidades predichas de
que brand sea igual a 1, 2 y 3 respectivamente (Figura 3; Fuente: Google)
Las mujeres parecen preferir brand igual a 2 ó igual a 3 en comparación con brand igual a 1. Por otro
lado, cuanto mayor es una persona es más probable que prefiera brand igual a 2 ó a 3 que brand
igual a 1.
Se observa que con el cambio en una unidad en la variable age (un año mayor), se espera que la
razón de odds entre elegir brand = 2 respecto de brand = 1 se incrementa en exp (0,3682) = 1,45.
En el caso del sexo de las personas, female, la razón de odds de elegir brand = 2 respecto de 1 se
incrementa en exp (0,5238) = 1, 69.
8.1. INTRODUCCIÓN
El Análisis Conjunto o Modelo Multiatributo es una técnica estadística basada en el ajuste de modelos
lineales a variables ordinales, que permite explorar y cuantificar el sistema de valores de los sujetos en
el momento de elegir una alternativa entre varias posibles.
Esta técnica nace de la psicología matemática y comercial, hoy se utiliza en las ciencias sociales y
ciencias aplicadas como el marketing o administración del producto, aunque, en general, podríamos
decir que resulta útil siempre que se desee identificar las actitudes de los consumidores en la decisión
de compra, profundizar en la dinámica de productos y servicios.
El análisis conjunto asume un modelo de comportamiento multiatributo según el cuál los sujetos
tienen la capacidad de percibir cada uno de los atributos que configuran un estímulo. Con su
aplicación podremos conocer qué importancia tiene una determinada característica en la decisión
global de preferencia del sujeto hacia un producto. Las preferencias del consumo de bienes y
servicios responderían a una percepción evaluativa de sus atributos y no a una percepción global.
Cualquier estímulo es percibido por múltiples atributos que, además, son evaluados de manera
compensatoria. Es decir, un sujeto puede preferir un estímulo con un déficit en un atributo si este
déficit se puede compensar con el resto de atributos. Los estímulos son, por tanto, multiatributos, y
las preferencias serán el resultado del efecto conjunto de las características del estímulo.
Los efectos de las características de un estímulo son aditivos; niveles de atributo no deseados pueden
ser compensados con otros niveles de atributo. Determinadas opciones pueden ser compensadas con
otras.
U = U1 (X 1 ) + U 2 (X 2 ) +…….+ Ui (Xi)
Donde: U es la utilidad total; U i es la utilidad parcial del atributo i y X i es el nivel del atributo i.
En una situación de decisión real, los estímulos son imperfectos y, en consecuencia, los sujetos se ven
obligados a renunciar a unos atributos en beneficio de otros. Por ello el Análisis Conjunto se define
como un modelo aditivo.
Pero, para explicar las preferencias el modelo multiatributo no es la única estrategia. Por otro lado
nos encontramos con la conocida Teoría de la decisión. La diferencia entre ambas: en la primera el
énfasis se pone en el objeto, en la segunda el estudio se realiza sobre el propio sujeto.
Como mencionamos en los párrafos anteriores cualquier estímulo se configura a partir de una serie
de atributos. Un atributo es una propiedad extraída de la experiencia humana, una propiedad que
atribuimos nosotros al estímulo y no una característica del estímulo en sí misma.
Dentro de cada atributo pueden existir distintas alternativas u opciones, denominadas niveles,
algunos aportarán valor final al objeto y otros pueden restárselo.
Finalmente, las preferencias (o juicio asociado a un estímulo) será el resultado del efecto conjunto de
los niveles de atributo que definen al estímulo.
La manera más sencilla de entender el Análisis Conjunto podría ser a través de la formalización que
Anderson (1974) hace del Modelo Mutiatributo de toma de decisiones y que renombra como Teoría
de la Integración de la Información: “Los juicios de preferencia (Y) se pueden expresar como una
función entre las características de los estímulos (X) y unos coeficientes (C) que ponderan la
aportación de cada característica a la preferencia global [Y = f (C, X)]”.
El Análisis Conjunto va a ser, precisamente, el que nos a permitir estimar los coeficientes que modelan
las propiedades de los estímulos.
A la hora de medir el valor o utilidad que le da el consumidor a cada uno de los niveles de los
atributos de un producto existen dos aproximaciones:
El algoritmo más conocido para este caso es el TRADE- OFF, implementado en el paquete
estadístico PCMDS (Smith, 1990)
Son más realistas porque el sujeto tiene que considerar todas las características a la vez,
poniendo en funcionamiento su verdadera estructura de valores y preferencias. Proporcionan
un mejor indicador de la importancia relativa de cada característica.
Son más precisos ya que los sujetos toman decisiones analizando los descartes que hay entre
las características (características que consideran simultáneamente). El consumidor busca un
equilibrio entre lo que gana y lo pierde, y el análisis conjunto busca este equilibrio.
Desde una perspectiva descomposicional, el Análisis Conjunto se define como (Green y Rao,
1971):
“Un conjunto de técnicas y modelos que buscan sustituir las respuestas subjetivas de los
consumidores, por parámetros que estimen la utilidad de cada nivel de atributo en la
respuesta de preferencia manifestada por éstos”.
b) Definición amplia: una metodología de investigación que incluye una serie de etapas.
Desde la fase de identificación de atributos, la elección del modelo de estimación, la
estrategia de recogida de datos, hasta la interpretación de los resultados.
1. Problema de investigación.
2. Diseño de la investigación.
3. Recogida de datos
6. Validación
a) Preguntar al sujeto directamente cuales son los atributos que determinan sus preferencias
suponiendo que conoce y es capaz de identificarlas. Los atributos son clasificados como
determinantes si se encuentran entre las razones de preferencia mas frecuentemente citadas
o se les asigna una puntuación media elevada en una lista presentada al sujeto (obtenida
preferentemente de modo indirecto).
c) Utilizar el método de Kelly ofreciendo productos de tres en tres al sujeto con la intención
de que agrupe los dos mas iguales y especifique en función de qué atributos son semejantes
y diferentes. Así se obtiene una relación de atributos determinantes.
Si los atributos son continuos (precio) el investigador deberá realizar un pretest para asegurar que los
niveles son lo suficiente mente diferentes.
Por supuesto, el número de niveles no tiene que ser similar para todos los atributos.
Para seleccionar adecuadamente los niveles se puede optar por seleccionar una muestra
representativa y a cada individuo de la muestra se le solicita sus preferencias por un conjunto de
estímulos resultantes de la combinación de los atributos de estudio a diferentes niveles.
El investigador puede optar por presentar sólo una pequeña fracción del total de combinaciones
denominada fracción del diseño factorial completo. El número de estímulos requerido en un diseño
factorial fraccionado depende de los objetivos del investigador. Cuantos más efectos principales y de
interacción (no confundidos entre sí) desee estimar mayor número de estímulos necesitará.
Los estímulos se representan en una matriz X que refleja las características del Diseño Factorial
Fraccionado. En términos informáticos se denomina PLAN, donde las filas representan los perfiles de
los productos o estímulos objeto de estudio, y las columnas los distintos atributos definidos. A dicha
matriz de diseño X se le añade una columna “l” con el objeto de estimar coeficientes β. En cuanto a
las columnas que representan los atributos o factores, cabe matizar que si para un atributo se definen
mi niveles discretos, entonces dicho atributo dará lugar a mi -1 columnas. Por el contrario, si los
niveles de ese factor son lineales entonces habrá una columna de valores centrados en ese factor.
En la aplicación CONJOINT (SPSS) el comando ORTHOPLAN permite especificar una lista de variables
determinantes, una lista de valores para cada variable y generar un plan con el número mínimo de
combinaciones. Sirve para extraer un diseño ortogonal (diseño óptimo submuestras de todas las
combinaciones posibles para disminuir el número de estímulos)
Por último, respecto a la preparación de los estímulos, existen dos procedimientos básicos:
procedimiento de dos atributos a 1a vez (Trade-Off) y el enfoque del perfil completo (Full-Profi1e)
a) Método Trade-Off
Sencillo y fácil para el entrevistado, sin sobrecarga de información (si son pocos atributos)
Poco realismo (sólo dos factores), alarga la tarea, la fatiga y la confusión, imposible utilizar
estímulos gráficos o reales
Precio
Motor
10.000 20.000 30.000
1.4 6 3 9
1.8 5 2 8
2.0 4 1 7
El método del perfil completo es de amplia utilización. Ofrece una descripción mas realista de
los productos sobre los que se solicita preferencias contrastando su validez cuando las
corre1aciones entre los atributos son elevadas.
Para terminar, cabe mencionar, que CONJOINT también ofrece la posibilidad de seleccionar
productos simulados, que los sujetos no consideran pero que el programa los determina en
función de las preferencias mostradas hacia estímulos alternativos.
La utilidad subjetiva de un estímulo puede ser calculada si se conoce la secuencia de ordenación del
sujeto, a partir de las estimaciones de los pesos b de cada nivel de atributo y la presencia o ausencia
de éstos, de manera aditiva. A esos pesos o utilidades b estimados para cada característica o nivel (j)
del atributo (k) le llamaremos utilidades o partworth (μ jk )
Y i = β0 + β j X ij + ei
Para determinar la contribución de cada uno de los atributos y sus niveles (efectos principales y
efectos interacción) a las preferencias del sujeto, las investigaciones sobre análisis conjunto emplean
principalmente la siguiente metodología:
OLS es un método robusto para la estimación de las utilidades o, para identificar la preferencia para
cada nivel de un grupo de atributos del producto y, para ello, recurre a la utilización de una matriz
dummy de las variables independientes. Cada variable independiente indica la presencia o ausencia
de un nivel particular de un atributo. Y las respuestas de los sujetos, o variable dependiente, es
función de la descripción del perfil descrito por las variables independientes.
La modelización de las respuestas de evaluación dadas por un sujeto a cada uno de los perfiles
descritos por las variables independientes (presencia o ausencia de un nivel particular de atributo),
viene dado por:
Donde: í son los pesos beta estimados en la regresión; x es la matriz de valores Dummy identificativos
de los niveles del diseño factorial; e y son las evaluaciones de rangos o clasificaciones del sujeto.
Una vez que tenemos los rangos que ocupan cada producto o estímulo para cada sujeto, es el
momento de proceder a la estimación de utilidades. Al respecto cabe señalar los trabajos de Cattin y
(1984) y Hagerty (1985), que contribuyeron a optimizar la decisión del investigador a la hora de
seleccionar el modelo con mayor validez predictiva.
Haberty (1991) propuso un índice que nos permite comparar los diferentes modelos de preferencia
que podemos seleccionar, es decir, el tipo de relación que suponemos entre las preferencias de los
sujetos y los niveles de atributo: discreta, lineal, ideal y anti-ideal.
Una vez estimadas las utilidades es conveniente analizar los errores estándar de las utilidades.
Así mismo, es relevante analizar la importancia de cada factor o atributo, independientemente de sus
niveles.
Tiene la ventaja de proporcionar desviaciones típicas para comprobar el grado de significación de los
efectos principales y de interacción.
Si la variable respuesta se obtiene mediante una ordenación del conjunto de estímulos de mayor a
menor preferencia (es de naturaleza ordinal) el método mas difundido es el Análisis Monótono de la
Varianza (MONANOVA). Sólo es aplicable cuando se especifican efectos principales sin efectos
interacción.
Cualquiera de estos métodos de estimación se pueden aplicar a nivel individual o a nivel agregado. En
los modelos a nivel individual se estima la importancia de los niveles de los atributos para cada sujeto
a partir de los datos de preferencia obtenidos. Este enfoque permite al investigador utilizar las
estimaciones obtenidas en un modelo de simulación para pronosticar preferencias actuales o
potenciales.
Los modelos a nivel agregado, inicialmente pueden obtener las medias de preferencia de cada perfil
de producto para toda la muestra y posteriormente estimar las utilidades de los niveles de los
atributos para el conjunto de individuos. Sólo es válido cuando la población es homogénea en sus
criterios de preferencia. Por ello, normalmente se aconseja el método de análisis individual, aunque la
operación es más laboriosa. También es deseable poder combinar los aspectos positivos de ambos
enfoques (elevado poder predictivo en modelos individuales y estimación de un menor número de
funciones de utilidad en modelos agregados). La alternativa sería agrupar individuos de acuerdo con
sus preferencias (por ejemplo, aplicando un análisis cluster y a continuación estimar los parámetros
del modelo para cada segmento obtenido.
La evaluación del ajuste de la función de regresión trata de ver hasta qué punto las Utilidades
estimadas nos sirven para reproducir eficazmente las (preferencias) ordenaciones de los sujetos.
• Correlación de Kendall.
• Tarjetas Holdout o de validación. Permiten comparar cómo el sujeto ordenó las tarjetas
con el pronóstico hecho por un modelo que no las ha utilizado en la estimación.
Las utilidades parciales nos informan del valor que aporta cada característica concreta o nivel del
atributo a su preferencia global. Puede asumir valores + o – ya que pueden aportar o quitar valor. La
importancia de cada factor o atributo es la diferencia entre el nivel con mayor utilidad de ese atributo
y el nivel con menor rango partido por el sumatorio de rangos de todos los atributos x100.
El atributo más importante es aquel cuyos niveles son más extremos en términos de Utilidad.
Una vez tenemos las utilidades podemos pasar a determinar una posible probabilidad de elección.
Existen tres modelos de predicción:
a) Utilidad Máxima
b) Índice BTL
Este modelo es similar al BTL pero, en este caso, utiliza el logaritmo natural de las utilidades
en lugar de las utilidades directas.
El Análisis Factorial (AF) es una técnica multivariante que consiste en resumir la información
contenida en una matriz de datos con “V” variables mediante un reducido número de factores “F”,
siendo el número de factores una representación de las variables originales, con una pérdida mínima
de información.
El objetivo esencial del AF es describir, si fuera posible, las correlaciones o covarianzas observadas
entre un conjunto de variables en términos de un menor número de variables aleatorias no
observables (Factores), latentes o constructos (Johnson & Wichern, 1982).
Es una técnica de reducción de datos que sirve para encontrar grupos homogéneos de variables a
partir de un conjunto numeroso de variables. Los grupos homogéneos se forman con las variables
que correlacionan mucho entre sí y procurando, inicialmente, que unos grupos sean independientes
de otros.
Fundamentalmente lo que se pretende con el AF es simplificar la información que nos da una matriz
de correlaciones para hacerla más fácilmente interpretable. Si unas variables se relacionan más entre
sí y menos con otras, se supone que es porque existen otras dimensiones o factores que explican por
qué se relacionan más.
2. Conseguir combinaciones de las variables originales que nos ayuden a discernir tipos de
relaciones que se establecen entre las variables del estudio.
EJEMPLO I.
Historia 1 0,812
Lengua 1
En la matriz se pueden identificar dos grupos de variables con correlaciones altas entre sí y bajas con
el resto. Un grupo estaría formado por las asignaturas Ciencias, y Mates (0,804) y el otro por Inglés,
Historia y Lengua. Cada grupo representaría a un factor. Una representación gráfica en el plano
definido por los dos factores implícitos en la matriz de correlaciones nos da idea de la similitud entre
las variables (Figura 1. Representación factorial de las variables del ejemplo. Elaboración: propia)
X 1 = a 11 F1+ a 12 F 2 + .… + a 1c F c + u 1
X 2 = a21 F1+ a 22 F 2 + .… + a 2c F c + u 2
X d = a d1 F 1 + a d2 F 2 + .… + a dc F c + u d
Para que el AF tenga sentido deberían cumplirse dos condiciones básicas: Parsimonia e
Interpretabilidad. Según el principio de parsimonia los fenómenos deben explicarse con el menor
número de elementos posibles. Según el principio de interpretabilidad los factores deben ser
susceptibles de interpretación sustantiva, interpretables.
- u 1 , u 2 ,…….., u d son los factores únicos de cada variable. Cada uno de ellos es único y
distinto en cada una de las variables originales. Son una especie de residuo, un elemento
individual de cada una de las d variables originales y que es lo que queda por explicar de
cada una de ellas después de haber sumado una combinación peculiar y única de los factores
en cada una de las variables, después de haber introducido en ellas lo que tienen de lo
común, de lo que se explica por los factores comunes elegidos.
- Cabe señalar en relación con la expresión matemática propuesta que los factores únicos no
están correlacionados entre sí ni con los factores comunes. Los factores comunes pueden
expresarse como una combinación lineal de todas las variables originales:
F 1 = b 11 X 1 + b 12 X 2 + .… + b 1d X d
F 2 = b 21 X1+ b 22 X 2 + .… + b 2d X d
.
.
F c = b c1 X 1 + b c2 X 2 + .… + b cd X d
- d, es el número de variables
Los pesos de cada variable pueden ser grandes o pequeños, positivos o negativos. Generalmente, en
cada factor hay ítems variables con pesos grandes y otros próximos a cero; las variables que más
pesan en cada factor son las que lo definen.
El AF se reduce a la búsqueda de estos pesos para localizar medidas distintas (puntuaciones factoriales
o factor score) a partir de las variables originales, y de manera que, a poder ser, entre todas las nuevas
medidas agoten o expliquen toda la varianza presente en las variables originales.
Es posible elegir pesos o coeficientes de calificación del factor de manera que el primer factor
explique la mayoría de la varianza total. Luego se selecciona un segundo conjunto de pesos de forma
que el segundo factor dé cuenta de la mayoría de la varianza residual, siempre que no esté
correlacionado con el primer factor.
Ponemos entender bien lo que hace el AF con la siguiente explicación. El AF se encarga de analizar la
varianza común a todas las variables. Partiendo de una matriz de correlaciones, trata de simplificar la
información que ofrece, trabajando con las correlaciones elevadas al cuadrado r2 (coeficientes de
determinación), esto es, con la proporción de varianza común entre las variables. En cada casilla de la
matriz de correlaciones se refleja la proporción de varianza común a dos variables, excepto en la
diagonal principal (donde cada variable coincide consigo mismo). En la diagonal principal se refleja la
varianza específica o única de cada variable que se representa con 1. Si se desea analizar
exclusivamente la varianza compartida habrá que eliminar los unos de la matriz de correlaciones y
poner en su lugar la proporción de varianza que cada variable tiene en común con todos los demás.
2. Analizar SOLO la varianza común. En este caso, se substituyen los unos de la diagonal por
estimaciones de la varianza que cada variable tiene en común con las demás (y que se
denominan Comunalidades). Para la estimación de las comunalidades no hay un cálculo
único, existen diversos procedimientos (correlaciones múltiples de cada variable con todas las
demás, coeficientes de fiabilidad). El procedimiento por el que se sustituyen los unos por las
comunalidades se denomina Análisis de Factores Comunes. Los dos enfoques caben bajo la
denominación genérica de AF, aunque es el Análisis de Factores Comunes al que con más
propiedad se le aplica la denominación de AF. Ambos enfoques dan resultados similares y se
interpretan de manera casi idéntica.
El investigador mide estas variables sobre n individuos, obteniéndose la siguiente matriz de datos
(Tabla II. Matriz de datos. Elaboración: propia)
Variables
Sujetos
X1 X2 … Xd
… … … …
X 1 = a 11 F 1 + a 12 F 2 + .… + a 1c F c + u 1
X 2 = a 21 F 1 + a 22 F2 + .… + a2c Fc + u2
.
X d = a d1 F 1 + ad2 F 2 + .… + a dc F c + u d
En notación matricial el sistema de ecuaciones viene dado por (Figura 4. Expresión matricial.
Fuente: Google)
x = Af + u
Y que las relaciones entre factores comunes y específicos son las siguientes:
Corr (f j , u i ) = 0
Corr (u i ,u k ) = 0
Corr (f j , f i ) = 0 si i < j,
Si asumimos estas tres relaciones entre los factores comunes y específicos el modelo x = Af +
u recibe el nombre de Modelo de Factores Comunes Ortogonales. Las variables se pueden expresar en
función de factores independientes, en el sentido de que no existe entre ellos interdependencia lineal.
Este modelo se usa en el AF Exploratorio dado el desconocimiento de la estructura factorial
subyacente.
Si, por el contrario, consideramos que los factores comunes pueden covariar el modelo es el Modelo
de Factores Oblicuos. Se aplica en el AF Confirmatorio.
Dado que la diferencia en las variables predictoras hace que los parámetros del modelo factorial no
puedan ser estimados, como en la regresión porque no conocemos las puntuaciones de los sujetos
en los factores, la estructura de la matriz de correlaciones (R) viene definida por “u”.
En la matriz de correlaciones (R) podemos distinguir dos tipos de elementos: los elementos de la
diagonal (todos iguales a 1) y los elementos exteriores a la diagonal (r ik ). La correlación de una
variable consigo misma siempre va a ser 1, no es otra cosa que la varianza de una variable tipificada y
se descompone en:
Los factores comunes serían los que explican las relaciones existentes entre las variables.
Los elementos externos a la diagonal de R corresponden a las correlaciones entre las variables
observadas (r ik )
En esta expresión se observa que la correlación entre dos variables observadas puede obtenerse
multiplicando los pesos factoriales de ambas variables en el conjunto de factores comunes. Como era
de esperar las especificidades de las variables observadas no intervienen en las correlaciones.
Continuando con el EJEMPLO I, a partir de la matriz de correlaciones entre las variables: Notas en
Ciencias Naturales (CN), Matemáticas (M), Inglés (I), Historia (HIS) y Lengua (LEN) se obtuvo la
siguiente matriz de pesos factoriales
c) Porcentaje de varianza de cada variable explicada por cada uno de los factores comunes.
d) Interpretación de los factores obtenidos.
Ciencias 64 4 68
Mates 81 1 82
Inglés 1 81 82
Historia 9 64 73
Lengua 4 64 68
Por último, respecto a la interpretación de los factores obtenidos, recordemos la Figura 1. Las
variables se representan por puntos en el plano definido por los factores comunes, siendo las
coordenadas de dichos puntos los pesos factoriales. Observamos dos agrupamientos de variables:
uno con las variables Ciencias Naturales y Matemáticas que dan contenido al factor 1 y otro, el
formado por las variables Inglés, Historia y Lengua, que dan contenido al factor 2. En todos los casos
las correlaciones entre variables observadas y factores son positivas. Los factores comunes son
etiquetas para grupos de variables que caracterizan estos conceptos. Así, en la primera columna de la
matriz de correlaciones A (Tabla 1), las variables con pesos más altos son Ciencias Naturales y
Matemáticas; a este factor le denominamos: habilidad lógico-formal. En la segunda columna las
variables con pesos altos son: Francés, Latín y Literatura; este segundo factor lo etiquetamos
como habilidad verbal.
Una vez construida la matriz de correlaciones es necesario analizarla para comprobar si sus
características son las adecuadas para realizar un AF. Uno de los requisitos que deben cumplirse es
que las variables se encuentran altamente
intercorrelacionadas. También se espera que las variables que tengan correlación muy alta entre sí la
tengan con el mismo factor o factores. En consecuencia, si las correlaciones entre todas las variables
son bajas, tal vez no sea apropiado el
AF. Pueden utilizarse diferentes métodos para comprobar el grado de asociación entre las variables:
Los diferentes métodos propuestos en la literatura para determinar la matriz A, conocidos como
métodos de extracción factorial, obedecen a tres tipos de criterios:
Los métodos de extracción factorial proporcionan soluciones únicas para la matriz factorial si se
aceptan las restricciones de dichos métodos. Sin embargo, no hay garantía de que las soluciones
proporcionadas por los diferentes métodos sean absolutamente equivalentes.
El AF es un método analítico de condensación de la varianza total de las medidas de las variables. Esta
varianza tiene tres componentes: la varianza común (comunalidades), que es la proporción de la
varianza de las variables que es explicada por los factores comunes; la varianza específica
(especificidad), que es el porcentaje de varianza particular de cada variable; y la varianza de error, que
es el porcentaje de varianza no explicada, atribuible al error de la medida.
Pues bien, el método de Ejes Principales contempla únicamente la varianza que las variables tienen en
común o covarianza, excluyendo a la varianza específica y la varianza de error. Esta característica lo
distingue perfectamente del método de Componentes Principales, ya que este último explica la mayor
cantidad de varianza posible en los datos observados, analiza la varianza total asociada a las variables,
incluyendo la varianza específica y la varianza de error.
A efectos prácticos, la característica esencial del método de Ejes Principales es que la extracción de
factores no se realiza en base a la matriz de correlaciones entre las variables observadas sino, a la
matriz Ra, matriz de correlaciones reducida, que no es otra cosa que, la matriz de correlaciones en
donde se han sustituido los 1 de la diagonal por las comunalidades de las variables.
Debe ser máxima. Se impone, además, la restricción de que las correlaciones observadas deben ser
reproducidas exactamente por los pesos factoriales lo que implica residuales cero. Esta segunda
restricción se expresa como
Maximizar sujeta a la
Los pesos (a i1 ) de las variables en el primer factor común se obtienen resolviendo el sistema de
ecuaciones que se deriva de la expresión
El segundo factor se elige de manera que explique el máximo de la varianza resultante al eliminar la
explicada por el primer factor y, además, este segundo factor debe estar incorrelacionado con el
primero. El proceso continúa hasta explicar el 100% de la varianza total factorizada. No obstante,
conviene comentar las dos situaciones que nos podemos encontrar en cuanto al número de factores
comunes. Sabemos que las varianzas explicadas por los factores comunes se obtienen de la
resolución de la ecuación . Dicha ecuación proporciona d valores que no
tienen porque ser todos positivos, a diferencia del método de componentes principales. En caso de
que encontremos c valores positivos y su suma no supere la varianza total factorizada éste será el
número de factores comunes elegidos para reproducir la matriz de correlaciones. Si la suma del
número de autovalores positivos supera ámpliamente la varianza total elegiremos un número menor
de manera que la varianza explicada por el conjunto de factores comunes esté lo más próxima posible
a la varianza total factorizada.
b) la varianza de las d variables observadas explicada por cada factor común viene dada
por
c) las correlaciones reproducidas vendrán dadas por
Esta varianza es, en principio, desconocida y tiene que ser estimada por algún procedimiento. Varios
han sido los criterios utilizados para estimar las comunalidades; de todos ellos el más utilizado e
implementado en el paquete estadístico SPSS consiste en utilizar como estimación de la comunalidad
de una variable el coeficiente de correlación múltiple al cuadrado (R2i.1,2,...(i),..d) de dicha variable
con el resto.
EJEMPLO II.
En la matriz de correlaciones del EJEMPLO I se sustituyeron los elementos de la diagonal por las
siguientes comunalidades (Tabla IV. Matriz de correlaciones: Comunalidades. Elaboración:
propia):
Lengua 0,8470
Este es el primer método de extracción de naturaleza estadística, los anteriores que son de naturaleza
algebraica.
Este método considera la obtención de la matriz factorial como un problema de estimación puntual
de parámetros. Se parte del desconocimiento tanto de la matriz de correlaciones poblacional (R)
como de la matriz factorial poblacional (A) y el objetivo es obtener una estimación que haga máxima
la probabilidad de obtener las correlaciones observadas.
Este procedimiento de extracción tiene asociado un test de significación para el número de factores
elegidos.
Cuando dijimos que los métodos de extracción hacen únicas las cargas factoriales aclaramos que
dichas cargas son únicas en función del criterio particular elegido pero, en ningún momento
podemos pensar que hemos resuelto el problema de la indeterminación factorial. Quiere esto decir
que existirán infinitas matrices factoriales, obtenidas rotando a una situación espacial distinta la
solución factorial directa, que conserven el número de factores comunes, la varianza total explicada
por el conjunto de factores, las comunalidades de las variables y que sean más fáciles de interpretar.
De las infinitas soluciones posibles obtenidas por rotación sólo nos van a interesar aquellas que
conserven la ortogonalidad de los factores (rotación ortogonal frente a oblicua) y que nos lleven a
una matriz factorial con determinadas características.
Para acometer este problema están los procedimientos de Rotación de Factores que, a partir de la
solución inicial, buscan factores cuya matriz de cargas factoriales los hagan más fácilmente
interpretables. Estos métodos intentan aproximar la solución obtenida al Principio de Estructura
Simple (Louis Leon Thurstone, 1935), según el cual la matriz de cargas factoriales debe reunir tres
características:
1. Cada factor debe tener unos pocos pesos altos y los demás próximos a cero.
3. No deben existir factores con la misma distribución, esto es, dos factores distintos deben
presentar distribuciones diferentes de cargas altas y bajas.
De esta manera, dado que hay más variables que factores comunes, cada factor tendrá una
correlación alta con un grupo de variables y baja con el resto de las variables.
Los principios enunciados están encaminados a encontrar una matriz factorial en términos de
factores disjuntos es decir, factores definidos por agrupamientos diferentes de variables. Un ejemplo
de una matriz factorial simple en los términos expresados anteriormente sería la siguiente (Tabla V.
Matriz Factorial simple; Elaboración: propia):
Variables F1 F2 F3
X1 0 X 0
X2 0 X 0
X3 0 X 0
X4 X 0 0
X5 X 0 0
X6 X 0 0
X7 0 0 X
X8 0 0 X
X9 0 0 X
donde los 0 representan pesos factoriales muy pequeños y las X pesos factoriales altos. Aunque no
siempre encontremos matrices tan fáciles de interpretar como la anterior con la rotación si se va a
eliminar buena parte de la dificultad que tiene interpretar la matriz factorial directa.
Al examinar las características de las variables de un grupo asociado a un determinado factor se
pueden encontrar rasgos comunes que permitan identificar el factor y darle una denominación que
responda a esos rasgos comunes. Si se consigue identificar claramente estos rasgos, además de
reducir la dimensión del problema, también se desvela la naturaleza de las interrelaciones existentes
entre las variables originales.
Existen dos formas básicas de realizar la Rotación de Factores: la Rotación Oblicua y la Rotación
Ortogonal. Se elige uno u otro procedimiento según que los factores rotados sigan siendo
ortogonales o no. Señalar que en ambas rotaciones la comunalidad de cada variable no se modifica,
esto es, la rotación no afecta a la bondad del ajuste de la solución factorial: aunque cambie la matriz
factorial, las especificidades no cambian y, en consecuencia, las comunidades permanecen invariantes.
Sin embargo, cambia la varianza explicada por cada factor, por tanto, los nuevos factores no están
ordenados de acuerdo con la información que contienen, cuantificada mediante su varianza.
En la Rotación Ortogonal los ejes se rotan de forma que quede preservada la incorrelación entre los
factores. Es decir, los nuevos ejes (ejes rotados) son perpendiculares de igual forma que lo son los
factores sin rotar. La rotación se apoya en el problema de falta de identificabilidad de los factores
obtenidos por rotaciones ortogonales, de forma que si T es una matriz ortogonal con T T' = T' T =I,
entonces:
La matriz G geométricamente es una rotación de F, verificando las mismas hipótesis que ésta.
Realmente lo que se realiza es un giro de ejes, de forma que cambian las cargas factoriales y los
factores.
Se trata de buscar una matriz T tal que la nueva matriz de cargas factoriales B tenga muchos valores
nulos o casi nulos, y unos pocos valores cercanos a la unidad de acuerdo con el principio de
estructura simple.
Los métodos empleados en la rotación ortogonal de factores son: Varimax, Quartimax, Equamax,
Oblimin y Promax.
Todos ellos tienden a simplificar la matriz factorial directa. Según el criterio utilizado, el objetivo será
simplificar filas o la complejidad de las variables en el conjunto de factores comunes (ej-.
método Quartimax) o simplificar columnas o factores.
Los nuevos ejes se obtienen maximizando la suma para los k‐factores retenidos de las
varianzas de las cargas factoriales al cuadrado dentro de cada factor. Para evitar que las
variables con mayores comunalidades tengan más peso en la solución final, se efectúa la
normalización de Kaiser (dividiendo cada carga factorial al cuadrado por la comunalidad de la
variable correspondiente).
b) Método Quartimax. El objetivo es que cada variable tenga correlaciones elevadas con un
pequeño número de factores. Para ello, maximiza la varianza de las cargas factoriales al
cuadrado de cada variable en los factores.
Con ello, se logra que cada variable concentre su pertenencia en un determinado factor, esto
es, presente una carga factorial alta mientras que, en los demás factores, sus cargas
factoriales tienden a ser bajas.
De este modo, la interpretación gana en claridad por cuanto la comunalidad total de cada
variable permanece constante, quedando más evidente hacia qué factor se inclina con más
fuerza cada variable. El método será más clarificador, cuanto mayor número de factores se
hayan calculado. Este método tiende a producir un primer factor general, conocido con el
nombre de tamaño, y el resto de factores presentan ponderaciones menores que las dadas
por el método Varimax.
c) Método Equamax. Es un método que es combinación del método Varimax, que simplifica
los factores, y el método Quartimax, que simplifica las variables. Este método minimiza tanto
el número de variables que saturan alto en un factor como el número de factores necesarios
para explicar una variable.
En la Rotación oblicua la matriz T de rotación no tiene que ser ortogonal (cuando una matriz
multiplicada por su transpuesta es la matriz identidad T T' =I ) sino únicamente no singular (matriz
cuadrado cuyo determinante no es cero). De esta manera, los factores rotados no tienen por qué ser
ortogonales y tener, por tanto, correlaciones distintas de cero entre sí. La rotación oblicua puede
utilizarse cuando es probable que los factores en la población tengan una correlación muy fuerte. Es
necesario ir con mucha atención en la interpretación de las rotaciones oblicuas, pues la superposición
de factores puede confundir la significación de los mismos.
a) Método Oblimin. Trata de encontrar una estructura simple si que importe el hecho de
que las rotaciones sean ortogonales, esto es, las saturaciones no representan ya la
correlación entre los factores y las variables. Se considera un parámetro que controla el grado
de correlación entre los factores, con los valores preferentemente entre -0,5 y 0,5.
b) Método Promax. Altera los resultados de una rotación ortogonal hasta crear una solución
con cargas factoriales lo más próximas a la estructura ideal. La estructura ideal se obtiene
elevando a una potencia (entre 2 y 4) las cargas factoriales obtenidas en una rotación
ortogonal. Cuanto mayor sea la potencia, más oblicua es la solución obtenida.
Sea H la matriz de cargas buscada por el método Promax, busca una matriz T tal que AT =H.
Multiplicando ambos miembros por la matriz (A'A)−1 A' , se tiene: T = (A'A)−1 A' H.
Habiendo determinado los factores rotados, se calcula las matrices de puntuaciones factoriales F.
Son variadas las posibilidades de analizar las puntuaciones factoriales de los sujetos:
• Conocer qué sujetos son los más raros o extremos, es decir, la representación gráfica de
las puntuaciones factoriales para cada par de ejes factoriales facilita detectar casos
atípicos.
• Conocer dónde se ubican ciertos grupos o subcolectivos de la muestra (ejemplo; clase
alta frente a clase baja, una provincia frente a las otras provincias, jóvenes frente a
mayores, etc.)
• Explicar, atendiendo las informaciones anteriores, por qué han aparecido dichos factores
en el AF realizado.
Es necesario conocer los valores que toman los factores en cada observación, pues en ocasiones, el AF
es un paso previo a otros análisis: Regresión Múltiple o Análisis Cluster, en los que sustituye el
conjunto de variables originales por los factores obtenidos.
Existen diversos métodos de estimación de la matriz F, Métodos del Cálculo de las Puntuaciones. Las
propiedades deseables que verificasen los factores estimados son:
• Cada factor estimado presente una correlación alta con el verdadero factor.
• Cada factor estimado tenga correlación nula con los demás factores verdaderos.
• Los factores estimados son incorrelados dos a dos (mutuamente ortogonales si son
ortogonales).
Señalar que el problema de estimación es complejo por la propia naturaleza de los factores comunes.
Se puede demostrar que los factores no son, en general, combinación lineal de lasm variables
originales. Por otra parte, en la mayoría de las situaciones, no existirá una solución exacta ni siquiera
será única.
X =FA'+U
buscando estimar el valor de F.
En ocasiones, el investigador preferirá seleccionar las variables más representativas de los factores, en
lugar de calcular sus puntuaciones. Por ejemplo, si se utiliza el AF para reducir el número de datos,
por razones de economía, si se quieren aplicar los resultados obtenidos a objetos diferentes de los
estudiados en el análisis, es más interesante seleccionar algunas de las variables originalmente
medidas, dada la dificultad del cálculo de las puntuaciones factoriales para las que se necesitaría
medir todas las variables utilizadas en el estudio.
Una forma de llevar a cabo la selección de variables es estudiar la matriz de correlaciones de las
variables con los factores, seleccionando como representante de cada factor la variable con la
correlación más elevada en éste, que sea más fácil de medir y que tenga más sentido desde un punto
de vista teórico. En cualquier caso, conviene elegir las variables de forma que una misma variable no
se utilice para medir dos factores distintos.
Una vez elegidas las variables, se les asigna pesos basados en su correlación con el factor, y se
comprueba su validez estimando su correlación con los factores que desea estimar mediante la
fórmula:
R fs =A'Wdiag (R ss )
El último paso en el AF es estudiar la validez del modelo. El proceso de Validación del modelo debe
realizarse en dos direcciones: Analizando la bondad de ajuste y la Generalidad de los resultados.
a) Bondad de Ajuste. Consiste en estudiar las diferencias (residuos) entre las correlaciones
observadas (matriz de correlación de entrada) y las correlaciones reproducidas (como se
estiman a partir de la matriz factorial), dado que una suposición básica subyacente al AF es
que la correlación observada entre las variables puede atribuirse a factores comunes. Por
consiguiente, las correlaciones entre variables pueden deducirse o reproducirse a partir de las
correlaciones estimadas entre las variables y los factores.
El modelo factorial es adecuado cuando los residuos son pequeños. Si hay un porcentaje
elevado de residuos superiores a una cantidad pequeña prefijada (por ejemplo, 0,05), será
una indicación de que el modelo factorial estimado no se ajusta a los datos. Se sabe además
que hay más estabilidad en los resultados si el número de casos por variable es alto.
El Análisis de Componentes Principales (ACP) es una técnica estadística de síntesis que consiste en
extraer tantas componentes (Factores) como variables observables. El objetivo es reducir las variables
a las componentes suficientes y necesarias perdiendo la menor cantidad de información posible.
Las componentes principales son un conjunto de nuevas variables incorrelacionadas entre sí (no
tienen repetición o redundancia en la información) que surge de la transformar un conjunto original
de variables correlacionadas.
Los nuevos componentes principales o factores serán una combinación lineal de las variables
originales, y además serán independientes entre sí.
De modo ideal, se buscan c < d variables que sean combinaciones lineales de las p originales y que
no estén correlacionadas, recogiendo la mayor parte de la información o variabilidad de los datos.
Para realizar el cálculo de las CP se considera una serie de variables (x 1 , x 2 , …, x d ) sobre un grupo de
objetos o individuos y se trata de calcular, a partir de ellas, un nuevo conjunto de variables (y 1 , y 2 , …,
y d ), incorrelacionadas entre sí, cuyas varianzas vayan decreciendo progresivamente.
Las componentes se extraen de manera que la primera componente Y1, explique el máximo posible
de la varianza total disponible. La varianza total es la suma de las varianzas de las variables
observables consideradas en la investigación, como hemos considerado variables tipificadas la
varianza total es d. La segunda componente Y 2 , explica el máximo de la varianza que queda al
eliminar la varianza explicada por la primera componente y con la restricción adicional de que esté
incorrelacionada con la primera. El proceso continúa hasta explicar toda la varianza disponible para
lo cual hay que extraer tantas componentes como variables. Las varianzas explicadas por cada
componente (Y j ) se denominan valores propios o raíces características.
Normalmente suele proporcionarse el porcentaje de varianza total que explica cada componente.
Este porcentaje se calcula como
Las varianzas explicadas por cada componente se obtienen resolviendo la ecuación denominada
ecuación característica de la matriz de correlaciones entre variables observadas (R) (que se demuestra
utilizando el procedimiento de multiplicadores de Lagrange):
Por su parte, los pesos (vij) de las componentes en las variables se obtienen resolviendo el sistema de
ecuaciones que se deriva de la expresión:
Una vez obtenida la matriz de pesos de las componentes en las variables, lo normal es derivar a partir
de la misma la matriz A que relaciona las variables observables con las componentes. La relación
entre estas dos matrices es:
Donde D1/2 es una matriz diagonal que contiene las raíces de las varianzas explicadas por cada
componente del conjunto de variables observadas. Los pesos o saturaciones factoriales se obtienen
de v ij según la expresión:
La matriz factorial así obtenida es una matriz de orden d y con las siguientes propiedades:
b) La varianza de las d variables observadas explicada por cada componente viene dada
por
El número de componentes que se extraen con el procedimiento descrito es igual al número de
variables observadas con lo cual no se cumple el objetivo básico del análisis factorial: reducir el
número de variables necesario para la descripción del fenómeno. Existen, no obstante, varios criterios
que nos permiten seleccionar un número menor de componentes que reproducen razonablemente
bien las correlaciones observadas. Algunos de los criterios más utilizados son:
a) Determinación “a priori”. Es el criterio más fiable si los datos y las variables están bien
elegidos y el investigador conoce la situación, lo ideal es plantear el AF con una idea previa
de cuántos factores hay y cuáles son.
b) Criterio de Kaiser: Según este criterio se seleccionan las c primeras componentes siempre
que la varianza explicada sea mayor que 1. Este es el criterio utilizado por los muchos
paquetes estadísticos como SPSS. La lógica de este criterio es que un factor explique al
menos la varianza de una variable tipificada.
f) Criterio de división a la mitad. La muestra se divide en dos partes iguales tomadas al azar
y se realiza el AF en cada una de ellas. Solo se conservan los factores que tienen alta
correspondencia de cargas de factores en las dos muestras. Antes de aplicarlo, conviene
comprobar que no existen diferencias significativas entre las dos muestras en lo que se
refiere a las variables estudiadas.
En general, no se suelen coger más de tres componentes principales, a ser posible, para poder
representarlos gráficamente.
10.2. OBTENCIÓN DE LAS COMPONENTES PRINCIPALES A
PARTIR DE UNA MUESTRA
Para aclarar algunos de los conceptos desarrollados acerca del ACP podemos realizar el siguiente
ejercicio.
La primera pregunta que tenemos que poder responder es: ¿Cuántas variables vamos a utilizar?
Variables originales
1 580,104 23,795
3 470,963 1,531
4 431,003 - 12,756
6 299,991 9,059
7 289,155 12,541
8 248,465 13,495
9 215,853 -34.828
El primer paso para la obtención de los CP es saber si: ¿Hay correlación entre ambas variables?
Correlaciones
0,5460
Número de
( 9)
vacas
0,1283
0,5460
( 9)
Beneficio
0,1283
A nivel gráfico la representación de la nube de puntos (datos originales) que refleja la correlación
entre las variables se muestra en la Figura 2 (Fuente: Google)
El segundo paso será: eliminar el problema de la escala (Figura 3; Fuente: Google)
λ1 = 1,54603 λ2 = 0,45397
• Si las variables originales están incorrelacionadas, las CP coincidirán exactamente con las
variables originales.
λ1 = 1,54603 λ2 = 0,45397
Aplicando un programa estadístico, como el SPSS la salida del programa muestra (Figura 5;
Fuente: Google)
Analysis Summary
Data variables:
Inversion
beneficio
Standardized: yes
Number of components extracted: 2
--------------------------------------------------------
-----------------------------
1 1,54604 77,302
77,302
2 0,453963 22,698
100,000
--------------------------------------------------------
------------------------------
b) Cada raíz tiene asociado un vector característico, que con dos variables:
u 1 = ( u 11 ; u 12 )
u 2 = ( u 21 ; u 22 )
u221+ u222 = 1
Si los datos están tipificados, siempre con 2 variables se obtienen los siguientes vectores: u 1 = (07071;
07071); u 2 = (07071; - 07071)
• Los coeficientes de los vectores son los coeficientes que hay que aplicar a las variables
tipificadas para obtener los CP:
CP 1 = u 11 * X 1 + u 12 * X 2
CP 2 = u 21 * X 1 + u 22 * X 2
Component 1 Component 2
-------------------------------------------------------
The SrarAdvisor
-----------------
Son los senos y los cosenos del ángulo de rotación entre los ejes de los CP y los ejes de las variables
tipificadas (ver Figura 4)
Si las variables están tipificadas, la proporción de variabilidad original captada por un CP es igual a su
raíz característica dividida por el número de variables originales (Figura 8; Fuente: Google):
El número de componentes a retener será el número de aquellas CP cuya raíz característica (λ) supere
la media de las raíces características. Y si las variables están tipificadas todas aquellas que superen el
valor 1 (Figura 9; Fuente: Google):
10.3. APLICACIONES
• ACP para monitorizar. Para controlar la variación en un proceso dentro de unos límites
de especificación.
Perfil Farmacofóro: Diseño de Nuevos Medicamentos Potenciales con Análisis de ACP (Érica C.
M. Nascimento y João B. L. Martins)
Estudio empírico: ¿Es dificil para los administradores de fondos contrarrestar el sentimiento de
los inversores? (Tsai-Ling Liao, Chih-Jen Huang y Chieh-Yuan Wu)
En este artículo se evalúa la relación entre el sentimiento de los inversores y la medida en que los
gerentes de fondos mantienen sus operaciones. El estudio utiliza el ACP como medio para extraer la
medida de sentimiento no observado compuesto por diez indicadores del mercado que pueden
clasificarse en tres grupos: indicador de sentimiento de valores individuales, indicador de sentimiento
de mercado general y indicador de sentimiento de fondo.
Aplicación del ACP para divulgar factores que influyen en la composición de consorcios
fúngicos que deterioran los tallos de los frutos en los cerezos amargos (Donát Magyar y Gyula
Oros)
En las ciencias agrícolas, donde se usan conjuntos de datos complejos con variables bióticas y
abióticas, la aplicación de estadísticas multivariadas es fundamental. En estos estudios, el APC se
aplica principalmente para reducir el número de variables de entrada. Además, estos cálculos se usan
para desarrollar aplicaciones de agricultura de precisión usando el monitoreo de cultivos, para
descubrir gradientes de la estructura del terreno, para determinar el momento de la cosecha
(Garcia-Mozo y cols., 2007) o para evaluar métodos de muestreo. PCA se aplicó para analizar la
variabilidad de la producción de frutos a partir de datos de polen aerobiológicos, así como para
conectar los parámetros meteorológicos con los períodos de altas concentraciones de polen. Este
método demostró ser fiable para identificar las fuentes y los patrones de dispersión de las bacterias
aerotransportadas y las esporas de hongos patógenos de las plantas, lo que resultó en el énfasis de
su posible uso tanto para la señalización de la aparición como para la identificación de fuentes de
patógenos vegetales. Esto último es importante para un control eficaz de plagas Magyar 2007).
Aplicación del APC en la investigación taxonómica (Halina Kucharczyk y Marek Kucharczyk)
La diferenciación y partición de nichos es una cuestión ecológica en la que se utiliza con frecuencia
ACP. Eso permite la diferenciación eficiente entre las especies parapatricas relacionadas. Para acceder
al problema, los autores utilizan varios datos de entrada disponibles, que pueden ser mediciones
directas del nicho. Dado que la forma y la composición del cuerpo pueden relacionarse fácilmente
con la adaptación al medio ambiente, la morfometría figura como un método de sustitución
adecuado para estudiar el nicho. Las características morfométricas representan un conjunto de datos
viable para evaluar la relación organismo-ambiente.
El índice de acceso a servicios de salud como determinante de la detección tardía del cáncer
(Eric Belasco, Billy U. Philips, Jr. y Gordon Gong).
El objetivo, por tanto, es similar al de los métodos factoriales, pero el método de ACO se aplica sobre
variables categóricas u ordinales. El ACO es, en realidad, un análisis equivalente al Análisis de
componentes principales y al Análisis factorial pero con variables cualitativas.
Se distinguen, habitualmente, dos tipos de ACO, el análisis de correspondencias simples (ACOS), que
se utiliza cuando los datos a analizar tienen forma de tabla de contingencia de dos variables
nominales u ordinales y evalúa la relación existentes entre dichas variables, y el análisis de
correspondencias múltiple (ACOM), que se utiliza cuando los datos tienen forma de tabla de
contingencia multidimensional y se evalúa la relación existente entre más de dos variables nominales
(Figura 1; Fuente: Google)
Si nos centramos en una tabla de contingencia de dos variables cualitativas, con una variable cuyas
categorías aparecen en filas y la otra variable cuyas categorías son representadas en columnas, el
ACO consiste en resumir la información presente en las filas y columnas de manera que pueda
proyectarse sobre un subespacio reducido, y representarse simultáneamente los puntos fila y los
puntos columna, pudiéndose obtener conclusiones sobre relaciones entre las dos variables nominales
u ordinales de origen. Es decir, el ACO hay que entenderlo como una técnica descriptiva que nos va a
permitir elaborar un mapa perceptual de las categorías de las variables analizadas en un espacio de
pocas dimensiones (habitualmente 2). La mayor o menor distancia entre los puntos representados
reflejan relaciones de dependencia y semejanza más o menos fuertes entre las categorías
representadas (Peña, 2002).
Así, si la variable cualitativa fila representa el nivel cultural de las familias (bajo, medio y alto) y la
variable columna diferentes percepciones que los padres tienen sobre si ser hijo único es bueno o
malo (bueno, malo, depende, no sabe), el ACO produce un gráfico con dos ejes en los cuales cada
categoría fila y cada categoría columna están representadas por puntos distintos (Figura1; Fuente:
Google)
El ACO nos permite identificar las dimensiones básicas subyacentes a la combinación de modalidades
o niveles de dos o más variables cualitativas. El número máximo de dimensiones que se pueden
identificar en un ACS depende del número de categorías de cada variable. Concretamente, si una
variable tiene i categorías y la otra tiene j categorías, el número de dimensiones (o factores) es min
{I-1, J-1}). En el ACOM el número máximo de dimensiones es Min {m, N-1}, donde m es el número
de categorías de las variables sin datos perdidos menos el número de dichas variables y N es el
tamaño de la muestra.
Los campos en los que se pueden aplicar el ACO y las preguntas a las que puede dar respuesta son
múltiples, por ejemplo, nos puede permite conocer si:
• Existe alguna relación entre la opinión de los padres acerca de ser hijo único y el nivel
cultural
• Determinados atributos de los coches están relacionados con determi nadas marcas.
• Existe alguna relación entre tener o no estrés laboral y el sector al que se pertenece en
la universidad.
• Existe relación entre ser fumador con el género, con la hipertensión y con la presencia
de enfermedades cardiovasculares.
Para resolver el problema, esto es, para analizar, desde un punto de vista gráfico, las relaciones de
dependencia e independencia de un conjunto de variables categóricas a partir de los datos de una
tabla de contingencia, debemos asociar a cada una de las modalidades de la tabla, un punto en el
espacio Rn (generalmente n=2) de forma que las relaciones de cercanía/lejanía entre los puntos
calculados reflejen las relaciones de dependencia y semejanza existentes entre ellas.
El punto de partida del ACO es una tabla de contingencia o tabla de correspondencias. Supongamos
que queremos estudiar las ideas de los padres acerca de si ser hijo único es bueno o malo y el nivel
cultural (Palacios, 1987). Para ello se selecciona una muestra de 600 madres y padres de la
Comunidad Autónoma de Madrid de la que se obtiene la siguiente información (Tabla I. Fuente:
Google).
En la Tabla I los valores que se encuentran en la intersección de cada fila y columna corresponden a
las frecuencias absolutas (número de sujetos) de cada combinación de opinión por nivel cultural. A
dichos valores se les denota genéricamente por nij. Don de i representa a las categorías de la variable
representada en las filas y j a las categorías de la variable representada en las columnas. A la Tabla I,
tabla de frecuencias, se le denomina tabla de correspondencias o tabla de contingencia.
Además de las frecuencias para cada combinación de las categorías de las variables en la tabla
aparecen varios totales:
1 2 3 4 Marginal Fila
1 2 3 4 Marginal Fila
Dónde
El análisis clásico de la posible relación entre las variables cualitativas se realiza mediante una prueba
de hipótesis nula. La H 0 : establece que las variables son independientes, la H 1 : establece que las
variables son dependientes. El estadístico de contraste es:
Donde nob son las frecuencias absolutas y nesp las esperadas bajo la H 0 .
El estadístico de contraste se distribuye con (n-1) x (p-1) grados de libertad y se rechaza la hipótesis
nula si p < α. Los residuos tipificados corregidos se calculan con la expresión:
Mediante el test chi-cuadrado se puede comprobar que p < α, en consecuencia se rechaza
la H 0 . (Figura 4. Fuente: Google):
La distribución marginal de las variables es descrita por los perfiles marginales y vienen dados por:
Tabla IV
Perfil Marginal de Fila
n 1 ./N = f 1 .(199/600=0,3317)
n 2 ./N = f 2 . (200/600=0,3333)
n 3 . /N = f 3 . (201/600=0,3350)
Tabla V
F(J/I)
Perfil Marginal de
Bueno Malo Depende No sabe
Fila
F(J/I)
1 1 1 1
Así pues existen dos nubes de puntos: una constituida por n puntos en Rp de coordenadas y
la otra constituida por p puntos en Rn de coordenadas, cuyos puntos están afecta afectados
de masas f i . Y f .j , respectivamente.
Para analizar el parecido de los perfiles-fila podemos construir un gráfico de líneas colocando
en el eje de abscisas la variable opinión (J). De la misma manera, podemos representar los
perfiles-columna colocando en el eje de abscisas el nivel cultural (I) (Figura 5. Fuente:
Google):
Del mismo modo, podemos calcular la matriz de distancias 2 entre los perfiles columna. La
distancia entre las columna 1 y 2 de C viene dada por:
Por la traspuesta de X, la matriz de inercia a partir de las filas viene dada por:
S F =X’ X
Sc=X X’
La suma de la inercia de las filas (traza de la matriz X’X) es igual a la suma de la inercia de las
columnas (traza de la matriz XX’) y la inercia es igual al estadístico 2 dividido por el número
de sujetos N.
Una vez obtenida la matriz de inercia, el ACO es equivalente al ACP. Se obtiene la primera
componente de manera que explique la máxima varianza, la segunda componente de
manera que explique la máxima varianza de la restante y así hasta obtener tantas
componentes como (J-1) (I-1).
El objetivo último de las técnicas factoriales en general es resolver, teniendo en cuenta determinados
criterios, un problema de aproximación de la matriz inicial de datos X, a partir de la que actúa la
respectiva técnica factorial en cada caso, mediante un número menor de valores numéricos. Por
ejemplo, en el ACP y el ACO, no es la matriz bruta inicial de datos sino ciertas matrices transformadas
de ella.
La aproximación tiene lugar mediante matrices de bajo rango, en el contexto del problema general de
obtener la aproximación de una matriz dada (mediante un criterio de mínimos cuadrados). Y ello se
consigue, desde un punto de vista general, mediante la descomposición de valores singulares. En el
AF este problema es resuelto mediante los autovalores-autovectores de X´X y de XX′.
Relaciones baricéntricas.
Tomando un punto como origen, para todo punto P del plano del triángulo ABC, se denota por el
vector con extremo en este punto y, para dos puntos P y Q, se tiene que .
Los escalares están determinados por el punto P y el triángulo ABC. Se dice que x, y,
z son las coordenadas barométricas (absolutas) de P, repecto a ABC y se pone P (x, y, z) (Figura 8.
Fuente: Google):
11.5. INTERPRETACIÓN DE LOS RESULTADOS: CONTRIBUCIONES
ABSOLUTAS Y RELATIVAS
La inercia de un eje α es la suma de las inercias de los puntos fila proyectados en dicho eje, λα =
... o de los puntos columna proyectados en dicho eje, λα = ...
La contribución absoluta de un punto fila o columna a un eje es la cantidad de inercia que aporta
una categoría (un punto fila o columna) a la inercia de un eje.
Las categorías con contribuciones absolutas más altas son las protagonistas en la construcción del eje,
y nos van a servir para interpretar el sentido de los ejes principales.
La contribución relativa nos indica si los puntos están bien representados en los nuevos ejes.
• Los cosenos al cuadrado permiten saber si un punto está bien representado sobre el eje
factorial. La calidad de la representación de un punto sobre el eje será tanto mayor
cuando más próximo a 1 sea el coseno al cuadrado.
La existencia o no de algún tipo de relación entre las variables X e Y se analiza mediante contrastes
de hipótesis sobre la independencia de dichas variables. El test de hipótesis habitualmente utilizado
es el de la χ2 de Pearson. En dicho test la hipótesis nula es H 0 : X e Y son independientes y la
alternativa es H 1 : X e Y son dependientes El test se basa en comparar los perfiles fila y columna con
los perfiles marginales correspondientes, teniendo en cuenta que si H 0 es cierta todos los perfiles fila
(resp. columna) son iguales entre sí e iguales al perfil marginal de X (resp. de Y).
Como mencionamos en el apartado 11.1, mediante el test chi-cuadrado se puede comprobar que p
< α, y en consecuencia rechazar la H 0 .
Si la hipótesis nula se rechaza, las variables X e Y son dependientes. En este caso conviene analizar los
perfiles condicionales fila y columna así como los residuos del modelo para estudiar qué tipo de
dependencia existe entre ellas. Los residuos más utilizados son los llamados residuos tipificados
corregidos:
Los residuos se distribuyen asintóticamente como una N(0,1) la hipótesis H 0 y, a un nivel del 95.5%
de confianza, residuos con un valor absoluto mayor que dos se consideran como valores
anormalmente altos.
Tema 12 - Análisis de Conglomerados
El objetivo es identificar grupos de manera que la variabilidad intra clase sea inferior a la variabilidad
entre clases.
Dado que el objetivo fundamental es realizar una partición de la muestra en grupos similares, el
punto de partida o primera etapa en el AC es una matriz de similaridades o matriz de distancias entre
los sujetos, objetos o variables que queremos agrupar. Partiendo de la matriz de datos original
obtenemos una matriz de similaridades.
Si X es una muestra de m individuos sobre los que medimos p variables, los valores que toman los
individuos para cada variable que se estudia se puede representar en una matriz de datos (Figura 2,
Fuente: Google)
Una vez tenemos la matriz debemos buscar los segmentos o grupos (clusters) en que se pueden
dividir los m individuos de forma que cada individuo pertenezca a un grupo y solamente a uno.
En la Figura 3 se ilustra muy bien como obtenemos una matriz de similaridades a partir de la matriz
de origen.
Es de suponer que si queremos agrupar a los elementos de la muestra en grupos en primer lugar
tenemos que definir que criterio o criterios vamos a utilizar para formar los conglomerados.
• Si se pretende agrupar las variables más parecidas se debe realizar un análisis cluster de
las variables, para ello basta considerar la matriz de datos inicial X'
Para poder unir variables o individuos es necesario tener algunas medidas numéricas que caractericen
las relaciones entre las variables o los individuos. Cada medida refleja asociación en un sentido
particular y es necesario elegir una medida apropiada para el problema concreto que se esté
tratando.
• Cuando se elige una distancia como medida de asociación (por ejemplo, la distancia
euclídea, la distancia "ordinaria" que se mediría con una regla entre dos puntos) los
grupos formados contendrán individuos parecidos de forma que la distancia entre
ellos ha de ser pequeña. La distancia verifica que:
d(x,x) ≥ 0
d(x,y) = 0; x = y
d(x,y) = d(y,x)
S (x,x) = S 0
S (x,y) = S(y,x)
S (x,y) = S 0 ; x = y
Dependiendo del tipo de análisis (por variables o por individuos) que se realiza, existen distintas
medidas de asociación aunque, técnicamente, todas las medidas pueden utilizarse en ambos casos
(Tabla I)
Medida de Jaccard
Medida de Dice
Medida de Rogers-Tanimoto
1. Métodos Jerárquicos. Su objetivo es agrupar cluster para formar uno nuevo o separar
alguno ya existente para dar origen a otros dos de forma que se maximice una medida de
similaridad o se minimice alguna distancia. A su estos pueden ser:
b. Disociativos: Se parte de un solo grupo que contiene todos los casos y a través de
sucesivas divisiones se forman grupos cada vez más pequeños.
Una característica especial de los métodos jerárquicos es que permiten construir un árbol de
clasificación llamado dendograma. Es una representación gráfica en forma de árbol que
resume el proceso de agrupación en un análisis de clusters, muestra: a) qué elementos se
han ido uniendo en cada paso; b) cómo se organizan los casos; y c) cuántos conglomerados
podemos distinguir en los datos. Los objetos similares se conectan mediante enlaces cuya
posición en el diagrama está determinada por el nivel de similitud/disimilitud entre los
objetos. Para crear un dendograma, de partida cada observación es considerada como un
conglomerado independiente (Figura 4A). A continuación se agrupan los dos casos más
próximos entre sí (Figura 4B). Después se agrupan los siguientes casos con menores
distancias entre ellos (Figura 4C). Posteriormente se junta la obs 3 en el cluster 1 (Figura 4D)
y para terminar se unen los dos clusters 1 y 2, quedando un sólo caso desparejado: un outlier
(Figura 4E)
Figura 4
Una vez que se conocen las distancias existentes entre cada dos individuos se observa cuáles
son los individuos más próximos en cuanto a esta distancia o similaridad (qué dos individuos
tienen menor distancia o mayor similaridad). Estos dos individuos forman un grupo que no
vuelve a separarse durante el proceso. Se repite el proceso, volviendo a medir la distancia o
similaridad entre todos los individuos de nuevo (tomando el grupo ya formado como sí de
un solo individuo se tratara) de la siguiente forma:
• Cuando se mide la distancia entre el grupo formado y un individuo, se toma
la distancia mínima de los individuos del grupo al nuevo individuo.
Conocidas las distancias o similaridades existentes entre cada dos individuos se observa
cuáles son los individuos más próximos en cuanto a esta distancia o similaridad (qué dos
individuos tienen menor distancia o mayor similaridad). Estos dos individuos formarán un
grupo que no vuelve a separarse durante el proceso. Posteriormente, se repite el proceso,
volviendo a medir la distancia o similaridad entre todos los individuos de la siguiente forma:
Una desventaja de este método es que la distancia entre dos conglomerados puede
disminuir a medida que progresa el análisis, ya que los conglomerados unidos en los últimos
pasos son más diferentes entre sí que los que se unen en las primeras etapas.
El análisis no jerárquico, a diferencia del análisis jerárquico, parte de la matriz original de las
puntuaciones y no de la matriz de proximidades, y los clusters resultantes no están anidados unos en
otros, sino que son independientes.
Muchos autores consideran que los métodos no jerárquicos son los que mejor se adaptan a los
estudios sociológicos y de mercados caracterizados por el empleo de grandes conjuntos de datos.
Se aconseja su utilización cuando se desea, no tanto analizar la estructura jerárquica de los individuos,
sino conocer el número de grupos construidos y las características de cada uno. En muchas
situaciones conviene realizar el análisis de conglomerados no jerárquico aplicando puntuaciones
factoriales. Una de las ventajas de utilizar puntuaciones factoriales es la facilidad para conseguir que
los datos cumplan los requisitos imprescindibles para utilizar el AC.
Estos métodos calculan en cada etapa las distancias entre los casos y el centroide de los
conglomerados, a diferencia de los métodos jerárquicos que calculan las distancias entre todos los
pares de objetos.
Las diferencias fundamentales entre los clusters jerárquicos y no jerárquicos son (Tabla II):
JERÁRQUICO NO JERÁRQUICO
Llevan a cabo un proceso iterativo, de abajo hacia arriba Poseen algunos índices que indican el número
con (n-1) pasos, partiendo de n grupos para terminar en 1 óptimo de conglomerados.
(aglomerativos).
Entre los métodos no jerárquicos, el más importante es el método K- medias sin especificar los
centros de los conglomerados. Con centros desconocidos, el método K - medias comienza con una
división del conjunto de los datos en (x) grupos configurados al azar y posteriormente busca mejorar
esta primera clasificación reasignando los elementos al centroide del cluster más cercano, tratando de
reducir la distancia media entre cada elemento de un grupo y su centroide.
El proceso de funcionamiento de este método es el siguiente:
2. El siguiente paso trata de reasignar cada caso al agrupamiento más cercano, aquel cuya
distancia al centro de gravedad del conglomerado sea menor. No hay que olvidar que en el
método de K-medias, al formar parte de los métodos de reasignación, un caso asignado a un
conglomerado en una determinada iteración puede ser reasignado a otro caso en una
iteración posterior.
3. Calcula los nuevos centroides de los conglomerados cada vez que se incorpora un nuevo
caso.
Tema 13 - Escalonamiento
Y puede ayudar a determinar por ejemplo, ƒ qué dimensiones utilizan los encuestados a la hora de
evaluar a los objetos; cuántas dimensiones utilizan; la importancia relativa de cada dimensión; cómo
se relacionan perceptualmente los objetos.
Las medidas de semejanza, como una aplicación de valores numéricos que permiten expresar
numéricamente el vínculo existente entre estímulos, son aquí fundamentales. Los conceptos de
similaridad, disimilaridad y distancia, como medidas de semejanza, poseen propiedades específicas
que deben tenerse en cuenta.
El punto de partida es una matriz de disimilaridades entre n objetos, con el elemento δ ij en la fila i y
en la columna j, que representa la disimilaridad del objeto i al objeto j. También se fija el número de
dimensiones, m, para hacer el gráfico de los objetos en una solución particular. Generalmente el
camino que se sigue es:
1. Organizar los n objetos en una configuración inicial en m dimensiones, esto es, suponer
para cada objeto las coordenadas (x 1 , x 2 , ..., x m ) en el espacio de m dimensiones.
2. Calcular las distancias euclidianas entre los objetos de esa configuración, esto es, calcular
las dij, que son las distancias entre el objeto i y el objeto j.
3. Hacer una regresión de d ij , sobre δ ij . Esta regresión puede ser lineal, polinomial o
monótona. Por ejemplo, si se considera lineal se tiene el modelo: d ij = a + b δ ij . . Y utilizando
el método de los mínimos cuadrados se obtienen estimaciones de los coeficientes a y b, y de
ahí puede obtenerse lo que genéricamente se conoce como una “disparidad”.
4. A través de algún estadístico conveniente se mide la bondad de ajuste entre las distancias
de la configuración y las disparidades. Existen diferentes definiciones de este estadístico, pero
la mayoría surge de la definición del llamado índice de esfuerzo (en inglés: STRESS).
5. Las coordenadas (x 1 , x 2 , ..., x m ) de cada objeto se cambian ligeramente de tal manera que
la medida de ajuste se reduzca.
Los pasos del 2 al 5 se repiten hasta que al parecer la medida de ajuste entre las disparidades y las
distancias de configuración no puedan seguir reduciéndose. El resultado final del análisis es entonces
las coordenadas de los n objetos en las m dimensiones. Estas coordenadas pueden usarse para
elaborar un gráfico que muestre cómo están relacionados los objetos. Lo ideal sería encontrar una
buena solución en menos de tres dimensiones, pero esto no es siempre posible.
De modo general, podemos decir que el EMD toma como entrada una matriz de proximidades Δ∈ּ nxn ,
donde n es el número de estímulos. Cada elemento δ ij de Δ representa la proximidad entre el
estímulo i y el estímulo j (Figura 1; Fuente: Google)
A partir de esta matriz de proximidades nos proporciona como salida una matriz X∈ּ nxm , donde n, al
igual que antes, es el número de estímulos, y m es el número de dimensiones. Cada
valor x ij representa la coordenada del estímulo i en la dimensión j (Figura 2; Fuente: Google).
A partir de esta matriz X se puede calcular la distancia existente entre dos estímulos cualesquiera i y j,
simplemente aplicando la fórmula general de la distancia d ij = a + b δ ij .
Existen dos modelos básicos de EMD que son: el modelo de escalamiento métrico y el modelo de
escalamiento no métrico. En el primero de ellos consideramos que los datos están medidos en escala
de razón o en escala de intervalo y en el segundo consideramos que los datos están medidos en
escala ordinal. No se ha desarrollado todavía ningún modelo para datos en escala nominal.
1. No negatividad d ij ≥ 0 = d ii
2. Simetría d ii = d ii
3. Desigualdad triangular d ii ≤ d ik + d kj j
Los dos primeros axiomas son fáciles de cumplir, pero el tercer axioma no se cumple siempre.
Este problema se conoce con el nombre de “estimación de la constante aditiva”. Torgerson
solucionó este problema, estimando el valor mínimo de c que verifica la desigualdad
triangular de la siguiente forma:
Una vez obtenida la matriz D∈M nxn es necesario transformarla en una matriz B∈Mnxn de
productos escalares entre vectores mediante la siguiente transformación (Figura 4 y 5;
Fuente: Google):
Una vez llegados a este punto, lo único que queda es transformar la matriz B∈M nxn en una
matriz X∈ּ nxm tal que B=X·X’, siendo X la matriz que nos da las coordenadas de cada uno de
los n estímulos en cada una de las m dimensiones. Cualquier método de factorización
permite transformar B en X·X’.
δ ij < δ kl ⇒d ij ≤ d kl
Su desarrollo se debe a Shepard (1962) quién demostró que es posible obtener soluciones
métricas asumiendo únicamente una relación ordinal entre proximidades y distancias.
Posteriormente Kruskal (1964) mejoró el modelo.
2) Obtención de una matriz X∈ּ nxm de coordenadas aleatorias, que nos da la distancia
entre los estímulos.
Tanto para el modelo métrico como para el modelo no métrico es necesario obtener un
coeficiente que nos informe sobre la bondad del modelo. Sabemos que las distancias son
una función de las proximidades, es decir:
f: δ ij (x) →d ij (x)
De esta forma se tiene que dij=f(δij). Esto no deja ningún margen de error, sin embargo, en
las proximidades empíricas es difícil que se dé la igualdad, con lo que generalmente ocurre
que dij ≈ f(δij).
Como medida que nos informa de la bondad del modelo podemos utilizar el Stress que
Kruskal definió como (Figura 6; Fuente:Google):
Mientras mayor sea la diferencia entre las disparidades y las distancias, es decir, entre f(δij) y
dij, mayor será el Stress y por tanto peor será el modelo. Por tanto, el Stress no es
propiamente una medida de la bondad del ajuste, sino una medida de la no bondad o
“maldad” del ajuste. Su valor mínimo es 0, mientras que su límite superior para n estímulos es
la raiz cuadrada de 1−(2/ n) .
0.2 → Pobre
0.1 → Aceptable
0.05 → Bueno
0.025 → Aceptable
0.0 → Excelente
También se suele utilizar una variante del Stress que se denomina S-Stress, definida como
(Figura 7; Fuente:Google):
Otra medida que se suele utilizar es el coeficiente de correlación al cuadrado (RSQ), que nos
informa de la proporción de variabilidad de los datos de partida que es explicada por el
modelo. Los valores que puede tomar oscilan entre 0 y 1, al ser un coeficiente de correlación
al cuadrado. Valores cercanos a 1 indican que el modelo es bueno y valores cercanos a 0
indican que el modelo es malo. Su expresión es (Figura 8; Fuente:Google):
La mayoría de los paquetes estadísticos tienen implementados tanto los algoritmos para
obtener soluciones con EMD así como las medidas para determinar si el modelo es adecuado
o no. En la actualidad todo los algoritmos implementados en los paquetes estadísticos son
reiterativos, de forma que se alcance la mejor solución posible.
Bibliografía
BIBLIOGRAFÍA
BLOQUE 1
UNIDAD FORMATIVA 1
UNIDAD FORMATIVA 2
UNIDAD FORMATIVA 3
UNIDAD FORMATIVA 4
• Seber GAF (1984) Multivariante observations. Wiley
BLOQUE 2
UNIDAD FORMATIVA 5
• HAIR JF, TATHAM RL, ANDERSON RE Y BLACK W (1998) Multivariate Data Analysis (5th
Edition). Prentice.
UNIDAD FORMATIVA 6
• Hardin, James W.; Hilbe, Joseph M. (2007), Generalized Linear Models and Extensions,
second edition, Stata Press. United States of America.
UNIDAD FORMATIVA 7
UNIDAD FORMATIVA 8
• CATTIN, P. y WITTINK, D.R. (1.982):"Commercia1 Use of Conjoint Analysis: A Survey".
Journa1 of Marketing.46 (verano), pp. 44-53.
• GREEN, P.E. y RAO, V.R. (1.971):"Conjoint Measurement for Quanti - fying Judgmental
Data". Journa1 of Marketing Research.vol.8 (mayo), pp. 355-363.
• Analysis. The Use of Factor Analysis and Cluster Analysis". Journa1 of Marketing
Research.v o 1. 22 (mayo), pp. 168-184.
• Varela, J., Rial, A. y García, A. (2003). Análisis conjunto. En J. Varela y J. P. Levy (Eds.),
Análisis multivariable para las ciencias sociales (pp. 507-566). Madrid: Pearson
Educación.
BLOQUE 3
UNIDAD FORMATIVA 9
UNIDAD FORMATIVA 11
UNIDAD FORMATIVA 12
UNIDAD FORMATIVA 13
• HAIR, J. F., ANDERSON R.E., TATHAM, R. L., BLACK, W. C. (1999): Análisis Multivariante.
Prentice Hall, Madrid.
Ejercicios
EJERCICIOS
EJERCICIO 1
Dada una muestra aleatoria simple de tamaño tres, se encuentra el resultado x = (2; 7, 3). Si se
obtiene el valor del estadístico Ẋ = 4. Calcular la función de verosimilitud y su logaritmo.
El contenido no debe sobrepasar los 2MB
Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5 días antes de
la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la acción
formativa.
EJERCICIO 2
Se ha llevado a cabo un estudio sobre implantes dentales, y se han comparado dos implantes: A y B.
A cien pacientes se les ha colocado el implante A y a otros 100 pacientes el implante B. Algunos de
los pacientes han mostrado rechazo a sus implantes. Ante tal respuesta, se han buscado factores
asociados con el fracaso de los implantes sin distinguir entre tipos de implantes y añadiendo datos de
otros estudios similares. Los resultados han mostrado las siguientes Odds Ratio, calculados entre las
variables que se especifican a continuación y el fracaso del implante:
Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5 días antes de
la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la acción
formativa.
Solución
EJERCICIO 3
Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5 días antes de
la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la acción
formativa.
Ver solución / contenido oculto
Solución
Si se hace una selección entre las variables originales (las distintas asignaturas) la que consigue una
mejor relación con la variable sexo es la Historia. Es la que mejor separa ambas poblaciones.
Incluso si se hace un Stepwise con todas las variables la variable Historia también es la que se
selecciona como mejor pronosticador.
Las notas bajas de Historia son buenas pronosticadoras de Sexo Hombre. En cambio notas altas de
Historia son buenas pronosticadoras de Sexo mujer.
También se puede optar por combinar las variables (asignaturas), porque quizá una combinación
podría ser más potente que cada variable por separado. Una combinación posible sería unir las
asignaturas por letras y ciencias. Tendríamos así dos componentes de pronóstico. Si aplicamos esta
estrategia obtenemos un resultado similar, las asignaturas de letras, como la Historia por sí sola,
muestran que las notas bajas son buenas pronosticadoras de Sexo Hombre y notas altas son buenas
pronosticadoras de Sexo mujer.
EJERCICIO 4
Una empresa productora de un nuevo refresco está interesada en incrementar sus ventas para lo cual,
diseña una campaña de publicidad basándose en los resultados de una encuesta. La encuesta
constaba una serie de afirmaciones a las que los sujetos contestaban desde 1 (muy en desacuerdo)
hasta 5 (muy de acuerdo). Las cuestiones planteadas en la encuesta fueron:
c. Interpreta y nombra los factores obtenidos. ¿En qué debería incidir la campaña
publicitaria en base a los resultados obtenidos con el análisis factorial?
El contenido no debe sobrepasar los 2MB
Enviar al tutor
El plazo de realización y envío al equipo docente de los ejercicios y casos prácticos deberá realizarlo al menos 5 días antes de
la fecha de fin de convocatoria del curso.
Le recordamos que estos ejercicios y casos prácticos son voluntarios y no repercutirán en la evaluación de la acción
formativa.
Solución
Observamos tres agrupamientos de variables: uno con las variables X 1 , X 2 y X 3 que dan
contenido al factor 1, otro el formado por las variables X 4 , X 5 y X 6 , que dan contenido al factor 2
y otro, el formado por las variables X 7 , X 8 y X 9 que dan contenido al factor 3. En todos los casos
las correlaciones entre variables observadas y factores son positivas.
Al factor 1 lo denominamos: …