M - Spss Analisis Factorial PDF

MANUAL DEL CURSO
SPSS:
ANÁLISIS FACTORIAL Y DE
VARIANZA
ÍNDICE DE CONTENIDOS
CAPÍTULO 1: ANÁLISIS DE VARIANZA DE UN FACTOR
1.1 ANÁLISIS DE VARIANZA DE UN FACTOR.............................................................1

1.2 RESULTADOS DE LA MUESTRA ..........................................................................2
1.3 PARA OBTENER UN ANÁLISIS DE VARIANZA DE UN FACTOR ..................................4
1.4 ANOVA DE UN FACTOR: CONTRASTE .................................................................4
1.5 ANOVA DE UN FACTOR: CONTRASTES POST HOC ................................................5
1.6 ANOVA DE UN FACTOR: OPCIONES ...................................................................6
CAPÍTULO 2: MLG ANÁLISIS UNIVARIANTE
2.1 OBTENER UN ANÁLISIS MLG UNIVARIANTE.........................................................8

2.2 MLG: MODELO ...............................................................................................9
2.2.1 CONSTRUIR LOS TÉRMINOS .............................................................................9
2.2.2 SUMA DE CUADRADOS .................................................................................. 10
2.2.3 MLG UNIVARIANTE: CONTRASTES ................................................................... 11
2.3 MLG UNIVARIANTE: GRÁFICOS DE PERFIL ........................................................ 11
2.4 MLG UNIVARIANTE: COMPARACIONES MÚLTIPLES POST HOC PARA LAS MEDIAS
OBSERVADAS .............................................................................................. 12
2.5 MLG: GUARDAR ........................................................................................... 14
2.6 MLG UNIVARIANTE: OPCIONES ....................................................................... 15
2.7 FUNCIONES ADICIONALES DE LOS COMANDOS UNIANOVA ................................. 17
2.8 PARA OBTENER UN ANÁLISIS FACTORIAL ......................................................... 19
2.8.1 SELECCIÓN DE CASOS EN EL ANÁLISIS FACTORIAL ........................................... 19
2.9 ANÁLISIS FACTORIAL: DESCRIPTIVOS ............................................................. 20
2.10 ANÁLISIS FACTORIAL: EXTRACCIÓN................................................................ 21
2.11 ANÁLISIS FACTORIAL: ROTACIÓN ................................................................... 21
2.12 ANÁLISIS FACTORIAL: PUNTUACIONES FACTORIALES ........................................ 22
2.13 ANÁLISIS FACTORIAL: OPCIONES ................................................................... 23
2.14 EJEMPLO ..................................................................................................... 23
2.14.1 RESULTADOS............................................................................................... 26
CAPÍTULO 3: ANÁLISIS DE CONGLOMERADOS JERÁRQUICO
3.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS JERÁRQUICO ........................ 32

3.2 ANÁLISIS DE CONGLOMERADOS JERÁRQUICO: MÉTODO .................................... 32
3.3 ANÁLISIS DE CONGLOMERADOS: ESTADÍSTICOS .............................................. 34
3.4 ANÁLISIS DE CONGLOMERADOS JERÁRQUICO: GRÁFICOS .................................. 35
3.5 ANÁLISIS DE CONGLOMERADOS: GUARDAR VARIABLES NUEVAS ......................... 35
3.6 EJEMPLO ..................................................................................................... 36
3.6.1 PLANTEAMIENTOS PREVIOS ........................................................................... 36
3.6.2 APROXIMACIÓN INICIAL................................................................................ 37
3.6.3 PRIMER ANÁLISIS: DISTANCIA EUCLÍDEA AL CUADRADO Y VINCULACIÓN INTER-
GRUPOS ..................................................................................................... 38
3.6.4 SEGUNDO ANÁLISIS: DISTANCIA EUCLÍDEA AL CUADRADO Y VECINO MÁS
PRÓXIMO .................................................................................................... 44
Manual de SPSS: Análisis Factorial y de Varianza I

CAPÍTULO 4: ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS
4.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS ....................... 48

4.2 EFICACIA DEL ANÁLISIS DE CONGLOMERADOS DE K – MEDIAS ........................... 48
4.3 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: ITERAR ..................................... 49
4.4 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: GUARDAR.................................. 49
4.5 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: OPCIONES ................................. 50
4.6 EJEMPLO ..................................................................................................... 50
4.7 VENTAJAS DEL ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS............................. 55
CAPÍTULO 5: ANÁLISIS DE CORRESPONDENCIA
5.1 OBTENER UN ANÁLISIS DE CORREPONDENCIA .................................................. 57

5.1.1 DEFINIR EL RANGO DE LAS FILAS ................................................................... 57
5.1.2 DEFINIR EL RANGO DE LAS COLUMNAS............................................................ 58
5.2 ANÁLISIS DE CORRESPONDENCIA: MODELO..................................................... 59
5.3 ANÁLISIS DE CORRESPONDENCIA: ESTADÍSTICOS ............................................ 61
5.4 ANÁLSIS DE CORRESPONDENCIA: GRÁFICOS.................................................... 62
5.5 FUNCIONES ADICIONALES DEL COMANDO CORRESPONDENCE ............................ 62
Manual de SPSS: Análisis Factorial y de Varianza II

CAPÍTULO 1: ANÁLISIS DE VARIANZA
DE UN FACTOR
1.1 ANÁLISIS DE VARIANZA DE UN FACTOR
El procedimiento ANOVA de un factor genera u90

n análisis de varianza de un factor para una variable dependiente cuantitativa respecto a una
única variable de factor (la variable independiente). El análisis de varianza se utiliza para
contrastar la hipótesis de que medias son iguales. Esta técnica es una extensión de la Prueba t
para dos muestras.
Además de determinar que existen diferencias entre las medias, es posible que desee saber
qué medias difieren. Existen dos tipos de contrastes para comparar medias: los contrastes a
priori y las pruebas post hoc.
Los contrastes a priori se plantean antes de ejecutar el experimento y las pruebas post hoc se
realizan después de haber llevado a cabo el experimento. También se puede contrastar las
tendencias existentes a través de las categorías.
Ejemplo. Nos presentan datos para tres tratamientos contra el acné, de tres doctores
distintos. La primera variable nos describe el porcentaje de mejoras, y la segunda el doctor
que trató al paciente. Se desea saber si el tratamiento que se reciba influye en las mejoras.
Por otro lado, los doctores Rodríguez y Júcar pertenecen a una asociación de dermatólogos
altamente selectiva. Queremos saber si existen diferencias entre los doctores pertenecientes a
dicha asociación con respecto al tercer doctor, el doctor Skoll.
Estadísticos.
Para cada grupo:
Número de casos
Media
Desviación típica
Error típico de la media
Mínimo
Máximo
Intervalo de confianza al 95% para la media
Prueba de Levene sobre la homogeneidad de las varianzas
Tabla de análisis de varianza para cada variable dependiente
Contrastes a priori especificados por el usuario
Manual de SPSS: Análisis Factorial y de Varianza 1

Las pruebas de rango y de comparaciones múltiples post hoc: Bonferroni, Sidak,
diferencia honestamente significativa de Tukey, GT2 de Hochberg, Gabriel, Dunnet,
prueba F de Ryan-Eniot-Gabriel- Welchs (R-E-G-W F), prueba de rango de Ryan-Eniot-
Gabriel-Welchs (R-E-G-W Q), T2 de Tamhane, T3 de Dunnet, Games-Howell, C de
Dunett, prueba de rango múltiple de Duncan, Student-Newman- Keuls (S-N-K), Tukey b,
Waller-Duncan, Scheffé y diferencia menos significativa.
Datos. Los datos de variable de factor deben ser enteros y la variable dependiente
debe ser cuantitativa (nivel de medida de intervalo).
Supuestos. Cada grupo es una muestra aleatoria independiente procedente de una
población normal. El análisis de varianza es robusto a las desviaciones de la normalidad,
aunque los datos deberán ser simétricos. Los grupos deben proceder de las poblaciones
con varianzas iguales. Para contrastar este supuesto utilizamos la prueba de Levene de
homogeneidad de varianzas.
1.2 RESULTADOS DE LA MUESTRA
A continuación, vemos un ejemplo de resultados de un contraste ANOVA.
Una serie de descriptivos para cada valor del factor:
La prueba de homogeneidad:
El contraste ANOVA, que en este caso resulta significativo

Un contraste Post Hoc (Dunnet) de las diferencias de medias agrupadas:
Un gráfico de las medias para cada valor del factor.

1.3 PARA OBTENER UN ANÁLISIS DE VARIANZA DE UN FACTOR
Vamos al menú Analizar - Comparar medias - ANOVA de un factor...
Obtenemos el cuadro de dialogo ANOVA de un factor
Seleccionamos una o más variables dependientes

Seleccionamos una sola variable de factor independiente.
1.4 ANOVA DE UN FACTOR: CONTRASTE
Si hacemos clic sobre el botón Contrastes, obtenemos el siguiente cuadro de diálogo:
Podemos dividir las sumas de cuadrados inter-grupos en componentes de tendencia o

especificar c ontrastes a priori.
Polinómico. Divide las sumas de cuadrados inter-grupos en componentes de

tendencia. Puede contrastar la existencia de tendencia en la variable dependiente a
través de los niveles ordenados de la variable de factor. Por ejemplo, podría contrastar
si existe una tendencia lineal (creciente o decreciente) en el salario, a través de los
niveles ordenados de la titulación mayor obtenida.
Orden. Se puede elegir un orden polinómico 1º, 2º, 3º, 4º o 5º.
Coeficientes. Contrastes a priori, especificados por el usuario, que serán contrastados
mediante el estadístico t. Introduzca un coeficiente para cada grupo (Categoría) de la
variable factor y pulse en Añadir después de cada entrada. Cada nuevo valor se añade
al final de la lista de los coeficientes. Para especificar conjuntos de contrastes
adicionales, pulse en Siguiente y Previo para desplazarse entre los conjuntos de
contrastes.
El orden de los coeficientes es importante porque se corresponde con el orden ascendente de

los valores de las categorías de la variable de factor. El primer coeficiente en la lista se
corresponde con el menor de los valores del grupo en la variable factor y el ultimo coeficiente
se corresponde con el valor más alto.
Por ejemplo, si existen seis categorías en la variable factor, los coeficientes -1, 0, 0, 0, 0,5 y
0,5 contrastan con el primer grupo con los grupos quinto y sexto. Para la mayoría de las
aplicaciones, la suma de los coeficientes debería ser 0. Los conjuntos que no sumen 0 también
se pueden utilizar, pero aparecerá un mensaje de advertencia.
1.5 ANOVA DE UN FACTOR: CONTRASTES POST HOC
Si hacemos clic sobre el botón Post Hoc, obtenemos el siguiente cuadro de diálogo:
Pruebas: Una vez que se ha determinado que existen diferencias entre las medias, las
pruebas de rango post hoc y las comparaciones múltiples por parejas permiten
determinar qué medias difieren.
Las pruebas de rango identifican subconjuntos homogéneos de medias que no se diferencian

entre sí, las comparaciones múltiples por parejas contrastan la diferencia entre cada pareja de
medias y dan lugar a una matriz donde los asteriscos indican las medias de grupo diferentes a
un nivel alfa de 0,05.
La prueba de la diferencia significativa de Tukey, la GT2 de Hochberg, la prueba de Gabriel y la

prueba de Schefflé son pruebas de comparación múltiples y pruebas de rango. Otras pruebas
de rango disponibles son Tukey b, S-N-K, Duncan, R-E-G-W F, y Waller-Duncan. Las pruebas
de comparación múltiples disponibles son Bonferroni.
Las pruebas de comparaciones múltiples que no suponen varianzas iguales son T2 de

Tamhane, T3 de Dunnett, Games-Howell y C de Dunnett.

1.6 ANOVA DE UN FACTOR: OPCIONES
Hacemos clic sobre el botón Estadísticos:
Estadísticos: Elija uno entre los siguientes:
Descriptivos: Calcula los siguientes estadísticos: Números de casos, Media, Desviación

típica, Error típico de la media, Mínimo, Máximo y los Intervalos de confianza al 95% de
cada variable dependiente para cada grupo.
Homogeneidad de varianzas: Calcula el estadístico de Levene para contrastar la
igualdad de las varianzas de grupo. Esta prueba no depende del supuesto de
normalidad. Gráfico de medias: Muestra un gráfico que representa las medias de los
subgrupos.
Valores perdidos: Controla el tratamiento de los valores perdidos.
Excluir casos según análisis: Un caso que tenga un valor perdido para la variable
dependiente o la variable de factor en un análisis determinado, no se utiliza en ese
análisis.
Excluir según lista: Se excluyen de todos los casos con valores perdidos para la
variable de factor o para cualquier variable dependiente incluida en la lista de variables
dependientes en el cuadro de diálogo principal. Si no se especifican varias variables
dependientes, esta opción no funciona.

CAPÍTULO 2: MLG ANÁLISIS
UNIVARIANTE
El procedimiento MLG Univariante proporciona un análisis de regresión y un análisis de

varianza para una variable dependiente mediante uno o más factores o variables. Las variables
de factor dividen la población en grupos. Con el procedimiento Modelo Lineal general se
pueden contrastar hipótesis nulas sobre los efectos de otras variables en las medias de varias
agrupaciones de una única variable dependiente.
Se pueden investigar las interacciones entre los factores así como los efectos de los factores
individuales, algunos de los cuales pueden ser aleatorios. Además se pueden incluir los efectos
de las covariables y las interacciones de covariables con los factores. Para el análisis de
regresión, las variables independientes se especifican como covariables.
Se pueden contrastar tanto los modelos equilibrados como los no equilibrados. Se considera
que un diseño está equilibrado si cada casilla del modelo contiene el mismo número de casos.
Además de contrastar hipótesis, MLG Univariante genera estimaciones de los parámetros.
También se encuentran disponibles los contrastes a priori de uso más habitual para contrastar
la hipótesis. Además, si una prueba F global ha mostrado cierta significación, pueden
emplearse las pruebas post hoc para evaluar las diferencias entre las medias específicas. Las
medias marginales estimadas ofrecen estimaciones de valores de las medias pronosticadas
para las casillas del modelo; los gráficos de perfil de estas medias permiten observar
fácilmente alguna de estas relaciones.
En su archivo de datos puede guardar residuos, valores pronosticados, distancia de Cook y

valores de influencia como variables nuevas para comprobar los supuestos.
Ejemplo: se recogen datos de los corredores individuales en el maratón de Chicago

durante varios años. El tiempo final de cada corredor es la variable dependiente.
Influyen otros factores como el clima (frío, calor o temperatura agradable), los meses
de entrenamiento, el número de maratones anteriores y el sexo. La edad se considera
una covariable.
Métodos: Las sumas de cuadrados de Tipo I, Tipo II, Tipo III y Tipo IV pueden
emplearse para evaluar las diferentes hipótesis. Tipo III es el valor por defecto.
Estadísticos: Las pruebas de rango post hoc y las comparaciones múltiples: diferencia
menos significativa, Bonferroni, Sidak, Scheffle, múltiples F de Ryan-Einot-Gabriel-
Welsch, diferencia significativa de Turkey b, pruebas t de Waller Duncan, Dunett, T2 de
Tamhane, T3 de Dunnett, Games-Howell y C de Dunnett. Estadísticos descriptivos:
medias observadas, desviaciones típicas y frecuencias de todas las variables
dependientes en todas las casillas. Prueba de Levene para la homogeneidad de
varianzas.
Gráficos: Diagramas de dispersión por nivel, gráficos de residuos, gráficos de perfil.
Datos: La variable dependiente es cuantitativa. Los factores son categóricos; pueden
tener valores numéricos o valores de cadena de hasta ocho caracteres. Las covariables
son variables cuantitativas que están relacionadas con la variable dependiente.
Supuestos: Los datos son una muestra aleatoria de una población normal; en la
población todas las varianzas de las casillas son iguales. El análisis de varianza es
robusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos.
Para comprobar los supuestos, se puede utilizar la prueba de homogeneidad de varianzas y los
gráficos de dispersión por nivel. También se puede examinar los residuos y los gráficos de
residuos.
2.1 OBTENER UN ANÁLISIS MLG UNIVARIANTE
Vamos al menú Analizar - Modelo lineal general - Univariante.
Seleccionamos la variable dependiente.

Seleccionamos variables para factores fijos, factores aleatorios y covariables, en función
de los datos.
Para especificar una variable de ponderación, utilizamos Ponderación MCP.

2.2 MLG: MODELO
Hacemos clic ahora sobre el botón Modelo y obtenemos el siguiente cuadro de diálogo:
Especificar modelo: Un modelo factorial completo contiene todos los efectos

principales del factor, todos los efectos principales de covariables y todas las
interacciones factor por factor. No contiene interacciones de covariable. Seleccionamos
Personalizado para especificar solo un subconjunto de interacciones o para especificar
interacciones factor por covariable. Debemos indicar todos los términos que queremos
incluir en el modelo.
Factores y covariables: Muestra una lista de los factores y las covariables etiquetando
con (F) los factores fijos y con ( C ) las covariables. En un análisis univariante, (R)
indica un factor aleatorio.
Modelo: El modelo depende de la naturaleza de los datos. Después de seleccionar
Personalizado, podemos elegir los efectos principales y las interacciones que sean de
interés para el análisis.
Suma de cuadrados: Determina el método para calcular las sumas de los cuadrados.
Para los modelos equilibrados o no equilibrados con todas las casillas. El método más
utilizado de suma de cuadrados es el Tipo III.
Incluir la intersección en el modelo: La intersección se incluye normalmente en el
modelo.
2.2.1 CONSTRUIR LOS TÉRMINOS
Para las covariables y los factores seleccionados:
Interacción: crea el término de interacción de mayor nivel de todas las variables

seleccionadas, este es el valor por defecto.
Efectos principales: crea un término de efectos principales para cada variable
seleccionada.
Todas de 2: crea todas las interacciones dobles posibles de las variables seleccionadas.
Todas de 3: crea todas las interacciones triples posibles de las variables seleccionadas.
Todas de 4: crea todas las interacciones cuádruples posibles de las variables
seleccionadas.
Todas de 5: crea todas las interacciones quíntuples posibles de las variables
seleccionadas.
2.2.2 SUMA DE CUADRADOS
Tipo I: este método también es conocido como descomposición jerárquica del método
de suma de cuadrados. Cada término se corrige solo respecto al término que le precede
en el modelo.
Se utiliza normalmente para:
Un modelo ANOVA equilibrado en el que se especifica cualquier efecto principal

antes de cualquier efecto de interacción de primer orden, cualquier efecto de
interacción de primer orden se especifica antes de cualquier efecto de interacción
de segundo orden y así sucesivamente.
Un modelo de regresión polinómico en el que se especifica cualquier termino de
orden inferior antes de cualquier término de orden superior.
Un modelo anidado en el que el primer efecto especificado esta anidado dentro
del segundo efecto especificado, el segundo está anidado al tercero y así
sucesivamente. Esta forma de anidación solamente se puede especificar
utilizando la sintaxis.
Tipo II: este método calcula cada suma de cuadrados del modelo considerando solo los
efectos pertinentes. Un efecto pertinente es un efecto que no está contenido en el
efecto examinado. Se utiliza normalmente para:
Un modelo ANOVA equilibrado

Cualquier método que solo tenga efectos de factor principal
Cualquier modelo de regresión
Un diseño anidado
Tipo III: es el método por defecto. Este método calcula las sumas de cuadrados de un
efecto del diseño como las sumas de cuadrados corregidas respecto a cualquie r otro
efecto que no lo contenga y ortogonales para cualquier efecto que lo contenga.
La suma de cuadrados de Tipo III, tiene una gran ventaja por ser invariables respecto a la
frecuencia de casillas, siempre que la forma general de estimabilidad permanezca constante.
En un diseño factorial sin casillas perdidas, este método equivale a la técnica de cuadrados
ponderados de medias de Yates.
Se utiliza normalmente para:
Cualquiera de los modelos que aparecen en Tipo I y Tipo II

Cualquier modelo equilibrado o desequilibrado sin casillas vacías
Tipo IV: este método está diseñado para una situación en la que faltan casillas. Para
cualquier efecto F en el diseño. Si F no está contenida en cualquier otro efecto,
entonces Tipo IV = Tipo III = Tipo II. Cuando F está contenida en otros efectos, el tipo
IV distribuye equitativamente los contrastes que se realizan entre los parámetros en F a
todos los efectos de nivel más alto. Se utiliza normalmente para:
Cualquiera de los métodos que aparecen en Tipo I y Tipo II

Cualquier modelo equilibrado o no equilibrado con casillas vacías

2.2.3 MLG UNIVARIANTE: CONTRASTES
Hacemos clic sobre el botón Contrastes y obtenemos el siguiente cuadro de diálogo:
Los contrastes se utilizan para contrastar las diferencias entre los niveles de un factor. Puede
especificar un contraste para cada factor en el modelo. Los contrastes representan las
combinaciones lineales de los parámetros.
El contraste de hipótesis se basa en la hipótesis nula LB = 0, donde L es la matriz de

coeficientes de contraste y B es el vector de parámetros. Cuando se especifica un contraste,
SPSS crea una matriz L en la que las columnas correspondientes al factor coinciden con el
contraste.
El resto de las columnas se corrigen para que la matriz L sea estimable.
Los resultados incluyen un estadístico F para cada conjunto de contrastes.

Los contrastes disponibles son de desviación, de diferencias, de Helmert, repetidos y
polinómicos.
Tipos de contrastes:
Desviación: compara la media de cada nivel con la me dia de todos los niveles
Simple: compara la media de cada nivel con la media de un nivel especificado
Diferencia: compara la media de cada nivel con los niveles anteriores.
Helmert: compara la media de cada nivel del factor con la media de los niveles
siguientes.
Repetida: compara la media de cada nivel, excepto el último, con la media del
nivel siguiente.
Polinómico: compara el efecto lineal, cuadrático, cúbico, etc.
2.3 MLG UNIVARIANTE: GRÁFICOS DE PERFIL
Hacemos clic sobre el botón Gráficos y obtenemos el siguiente cuadro de diálogo:

Los gráficos de perfil (gráficos de interacción) sirven para comparar las medias marginales en
el modelo.
Un gráfico de perfil es un gráfico de líneas en el que cada punto indica la media marginal
estimada de una varia ble dependiente (corregida respecto a las covariables) en un nivel de un
factor. Los niveles de un segundo factor se pueden utilizar para generar líneas diferentes. Cada
nivel en un tercer factor se puede utilizar para generar un gráfico diferente.
Todos los factores fijos y aleatorios, si existen, están disponibles para los gráficos.
Para los análisis multivariados, los gráficos de perfil se crean para cada variable dependiente.
En un análisis de medidas repetidas, es posible utilizar tanto los factores inter-sujetos como los
intra-sujetos en los gráficos de perfil.
Las opciones MLG-Multivariante y MLG- Medidas repetidas solo estarán disponibles si tiene
instalada la opción Modelos avanzados.
Un gráfico de perfil de un factor muestra si las medias marginales estimadas aumentan o

disminuyen a través de los niveles.
Para dos o más factores, las líneas paralelas indican que no existe interacción entre los
factores, lo que significa que puede investigar los niveles de un único factor. Las líneas no
paralelas indican un la interacción.
Después de especificar un gráfico mediante la selección de los factores del eje horizontal y, de
modo opcional, los factores para distintas líneas y gráficos.
2.4 MLG UNIVARIANTE: COMPARACIONES MÚLTIPLES POST HOC PARA LAS

MEDIAS OBSERVADAS
Hacemos clic sobre el botón Post Hoc y obtenemos el siguiente cuadro de diálogo:

Comparaciones múltiples post hoc. Una vez establecido que existen diferencias entre las
medias, las pruebas de rango post hoc y las comparaciones múltiples por parejas permiten
determinar que medias difieren. Las comparaciones se realizan entre valores sin corregir.
Estas pruebas solo se utilizan solo para los factores inter-sujetos fijos. En MLG Medidas
repetidas, estas pruebas no estarán disponibles si no hay factores inter-sujetos.
Para MLG Multivariante y MLG Medidas repetidas, si hay más de una variable dependiente, las
pruebas post hoc se realizan por separado para cada variable dependiente. Los procedimientos
MLG Multivariable y MLG Medidas repetidas solo estarán disponibles si se ha instalado la opción
Estadísticas Avanzadas.
En las pruebas de Bonferroni y de la diferencia honestamente significativa de Tukey se usan

normalmente pruebas de comparaciones múltiples. La prueba de Bonferroni, basada en el
estadístico t de Student, corrige el nivel critico por el hecho de que se realizan comparaciones
múltiples. La Prueba t de Sidaktambién ajusta el nivel de significación y ofrece limites más
rígidos que la prueba de Bonferroni.
La prueba de la diferencia honestamente significativa de Tukey utiliza el estadístico de rango

estudentizado para hacer todas las comparaciones de pares entre los grupos y calcula el
porcentaje de error del experimento en relación con el porcentaje de error de todas las
comparaciones por pares. Cuando se contrasta un gran numero de parejas de medias, la
prueba de la diferencia honestamente significativa de Tukey es mas potente que la prueba de
Bonferroni. Para una pequeña cantidad de pares, Bonferroni es más idóneo.
GT2 de Hochberg es muy parecido a la prueba de la diferencia honestamente significativa de

Tukey, pero se usa el modulo máximo estudentizado. Normalmente, la prueba de Tukey es
mas potente. La prueba de comparación por parejas de Gabriel también utiliza el modulo
máximo estudentizado y es, por lo general, más potente que la GT2 De Hochberg cuando los
tamaños de las casillas son desiguales. La prueba de Gabriel se puede transformar en liberal
cuando los tamaños de las casillas varían mucho.
La prueba t para la comparación múltiple por pares de Dunnet compara un conjunto de

tratamientos con una media de control simple. La ultima categoría es la categoría de control
por defecto. Si lo desea puede seleccionar la primera categoría. Además, puede elegir una
prueba unilateral o bilateral. Para comprobar que la media de cualquier nivel, salvo la
categoría de control, del factor no es igual a la de la categoría de control use una prueba

bilateral. Para contrastar si la media en cualquier nivel del factor es menor que la de la
categoría de control, seleccione <Control. De la misma forma, para probar si la media de
cualquier nivel de factor es mayor que la de la categoría de control, seleccione >Control.
Ryan, Einot, Gabriel y Welsch (R-E-G-W) desarrollaron dos pruebas de rangos múltiples por
pasos. Los procedimientos múltiples por pasos comparan en primer lugar si las medias son
todas iguales. Si no son iguales, se contrasta la igualdad en subconjuntos de medias. R-E-G-W
F se basa en una prueba F y R-E-G-W Q se basa en el rango estudentizado.
Estas pruebas funcionan mejor que las de los rangos múltiples de Duncan y de Student-
Newman- Keuls, que también son procedimientos múltiples por pasos, pero que no son
recomendables si los tamaños de las casillas son desiguales.
Cuando las varianzas no son iguales, usaremos el T2 de Tamhane, una prueba conservadora
de comparaciones por parejas basada en una prueba t, el T3 de Dunnet, prueba de
comparaciones por parejas basada en el modulo máximo estudentizado, prueba de
comparaciones por parejas de Games - Howell o C de Dunnett (prueba de comparaciones por
parejas basada en el rango estudentizado).
La prueba de rangos múltiples de Duncan, la de Student – Newman – Keuls (S-N-K), y la b de

Tukey son pruebas de rangos que asignan rangos a medias de grupo y calculan un valor de
rango. Estas pruebas no se utilizan con tanta frecuencia como las pruebas explicadas
anteriormente.
La prueba t de Waller – Duncan utiliza una aproximación Bayesiana. Esta prueba de rango
emplea la media armónica del tamaño de la muestra cuando los tamaños de la prueba no son
iguales.
El nivel de significación de la prueba de la prueba de Scheffé esta pensado para permitir todas
las combinaciones lineales posibles de las medias de grupo que se van a contrastar, no solo las
comparaciones por parejas en esta función. El resultado es que la prueba de Scheffé es, por lo
general, más conservadora que otras pruebas, lo que significa que se precisa una mayor
diferencia entre las medias para la significación.
La prueba de comp araciones múltiples por parejas de la diferencia menos significativa (DMS)
es equivalente a múltiples pruebas t individuales entre todas las parejas de grupos. La
desventaja de esta prueba es que no se realiza ninguno intento de rectificar el nivel critico
para realizar las comparaciones múltiples.
Pruebas que se muestran: Se proporcionan comparaciones por parejas para DMS, Sidak,
Bonferroni, Games y Howell, T2 y T3 de Tamhane, C y T3 de Dunnett. También se facilitan
subconjuntos homogéneos para las pruebas de rango para S-N-K, Tukey-b. Duncan, R-E-G-W
F, R-E-G-W Q y Waller. La prueba de la diferencia honestamente significativa de Tukey, GT2 de
Hochberg, la prueba de Gabriel y la prueba de Scheffé son tanto pruebas de comparaciones
múltiples como de rango.
2.5 MLG: GUARDAR
Hacemos clic sobre el botón Guardar y aparece el siguiente cuadro de diálogo:

Es posible guardar los valores pronosticados por el modelo, los residuos y las medidas
relacionadas como variables nuevas en el Editor de datos.
Muchas de estas variables las podemos utilizar para examinar supuestos sobre los datos. Si
queremos almacenar los valores para utilizarlos posteriormente en otra sesión de SPSS, los
guardaremos en el archivo de datos actual.
Valores pronosticados. Son los valores que predice el modelo para ada caso. Están
disponibles los valores pronosticados no tipificados y los errores tipificados de los
valores pronosticados. Si hemos seleccionado una variable MCP (WLS), dispondremos
además de la opción de valores pronosticados no tipificados ponderados.
Diagnósticos. Son medidas para identificar casos con combinaciones poco habituales
de valores para las variables independientes y casos que puedan tener un gran impacto
en el modelo. Las opciones disponibles incluyen la Distancia de Cook y los valores de
influencia no centrados.
Residuos. Un residuo no tipificado es el valor real de la variable dependiente menos el
valor pronosticado por el modelo. También se encuentran disponibles residuos
eliminados, estudentizados y tipificados. Si hemos seleccionado una variable MCP,
contaremos asimismo con residuos no tipificados ponderados.
Guardar en archivo nuevo. Graba un archivo de datos de SPSS que contiene una
matriz de varianza-covarianza de las estimaciones de los parámetros del modelo.
Asimismo, para cada variable dependiente habrá una fila de estimaciones de los
parámetros, una fila de valores de significación para los estadísticos t correspondientes
a las estimaciones de los parámetros y una fila de grados de residuos de libertad. En un
modelo multivariado, existen filas similares para cada variable dependiente.
Si lo desea, puede usar este archivo matricial en otros procedimientos que lean un archivo
matricial de SPSS.
2.6 MLG UNIVARIANTE: OPC IONES
Hacemos clic sobre el botón Opciones y aparece el siguiente cuadro de diálogo:

Este cuadro de dialogo contiene estadísticos opcionales. Los estadísticos se calculan utilizando
un modelo de efectos fijos.
Medias marginales estimadas. Seleccionamos los factores e interacciones

para los que deseamos obtener estimaciones de las medias marginales de la
población en las casillas. Estas medias se corrigen respecto a las covariables si
las hay.
Comparar los efectos principales. Proporciona comparaciones por parejas no
corregidas entre las medias marginales estimadas para cualquier efecto principal
del modelo, tanto para los factores inter-sujetos como para los intra-sujetos.
Este elemento solo se encuentra disponible si los efectos principales están
seleccionados en las lista Mostrar las medias para.
Ajuste del intervalo de confianza. Seleccione un ajuste de diferencia menor
significativa (DMS), Bonferroni o Sidak para los intervalos de confianza y la
significación. Este elemento solo aparece si se selecciona Comparar los efectos
principales.
Mostrar. Seleccionamos Estadísticos descriptivos para generar medias
observadas, desviaciones típicas y recuentos para cada variable dependiente en
todas las celdas. La opción Estimaciones de tamaño del efecto ofrece un valor
parcial de eta-cuadrado para cada efecto y cada estimación de parámetros. El
estadístico eta-cuadrado describe la proporción de variabilidad total atribuible a
un factor. Seleccionamos Potencia observada para obtener la potencia de la
prueba cuando la hipótesis alternativa se ha establecido basándose en el valor
observado.
Seleccionamos estimaciones de los parámetros para generar las estimaciones de los

parámetros, los errores típicos, las pruebas t, los intervalos de confianza y la potencia
observada para cada prueba.
Seleccionamos Matriz de coeficientes de contraste para obtener la matriz L.
Las Pruebas de homogeneidad generan las pruebas de homogeneidad de varianzas de
Levene para cada variable dependiente en todas las combinaciones de nivel de los
factores inter-sujetos y solo para factores inter-sujetos.
Las opciones de diagramas de dispersión por nivel y gráfico de los residuos son útiles para
comprobar los supuestos sobre los datos. Estos elementos no estuvieran activos si no hay
factores. Seleccione Gráfico de los residuos para producir un gráfico de los residuos
observados respecto a los pronosticados respecto a los tipificados para cada variable
dependiente. Estos gráficos son útiles para investigar el supuesto de las varianzas iguales.
Seleccionamos Falta de Ajuste para comprobar si el modelo puede describir de forma adecuada
la relación entre la variable dependiente y las variables independientes. La Función estimable
general permite construir pruebas de hipótesis personales basadas en la función estimable
general. Las filas en las matrices de coeficientes de contraste son combinaciones lineales de la
función estimable general.
Nivel de significación. Puede que nos interese corregir el nivel de significación usado
en las pruebas post hoc y el nivel de confianza empleado para construir intervalos de
confianza. El valor especificado también se utilizara para calcular la potencia observada
para la prueba. Si especificamos un nivel de significación, el cuadro de dialogo mostrará
el nivel asociado de los intervalos de confianza.
2.7 FUNCIONES ADICIONALES DE LOS COMANDOS UNIANOVA
El lenguaje de comandos SPSS también permite:
Especificar efectos anidados en el diseño (utilizando el subcomando DESIGN)

Especificar contrastes de los efectos frente a una combinación lineal de efectos o un
valor (Utilizando el subcomando TEST)
Especificar contrastes múltiples (utilizando el subcomando CONTRAST)
Incluir los valores perdidos por el usuario (utilizando el subcomando MISSING)
Especificar criterios EPS (mediante el subcomando CRITERIA)
Construir:
Una matriz L, una matriz M o una matriz K personalizada (utilizando los

subcomandos LMATRIX, MMATRIX y KMATRIX).
Especificar una categoría de referencia intermedia (utilizando el subcomando

CONTRAST).
Especificar término de error para las comparaciones post hoc (utilizando el subcomando
POST HOC)
Calcular medias marginales estimadas para cualquier factor o interacción entre los
factores en la lista de factores (utilizando el subcomando EMMEANS).
Especificar nombres para las variables temporales (utilizando el subcomando SAVE)
Construir un archivo de datos matricial de correlaciones ( usando el subcomando
OUTFILE)
Construir un archivo de datos matricial que contenga estadísticos de la tabla de ANOVA
inter-sujetos (usando el subcomando OUTFILE).
Guardar la matriz del diseño en un nuevo archivo de datos ( usando el subcomando
OUTFILE).

ANÁLISIS FACTORIAL
El análisis factorial intenta identificar variables subyacentes, o factores, que expliquen la

configuración de las correlaciones dentro de un conjunto de variables observadas. El análisis
factorial se suele utilizar en la reducción de los datos para identificar un pequeño número de
factores que explique la mayoría de la varianza observada en un número mayor de variables
manifiestas. También puede utilizarse para generar hipótesis relacionadas con los mecanismos
causales o para inspeccionar las variables para análisis subsiguientes (por ejemplo, para
identificar la colinealidad antes de realizar un análisis de regresión lineal)
El procedimie nto de análisis factorial ofrece un alto grado de flexibilidad:
Existen siete métodos de extracción factorial disponibles.

Existen cinco métodos de rotación disponibles, entre ellos el OBLIMIN directo y el
PROMAX para rotaciones no ortogonales.
Existen tres métodos disponibles para calcular las puntuaciones factoriales; y las
puntuaciones pueden guardarse como variables para análisis adicionales.
Ejemplo. ¿Qué actitudes subyacentes hacen que las personas respondan a las
preguntas de una encuesta política de la manera en que lo hacen? Examinando las
correlaciones entre los elementos de la encuesta se deduce que hay una superposición
significativa entre los diversos subgrupos de elementos (las preguntas sobre los
impuestos tienden a estar correlacionadas entre sí, y así sucesivamente). Con el análisis
factorial, se puede investigar el número de factores subyacentes y, en muchos casos, se
puede identificar lo que los factores representan conceptualmente. Adicionalmente, se
pueden calcular las puntuaciones factoriales para cada encuestado, que pueden
utilizarse en análisis subsiguientes. Por ejemplo, es posible construir un modelo de
regresión logística para predecir el comportamiento de voto basándonos en las
puntuaciones factoriales.
Estadísticos.
Para cada variable:
Número de casos válidos

Media
Desviación típica
Para cada análisis factorial:
Matriz de correlaciones de variables, incluidos niveles de significación,
determinante e inversa
Matriz de correlaciones reproducida, que incluye anti-imagen
Solución Inicial (comunalidades, autovalores y porcentaje de varianza explicada)
KMO (medida de la adecuación muestras de Keiser – Meyer – Olkin) y prueba de
esfericidad de Bartlett
Solución Rotada, que incluye la matriz de configuración rotadas y la matriz de
transformación
Para las rotaciones oblicuas: Las matrices de estructura y de configuración
rotadas
Matriz de coeficientes para el cálculo de las puntuaciones factoriales y matriz de
covarianza entre los factores
Diagramas:
Gráfico de sedimentación
Gráfico de las saturaciones de los dos o tres primeros factores

Datos. Las variables deberían ser cuantitativas a nivel de intervalo o de razón. Los
datos categóricos (como la religión o el país de origen) no son adecuados para el
análisis factorial. Los datos para los cuales razonablemente se pueden calcular los
coeficientes de correlación de Pearson deberían ser adecuados para el análisis factorial.
Supuestos. Los datos han de tener una distribución normal bivariada para cada pareja
de variables, y las observaciones deben ser independientes.
El modelo de análisis factorial especifica que las variables vienen determinadas por los factores
comunes (los factores estimados por el modelo) y por factores únicos (los cuales no se
superponen entre las distintas variables observadas). Las estimaciones calculadas se basan en
el supuesto de que ningún factor único esté correlacionado con los demás, ni con los factores
comunes.
2.8 PARA OBTENER UN ANÁLISIS FACTORIAL
Vamos al menú Analizar – Reducción de datos – Análisis Factorial, y obtenemos el

siguiente cuadro de diálogo:
A continuación, tendríamos que seleccionar las variables para las cuales queremos realizar el
análisis factorial.
2.8.1 SELECCIÓN DE CASOS EN EL ANÁLISIS FACTORIAL
SPSS nos da la posibilidad de seleccionar casos para el análisis.
Para seleccionar los casos para el análisis, elija una variable de selección. Vemos como se
activa el botón Valor.
Hacemos clic sobre el mismo, y aparece el siguiente cuadro de diálogo:

En el cuadro de texto podemos introducir un número entero como valor de selección. En el
análisis factorial, sólo se usarán los casos con ese valor para la variable de selección.
2.9 ANÁLISIS FACTORIAL: DESCRIPTIVOS
Desde el menú de Análisis Factorial, hacemos clic sobre el botón Descriptivos y obtenemos
el siguiente cuadro de diálogo:
Podemos pedir una serie de conceptos:
Estadísticos:
Descriptivos Univariados. Incluyen la media, la desviación típica y el número de

casos válidos para cada variable.
Solución Inicial: Muestra las comunalidades iniciales, los autovalores y el
porcentaje de varianza explicada. SPSS lo marca por defecto.
Matriz de Correlaciones. Las opciones disponibles son:
Coeficientes
Niveles de significación
Determinante
Inversa
Reproducida
Anti-imagen
KMO y prueba de esfericidad de Bartlett

2.10 ANÁLISIS FACTORIAL: EXTRACCIÓN
Desde el menú Analizar – Reducción de datos – Análisis Factorial, hacemos clic sobre el
botón Extracción y obtenemos el siguiente cuadro de diálogo:
Este menú nos permite pedir una serie de análisis:
Método: Permite especificar el método de extracción factorial. Los métodos disponibles

son:
Componentes principales.
Mínimos cuadrados no ponderados.
Mínimos cuadrados generalizados.
Máxima verosimilitud.
Factorización de Ejes principales.
Factorización Alfa.
Factorización Imagen.
Analizar: Permite especificar o una matriz de correlaciones o una matriz de covarianza.

Extraer: Se pueden retener todos los factores cuyos autovalores excedan un valor
especificado o retener un número determinado de factores.
Mostrar: Permite solicitar la solución factorial sin rotar y le gráfico de sedimentación de
los autovalores.
Nº máximo de iteraciones para convergencia: Permite especificar el número
máximo de pasos que el algoritmo puede seguir para estimar la solución.
2.11 ANÁLISIS FACTORIAL: ROTACIÓN
botón Rotación y obtenemos el siguiente cuadro de diálogo:

Este menú nos permite solicitar una serie de análisis:
Método: Permite seleccionar el método de rotación factorial. Los métodos disponibles

son:
Varimax
Equamax
Quartimax
Oblimin directo
Promax
Mostrar: Permite incluir los resultados de la solución rotada, así como los gráficos de
las saturaciones para los dos o tres primeros factores.
Nº máximo de iteraciones para la convergencia: Permite especificar el número
máximo de pasos que el algoritmo puede seguir para llevar a cabo la rotación.
2.12 ANÁLISIS FACTORIAL: PUNTUACIONES FACTORIALES
botón Puntuaciones y obtenemos el siguiente cuadro de diálogo:
Este menú nos permite realizar los siguientes análisis:
Guardar como variables: Crea una nueva variable para cada factor en la solución
final. Si se marca esta opción, hay que seleccionar uno de los siguientes métodos
alternativos para calcular las puntuaciones factoriales:

Regresión
Bartlett
Anderson – Rubin
Mostrar matriz de coeficientes de las puntuaciones factoriales: Muestra los

coeficientes por los cuales se multiplican las variables para obtener puntuaciones
factoriales. También muestra las correlaciones entre las puntuaciones factoriales.
2.13 ANÁLISIS FACTORIAL: OPCIONES
botón Opciones y obtenemos el siguiente cuadro de diálogo:
Este menú nos permite solicitar los siguientes análisis:
Valores perdidos: Permite especificar el tratamiento que se da a los valores perdidos.

Las alternativas disponibles son:
Excluir casos según lista

Excluir casos según pareja
Reemplazar por la media
Formato de visualización de los coeficientes: Permite controlar aspectos de las

matrices de resultados. Los coeficientes se ordenan por tamaño y se suprimen aquellos
cuyos valores absolutos sean menores que el valor especificado.
2.14 EJEMPLO
Un cliente quiere poder predecir las ventas de coches en función de una serie de variables que
ha recopilado. Sin embargo, sospecha que las variables están correlacionadas entre sí, y que
esto puede afectar negativamente a la predicción.
Se decide realizar un análisis factorial, analizando hasta que punto la información recibida de
esas variables puede ser resumida, en gran parte, en un número más reducido de factores
independientes entre ellos. Esta independencia se asegura si utilizamos el método de los
Componentes Principales para el análisis.
Vamos al menú Analizar – Resumir casos – Análisis Factorial, y obtenemos el siguiente

cuadro de diálogo:

Seleccionamos las variables con las que queríamos estimar las ventas de coches. En
este caso, desde la variable Vehicle Type hasta Fuel Efficiency.
Hacemos clic sobre el botón Extracción y obtenemos el siguiente cuadro de diálogo:
Vamos a marcar que SPSS nos calcule la Solución Factorial sin Rotar y el Gráfico de
Sedimentación y hacemos clic en el botón Continuar.
Hacemos clic sobre el botón Extracción y obtenemos el siguiente cuadro de diálogo:

Marcamos que nos calcule la Solución Rotada por el Método Varimax. La rotación consiste en
mover los factores obtenidos hasta que se consiga que las variables se hallen lo más cerca
posible de uno de esos ejes. Mediante esto se pretende que cada variables tenga puntuaciones
factoriales lo más cercanas a cero para todos los factores menos uno, para el que tendría una
puntuación factorial grande.
Mediante la rotación, se puede conseguir que unos resultados de un análisis factorial que
resulten confusos, queden mucho más claros.
Hacemos clic sobre el botón Continuar.

Hacemos clic sobre el botón Puntuaciones y obtenemos el siguiente cuadro de
diálogo:
Marcamos las opciones de Guardar como variables y Mostrar matriz de coeficientes de

las puntuaciones factoriales.
No queremos pedir nada más en este caso, luego hacemos clic sobre el botón Aceptar.
SPSS nos calculará el Análisis Factorial utilizando el método de los Componente Principales,
que se rotará posteriormente mediante el método Varimax para ayudar a la interpretación. Los
componentes con autovalores mayores que uno se guardarán en el archivo como variables.

2.14.1 RESULTADOS
Obtenemos los siguientes resultados:
La Tabla de Comunalidades:
Las comunalidades de cada variable nos muestra la cantidad de varianza de esa variable que
queda explicada con los factores seleccionados (en este caso, los factores con autovalor mayor
que 1).
Vemos como todas las variables tienen una comunalidad inicial de 1. Esta es la varianza que se
explica con la totalidad de todos los factores (es decir, por un número de factores igual al
número de variables).
Después de seleccionar un número reducido de factores independientes para “resumir” todas

las variables, la varianza explicada es la indicada en la columna Extracción.
Un análisis factorial cumplirá su función de resumir una serie de variables si las comunalidades
son elevadas para todas las variables.
Si no fuera ese el caso, indicaría que si utilizamos los factores para resumir la información de
las variables, las variables con comu nalidades bajas no se estarán teniendo en cuenta tal como
deberían. Si esto pasara, lo más correcto sería incluir más factores en el análisis, de manera
que todas las variables queden representadas correctamente por los factores extraídos.

La siguiente tabla que obtenemos es la tabla de autovalores:
La primera columna, Total, nos indica la cantidad de varianza de las variables originales que
explica cada uno de los factores, ordenados de mayor a menor. Es decir, el primer componente
extraído explica 5,994 de la varianza total (que sería 1 para cada variable – al haber 10
variables, sería 10).
La segunda columna indica el porcentaje de varianza que explica cada uno de los factores. En
este caso, el primer factor explica el 59,938% de la varianza, el segundo el 16,545% y así
sucesivamente.
La tercera columna indica el porcentaje acumulado de varianza explicada. Es decir, el primer

factor explica el 59,938% de la varianza, el primero y el segundo factor explican por sí solos el
76,482% y así sucesivamente.
Estas tres primeras columnas nos están mostrando la solución inicial, aquella para la que las
comunalidades de todas las variables eran 1. Esta solución inicial tiene tantos factores como
variables incluidas en el análisis.
La segunda sección de la tabla nos muestra la solución final no rotada. Al pedir el análisis,
habíamos indicado que seleccionase como solución aquellos factores cuyos autovalores fuesen
mayor que 1. En este caso, esto lo cumplen los tres primeros factores sólo. Nuestra solución
final es quedarnos con tres factores que explican el 87,709% de la varianza total de las 10
variables. Es decir, perdemos menos de un 13% de información y pasamos a trabajar con tres
variables independientes en vez de 10 variables correlacionadas.
Por último la tercera sección de la tabla nos muestra la solución final rotada. Vemos como
cambia la importancia de cada factor, pero no el total de varianza explicada. Vemos como hay
un cambio sustancial en el total de varianza explicada por cada factor, de la solución no rotada
a la rotada. Esto nos indica que la solución rotada será posiblemente más fácil de interpretar
que la solución no rotada.

A continuación, obtenemos el Gráfico de Sedimentación:
Este gráfico nos ayuda a ver cuál debe ser la solución más adecuada para el análisis. Nos
esquematiza los autovalores de cada componente extraído. Los componentes que nos interesa
extraer son aquellos que se hayan en la parte del esquema con pendiente acusad. Los
componentes en la parte con pendiente casi plana contribuyen muy poco a explicar las
variables.
La última caída fuerte se da entre el componente tres y el cuatro, por lo que una buena
solución sería seleccionar sólo los tres componentes primeros.
Obtenemos a continuación la Matriz de Componentes no Rotados:

A partir de las matrices de componentes, podemos interpretar que son los factores extraídos.
La manera de interpretar cada factor sería la siguiente:
Cuando el componente para una variable es elevado, eso nos indica que dicha variable
está altamente representada por ese factor.
Si el componente para una variable es muy reducido, implica que esa variable no está
casi representada por ese factor
Un componente negativo nos indica que el factor representa “lo contrario” a lo que la
variable muestra.
Cuanto más extremos sean los valores de los componentes de esta matriz, más fácil será
interpretar que significa y representa cada factor. Cuando una matriz de componentes tiene
más bien valores intermedios, esto nos dificulta la interpretación.
En este caso, el primer componente tiene valores más extremos, pero los otros dos
componentes tienen valores no muy claros.
La mejor manera de intentar solucionar este inconveniente es la rotación de los componentes.
Vemos ahora la matriz de componentes rotados:
En este caso, vemos como ya hay valores extremos o muy reducidos para todos los
componentes.
Comenzamos ahora a analizar qué significa y representa cada uno de los componentes.
El primer componente tiene las puntuaciones más elevadas para las siguientes
variables:
Precio en miles
Tamaño del motor
Caballos de Vapor
De estas tres variables, la que más representada está con el primer componente es el
Precio en miles. Además de tener una puntuación muy alta para el primer componente
(0,935), tiene una puntuación muy reducida para los otros dos. Esto nos indica que el
primer componente representa al Precio del vehículo.
El segundo componente está especialmente correlacionado con la Longitud (0,943), y el tercer

componente con el Tipo de Vehículo (0,954).
Esto nos indica que cada factor refleja principalmente a esas tres variables, y que nos
debemos centrar en ellas para descubrir qué significan y representan nuestros componentes:
Precio en Miles
Longitud
Tipo de Vehículo
Si queremos calcular el valor del componente para un caso determinado, nos dirigimos a la
matriz de coeficientes para el cálculo de las puntuaciones en los componentes.
El valor de un componente para un caso determinado será igual a la suma del valor de cada
una de las variables para ese caso determinado, multiplicado por el coeficiente
correspondiente. Los tres componentes resultantes representan, y pueden ser utilizados en
lugar de, casi el 88% del total de información contenido en las 10 variables.
Usar los tres componentes obtenidos es más correcto que usar las tres variables con las que se
hallaban más correlacionados por dos razones principales:
Los tres componentes son independientes entre sí. No están linealmente

correlacionados.
Los tres componentes representan a la totalidad de las 10 variables.

CAPÍTULO 3: ANÁLISIS DE
CONGLOMERADOS JERÁRQUICO
Este procedimiento intenta identificar grupos relativamente homogéneos de casos (o de

variables) basándose en las características seleccionadas, mediante un algoritmo que comienza
con cada caso (o cada variable) en un conglomerado diferente y combina los conglomerados
hasta que sólo queda uno. Es posible analizar las variables brutas o elegir de entre una
variedad de transformaciones de estandarización. Las medidas de distancia o similaridad se
generan mediante el procedimiento Proximidades. Los estadísticos se muestran en cada etapa
para ayudar a seleccionar la mejor solución.
Ejemplo. ¿Existen grupos identificables de programas televisivos que atraigan a

audiencias similares dentro de cada grupo? Con el análisis de conglomerados jerárquico,
se podrían agrupar los programas de TV (los casos) en grupos homogéneos basados en
las características del espectador. Esto se puede utilizar para identificar segmentos de
mercado. También se puede agrupar ciudades (los casos) en grupos homogéneos, de
manera que se puedan seleccionar ciudades comparables para probar diversas
estrategias de marketing.
Estadísticos:
Historial de conglomerados
Matriz de distancias (o similaridades)
Pertenencia a los conglomerados para una solución única o una serie de
soluciones.
Diagramas:
Dendogramas
Diagramas de témpanos.
Datos: Las variables pueden ser cuantitativas, binarias o datos de recuento

(frecuencias). El escalamiento de las variables es un aspecto importante, ya que las
diferencias en el escalamiento pueden afectar a las soluciones de conglomeración. Si las
variables muestran grandes diferencias en el escalamiento (por ejemplo, una variable
se mide en dólares, y la otra se mide en años), debería considerarse la posibilidad de
estandarizarlas (esto se puede llevar a cabo automáticamente mediante el propio
procedimiento de Análisis de Conglomerados Jerárquico).
Supuestos. Las medidas de distancia o similaridad empleadas deben ser adecuadas
para los datos analizados. Asimismo, debe incluir todas las variables relevantes en el
análisis. Si se omiten variables de interés, la solución obtenida puede ser equívoca.
Debido a que el análisis de conglomerados jerárquico es un método exploratorio, los
resultados deben considerarse provisionales hasta que sean confirmados mediante otra
muestra independiente.

3.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS JERÁRQUICO
Vamos al menú Analizar – Clasificar – Conglomerados Jerárquicos, y obtenemos el

siguiente cuadro de diálogo:
Si estamos aglomerando casos, tenemos que seleccionar al menos una variable numérico. Si
estamos aglomerando variables, debemos seleccionar al menos tres variables numéricas.
Si es conveniente para nuestro análisis, podemos seleccionar una variable de identificación

para etiquetar los casos.
3.2 ANÁLISIS DE CONGLOMERADOS JERÁRQUICO: MÉTODO
Desde el menú Analizar – Clasificar – Conglomerados Jerárquicos, hacemos clic sobre el

botón Método y obtenemos el siguiente cuadro de diálogo:

Método de conglomeración: Las opciones disponibles son:
Vinculación inter-grupos
Vinculación intra-grupos
Vecino más próximo
Vecino más lejano
Agrupación de centroides
Agrupación de medianas
Método de Ward
Medida: Permite especificar la medida de distancia o similaridad que será empleada en

la aglomeración. Seleccionamos el tipo de datos y la medida de distancia o similaridad
adecuada:
Datos de intervalo: Las opciones disponibles son:
Distancia euclídea
Distancia euclídea al cuadrado
Coseno
Correlación de Pearson
Chebychev
Bloque
Minkowski
Personalizada.
Datos de Frecuencia: las opciones disponibles son:
Medida de Chi-Cuadrado
Medida de Phi-Cuadrado.
Datos binarios: Las opciones disponibles son:
Distancia euclídea
Distancia euclídea al cuadrado
Diferencia de tamaño
Diferencia de configuración
Varianza
Dispersión
Forma
Concordancia simple
Correlación phi de 4 puntos
Lambda
D de Anderberg
Dice
Hamann
Jaccard
Kulczynski 1
Kulzynski 2
Lance y Williams
Ochiai
Rogers
Tanimoto
Russel y Rao
Sokal y Sneath 1
Soka l y Sneath 2
Sokal y Sneath 3
Sokal y Sneath 4
Sokal y Sneath 5
Y de Yule
Q de Yule
Tranformar valores: Permite estandarizar los valores de los datos para los casos o las
variables, antes de calcular las proximidades (no está disponible para datos binarios).
Los métodos disponibles de estandarización son:
Puntuaciones z
Rango –1 a 1
Rango 0 a 1
Magnitud máxima de 1
Media de 1
Desviación típica de 1
Tranformar medidas: Permite transformar los valores generados por la medida de

distancia. Las opciones disponibles son:
Valores absolutos
Cambiar el signo
Cambiar la escala al rango 0 – 1
3.3 ANÁLISIS DE CONGLOMERADOS: ESTADÍSTICOS

botón Estadísticos y obtenemos el siguiente cuadro de diálogo:
Este menú nos ofrece las siguientes posibilidades:
Historial de conglomeración: Muestra los casos o conglomerados combinados en

cada etapa, las distancias entre los casos o los conglomerados que se combinan, así
como el último nivel del proceso de aglomeración en el que cada caso (o variable) se
unió al conglomerado correspondiente.
Matriz de distancias: Proporciona las distancias o similaridades entre los elementos.
Conglomerado de pertenencia: Muestra el conglomerado al cual se asigna cada caso
en una o varias etapas de la combinación de los conglomerados. Las opciones
disponibles son:
Solución única
Rango de soluciones

3.4 ANÁLISIS DE CONGLOMERADOS JERÁRQUICO: GRÁFICOS

botón Gráficos y obtenemos el siguiente cuadro de diálogo:
Este menú nos permite las siguientes posibilidades:
Dendograma: Muestra un dendograma. Los dendogramas pueden emplearse para

evaluar la cohesión de los conglomerados que se han formado y proporcionar
información sobre el número adecuado de conglomerados que deben conservarse.
Témpanos: Muestra un diagrama de témpanos, que incluye todos los conglomerados o
un rango especificado de conglomerados. Los diagramas de témpanos muestran
información sobre cómo se combinan los casos en los conglomerados, en cada iteración
del análisis. La orientación permite seleccionar un diagrama vertical u horizontal.
3.5 ANÁLISIS DE CONGLOMERADOS: GUARDAR VARIABLES NUEVAS

botón Guardar y obtenemos el siguiente cuadro de diálogo:
Este menú nos permite las siguientes opciones:
Conglomerado de pertenencia: Permite guardar los conglomerados de pertenencia

para una solución única o un rango de soluciones. Las variables guardadas pueden
emplearse en análisis posteriores para explorar otras diferencias entre los grupos.

3.6 EJEMPLO
Se ha realizado una encuesta en una Universidad sobre el Gasto en Transporte de los alumnos.
Se realizó una encuesta a 100 alumnos, y ahora se quiere analizar si existen distintos grupos
de gasto entre los alumnos.
El análisis de conglomerados, o CLUSTER, pretende identificar grupos de casos relativamente

homogéneos, basándose en características previamente seleccionadas, a través las variables
elegidas.
El objetivo de dicho análisis es obtener grupos lo más homogéneos posible entre sí y lo más
heterogéneos posibles entre ellos, respecto a una serie de variables determinadas.
Los métodos seguidos para realizar este análisis son básicamente dos:
Métodos jerárquicos: de tipo aglomerativo o divisivo (k- medias)

Métodos no jerárquicos
3.6.1 PLANTEAMIENTOS PREVIOS
El método que se va a aplicar en el ejemplo posterior es de tipo jerárquic o. Este método aplica
un algoritmo que comienza considerando cada caso como independiente, cada elemento forma
un conglomerado independiente; y los va combinando entre sí hasta que sólo queda un único
conglomerado compuesto por todos los casos iniciales.
El método jerárquico de tipo divisivo (conglomerados de k- medias) no es aplicable en este

caso, ya que exige determinar a priori el número de conglomerados a crear. En este método se
parte de un único conglomerado compuesto por todos los elementos del análisis y de él se
llega a un número k de conglomerados previamente seleccionado, que serán lo más
homogéneos posibles.
Los pasos a seguir para realizar este análisis son los siguientes:
Selección de la muestra sobre la que se realizará el análisis: En el caso a estudiar, se ha

reducido la muestra de cien sujetos a veinte, manteniéndose las proporciones de la muestra
inicial respecto a dos variables, edad y gasto en transporte. La muestra seleccionada incluye:
Un 40% de los casos son menores de 21 años y usan el abono mensual (implica un
menor gasto en transporte)
Un 10% son menores de 21 años y no usan el abono
Un 40% son mayores de 21 años y usan el abono mensual
Un 10% son mayores de 21 años y no usan el abono mensual
Selección de las variables respecto a las cuales se va a realizar el análisis. En el caso sobre el
que se va a realizar el análisis, las variables seleccionadas son el gasto mensual en transporte
y la edad. Para seleccionar estas variables, hay que tener en cuenta lo siguiente:
Para que el análisis de conglomerados resulte significativo, las variables seleccionadas han de
afectar a la clasificación a realizar, han de estar directamente relacionadas con el análisis;
debiéndose incluir todas aquellas que puedan afectar a dicho análisis.
En el caso a analizar, se pretende agrupar a los individuos según sus costumbres de gasto en
transporte. De los datos obtenidos en la encuesta, las variables cuantitativas que más afectan
a dicho análisis son, efectivamente, las dos variables incluidas.
Selección del sistema de medida de la similitud o la distancia entre casos.

Selección del sistema de agrupación de los casos.
Determinación del número de Conglomerados adecuado.
La agrupación de los casos se hará en función de las distancias o las similitudes existentes
entre ellos, uniendo primero aquellos casos que se hallen más próximos o que tengan mayor
similitud. Habrá que seleccionar un sistema de medida de la distancia entre casos y un sistema
de agrupación de los casos.
En el supuesto específico que nos concierne, se van a realizar tres análisis de conglomerados,
cambiando entre ellos los sistemas de medición y de agrupación seleccionados, comparándose
posteriormente los resultados obtenidos con cada uno de ellos. Los análisis a realizar serán los
siguientes:
Distancia Euclídea al cuadrado y Agrupación por media entre grupos (vinculación inter-
grupos)
Distancia Euclídea al cuadrado y agrupación por enlace simple
3.6.2 APROXIMACIÓN INICIAL
Antes de comenzar a desarrollar cada uno de los análisis de conglo merados realizados, resulta
conveniente realizar una aproximación inicial a la situación planteada mediante un análisis
gráfico de los casos.
Para obtener ese gráfico, vamos al menú Gráficos – Dispersión. Seleccionamos el

gráfico Simple y hacemos clic sobre el botón Definir. Obtenemos el siguiente cuadro
diálogo:
Hacemos clic sobre el botón Aceptar.

A continuación se pueden ver representados los elementos del análisis en un gráfico
bidimensional, representando cada eje una de las variables sobre las que se va a
realizar el análisis:

DISPERSIÓN DE LOS ELEMENTOS
16000
GASTO MENSUAL EN TRANSPORTE

14000
12000
10000
8000
6000
4000
2000
16 18 20 22 24 26
EDAD DEL ENCUESTADO
En una primera aproximación, parecen existir cuatro grupos diferenciados, que parecen
coincidir con los cuatro segmentos en los que se dividía la población total (menores de 21 años
con y sin abono; y mayores de 21 años con y sin abono).
Los elementos con un gasto en trasporte más reducido parecen ser más similares entre sí que
los elementos con mayor gasto en transporte, que se hallan más dispersos.
Basándonos en estos primeros resultados, se podría prever la existencia de dos grupos muy
homogéneos y no muy distantes entre sí (aquellos con un gasto menor en transporte) de ocho
elementos cada uno; y de otros dos grupos, de dos elementos cada uno, más heterogéneos,
que tardarán más en unirse.
3.6.3 PRIMER ANÁLISIS: DISTANCIA EUCLÍDEA AL CUADRADO Y VINCULACIÓN

INTER-GRUPOS
Antes de comenzar a analizar los resultados, conviene definir la distancia euclídea y la forma
aglomeración inter-grupos.
Distancia Euclídea: Es la medida de distancia que más se utiliza. La distancia entre

dos conglomerados será la suma al cuadrado de las distancias existentes entre los
valores de las variables de cada uno de los elementos, es decir:
di , j ? ?
k ?1
( xik ? x jk ) 2
Siendo:
d i, j : distancia entre el elemento “i” y el elemento “j”

xik : valor de la variable “k” del elemento “i”
x jk : valor de la variable “k” del elemento “j”
Vinculación inter-grupos: Se considera como la medida de la distancia entre dos

grupos a la media de las distancias de cada uno de los elementos de un grupo con cada
uno de los elementos del otro grupo, midiéndose las distancias entre cada par de
elementos por la distancia euclídea en este caso.
Vamos al menú Analizar – Clasificar – Análisis de Conglomerados jerárquico, y
obtenemos el siguiente cuadro de diálogo:
Hacemos clic sobre el botón Estadísticos y obtenemos el siguiente cuadro de diálogo
Marcamos el Historial de conglomeración y la Matriz de distancias. Hacemos clic en el

botón Continuar.
Hacemos clic sobre el botón Gráficos y obtenemos el siguiente cuadro de diálogo:

Pedimos que SPSS nos obtenga el gráfico de dendogramas y de témpanos. Hacemos
clic sobre el botón Continuar.
Hacemos clic sobre el botón Método y obtenemos el siguiente cuadro de diálogo:
Marcamos los métodos de medida que vamos a utilizar en este primer análisis, la
Distancia Euclídea al Cuadrado y la Vinculación Inter-Grupos. En este cuadro marcamos
también la opción de Cambiar la escala al rango 0-1, de manera que resulte más
sencillo considerar qué elementos están cerca y cuáles no.
Hacemos clic sobre el botón Aceptar y obtenemos los siguientes resultados:
Vemos abajo una parte de la matriz de distancias (en total son 20 filas por 20
columnas):
Al observar la tabla anterior, se ve claramente como existen grandes similitudes entre varios
elementos, al existir varias distancias muy reducidas en algunos casos. Contrastando con esto,
existen para todos los elementos algún otro caso que se halla distante a ellos. Los valo res de

las distancias han sido reescalados sobre un máximo valor de uno, dándose esta máxima
distancia entre un elemento de bajo gasto mensual y menor de 21 años y un elemento de
elevado gasto mensual y mayor de 21 años (caso 7 y caso 10, por ejemplo). Se puede
observar ahora como los elementos que mayores diferenciaciones presentan frente al resto
son, tal como se previó a través del análisis gráfico, aquellos que presentaban un mayor gasto
en transporte.
En el Historial de Aglomeración se representa cada uno de los pasos realizados en la formación

de los Conglomerados. Cada una de las columnas de dicha Tabla indican, la etapa realizada
(Etapa; 1); los elementos, o conglomerados, que se unen en dicha etapa (Conglomerado 1: el
16; Conglomerado 2: el 18); la distancia existente entre ambos (Coeficientes: , 000); la etapa
en que cada uno de dichos Conglomerados aparecieron por última vez (Conglomerado 1: 0;
Conglomerado 2: 0); y la próxima etapa en la que el Conglomerado formado va a
aparecer (Próxima Etapa: 5).
Estos mismos resultados se pueden observar gráficamente en el Dendograma. Para construir

este gráfico, se reescalan las distancias entre los elementos sobre 25, y se representa
mediante líneas qué elementos se unen y cuando lo hacen.

Se puede ver como los resultados reflejados en este gráfico son similares a los esperados tras
observar el gráfico de dispersión de los elementos. Los elementos de bajo gasto en transporte
se dividen en dos grupos homogéneos, según sean mayores o menores de 21 años (primeros
seis casos, más el caso 13 y el 14, son mayores de 21 años, los siguientes ocho casos son los
menores de 21 años); mientras que los elementos de más elevado gasto en transporte
parecen ser algo menos homogéneos entre sí, especialmente los casos menores de 21 años.
Por último, el gráfico de Témpanos, permite descubrir los elementos que quedarían incluidos
en cada Conglomerado, según el número de Conglomerados existentes (sólo insertamos una
parte del gráfico de témpanos por la misma razón que para la matriz de distancias).

Para descubrir la composición de los, por ejemplo, seis Conglomerados realizados, se colocaría
una línea a la altura del seis. Las barras blancas que aparecen indican el momento en que se
dividen los elementos, es decir, delimitan los casos que componen cada Conglomerado. Según
eso, los seis Conglomerados construidos estarían compuestos por los siguientes elementos:
{10,19} {8} {20} {13,14} {11,12,15,16,17,18} {1,2,3,4,5,6,7,9}
Por último, habría que determinar el número óptimo de Conglomerados en los que agrupar los
elementos. Dicha agrupación tendría que ser aquella que maximice la homogeneidad entre los
elementos del grupo, a la vez que maximiza la heterogeneidad entre los distintos grupos.
Según los resultados obtenidos, especialmente fijándonos en el dendograma, parece que, tal
como se previó a través del análisis gráfico, la estructura con cuatro conglomerados parece ser
la óptima. Se puede ver que estos cuatro grupos se forman rápidamente, en una distancia
reescalada algo superior a cinco; mientras que el siguiente grupo, es decir, la estructura de
tres conglomerados, se construye a una distancia algo superior a diez.
Mediante este análisis de conglomerados, parece obtenerse una estructura de cuatro grupos
homogéneos, que serán, tal como se esperaba:
Menores de 21 años que usan el abono

Menores de 21 años que no usan el abono (componen el grupo más heterogéneo)
Mayores de 21 años que usan el abono
Mayores de 21 años que no usan el abono

3.6.4 SEGUNDO ANÁLISIS: DISTANCIA EUCLÍDEA AL CUADRADO Y VECINO MÁS
PRÓXIMO
En este último caso se medirán las distancias entre los distintos grupos de manera diferente.
Se unirán en cada etapa los dos grupos que se encuentren más próximos, entre los que
se dé la mínima distancia. Dicha distancia se considerará como la menor de las
distancias existentes entre cada uno de sus elementos.
Volvemos al menú Analizar – Clasificar – Análisis de Conglomerados jerárquico.
Hacemos clic sobre el botón Método y seleccionamos el método de aglomeración
Vecino más próximo.
Hacemos clic sobre el botón Continuar y luego el botón Aceptar.
Los resultados de este análisis se ven reflejados en los siguientes resultados:
Matriz de distancias. Vemos como es exactamente igual a la del punto

anterior. Esto es debido a que el método de medir las distancias es el mismo
para los dos puntos.

Historial de Aglomeración
Esta tabla ya se diferencia de la del anterior punto. Al conglomerarse los elementos según un
criterio distinto, el orden en que se van formando los grupos no es el mismo.
Según esta tabla, los primeros elementos en unirse son el 16 y el 18. La distancia entre los
dos es cero, y los dos elementos se vuelven a unir con otros en la etapa 5.
Asimismo, los últimos conglomerados en unirse son el que contiene el número 1 con el que
contiene el número 10.
Vamos a ver ahora el gráfico de dendograma para ver este proceso más claramente.

El Dendograma
Vemos como el esquema es algo distinto al del punto anterior, aunque se sigue viendo que los
cuatro casos sin abono (el 8, el 20, el 10 y el 19) son mucho menos homogéneos que el resto.
Por último, el gráfico de témpanos nos indica visualmente la composición de los

conglomerados según el número de conglomerados que deseemos.
En este caso, las distancias a las que se unen los elementos extremos son todavía mayores
que las del caso segundo, acentuándose aún más la heterogeneidad existente en algunos de
los elementos como el 8, el 20 y el grupo formado por el 10 y el 19.
Esta manera de calcular las distancias entre grupos tiende a dar unas estructuras muy lineales
y sólo tiene en cuenta los elementos más próximos, aunque estos no sean representativos del
grupo total; por lo que, basándonos sólo en estos resultados, no se deben rechazar los
obtenidos en los anteriores supuestos, que parecen ser más homogéneos.
Según los resultados obtenidos en los dos supuestos estudiados, se podría concluir que la
estructura óptima, aquella que maximiza la homogeneidad de los grupos, parece ser la
estructura de cuatro grupos obtenida, con mayor o menor claridad, en el primer supuesto.
A pesar de ello, los resultados obtenidos en el último supuesto parecen remarcar los indicios
observados en el segundo supuesto, por lo que habría que tenerlo en cuenta. Este resultado
nos confirma la mayor heterogeneidad existente en el elemento 13 dentro del grupo de menor
gasto en transporte y mayores de 21 años; así como la mayor diferenciación existente en
ambos grupos con mayor gasto en transporte, especialmente para los sujetos menores de 21
años.

CONGLOMERADOS DE K-MEDIAS
Este procedimiento intenta identificar grupos de casos relativamente homogéneos basándose

en las características seleccionadas y utilizando un algoritmo que puede gestionar un gran
número de casos. Sin embargo, el algoritmo requiere que el usuario especifique el número de
conglomerados. Puede especificar los centros iniciales de los conglomerados si conoce de
antemano dicha información. Puede elegir uno de los dos métodos disponibles para clasificar
los casos: la actualización de los centros de los conglomerados de forma iterativa o sólo la
clasificación. Asimismo, puede guardar la pertenencia a los conglomerados, información de la
distancia y los centros de los conglomerados finales. Si lo deseamos, podemos especificar una
variable cuyos valores sean utilizados para etiquetar los resultados por casos. También
podemos solicitar los estadísticos F de los análisis de varianza. Aunque estos estadísticos son
oportunistas (ya que el procedimiento trata de formar grupos que de hecho difieran), el
tamaño relativo de los estadísticos proporciona información acerca de la contribución de cada
variable a la separación por grupos.
Ejemplo: ¿Cuáles son los grupos identificables de programas de televisión que atraen
audiencias parecidas dentro de cada grupo? Con el análisis de conglomerados de K-
Medias, podríamos agrupar los programas de televisión (los casos) en k grupos
homogéneos, basados en las características del televidente. Esto se puede utilizar para
identificar segmentos de mercado. También puede agrupar ciudades (los casos) en
grupos homogéneos, de manera que se puedan seleccionar ciudades comparables para
probar diversas estrategias de marketing.
Estadísticos: Para la solución completa: centros iniciales de los conglomerados, tabla
de ANOVA. Para cada caso: información del conglomerado, distancia desde el centro del
conglomerado.
Datos: Las variables deben ser cuantitativas en el nivel de intervalo o de razón. Si las
variables son binarias o recuentos, utilizamos el método de Análisis de Conglomerados
Jerárquicos.
Supuestos: Las distancias se calculan utilizando la distancia euclídea simple. Si desea
utilizar otra medida de distancia o de similaridad, utilizamos el procedimiento Análisis
de Conglomerados Jerárquicos. El escalamiento de las variables es una consideración
importante: si sus variables utilizan diferentes escalas (una variable se expresa en
dólares y la otra en años), los resultados pueden ser equívocos. Es estos casos, se
debería considerar la estandarización de las variables antes de realizar el análisis de
conglomerados de k- medias (esto se puede hacer en el procedimiento Descriptivos).
Este procedimiento supone que ha seleccionado el número apropiado de conglomerados
y que ha incluido todas las variables relevantes. Si se han seleccionado un número
inapropiado de conglomerados o hemos omitido variables relevantes, los resultados
podrían ser equívocos.
4.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS DE K- MEDIA S
Para obtener un análisis de conglomerados de k- medias, vamos al menú Analizar – Clasificar

– Conglomerado de K-Medias, y obtenemos el siguiente cuadro de diálogo:
Seguimos los siguientes pasos:
Seleccionamos las variables que se van a utilizar en el análisis de conglomerados.

Especificamos el número de conglomerados. Este número no debe ser inferior a dos, ni
superior al número de casos del archivo de datos.
Elegimos entre los métodos Iterar y Clasificar y Sólo Clasificar.
Si lo deseamos, podemos seleccionar una variable de identificación para etiquetar los
casos.
4.2 EFICACIA DEL ANÁLISIS DE CONGLOMERADOS DE K – MEDIAS
El comando de análisis de conglomerados de k- medias es eficaz principalmente porque no

calcula las distancias entre todos los pares de casos, como hacen muchos algoritmos de
conglomeración, como el utilizado por el comando de conglomeración jerárquica.
Para obtener la máxima eficacia, tome una muestra de casos y utilice el método Iterar y
Clasificar para determinar los centros de los conglomerados. Pulse en Centros y
seleccione Escribir finales en: Archivo. Después restaure el archivo de datos completo y
seleccione el método Sólo Clasificar. Pulse en Centros y Leer Iniciales de: Archivo, para
clasificar el archivo completo utilizando los centros estimados a partir de la muestra.
Un método de trabajo combinando el análisis de conglomerados jerárquico con el de k- medias

es el siguiente:
Seleccionar una muestra aleatoria del total de nuestros casos y realizar un análisis de
conglomerados jerárquicos sobre ellos.
De ese análisis anterior, se obtendrá una solución del número de conglomerados en los
que se van a agrupar los casos.
Volvemos a seleccionar todos los casos
Realizamos un análisis de conglomerados de k- medias sobre el total de los casos,
indicando el número de conglomerados obtenidos en el análisis anterior.

4.3 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: ITERAR
Si vamos al menú Analizar – Clasificar – Conglomerados de K- Medias y hacemos clic

sobre el botón Iterar, obtenemos el siguiente cuadro de diálogo:
Estas opciones sólo estarán disponibles si se selecciona el método Iterar y Clasificar en el

cuadro de diálogo principal
Este menú nos permite las siguientes opciones:
Nº máximo de iteraciones: Limita el número máximo de iteraciones en el algoritmo

k- medias. La iteración se detiene después de este número de iteraciones, incluso si no
se ha satisfecho el criterio de convergencia. Este número debe estar entre el 1 y el 999.
Criterio de Convergencia: Determina cuando cesa la iteración. Representa una
proporción de la distancia mínima entre los centros iniciales de los conglomerados, por
lo que debe ser mayor que 0, pero no mayor que 1. Por ejemplo, si el criterio es igual a
0,02, la iteración cesará si una iteración completa no mueve ninguno de los centros de
los conglomerados en una distancia superior al dos por ciento de la distancia menor
entre cualquiera de los centros iniciales.
Usar medias actualizadas: Permite solicitar la actualización de los centros de los
conglomerados tras la asignación de cada caso. Si no selecciona esta opción, los nuevos
centros de los conglomerados se calcularán después de la asignación de todos los
casos.
4.4 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: GUARDAR
Si vamos al menú Analizar – Clasificar – Cong lomerados de K- Medias y hacemos clic

sobre el botón Guardar, obtenemos el siguiente cuadro de diálogo:
Podemos guardar la información sobre la solución como nuevas variables para que puedan ser
utilizadas en análisis posteriores. Este menú nos permite las siguientes opciones:
Conglomerado de pertenencia: Crea una nueva variable que indica el conglomerado

final al que pertenece cada caso. Los valores de la nueva variable van desde el 1 hasta
el número de conglomerados.
Distancia desde centro del conglomerado: Crea una variable que indica la distancia
euclídea entre cada caso y su centro de clasificación.

4.5 ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS: OPCIONES
Si vamos al menú Analizar – Clasificar – Conglomerados de K- Medias y hacemos clic

sobre el botón Opcio nes, obtenemos el siguiente cuadro de diálogo:
Este menú nos permite pedir lo siguiente:
Estadísticos: Podemos seleccionar los siguientes estadísticos:
Centros de conglomerados iniciales

Tabla de ANOVA
Información del conglomerado para cada caso
Valores perdidos: Las opciones disponibles son:
Excluir casos según lista

Excluir casos según pareja
4.6 EJEMPLO
Vamos a seguir con el ejemplo del capítulo anterior. Se trataba de un estudio realizado sobre
el gasto de transporte a una Universidad. Se habían entrevistado a 100 estudiantes y se quería
agrupar a los estudiantes según grupos de gasto. Se consideraba que había dos factores para
agrupar los casos, el ser mayor o menor de 21 años y el usar o no el abono mensual.
Recordamos que habíamos realizado el análisis de conglomerados para 20 de los casos, y

habíamos llegado a la conclusión que parecía haber o tres o cuatro grupos.
Una vez obtenidos los resultados de los conglomerados jerárquicos, resultaría interesante
realizar un Conglomerado de k- medias para k=4, es decir, construir cuatro subgrupos sobre la
muestra total de cien individuos, analizando si los elementos se han agrupado en el grupo que
podría pensar que les correspondería, o sea, si los cuatro grupos están compuestos por:
Individuos menores de 21 años usuarios del abono mensual

Individuos menores de 21 años no usuarios
Individuos mayores de 21 años usuarios del abono mensual
Individuos mayores de 21 años no usuarios
Con prioridad a obtener el resultado, se espera que los dos primeros grupos se ajusten a lo
previsto; mientras que respecto a los otros dos grupos, pueden no agruparse exactamente
según lo esperado, ya que, aún siendo la edad menor en uno de los dos grupos, el gasto en
transporte no tiene por qué serlo, lo cual podría crear una confusión entre ambos grupos, e

incluso podría indicar la conveniencia de agrupar a los individuos en sólo tres grupos, que
serían los siguientes:
Usuarios del abono menores de 21 años

Usuarios del abono mayores de 21 años
No usuarios del abono
Vamos al menú Analizar – Clasificar – Análisis Conglomerados de k-medias, y

Pedimos que nos clasifique a los casos en cuatro grupos, según las dos variables
seleccionadas, el Gasto Mensual en Transporte y la Edad.
Hacemos clic sobre el botón Iterar y obtenemos el siguiente cuadro de diálogo.

Indicamos que realice 20 iteraciones.

Hacemos clic sobre el botón Guardar y obtenemos el siguiente cuadro de diálogo:
Marcamos que nos guarde el conglomerado al que pertenece cada caso. Hacemos clic
sobre el botón Continuar.
Hacemos clic ahora sobre el botón Opciones y obtenemos el siguiente cuadro de
diálogo:
Marcamos la Tabla de ANOVA y hacemos clic sobre el botón Continuar.
Hacemos clic sobre el botón Aceptar y obtenemos los siguientes resultados:
Para ver primero si el número de conglomerados seleccionado es el correcto, debemos
analizar las dos tablas siguientes:
En estas tablas vemos como sólo hay dos conglomerados con un número significativo de
casos, el 1 y el 2. En la segunda tabla vemos los centros de los conglomerados, es decir, los
valores para cada conglomerado de las dos variables según las cuáles queremos clasificar los
casos.
Vemos como la variable edad no parece afectar mucho a la clasificación, al menos no de la

forma en que pensábamos. el grupo 1 parece tener la mayoría de los casos que usan el abono
mensual, ya sea joven o no. El grupo 2 parece incluir a los estudiantes que no utilizan abono
mensual, pero a pesar de eso tienen un gasto considerable en transporte. Los dos casos del
grupo 3 parecen ser estudiantes que no utilizan el abono, pero tampoco utilizan mucho
transporte, por ejemplo, si viven cerca de la Universidad. Por último el grupo 4 son dos casos
que tienen un gasto considerablemente superior al resto.
Esta agrupación parece ser debida a la heterogeneidad existente entre el gasto de transporte
de los casos que no utilizan abono de transporte.
Vamos a ver los resultados para una clasificación en tres conglomerados.

Vamos al menú Analizar – Clasificar – Análisis de conglomerados de k-medias, y
marcamos que nos cree tres grupos. Dejando el resto igual, hacemos clic sobre el botón
Aceptar.
Obtenemos los siguientes resultados:
Según estas dos tablas, vemos como el conglomerado 3 parece englobar los usuarios con
menos gasto de transporte, con un centro algo inferior al caso anterior. Esto parece indicar
que el grupo 3 ha absorbido a los dos casos de gasto muy reducido en transporte, que en caso
anterior se juntaban en un conglomerado aparte.
El conglomerado 2 contiene a los usuarios de mayor gasto en transporte, mientras que el

conglomerado 1 junta a los estudiantes con un gasto intermedio.
En general, los grupos formados son los siguientes:
Usuarios del Abono Mensual, sea joven o no.

No usuarios del Abono Mensual con un gasto intermedio en transporte.
No usuarios del Abono Mensual con un gasto grande en transporte.
Hemos obtenido también en nuestros resultados una tabla ANOVA del análisis:

La significación de este estadístico F nos indica la importancia que ha tenido una u otra
variable en que los elementos se incluyan en un grupo u en otro. Vemos como los grupos
parecen haberse adjudicado en base al gasto mensual en transporte.
Estos resultados son debidos a la mayor variabilidad existente en el gasto en transporte para
los no usuarios. En algunos casos, la diferencia entre el no usuario del abono y algunos de los
usuarios del abono, será menor que la distancia con los demás no usuarios del abono.
Por último, recordamos que hemos pedido que SPSS nos guarde en una variable el
conglomerado al que pertenece cada grupo. Sería interesante pedir ahora un gráfico de Cajas
y Bigotes que nos muestre la variabilidad de la variable Gasto de Transporte para cada uno de
los tres grupos.
Vamos al menú Gráficos – Diagrama de Cajas, y seleccionamos el simple y hacemos clic

sobre el botón Continuar.
Obtenemos el siguiente cuadro de diálogo:
Seleccionamos la variable Gasto en Transporte como variable a describir, y el número

de conglomerado en el Eje de Categorías. Hacemos clic sobre el botón Aceptar, y
obtenemos el siguiente gráfico:

Vemos como, excepto para el grupo 2 que sólo contiene los cinco casos con mayor gasto, los
otros dos conglomerados, los conglomerados 1 y 3, tienen una gran cantidad de valores
extremos. Esto es debido a que, para cada uno de los grupos, existen una gran cantidad de
casos con el mismo o similar valores, y eso provoca que los valores que difieren en algo
aparezcan como atípicos o extremos.
4.7 VENTAJAS DEL ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS
El método de conglomerados de k- medias utilizado, resulta conveniente por su mayor facilidad

de cálculo, pero presenta problemas claros en los casos como el anteriormente presentado, en
el cual existen elementos anómalos, o los elementos no se hallan muy diferenciados, por lo
que resulta algo difícil determinar el número adecuado de Conglomerados.
Si fuera necesario realizar el Análisis de Conglomerados sobre una muestra muy grande, y se
quisieran facilitar los datos, existe un método a seguir que proporciona resultados adecuados
y evita los complicados cálculos de los métodos aglomerativos.
Los pasos a seguir serían los siguientes:
Realizar un primer análisis de conglomerados de k- medias de acercamiento, solicitando

un número de grupos k sustantivamente mayor del que cabría esperar (k=25-30 para
una muestra de mil sujetos)
El resultado de ese análisis será una estructura de grupos en la cual existirán varios
grupos con pocos o incluso un solo elemento, y otros grupos con un número
sustancialmente mayor de elementos.
Se observa si el valor de los centros de los grupos pequeños es sustantivamente
diferente de los valores de los centros de otros grupos.
Se realiza un segundo análisis de conglomerados de k- medias , solicitándose en este
caso un número de grupos k igual al número de grupos de tamaño significativo más el
número de grupos pequeños con centros de gravedad muy lejanos al resto.

CORRESPONDENCIA
Uno de los objetivos del análisis de correspondencia es describir las relaciones entre dos
variables nominales en una tabla de correspondencia en un espacio de dimensiones reducidas,
a la vez que se describen las relaciones entre las categorías para cada una de las variables.
Para cada variable, las distancias entre los puntos categóricos en un gráfico reflejan la relación
entre las categorías, de forma que las categorías similares estarán cerca la una de la otra en el
gráfico. Los puntos proyectados de una variable, sobre un vector desde el origen, a un punto
categórico para la otra variable describen la relación entre esas dos variables.
Un análisis de tablas de contingencia a menudo incluye analizar los perfiles de las filas y las
columnas y contrastar la independencia a través del estadístico Chi Cuadrado. Sin embargo, el
número de perfiles puede ser muy numeroso, y el test de la Chi Cuadrado no refleja la
estructura de la dependencia. El procedimiento de las Tablas de Continencia en SPSS ofrece
varias medidas y tests de asociación, pero no permite representar gráficamente ninguna de las
relaciones entre las variables.
El análisis factorial es una técnica estándar para describir las relaciones entre variables en un
espacio de baja dimensiones. Sin embargo, el análisis factorial requiere datos de intervalos, y
el número de observaciones ha de ser cinco veces el número de variables. El análisis de
correspondencia, por otro lado, asume que las variables son nominales y puede describir las
relaciones entre las categorías de cada variable, así como las relaciones entre las distintas
variables. Además, el análisis de correspondencia puede ser utilizado para analizar cualquier
tabla de medidas de correspondencia positivas.
Ejemplo. El Análisis de Correspondencia puede ser utilizado para mostrar gráficamente

la relación entre las variables categoría en el trabajo y hábito de fumar. Se vería como
los Encargados Junior tienen un hábito de fumar distinto que las secretarias, pero estas
últimos no se diferencian de los Encargados Senior. También podemos ver que los
Encargados Junior fuman más que el resto.
Estadísticos y Gráficos. Las medidas de correspondencia, perfiles de filas y de
columnas, valores singulares, puntuaciones de filas y columnas, inercia, masa,
estadísticos de puntuación de confianza para las filas y las columnas, estadísticos de
puntuación de confianza singulares, gráficos de transformación, gráficos de fila puntual,
gráficos de columna puntual y gráficos complejos.
Datos. Las variables categóricas a analizar se escalan nominalmente. Para datos
agregados o para una medida de correspondencia distinto de las frecuencias, usamos
una variable de ponderación con valores positivos de similitud. Alternativamente, para
datos de tablas, podemos usar la sintaxis para leer la tabla.
Supuestos. El número máximo de dimensiones usadas en el procedimiento depende
del número de categorías activas de filas y columnas y del número de restricciones de
igualdad. Si no hay restricciones de igualdad y todas las categorías están activas, el
número máximo de dimensiones será una menos que el número de categorías de la
variable con el menor número de categorías. Por ejemplo, si una variable tiene cinco
categorías y la otra tiene cuatro, el número máximo de dimensiones es tres. Las
categorías suplementarias no están activas. Por ejemplo, si una variable tiene cinco
categorías, dos de las cuales son suplementarias, y la otra tiene cuatro, el número
máximo de dimensiones es dos. Por otro lado, tratamos todos los grupos de categorías
que están restringidos a ser iguales como una sola categoría. Por ejemplo, una variable
con cinco categorías, tres de ellas restringidas a ser iguales, se trata a la variable como
si tuviera tres categorías a la hora de determinar el número máximo de dimensiones. Si
especificamos un número de dimensiones mayor que el máximo permitido, SPSS
utilizará el valor máximo.
Procedimientos relacionados. Si el análisis tiene más de dos variables, usamos el
análisis de homogeneidad. Si las variables deben ser escaladas ordinalmente, usaremos
el análisis de componentes principales no lineal.
5.1 OBTENER UN ANÁLISIS DE CORREPONDENCIA
Vamos al menú Análisis – Reducción de Datos – Análisis de Correspondencia y

Ahora tenemos que seleccionar una variable para las filas

Seleccionamos una variable para las columnas
Definimos el rango de categorías de cada una de las variables
Hacemos clic en el botón Aceptar
5.1.1 DEFINIR EL RANGO DE LAS FILAS
Una vez seleccionada una variable para las filas, se ilumina el botón Definir Rango. Hacemos
clic sobre él y aparece el cuadro de diálogo siguiente:

Tenemos que definir un rango para la variable que hemos seleccionado para las filas. Los
valores mínimos y máximos especificados tienen que ser números enteros. Si introducimos
valores con decimales, estos quedarán truncados en el análisis. Un valor de categoría que se
halla fuera del rango especificado se ignorará en el análisis.
Todas las categorías están, inicialmente, sin restringir y activas. Podemos restringir categorías
de fila para que sean iguales a otras categorías de fila, o podemos definir una categoría de fila
como suplementaria.
La categoría es suplementaria: Las categorías suplementarias no influyen en el

análisis, pero se re presentan en el espacio definido por las categorías activas. Las
categorías suplementarias no se tienen en cuenta para definir las dimensiones. El
número máximo de categorías suplementarias de fila es el número total de categorías
de fila menos dos.
Las categorías deben ser iguales: Las categorías deben tener puntuaciones iguales.
Se usan las restricciones de igualdad si el orden obtenido para las categorías no es
deseable o intuitivo. El número máximo de categorías de fila que pueden ser
restringidas a ser iguales, es el número total de filas activas menos 1. Para imponer
restricciones de igualdad diferentes para grupos de categorías, hay que usar la sintaxis.
Por ejemplo, se usa la sintaxis para restringir las categorías 1 y 2 a ser iguales, y a la
vez, a las categorías 3 y 4 a ser iguales.
Para definir el rango en SPSS, hay que seguir los pasos siguientes:
Seleccionamos la variable que queremos para las filas en el cuadro de diálogo de

Análisis de Correpondencias. En este caso, el cargo de cada individuo.
Hacemos clic sobre el botón Definir Rango
Introducimos el valor máximo y mínimo de las categorías
Hacemos clic sobre el botón Continuar
Opcionalmente, podemos especificar restricciones de igualdad sobre las categorías de las

variables de fila y definir las categorías como suplementarias. Para cada categoría que
queremos restringir o declarar como suplementaria, la seleccionamos de la lista, y hacemos
clic en el botón anterior a restringir o a suplementaria. Para las restricciones de igualdad, se
tienen que marcar al menos dos variables con esta restricción.
5.1.2 DEFINIR EL RANGO DE LAS COLUMNAS
Una vez definida una variable para las columnas, se ilumina el botón Definir Rango. Hacemos
clic sobre él, y obtenemos el siguiente cuadro de diálogo:

Tenemos que definir un rango para la variable de las columnas. Al igual que para las filas, el
mínimo y el máximo especificados han de ser números enteros. . Los valores con decimales,
son truncados en el análisis. Un valor de categoría fuera del rango que se especifica será
ignorado en el análisis.
Todas las categorías están, en principio, sin restringir y activas. Podemos restringirlas o
definirlas como suplementarias si así nos conviene para el análisis.
La categoría es suplementaria: Las categorías suplementarias no influyen en el

análisis, pero se representan en el espacio definido por las categorías activas. Las
categorías suplementarias no influyen a la hora de definir las dimensiones. El número
máximo de categorías de columna suplementarias es el número total de categorías
menos2.
Las categorías deben ser iguales. Las categorías deben tener puntuaciones iguales.
Se usan las restricciones de igualdad si la orden para las categorías no es deseado ni
intuitivo. El número máximo de categorías de columna que pueden ser restringidas a
ser iguales es el número total de categorías activas menos 1. Para imponer más de una
restricción de igualdad, se puede hacer a través de la sintaxis. Por ejemplo, usaremos la
sintaxis para restringir las categorías 1 y 2 por un lado, y la 3 y 4 por el otro.
Para definir el rango de la variable de columna en SPSS, seguimos los siguientes pasos:
Hacemos clic sobre el botón Definir Rango, y obtenemos el cuadro de diálogo al

comienzo del apartado.
Introducimos los valores mínimos y máximos para la variable de columna
Si queremos establecer alguna restricción o definir alguna categoría como
suplementaria, seguimos el mismo proceso indicado para las variables de fila.
5.2 ANÁLISIS DE CORRESPONDENCIA: MODELO
Si hacemos clic sobre el botón Modelo del cuadro de diálogo de Análisis de Correspondencia

El cuadro de diálogo Modelo nos permite determinar las dimensiones, la medida de distancia,
el método de estandarización, y el método de normalizacion.
Dimensiones en la solución. Especificamos el número de dimensiones. En general,

elegimos tan pocas dimensiones como sea posible para explicar la mayor parte de la
varianza. El número máximo de dimensiones depende del número de categorías activas
usadas en el modelo y de las restricciones de igualdad. El número máximo de
dimensiones es el menos de los siguientes:
El número de categorías de fila activas menos el número de categorías de fila

restringidas para ser igual, más el número de grupos de categorías de fila
restringidos a ser iguales.
El número de categorías de columna activas menos el número de categorías de
columna restringidas a ser iguales, más el número de grupos de categorías de
columna restringidos a ser iguales.
Método de Distancia. Podemos seleccionar la medida de distancia entre las filas y

entre las columnas de la tabla de correspondencia. Existen dos posibilidades:
Chi Cuadrado: Se basa en la distancia ponderada entre los perfiles, donde la

ponderación es la masa de las filas o columnas. Esta medida se pide para los
análisis de correspondencia estándar.
Euclídea: Se basa en la raíz cuadrada de la suma al cuadrado de las diferencias
entre los pares de filas y los pares de columnas.
Método de Estandarización. Elegimos entre una de las siguientes opciones:
Se eliminan las medias de filas y columnas: Se centran las filas y las

columnas. Este método se pide para el análisis de correspondencia estándar.
Se eliminan las medias de las filas: Sólo se centran las filas.
Se eliminan las medias de las columnas: Sólo se centran las columnas.
Se igualan los totales de fila y se eliminan las medias: Antes de centrar las
filas, los márgenes de fila se igualan.
Se igualan los totales de columna y se eliminan las medias: Antes de

centrar las columnas, los márgenes de columna de igualan.
Método de Normalización. Elegimos entre una de las siguientes opciones:
Simétrico: Para cada dimensión, las puntuaciones de fila son la media

ponderada de las puntuaciones de columna divididas por el correspondiente
valor singular. Este método lo utilizamos si queremos analizar las diferencias o
similitudes entre las categorías de las dos variables.
Principal: Las distancias entre las puntuaciones de fila y las puntuaciones de
columna son aproximaciones de las distancias en la tabla de correspondencia,
medidas según la medida de distancia seleccionada. Este método lo usamos si
queremos analizar las diferencias entre las categorías de cada una de las
variables en lugar de las diferencias entre las categorías de las dos variables.
Principal por fila: Las distancias entre las puntuaciones de fila son
aproximaciones de las distancias en la tabla de correspondencia según la medida
de distancia seleccionada. Las puntuaciones de fila son la media ponderada de
las puntuaciones de columna. Utilizamos este método si queremos analizar las
diferencias o similitudes entre las categorías de la variable de fila.
Principal por columna: Las distancias entre las puntuaciones de fila son
aproximaciones de las distancias en la tabla de correspondencia según la medida
de distancia seleccionada. Las puntuaciones de columna son la media ponderada

de las puntuaciones de fila. Utilizamos este método cuando queremos analizar
las diferencias o similitudes entre las categorías de la variable de columna.
Personalizado: Debemos especificar un valor entre –1 y 1. Un valor de –1
corresponde al método Principal por Columna. Un valor de 1 corresponde a
Principal por Fila. Un valor de 0 corresponde al Simétrico. Todos los demás
valores esparcen la inercia sobre las puntuaciones de tanto las filas como las
columnas en distintos grados. Este método se utiliza para realizar diagramas de
dispersión biespacial a medida.
5.3 ANÁLISIS DE CORRESPONDENCIA: ESTADÍSTICOS
Si hacemos clic sobre el botón Estadísticos obtenemos el siguiente cuadro de diálogo:
El cuadro de diálogo Estadísticos nos permite especificar el Output numérico que vamos a
obtener:
Tabla de Correspondencias: Es una tabla de contingencia de los valores de las

variables con totales marginales para las filas y las columnas.
Inspección de los puntos de fila: Para cada categoría de fila , las puntuaciones,
masa, inercia, contribución a la inercia de la dimensión, y la contribución a la dimensión
de la inercia del punto.
Inspección de los puntos de columna: Para cada categoría de columna, las
puntuaciones, masa, inercia, contribución a la inercia de la dimensión, y la contribución
a la dimensión de la inercia del punto.
Perfiles de fila: Para cada categoría de fila, la distribución a través de las categorías
de la variable de columna.
Perfiles de columna: Para cada categoría de columna, la distribución a través de las
categorías de la variable de fila.
Permutaciones de la tabla de correspondencia: Nos presenta la tabla de
correspondencias reorganizada, de manera que las filas y las columnas están ordenadas
según las puntuaciones de la primera dimensión. Opcionalmente, podemos especificar
la dimensión máxima para la que quieres que se produzcan las tablas permutadas. Se
crea una tabla permutada para cada dimensión desde la primera hasta la indicada en el
recuadro.
Estadísticos de confianza para los puntos de fila: Incluyen las desviaciones típicas
y las correlaciones para todos los puntos de fila no suplementarios.
Estadísticos de confianza para todos los puntos de columna: Incluyen las
desviaciones típicas y las correlaciones para todos los puntos de fila no suplementarios.

5.4 ANÁLSIS DE CORRESPONDENCIA: GRÁFICOS
Si hacemos clic sobre el botón Guardar, obtenemos el siguiente cuadro de diálogo:
El cuadro de diálogo Gráficos nos permite especificar qué gráficos queremos que se
produzcan. Tenemos las siguientes opciones:
Diagramas de dispersión: Crea una matriz con todos los gráficos por pares posibles
de las dimensio nes. Los diagramas de dispersión disponibles son los siguientes:
Diagrama de Dispersión Biespacial: Crea una matriz de diagramas

entrelazados de las puntuaciones de fila y de columna. Si se ha seleccionado la
normalización principal, esta opción no está disponible.
Puntos de fila: Produce una matriz de diagramas de los puntos de fila.
Puntos de columna: Produce una matriz de diagramas de los puntos de
columna.
Tenemos también la opción de especificar cuantos caracteres usar en las etiquetas de valor
cuando etiquetamos los puntos. Este valor debe ser un número entero no negativo menor o
igual a veinte.
Gráficos de línea: Creas un gráfico para cada dimensión de la variable seleccionada.

Tenemos la posibilidad de realizar los siguientes gráficos de línea:
Categorías de fila transformadas: Crea un gráfico con los valores de

categoría de fila iniciales frente a sus correspondientes puntuaciones de fila.
Categorías de columna transformadas: Crea un gráfico con los valores de
categoría de columna iniciales frente a sus correspondientes puntuaciones de
columna.
También tenemos la opción de especificar cuantos caracteres usar en las etiquetas de valor
cuando etiquetamos los puntos. Este valor debe ser un número entero no negativo menor o
igual a veinte.
5.5 FUNCIONES ADICIONALES DEL COMANDO CORRESPONDENCE
Podemos realizar un análisis de correspondencia a medida si pegamos nuestras elecciones en

la ventana de sintaxis y editamos posteriormente la sintaxis del comando CORRESPONDENCE.

El lenguaje de programación de SPSS nos permite realizar las siguientes modificaciones
adicionales:
Especificar la tabla de datos como input en lugar de utilizar los datos Casewise (usando
el subcomando TABLE = ALL)
Especificar el número de caracteres de las etiquetas de valor usadas para etiquetar los
puntos para cada tipo de matriz de diagramas de dispersión o matriz biespacial (con el
subcomando PLOT)
Especificar el número de caracteres de las etiquetas de valor usadas para etiquetar los
puntos para cada tipo de gráfico de líneas (con el subcomando PLOT)
Escribir una matriz de puntuaciones de fila y de columna en un archivo de datos
matriciales de SPSS (con el subcomando OUTFILE)
Escribir una matriz de estadísticos de confianza (varianzas y covarianzas) para los
valores singulares y las puntuaciones en un archivo de datos matriciales de SPSS (con
el subcomando OUTFILE)
Especificar restricciones múltiples de igualdad para las categorías (con el subcomando
EQUAL)

M - Spss Analisis Factorial PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

M - Spss Analisis Factorial PDF

Cargado por

Copyright:

Formatos disponibles

MANUAL DEL CURSO

CAPÍTULO 1: ANÁLISIS DE VARIANZA DE UN FACTOR

1.1 ANÁLISIS DE VARIANZA DE UN FACTOR.............................................................1

CAPÍTULO 2: MLG ANÁLISIS UNIVARIANTE

2.1 OBTENER UN ANÁLISIS MLG UNIVARIANTE.........................................................8

CAPÍTULO 3: ANÁLISIS DE CONGLOMERADOS JERÁRQUICO

3.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS JERÁRQUICO ........................ 32

Manual de SPSS: Análisis Factorial y de Varianza I

4.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS DE K-MEDIAS ....................... 48

CAPÍTULO 5: ANÁLISIS DE CORRESPONDENCIA

5.1 OBTENER UN ANÁLISIS DE CORREPONDENCIA .................................................. 57

Manual de SPSS: Análisis Factorial y de Varianza II

1.1 ANÁLISIS DE VARIANZA DE UN FACTOR

El procedimiento ANOVA de un factor genera u90

Para cada grupo:

Tabla de análisis de varianza para cada variable dependiente

Contrastes a priori especificados por el usuario

Manual de SPSS: Análisis Factorial y de Varianza 1

1.2 RESULTADOS DE LA MUESTRA

A continuación, vemos un ejemplo de resultados de un contraste ANOVA.

Una serie de descriptivos para cada valor del factor:

El contraste ANOVA, que en este caso resulta significativo

Manual de SPSS: Análisis Factorial y de Varianza 2

Un gráfico de las medias para cada valor del factor.

Manual de SPSS: Análisis Factorial y de Varianza 3

Vamos al menú Analizar - Comparar medias - ANOVA de un factor...

Obtenemos el cuadro de dialogo ANOVA de un factor

Seleccionamos una o más variables dependientes

1.4 ANOVA DE UN FACTOR: CONTRASTE

Si hacemos clic sobre el botón Contrastes, obtenemos el siguiente cuadro de diálogo:

Podemos dividir las sumas de cuadrados inter-grupos en componentes de tendencia o

Polinómico. Divide las sumas de cuadrados inter-grupos en componentes de

El orden de los coeficientes es importante porque se corresponde con el orden ascendente de

1.5 ANOVA DE UN FACTOR: CONTRASTES POST HOC

Las pruebas de rango identifican subconjuntos homogéneos de medias que no se diferencian

La prueba de la diferencia significativa de Tukey, la GT2 de Hochberg, la prueba de Gabriel y la

Las pruebas de comparaciones múltiples que no suponen varianzas iguales son T2 de

Manual de SPSS: Análisis Factorial y de Varianza 5

Hacemos clic sobre el botón Estadísticos:

Estadísticos: Elija uno entre los siguientes:

Descriptivos: Calcula los siguientes estadísticos: Números de casos, Media, Desviación

Valores perdidos: Controla el tratamiento de los valores perdidos.

Manual de SPSS: Análisis Factorial y de Varianza 6

El procedimiento MLG Univariante proporciona un análisis de regresión y un análisis de

En su archivo de datos puede guardar residuos, valores pronosticados, distancia de Cook y

Ejemplo: se recogen datos de los corredores individuales en el maratón de Chicago

2.1 OBTENER UN ANÁLISIS MLG UNIVARIANTE

Vamos al menú Analizar - Modelo lineal general - Univariante.

Seleccionamos la variable dependiente.

Manual de SPSS: Análisis Factorial y de Varianza 8

Especificar modelo: Un modelo factorial completo contiene todos los efectos

2.2.1 CONSTRUIR LOS TÉRMINOS

Para las covariables y los factores seleccionados:

Interacción: crea el término de interacción de mayor nivel de todas las variables

Se utiliza normalmente para:

Un modelo ANOVA equilibrado en el que se especifica cualquier efecto principal

Un modelo ANOVA equilibrado

Se utiliza normalmente para:

Cualquiera de los modelos que aparecen en Tipo I y Tipo II

Cualquiera de los métodos que aparecen en Tipo I y Tipo II

Manual de SPSS: Análisis Factorial y de Varianza 10

Hacemos clic sobre el botón Contrastes y obtenemos el siguiente cuadro de diálogo:

El contraste de hipótesis se basa en la hipótesis nula LB = 0, donde L es la matriz de