Documentos de Académico
Documentos de Profesional
Documentos de Cultura
M - Spss Analisis Factorial PDF
M - Spss Analisis Factorial PDF
SPSS:
ANÁLISIS FACTORIAL Y DE
VARIANZA
ÍNDICE DE CONTENIDOS
Además de determinar que existen diferencias entre las medias, es posible que desee saber
qué medias difieren. Existen dos tipos de contrastes para comparar medias: los contrastes a
priori y las pruebas post hoc.
Los contrastes a priori se plantean antes de ejecutar el experimento y las pruebas post hoc se
realizan después de haber llevado a cabo el experimento. También se puede contrastar las
tendencias existentes a través de las categorías.
Ejemplo. Nos presentan datos para tres tratamientos contra el acné, de tres doctores
distintos. La primera variable nos describe el porcentaje de mejoras, y la segunda el doctor
que trató al paciente. Se desea saber si el tratamiento que se reciba influye en las mejoras.
Por otro lado, los doctores Rodríguez y Júcar pertenecen a una asociación de dermatólogos
altamente selectiva. Queremos saber si existen diferencias entre los doctores pertenecientes a
dicha asociación con respecto al tercer doctor, el doctor Skoll.
Estadísticos.
Número de casos
Media
Desviación típica
Error típico de la media
Mínimo
Máximo
Intervalo de confianza al 95% para la media
Prueba de Levene sobre la homogeneidad de las varianzas
Datos. Los datos de variable de factor deben ser enteros y la variable dependiente
debe ser cuantitativa (nivel de medida de intervalo).
Supuestos. Cada grupo es una muestra aleatoria independiente procedente de una
población normal. El análisis de varianza es robusto a las desviaciones de la normalidad,
aunque los datos deberán ser simétricos. Los grupos deben proceder de las poblaciones
con varianzas iguales. Para contrastar este supuesto utilizamos la prueba de Levene de
homogeneidad de varianzas.
La prueba de homogeneidad:
Por ejemplo, si existen seis categorías en la variable factor, los coeficientes -1, 0, 0, 0, 0,5 y
0,5 contrastan con el primer grupo con los grupos quinto y sexto. Para la mayoría de las
aplicaciones, la suma de los coeficientes debería ser 0. Los conjuntos que no sumen 0 también
se pueden utilizar, pero aparecerá un mensaje de advertencia.
Si hacemos clic sobre el botón Post Hoc, obtenemos el siguiente cuadro de diálogo:
Pruebas: Una vez que se ha determinado que existen diferencias entre las medias, las
pruebas de rango post hoc y las comparaciones múltiples por parejas permiten
determinar qué medias difieren.
Excluir casos según análisis: Un caso que tenga un valor perdido para la variable
dependiente o la variable de factor en un análisis determinado, no se utiliza en ese
análisis.
Excluir según lista: Se excluyen de todos los casos con valores perdidos para la
variable de factor o para cualquier variable dependiente incluida en la lista de variables
dependientes en el cuadro de diálogo principal. Si no se especifican varias variables
dependientes, esta opción no funciona.
Se pueden investigar las interacciones entre los factores así como los efectos de los factores
individuales, algunos de los cuales pueden ser aleatorios. Además se pueden incluir los efectos
de las covariables y las interacciones de covariables con los factores. Para el análisis de
regresión, las variables independientes se especifican como covariables.
Se pueden contrastar tanto los modelos equilibrados como los no equilibrados. Se considera
que un diseño está equilibrado si cada casilla del modelo contiene el mismo número de casos.
Además de contrastar hipótesis, MLG Univariante genera estimaciones de los parámetros.
También se encuentran disponibles los contrastes a priori de uso más habitual para contrastar
la hipótesis. Además, si una prueba F global ha mostrado cierta significación, pueden
emplearse las pruebas post hoc para evaluar las diferencias entre las medias específicas. Las
medias marginales estimadas ofrecen estimaciones de valores de las medias pronosticadas
para las casillas del modelo; los gráficos de perfil de estas medias permiten observar
fácilmente alguna de estas relaciones.
Para comprobar los supuestos, se puede utilizar la prueba de homogeneidad de varianzas y los
gráficos de dispersión por nivel. También se puede examinar los residuos y los gráficos de
residuos.
Hacemos clic ahora sobre el botón Modelo y obtenemos el siguiente cuadro de diálogo:
Tipo I: este método también es conocido como descomposición jerárquica del método
de suma de cuadrados. Cada término se corrige solo respecto al término que le precede
en el modelo.
Tipo II: este método calcula cada suma de cuadrados del modelo considerando solo los
efectos pertinentes. Un efecto pertinente es un efecto que no está contenido en el
efecto examinado. Se utiliza normalmente para:
Tipo III: es el método por defecto. Este método calcula las sumas de cuadrados de un
efecto del diseño como las sumas de cuadrados corregidas respecto a cualquie r otro
efecto que no lo contenga y ortogonales para cualquier efecto que lo contenga.
La suma de cuadrados de Tipo III, tiene una gran ventaja por ser invariables respecto a la
frecuencia de casillas, siempre que la forma general de estimabilidad permanezca constante.
En un diseño factorial sin casillas perdidas, este método equivale a la técnica de cuadrados
ponderados de medias de Yates.
Tipo IV: este método está diseñado para una situación en la que faltan casillas. Para
cualquier efecto F en el diseño. Si F no está contenida en cualquier otro efecto,
entonces Tipo IV = Tipo III = Tipo II. Cuando F está contenida en otros efectos, el tipo
IV distribuye equitativamente los contrastes que se realizan entre los parámetros en F a
todos los efectos de nivel más alto. Se utiliza normalmente para:
Los contrastes se utilizan para contrastar las diferencias entre los niveles de un factor. Puede
especificar un contraste para cada factor en el modelo. Los contrastes representan las
combinaciones lineales de los parámetros.
Tipos de contrastes:
Desviación: compara la media de cada nivel con la me dia de todos los niveles
Simple: compara la media de cada nivel con la media de un nivel especificado
Diferencia: compara la media de cada nivel con los niveles anteriores.
Helmert: compara la media de cada nivel del factor con la media de los niveles
siguientes.
Repetida: compara la media de cada nivel, excepto el último, con la media del
nivel siguiente.
Polinómico: compara el efecto lineal, cuadrático, cúbico, etc.
Un gráfico de perfil es un gráfico de líneas en el que cada punto indica la media marginal
estimada de una varia ble dependiente (corregida respecto a las covariables) en un nivel de un
factor. Los niveles de un segundo factor se pueden utilizar para generar líneas diferentes. Cada
nivel en un tercer factor se puede utilizar para generar un gráfico diferente.
Todos los factores fijos y aleatorios, si existen, están disponibles para los gráficos.
Para los análisis multivariados, los gráficos de perfil se crean para cada variable dependiente.
En un análisis de medidas repetidas, es posible utilizar tanto los factores inter-sujetos como los
intra-sujetos en los gráficos de perfil.
Las opciones MLG-Multivariante y MLG- Medidas repetidas solo estarán disponibles si tiene
instalada la opción Modelos avanzados.
Para dos o más factores, las líneas paralelas indican que no existe interacción entre los
factores, lo que significa que puede investigar los niveles de un único factor. Las líneas no
paralelas indican un la interacción.
Después de especificar un gráfico mediante la selección de los factores del eje horizontal y, de
modo opcional, los factores para distintas líneas y gráficos.
Hacemos clic sobre el botón Post Hoc y obtenemos el siguiente cuadro de diálogo:
Para MLG Multivariante y MLG Medidas repetidas, si hay más de una variable dependiente, las
pruebas post hoc se realizan por separado para cada variable dependiente. Los procedimientos
MLG Multivariable y MLG Medidas repetidas solo estarán disponibles si se ha instalado la opción
Estadísticas Avanzadas.
Ryan, Einot, Gabriel y Welsch (R-E-G-W) desarrollaron dos pruebas de rangos múltiples por
pasos. Los procedimientos múltiples por pasos comparan en primer lugar si las medias son
todas iguales. Si no son iguales, se contrasta la igualdad en subconjuntos de medias. R-E-G-W
F se basa en una prueba F y R-E-G-W Q se basa en el rango estudentizado.
Estas pruebas funcionan mejor que las de los rangos múltiples de Duncan y de Student-
Newman- Keuls, que también son procedimientos múltiples por pasos, pero que no son
recomendables si los tamaños de las casillas son desiguales.
Cuando las varianzas no son iguales, usaremos el T2 de Tamhane, una prueba conservadora
de comparaciones por parejas basada en una prueba t, el T3 de Dunnet, prueba de
comparaciones por parejas basada en el modulo máximo estudentizado, prueba de
comparaciones por parejas de Games - Howell o C de Dunnett (prueba de comparaciones por
parejas basada en el rango estudentizado).
La prueba t de Waller – Duncan utiliza una aproximación Bayesiana. Esta prueba de rango
emplea la media armónica del tamaño de la muestra cuando los tamaños de la prueba no son
iguales.
El nivel de significación de la prueba de la prueba de Scheffé esta pensado para permitir todas
las combinaciones lineales posibles de las medias de grupo que se van a contrastar, no solo las
comparaciones por parejas en esta función. El resultado es que la prueba de Scheffé es, por lo
general, más conservadora que otras pruebas, lo que significa que se precisa una mayor
diferencia entre las medias para la significación.
La prueba de comp araciones múltiples por parejas de la diferencia menos significativa (DMS)
es equivalente a múltiples pruebas t individuales entre todas las parejas de grupos. La
desventaja de esta prueba es que no se realiza ninguno intento de rectificar el nivel critico
para realizar las comparaciones múltiples.
Pruebas que se muestran: Se proporcionan comparaciones por parejas para DMS, Sidak,
Bonferroni, Games y Howell, T2 y T3 de Tamhane, C y T3 de Dunnett. También se facilitan
subconjuntos homogéneos para las pruebas de rango para S-N-K, Tukey-b. Duncan, R-E-G-W
F, R-E-G-W Q y Waller. La prueba de la diferencia honestamente significativa de Tukey, GT2 de
Hochberg, la prueba de Gabriel y la prueba de Scheffé son tanto pruebas de comparaciones
múltiples como de rango.
Muchas de estas variables las podemos utilizar para examinar supuestos sobre los datos. Si
queremos almacenar los valores para utilizarlos posteriormente en otra sesión de SPSS, los
guardaremos en el archivo de datos actual.
Valores pronosticados. Son los valores que predice el modelo para ada caso. Están
disponibles los valores pronosticados no tipificados y los errores tipificados de los
valores pronosticados. Si hemos seleccionado una variable MCP (WLS), dispondremos
además de la opción de valores pronosticados no tipificados ponderados.
Diagnósticos. Son medidas para identificar casos con combinaciones poco habituales
de valores para las variables independientes y casos que puedan tener un gran impacto
en el modelo. Las opciones disponibles incluyen la Distancia de Cook y los valores de
influencia no centrados.
Residuos. Un residuo no tipificado es el valor real de la variable dependiente menos el
valor pronosticado por el modelo. También se encuentran disponibles residuos
eliminados, estudentizados y tipificados. Si hemos seleccionado una variable MCP,
contaremos asimismo con residuos no tipificados ponderados.
Guardar en archivo nuevo. Graba un archivo de datos de SPSS que contiene una
matriz de varianza-covarianza de las estimaciones de los parámetros del modelo.
Asimismo, para cada variable dependiente habrá una fila de estimaciones de los
parámetros, una fila de valores de significación para los estadísticos t correspondientes
a las estimaciones de los parámetros y una fila de grados de residuos de libertad. En un
modelo multivariado, existen filas similares para cada variable dependiente.
Si lo desea, puede usar este archivo matricial en otros procedimientos que lean un archivo
matricial de SPSS.
Seleccionamos Falta de Ajuste para comprobar si el modelo puede describir de forma adecuada
la relación entre la variable dependiente y las variables independientes. La Función estimable
general permite construir pruebas de hipótesis personales basadas en la función estimable
general. Las filas en las matrices de coeficientes de contraste son combinaciones lineales de la
función estimable general.
Nivel de significación. Puede que nos interese corregir el nivel de significación usado
en las pruebas post hoc y el nivel de confianza empleado para construir intervalos de
confianza. El valor especificado también se utilizara para calcular la potencia observada
para la prueba. Si especificamos un nivel de significación, el cuadro de dialogo mostrará
el nivel asociado de los intervalos de confianza.
Ejemplo. ¿Qué actitudes subyacentes hacen que las personas respondan a las
preguntas de una encuesta política de la manera en que lo hacen? Examinando las
correlaciones entre los elementos de la encuesta se deduce que hay una superposición
significativa entre los diversos subgrupos de elementos (las preguntas sobre los
impuestos tienden a estar correlacionadas entre sí, y así sucesivamente). Con el análisis
factorial, se puede investigar el número de factores subyacentes y, en muchos casos, se
puede identificar lo que los factores representan conceptualmente. Adicionalmente, se
pueden calcular las puntuaciones factoriales para cada encuestado, que pueden
utilizarse en análisis subsiguientes. Por ejemplo, es posible construir un modelo de
regresión logística para predecir el comportamiento de voto basándonos en las
puntuaciones factoriales.
Estadísticos.
Diagramas:
Gráfico de sedimentación
Gráfico de las saturaciones de los dos o tres primeros factores
El modelo de análisis factorial especifica que las variables vienen determinadas por los factores
comunes (los factores estimados por el modelo) y por factores únicos (los cuales no se
superponen entre las distintas variables observadas). Las estimaciones calculadas se basan en
el supuesto de que ningún factor único esté correlacionado con los demás, ni con los factores
comunes.
A continuación, tendríamos que seleccionar las variables para las cuales queremos realizar el
análisis factorial.
Para seleccionar los casos para el análisis, elija una variable de selección. Vemos como se
activa el botón Valor.
Desde el menú de Análisis Factorial, hacemos clic sobre el botón Descriptivos y obtenemos
el siguiente cuadro de diálogo:
Estadísticos:
Coeficientes
Niveles de significación
Determinante
Inversa
Reproducida
Anti-imagen
Desde el menú Analizar – Reducción de datos – Análisis Factorial, hacemos clic sobre el
botón Extracción y obtenemos el siguiente cuadro de diálogo:
Componentes principales.
Mínimos cuadrados no ponderados.
Mínimos cuadrados generalizados.
Máxima verosimilitud.
Factorización de Ejes principales.
Factorización Alfa.
Factorización Imagen.
Desde el menú Analizar – Reducción de datos – Análisis Factorial, hacemos clic sobre el
botón Rotación y obtenemos el siguiente cuadro de diálogo:
Varimax
Equamax
Quartimax
Oblimin directo
Promax
Mostrar: Permite incluir los resultados de la solución rotada, así como los gráficos de
las saturaciones para los dos o tres primeros factores.
Nº máximo de iteraciones para la convergencia: Permite especificar el número
máximo de pasos que el algoritmo puede seguir para llevar a cabo la rotación.
Desde el menú Analizar – Reducción de datos – Análisis Factorial, hacemos clic sobre el
botón Puntuaciones y obtenemos el siguiente cuadro de diálogo:
Guardar como variables: Crea una nueva variable para cada factor en la solución
final. Si se marca esta opción, hay que seleccionar uno de los siguientes métodos
alternativos para calcular las puntuaciones factoriales:
Desde el menú Analizar – Reducción de datos – Análisis Factorial, hacemos clic sobre el
botón Opciones y obtenemos el siguiente cuadro de diálogo:
2.14 EJEMPLO
Un cliente quiere poder predecir las ventas de coches en función de una serie de variables que
ha recopilado. Sin embargo, sospecha que las variables están correlacionadas entre sí, y que
esto puede afectar negativamente a la predicción.
Se decide realizar un análisis factorial, analizando hasta que punto la información recibida de
esas variables puede ser resumida, en gran parte, en un número más reducido de factores
independientes entre ellos. Esta independencia se asegura si utilizamos el método de los
Componentes Principales para el análisis.
Vamos a marcar que SPSS nos calcule la Solución Factorial sin Rotar y el Gráfico de
Sedimentación y hacemos clic en el botón Continuar.
Hacemos clic sobre el botón Extracción y obtenemos el siguiente cuadro de diálogo:
Mediante la rotación, se puede conseguir que unos resultados de un análisis factorial que
resulten confusos, queden mucho más claros.
SPSS nos calculará el Análisis Factorial utilizando el método de los Componente Principales,
que se rotará posteriormente mediante el método Varimax para ayudar a la interpretación. Los
componentes con autovalores mayores que uno se guardarán en el archivo como variables.
La Tabla de Comunalidades:
Las comunalidades de cada variable nos muestra la cantidad de varianza de esa variable que
queda explicada con los factores seleccionados (en este caso, los factores con autovalor mayor
que 1).
Vemos como todas las variables tienen una comunalidad inicial de 1. Esta es la varianza que se
explica con la totalidad de todos los factores (es decir, por un número de factores igual al
número de variables).
Un análisis factorial cumplirá su función de resumir una serie de variables si las comunalidades
son elevadas para todas las variables.
Si no fuera ese el caso, indicaría que si utilizamos los factores para resumir la información de
las variables, las variables con comu nalidades bajas no se estarán teniendo en cuenta tal como
deberían. Si esto pasara, lo más correcto sería incluir más factores en el análisis, de manera
que todas las variables queden representadas correctamente por los factores extraídos.
La primera columna, Total, nos indica la cantidad de varianza de las variables originales que
explica cada uno de los factores, ordenados de mayor a menor. Es decir, el primer componente
extraído explica 5,994 de la varianza total (que sería 1 para cada variable – al haber 10
variables, sería 10).
La segunda columna indica el porcentaje de varianza que explica cada uno de los factores. En
este caso, el primer factor explica el 59,938% de la varianza, el segundo el 16,545% y así
sucesivamente.
Estas tres primeras columnas nos están mostrando la solución inicial, aquella para la que las
comunalidades de todas las variables eran 1. Esta solución inicial tiene tantos factores como
variables incluidas en el análisis.
La segunda sección de la tabla nos muestra la solución final no rotada. Al pedir el análisis,
habíamos indicado que seleccionase como solución aquellos factores cuyos autovalores fuesen
mayor que 1. En este caso, esto lo cumplen los tres primeros factores sólo. Nuestra solución
final es quedarnos con tres factores que explican el 87,709% de la varianza total de las 10
variables. Es decir, perdemos menos de un 13% de información y pasamos a trabajar con tres
variables independientes en vez de 10 variables correlacionadas.
Por último la tercera sección de la tabla nos muestra la solución final rotada. Vemos como
cambia la importancia de cada factor, pero no el total de varianza explicada. Vemos como hay
un cambio sustancial en el total de varianza explicada por cada factor, de la solución no rotada
a la rotada. Esto nos indica que la solución rotada será posiblemente más fácil de interpretar
que la solución no rotada.
Este gráfico nos ayuda a ver cuál debe ser la solución más adecuada para el análisis. Nos
esquematiza los autovalores de cada componente extraído. Los componentes que nos interesa
extraer son aquellos que se hayan en la parte del esquema con pendiente acusad. Los
componentes en la parte con pendiente casi plana contribuyen muy poco a explicar las
variables.
La última caída fuerte se da entre el componente tres y el cuatro, por lo que una buena
solución sería seleccionar sólo los tres componentes primeros.
Cuando el componente para una variable es elevado, eso nos indica que dicha variable
está altamente representada por ese factor.
Si el componente para una variable es muy reducido, implica que esa variable no está
casi representada por ese factor
Un componente negativo nos indica que el factor representa “lo contrario” a lo que la
variable muestra.
Cuanto más extremos sean los valores de los componentes de esta matriz, más fácil será
interpretar que significa y representa cada factor. Cuando una matriz de componentes tiene
más bien valores intermedios, esto nos dificulta la interpretación.
En este caso, el primer componente tiene valores más extremos, pero los otros dos
componentes tienen valores no muy claros.
En este caso, vemos como ya hay valores extremos o muy reducidos para todos los
componentes.
Comenzamos ahora a analizar qué significa y representa cada uno de los componentes.
El primer componente tiene las puntuaciones más elevadas para las siguientes
variables:
Precio en miles
Tamaño del motor
Caballos de Vapor
De estas tres variables, la que más representada está con el primer componente es el
Precio en miles. Además de tener una puntuación muy alta para el primer componente
Manual de SPSS: Análisis Factorial y de Varianza 29
(0,935), tiene una puntuación muy reducida para los otros dos. Esto nos indica que el
primer componente representa al Precio del vehículo.
Esto nos indica que cada factor refleja principalmente a esas tres variables, y que nos
debemos centrar en ellas para descubrir qué significan y representan nuestros componentes:
Precio en Miles
Longitud
Tipo de Vehículo
Si queremos calcular el valor del componente para un caso determinado, nos dirigimos a la
matriz de coeficientes para el cálculo de las puntuaciones en los componentes.
El valor de un componente para un caso determinado será igual a la suma del valor de cada
una de las variables para ese caso determinado, multiplicado por el coeficiente
correspondiente. Los tres componentes resultantes representan, y pueden ser utilizados en
lugar de, casi el 88% del total de información contenido en las 10 variables.
Usar los tres componentes obtenidos es más correcto que usar las tres variables con las que se
hallaban más correlacionados por dos razones principales:
Estadísticos:
Historial de conglomerados
Matriz de distancias (o similaridades)
Pertenencia a los conglomerados para una solución única o una serie de
soluciones.
Diagramas:
Dendogramas
Diagramas de témpanos.
Si estamos aglomerando casos, tenemos que seleccionar al menos una variable numérico. Si
estamos aglomerando variables, debemos seleccionar al menos tres variables numéricas.
Vinculación inter-grupos
Vinculación intra-grupos
Vecino más próximo
Vecino más lejano
Agrupación de centroides
Agrupación de medianas
Método de Ward
Distancia euclídea
Distancia euclídea al cuadrado
Coseno
Correlación de Pearson
Chebychev
Bloque
Minkowski
Personalizada.
Medida de Chi-Cuadrado
Medida de Phi-Cuadrado.
Distancia euclídea
Distancia euclídea al cuadrado
Diferencia de tamaño
Diferencia de configuración
Varianza
Dispersión
Forma
Concordancia simple
Correlación phi de 4 puntos
Lambda
D de Anderberg
Dice
Hamann
Jaccard
Kulczynski 1
Kulzynski 2
Lance y Williams
Ochiai
Rogers
Tanimoto
Russel y Rao
Sokal y Sneath 1
Soka l y Sneath 2
Sokal y Sneath 3
Manual de SPSS: Análisis Factorial y de Varianza 33
Sokal y Sneath 4
Sokal y Sneath 5
Y de Yule
Q de Yule
Tranformar valores: Permite estandarizar los valores de los datos para los casos o las
variables, antes de calcular las proximidades (no está disponible para datos binarios).
Los métodos disponibles de estandarización son:
Puntuaciones z
Rango –1 a 1
Rango 0 a 1
Magnitud máxima de 1
Media de 1
Desviación típica de 1
Valores absolutos
Cambiar el signo
Cambiar la escala al rango 0 – 1
Solución única
Rango de soluciones
Se ha realizado una encuesta en una Universidad sobre el Gasto en Transporte de los alumnos.
Se realizó una encuesta a 100 alumnos, y ahora se quiere analizar si existen distintos grupos
de gasto entre los alumnos.
El objetivo de dicho análisis es obtener grupos lo más homogéneos posible entre sí y lo más
heterogéneos posibles entre ellos, respecto a una serie de variables determinadas.
Los métodos seguidos para realizar este análisis son básicamente dos:
El método que se va a aplicar en el ejemplo posterior es de tipo jerárquic o. Este método aplica
un algoritmo que comienza considerando cada caso como independiente, cada elemento forma
un conglomerado independiente; y los va combinando entre sí hasta que sólo queda un único
conglomerado compuesto por todos los casos iniciales.
Los pasos a seguir para realizar este análisis son los siguientes:
Un 40% de los casos son menores de 21 años y usan el abono mensual (implica un
menor gasto en transporte)
Un 10% son menores de 21 años y no usan el abono
Un 40% son mayores de 21 años y usan el abono mensual
Un 10% son mayores de 21 años y no usan el abono mensual
Selección de las variables respecto a las cuales se va a realizar el análisis. En el caso sobre el
que se va a realizar el análisis, las variables seleccionadas son el gasto mensual en transporte
y la edad. Para seleccionar estas variables, hay que tener en cuenta lo siguiente:
Para que el análisis de conglomerados resulte significativo, las variables seleccionadas han de
afectar a la clasificación a realizar, han de estar directamente relacionadas con el análisis;
debiéndose incluir todas aquellas que puedan afectar a dicho análisis.
En el caso a analizar, se pretende agrupar a los individuos según sus costumbres de gasto en
transporte. De los datos obtenidos en la encuesta, las variables cuantitativas que más afectan
a dicho análisis son, efectivamente, las dos variables incluidas.
La agrupación de los casos se hará en función de las distancias o las similitudes existentes
entre ellos, uniendo primero aquellos casos que se hallen más próximos o que tengan mayor
similitud. Habrá que seleccionar un sistema de medida de la distancia entre casos y un sistema
de agrupación de los casos.
En el supuesto específico que nos concierne, se van a realizar tres análisis de conglomerados,
cambiando entre ellos los sistemas de medición y de agrupación seleccionados, comparándose
posteriormente los resultados obtenidos con cada uno de ellos. Los análisis a realizar serán los
siguientes:
Distancia Euclídea al cuadrado y Agrupación por media entre grupos (vinculación inter-
grupos)
Distancia Euclídea al cuadrado y agrupación por enlace simple
Antes de comenzar a desarrollar cada uno de los análisis de conglo merados realizados, resulta
conveniente realizar una aproximación inicial a la situación planteada mediante un análisis
gráfico de los casos.
12000
10000
8000
6000
4000
2000
16 18 20 22 24 26
En una primera aproximación, parecen existir cuatro grupos diferenciados, que parecen
coincidir con los cuatro segmentos en los que se dividía la población total (menores de 21 años
con y sin abono; y mayores de 21 años con y sin abono).
Los elementos con un gasto en trasporte más reducido parecen ser más similares entre sí que
los elementos con mayor gasto en transporte, que se hallan más dispersos.
Basándonos en estos primeros resultados, se podría prever la existencia de dos grupos muy
homogéneos y no muy distantes entre sí (aquellos con un gasto menor en transporte) de ocho
elementos cada uno; y de otros dos grupos, de dos elementos cada uno, más heterogéneos,
que tardarán más en unirse.
Antes de comenzar a analizar los resultados, conviene definir la distancia euclídea y la forma
aglomeración inter-grupos.
di , j ? ?
k ?1
( xik ? x jk ) 2
Siendo:
Marcamos los métodos de medida que vamos a utilizar en este primer análisis, la
Distancia Euclídea al Cuadrado y la Vinculación Inter-Grupos. En este cuadro marcamos
también la opción de Cambiar la escala al rango 0-1, de manera que resulte más
sencillo considerar qué elementos están cerca y cuáles no.
Hacemos clic sobre el botón Aceptar y obtenemos los siguientes resultados:
Vemos abajo una parte de la matriz de distancias (en total son 20 filas por 20
columnas):
Al observar la tabla anterior, se ve claramente como existen grandes similitudes entre varios
elementos, al existir varias distancias muy reducidas en algunos casos. Contrastando con esto,
existen para todos los elementos algún otro caso que se halla distante a ellos. Los valo res de
Por último, el gráfico de Témpanos, permite descubrir los elementos que quedarían incluidos
en cada Conglomerado, según el número de Conglomerados existentes (sólo insertamos una
parte del gráfico de témpanos por la misma razón que para la matriz de distancias).
Por último, habría que determinar el número óptimo de Conglomerados en los que agrupar los
elementos. Dicha agrupación tendría que ser aquella que maximice la homogeneidad entre los
elementos del grupo, a la vez que maximiza la heterogeneidad entre los distintos grupos.
Según los resultados obtenidos, especialmente fijándonos en el dendograma, parece que, tal
como se previó a través del análisis gráfico, la estructura con cuatro conglomerados parece ser
la óptima. Se puede ver que estos cuatro grupos se forman rápidamente, en una distancia
reescalada algo superior a cinco; mientras que el siguiente grupo, es decir, la estructura de
tres conglomerados, se construye a una distancia algo superior a diez.
Mediante este análisis de conglomerados, parece obtenerse una estructura de cuatro grupos
homogéneos, que serán, tal como se esperaba:
En este último caso se medirán las distancias entre los distintos grupos de manera diferente.
Se unirán en cada etapa los dos grupos que se encuentren más próximos, entre los que
se dé la mínima distancia. Dicha distancia se considerará como la menor de las
distancias existentes entre cada uno de sus elementos.
Volvemos al menú Analizar – Clasificar – Análisis de Conglomerados jerárquico.
Hacemos clic sobre el botón Método y seleccionamos el método de aglomeración
Vecino más próximo.
Hacemos clic sobre el botón Continuar y luego el botón Aceptar.
Los resultados de este análisis se ven reflejados en los siguientes resultados:
Esta tabla ya se diferencia de la del anterior punto. Al conglomerarse los elementos según un
criterio distinto, el orden en que se van formando los grupos no es el mismo.
Según esta tabla, los primeros elementos en unirse son el 16 y el 18. La distancia entre los
dos es cero, y los dos elementos se vuelven a unir con otros en la etapa 5.
Asimismo, los últimos conglomerados en unirse son el que contiene el número 1 con el que
contiene el número 10.
Vamos a ver ahora el gráfico de dendograma para ver este proceso más claramente.
Vemos como el esquema es algo distinto al del punto anterior, aunque se sigue viendo que los
cuatro casos sin abono (el 8, el 20, el 10 y el 19) son mucho menos homogéneos que el resto.
En este caso, las distancias a las que se unen los elementos extremos son todavía mayores
que las del caso segundo, acentuándose aún más la heterogeneidad existente en algunos de
los elementos como el 8, el 20 y el grupo formado por el 10 y el 19.
Esta manera de calcular las distancias entre grupos tiende a dar unas estructuras muy lineales
y sólo tiene en cuenta los elementos más próximos, aunque estos no sean representativos del
grupo total; por lo que, basándonos sólo en estos resultados, no se deben rechazar los
obtenidos en los anteriores supuestos, que parecen ser más homogéneos.
Según los resultados obtenidos en los dos supuestos estudiados, se podría concluir que la
estructura óptima, aquella que maximiza la homogeneidad de los grupos, parece ser la
estructura de cuatro grupos obtenida, con mayor o menor claridad, en el primer supuesto.
A pesar de ello, los resultados obtenidos en el último supuesto parecen remarcar los indicios
observados en el segundo supuesto, por lo que habría que tenerlo en cuenta. Este resultado
nos confirma la mayor heterogeneidad existente en el elemento 13 dentro del grupo de menor
gasto en transporte y mayores de 21 años; así como la mayor diferenciación existente en
ambos grupos con mayor gasto en transporte, especialmente para los sujetos menores de 21
años.
Ejemplo: ¿Cuáles son los grupos identificables de programas de televisión que atraen
audiencias parecidas dentro de cada grupo? Con el análisis de conglomerados de K-
Medias, podríamos agrupar los programas de televisión (los casos) en k grupos
homogéneos, basados en las características del televidente. Esto se puede utilizar para
identificar segmentos de mercado. También puede agrupar ciudades (los casos) en
grupos homogéneos, de manera que se puedan seleccionar ciudades comparables para
probar diversas estrategias de marketing.
Estadísticos: Para la solución completa: centros iniciales de los conglomerados, tabla
de ANOVA. Para cada caso: información del conglomerado, distancia desde el centro del
conglomerado.
Datos: Las variables deben ser cuantitativas en el nivel de intervalo o de razón. Si las
variables son binarias o recuentos, utilizamos el método de Análisis de Conglomerados
Jerárquicos.
Supuestos: Las distancias se calculan utilizando la distancia euclídea simple. Si desea
utilizar otra medida de distancia o de similaridad, utilizamos el procedimiento Análisis
de Conglomerados Jerárquicos. El escalamiento de las variables es una consideración
importante: si sus variables utilizan diferentes escalas (una variable se expresa en
dólares y la otra en años), los resultados pueden ser equívocos. Es estos casos, se
debería considerar la estandarización de las variables antes de realizar el análisis de
conglomerados de k- medias (esto se puede hacer en el procedimiento Descriptivos).
Este procedimiento supone que ha seleccionado el número apropiado de conglomerados
y que ha incluido todas las variables relevantes. Si se han seleccionado un número
inapropiado de conglomerados o hemos omitido variables relevantes, los resultados
podrían ser equívocos.
Manual de SPSS: Análisis Factorial y de Varianza 47
4.1 PARA OBTENER UN ANÁLISIS DE CONGLOMERADOS DE K- MEDIA S
Para obtener la máxima eficacia, tome una muestra de casos y utilice el método Iterar y
Clasificar para determinar los centros de los conglomerados. Pulse en Centros y
seleccione Escribir finales en: Archivo. Después restaure el archivo de datos completo y
seleccione el método Sólo Clasificar. Pulse en Centros y Leer Iniciales de: Archivo, para
clasificar el archivo completo utilizando los centros estimados a partir de la muestra.
Seleccionar una muestra aleatoria del total de nuestros casos y realizar un análisis de
conglomerados jerárquicos sobre ellos.
De ese análisis anterior, se obtendrá una solución del número de conglomerados en los
que se van a agrupar los casos.
Volvemos a seleccionar todos los casos
Realizamos un análisis de conglomerados de k- medias sobre el total de los casos,
indicando el número de conglomerados obtenidos en el análisis anterior.
Podemos guardar la información sobre la solución como nuevas variables para que puedan ser
utilizadas en análisis posteriores. Este menú nos permite las siguientes opciones:
4.6 EJEMPLO
Vamos a seguir con el ejemplo del capítulo anterior. Se trataba de un estudio realizado sobre
el gasto de transporte a una Universidad. Se habían entrevistado a 100 estudiantes y se quería
agrupar a los estudiantes según grupos de gasto. Se consideraba que había dos factores para
agrupar los casos, el ser mayor o menor de 21 años y el usar o no el abono mensual.
Una vez obtenidos los resultados de los conglomerados jerárquicos, resultaría interesante
realizar un Conglomerado de k- medias para k=4, es decir, construir cuatro subgrupos sobre la
muestra total de cien individuos, analizando si los elementos se han agrupado en el grupo que
podría pensar que les correspondería, o sea, si los cuatro grupos están compuestos por:
Con prioridad a obtener el resultado, se espera que los dos primeros grupos se ajusten a lo
previsto; mientras que respecto a los otros dos grupos, pueden no agruparse exactamente
según lo esperado, ya que, aún siendo la edad menor en uno de los dos grupos, el gasto en
transporte no tiene por qué serlo, lo cual podría crear una confusión entre ambos grupos, e
Pedimos que nos clasifique a los casos en cuatro grupos, según las dos variables
seleccionadas, el Gasto Mensual en Transporte y la Edad.
Marcamos que nos guarde el conglomerado al que pertenece cada caso. Hacemos clic
sobre el botón Continuar.
Hacemos clic ahora sobre el botón Opciones y obtenemos el siguiente cuadro de
diálogo:
Manual de SPSS: Análisis Factorial y de Varianza 51
Marcamos la Tabla de ANOVA y hacemos clic sobre el botón Continuar.
Hacemos clic sobre el botón Aceptar y obtenemos los siguientes resultados:
Para ver primero si el número de conglomerados seleccionado es el correcto, debemos
analizar las dos tablas siguientes:
En estas tablas vemos como sólo hay dos conglomerados con un número significativo de
casos, el 1 y el 2. En la segunda tabla vemos los centros de los conglomerados, es decir, los
valores para cada conglomerado de las dos variables según las cuáles queremos clasificar los
casos.
Esta agrupación parece ser debida a la heterogeneidad existente entre el gasto de transporte
de los casos que no utilizan abono de transporte.
Según estas dos tablas, vemos como el conglomerado 3 parece englobar los usuarios con
menos gasto de transporte, con un centro algo inferior al caso anterior. Esto parece indicar
que el grupo 3 ha absorbido a los dos casos de gasto muy reducido en transporte, que en caso
anterior se juntaban en un conglomerado aparte.
Hemos obtenido también en nuestros resultados una tabla ANOVA del análisis:
Estos resultados son debidos a la mayor variabilidad existente en el gasto en transporte para
los no usuarios. En algunos casos, la diferencia entre el no usuario del abono y algunos de los
usuarios del abono, será menor que la distancia con los demás no usuarios del abono.
Por último, recordamos que hemos pedido que SPSS nos guarde en una variable el
conglomerado al que pertenece cada grupo. Sería interesante pedir ahora un gráfico de Cajas
y Bigotes que nos muestre la variabilidad de la variable Gasto de Transporte para cada uno de
los tres grupos.
Si fuera necesario realizar el Análisis de Conglomerados sobre una muestra muy grande, y se
quisieran facilitar los datos, existe un método a seguir que proporciona resultados adecuados
y evita los complicados cálculos de los métodos aglomerativos.
Uno de los objetivos del análisis de correspondencia es describir las relaciones entre dos
variables nominales en una tabla de correspondencia en un espacio de dimensiones reducidas,
a la vez que se describen las relaciones entre las categorías para cada una de las variables.
Para cada variable, las distancias entre los puntos categóricos en un gráfico reflejan la relación
entre las categorías, de forma que las categorías similares estarán cerca la una de la otra en el
gráfico. Los puntos proyectados de una variable, sobre un vector desde el origen, a un punto
categórico para la otra variable describen la relación entre esas dos variables.
Un análisis de tablas de contingencia a menudo incluye analizar los perfiles de las filas y las
columnas y contrastar la independencia a través del estadístico Chi Cuadrado. Sin embargo, el
número de perfiles puede ser muy numeroso, y el test de la Chi Cuadrado no refleja la
estructura de la dependencia. El procedimiento de las Tablas de Continencia en SPSS ofrece
varias medidas y tests de asociación, pero no permite representar gráficamente ninguna de las
relaciones entre las variables.
El análisis factorial es una técnica estándar para describir las relaciones entre variables en un
espacio de baja dimensiones. Sin embargo, el análisis factorial requiere datos de intervalos, y
el número de observaciones ha de ser cinco veces el número de variables. El análisis de
correspondencia, por otro lado, asume que las variables son nominales y puede describir las
relaciones entre las categorías de cada variable, así como las relaciones entre las distintas
variables. Además, el análisis de correspondencia puede ser utilizado para analizar cualquier
tabla de medidas de correspondencia positivas.
Una vez seleccionada una variable para las filas, se ilumina el botón Definir Rango. Hacemos
clic sobre él y aparece el cuadro de diálogo siguiente:
Todas las categorías están, inicialmente, sin restringir y activas. Podemos restringir categorías
de fila para que sean iguales a otras categorías de fila, o podemos definir una categoría de fila
como suplementaria.
Para definir el rango en SPSS, hay que seguir los pasos siguientes:
Una vez definida una variable para las columnas, se ilumina el botón Definir Rango. Hacemos
clic sobre él, y obtenemos el siguiente cuadro de diálogo:
Todas las categorías están, en principio, sin restringir y activas. Podemos restringirlas o
definirlas como suplementarias si así nos conviene para el análisis.
Para definir el rango de la variable de columna en SPSS, seguimos los siguientes pasos:
Si hacemos clic sobre el botón Modelo del cuadro de diálogo de Análisis de Correspondencia
obtenemos el siguiente cuadro de diálogo:
El cuadro de diálogo Estadísticos nos permite especificar el Output numérico que vamos a
obtener:
El cuadro de diálogo Gráficos nos permite especificar qué gráficos queremos que se
produzcan. Tenemos las siguientes opciones:
Diagramas de dispersión: Crea una matriz con todos los gráficos por pares posibles
de las dimensio nes. Los diagramas de dispersión disponibles son los siguientes:
Tenemos también la opción de especificar cuantos caracteres usar en las etiquetas de valor
cuando etiquetamos los puntos. Este valor debe ser un número entero no negativo menor o
igual a veinte.
También tenemos la opción de especificar cuantos caracteres usar en las etiquetas de valor
cuando etiquetamos los puntos. Este valor debe ser un número entero no negativo menor o
igual a veinte.
Especificar la tabla de datos como input en lugar de utilizar los datos Casewise (usando
el subcomando TABLE = ALL)
Especificar el número de caracteres de las etiquetas de valor usadas para etiquetar los
puntos para cada tipo de matriz de diagramas de dispersión o matriz biespacial (con el
subcomando PLOT)
Especificar el número de caracteres de las etiquetas de valor usadas para etiquetar los
puntos para cada tipo de gráfico de líneas (con el subcomando PLOT)
Escribir una matriz de puntuaciones de fila y de columna en un archivo de datos
matriciales de SPSS (con el subcomando OUTFILE)
Escribir una matriz de estadísticos de confianza (varianzas y covarianzas) para los
valores singulares y las puntuaciones en un archivo de datos matriciales de SPSS (con
el subcomando OUTFILE)
Especificar restricciones múltiples de igualdad para las categorías (con el subcomando
EQUAL)