Está en la página 1de 99

INTRODUCCIN

INTRODUCCIN.

Que tal amigas y amigos que gustan de la estadstica, para m es un enorme placer
presentarles este Curso Avanzado de SPSS. Hace un par de meses, cuando Jos Luis me
plante la posibilidad de escribir un tercer curso sobre tcnicas estadsticas multivariadas con
el SPSS, me sent sumamente feliz, ya que podra continuar compartiendo mi experiencia
docente en estadstica multivariada con todos vosotros.

Con este curso pretendemos cerrar un ciclo en cuanto al manejo estadstico del programa
SPSS, que es complemento de los dos cursos predecesores sobre sta misma temtica.

Este nuevo curso lo he enriquecido con notas y ejemplos que mis profesores Dr. D. Cecilio
Mar Molinero y Dr. D. Francisco Jos Callealta me impartieron en las clases del curso de
Doctorado que aprob hace un par de aos en Sevilla. Gracias a ellos aprend muchsimo
sobre el manejo del programa informtico en mencin, y que ahora os traslado a todos
ustedes.

Otro aspecto que quiero resaltar de este nuevo curso, es que se analizan tcnicas estadsticas
mulvitariadas bastante interesantes pero a la vez un tanto complicadas de analizar, as que se
ha tratado de utilizar un lenguaje sencillo para que nuestros amigos lectores aprovechen al
mximo cada leccin del curso.

Un dato ms, y es que se han incorporado ejemplos completos para que al momento de
realizar un anlisis, se observe todo el proceso, y sea ms comprensible para el estudiante al
instante de arribar a conclusiones en el fenmeno investigado.

En ste curso analizaremos las siguientes tcnicas multivariadas de datos: Anlisis


Discriminante, Anlisis de Conglomerados No Jerrquicos y Anlisis de Componentes
Principales.

Nuevamente las gracias a mis amigos de AulaFacil.com por permitirme llegar a todos los
internautas deseosos de aprender las principales tcnicas de anlisis multivariante de datos.
Desde ya les auguro el mayor de los xitos. Para consultas o comentarios, les dejo a
continuacin mi correo electrnico.

MSc. Guillermo Antonio Gutirrez Montoya,


Email: guilleranto@hotmail.com

Temario

Siguiente
Leccin

Leccin 1

LECCIN 1: ANALISIS DISCRIMINANTE. ASPECTOS


CONCEPTUALES.

Curso SPSS
Aula curso
En primer lugar, supongamos que disponemos de un conjunto de individuos clasificados en
Aula Frances distintos grupos de acuerdo con la observacin de una determinada caracterstica que los
diferencia. Parece lgico pensar que esa caracterstica observada que los diferencia pudiera
estar relacionada con otras caractersticas ms fcilmente observables, de forma que si

dispusiramos de ellas y conociramos la relacin existente entre stas y aqullas (por ejemplo,
mediante algn tipo de funcin predictiva) podramos tratar de anticipar su comportamiento
ms probable, con cierta fiabilidad, sin necesidad de esperar a observarla. Ello lgicamente es
tanto ms interesante cuanto mayor es el coste asociado a la observacin final de la
Cursos
que expresa finalmente la clasificacin real, tanto ms cuando la observacin de
Gratis INEM caracterstica
esta caracterstica conlleve la desaparicin de la propia unidad observada (caso de que la
cursos-subvencio caracterstica sea, por ejemplo, la muerte).

Frmate
Introduzcamos como ilustracin el siguiente ejemplo simplificado. Imaginemos que a una
Gratis.Cursos
inmobiliaria llegan una serie de compradores potenciales interesndose por la compra de
Vlidos INEM.
vivienda. Pensemos que el acto final de acabar comprando o no la vivienda en cuestin puede
Plazas Limitadas.
ponerse en relacin con (depende de) una serie de caractersticas de los individuos que
Ms Informacin!
manifiestan el inters de comprar como pueden ser la propia posesin (o no) de una primera
vivienda, su proximidad a un posible enlace matrimonial o convivencia, sus ahorros y
capacidad de endeudamiento, etc.; y supongamos hipotticamente que penssemos que la
decisin de compra, de una forma simplificada, estara bsicamente relacionada con slo dos
caractersticas fcilmente observables como son la cantidad de dinero que pensaban dejar
para pagar a plazos por la compra de la vivienda (X1 ) y el nmero de aos que tardaran en
pagarla (X2 ).
Listado De

Cursos 2014 Si en los archivos de la inmobiliaria existen 49 casos de situaciones anteriores similares en las
que, adems de conocer estas dos caractersticas, tambin se conoce la decisin final sobre la
compra que adoptaron los correspondientes clientes, podramos establecer un procedimiento
que nos permitiera saber, en base a esa experiencia acumulada por la inmobiliaria, si sera
Cursos
muy probable que un nuevo cliente, que dice que aplazara 75 mil euros de pesetas a pagar en
5 aos para adquirir la vivienda, terminase comprando la vivienda? O, si por el contrario,
Superiores
sera ms probable que no la comprara?
EAE

Los mtodos de Anlisis Discriminante, junto a los ms recientes basados en Modelos de


Respuestas Cualitativas, son las tcnicas estadsticas empleadas por excelencia para resolver
Conduce
este tipo de problemas y sus generalizaciones.
una

ambulancia Dado un conjunto de individuos, de los que se conocen sus caractersticas, clasificados en K
grupos diferentes, el Anlisis Discriminante (AD) trata de establecer las relaciones ptimas
existentes entres aqullas caractersticas de los individuos y sus grupos de pertenencia; lo que

permitira clasificar (identificar) nuevos individuos, a partir de sus caractersticas observadas,

en uno de aquellos grupos y mediante una regla de decisin ptima que permitir predecir la
clasificacin de los nuevos individuos de la forma ms fiable posible con respecto a la

realidad.


La pertenencia de un individuo a un grupo se modeliza mediante una variable categrica que
toma tantos valores como grupos haya y que tambin se conoce como variable grupo o
variable independiente.

Las caractersticas observadas a partir de las que se va a proceder a la identificacin de los


individuos se conocen como variables clasificadoras, variables criterios, variables predictoras o
variables explicativas, exigindoseles generalmente en el Anlisis Discriminante estar medidas
en escalas de intervalo.

Y para obtener la relacin ptima existente entre las caractersticas de los individuos y sus
grupos de pertenencia pueden plantearse varias opciones. La opcin que parte del
establecimiento de un modelo similar al de regresin que nos permite explicar la variable
categrica en funcin de las dems variables clasificadoras y la resolucin de los problemas
tericos que plantea, conduce a los mencionados Modelos de Respuesta Cualitativa.

En palabras del autor Csar Prez Lpez, el anlisis discriminante es una tcnica estadstica
que permite asignar o clasificar nuevos individuos dentro de grupos previamente reconocidos o
definidos. Para ilustrar el concepto, consideremos un ejemplo tpico en el campo de la
medicina. Supongamos que se dispone de una muestra de pacientes en los que se ha medido
un conjunto de variables relativas al diagnstico de una enfermedad (presin sangunea, edad,
peso, etc.) y que con esta informacin o por comprobacin posterior, el investigador ha
dividido la muestra en dos (o ms) grupos diagnsticos. La finalidad del anlisis discriminante
es que cuando llegue un nuevo enfermo en el que son medidas las mismas variables, sus
valores permitan asignar dicho paciente a un grupo de diagnstico con la mxima
probabilidad, cuantificacin a la vez el valor de sta probabilidad. El anlisis discriminante
puede aplicarse a todos los campos de la ciencia en los que el objeto de investigacin sea la
clasificacin de individuos, a travs de un perfil observado. El anlisis discriminante se conoce
en ocasiones como anlisis de clasificacin, ya que su objetivo fundamental es producir una
regla o un esquema de clasificacin que permita a un investigador predecir la poblacin a la
que es ms probable que tenga que pertenecer una nueva observacin (supuestas conocidas
varias poblaciones a las que pueden pertenecer las observaciones).

Ahora, nos concentraremos en las tcnicas tradicionalmente empleadas para el Anlisis


Discriminante iniciadas por Fisher en 1936, y que desarrollamos a continuacin.

Introduccin

Siguiente
Leccin

Leccin 2

Curso SPSS
Aula curso
Aula Frances

Cursos
Ingls
kysy.com/Cursos-
Resultados 100%
Gratis sobre Cursos
Ingls!

Listado De
Cursos 2014
Atencin
Sociosanitari
a

LECCIN 2: ANALISIS DISCRIMINANTE. CLASIFICACION CON 2


GRUPOS.

CLASIFICACION CON 2 GRUPOS.


En esta situacin, partimos de que la poblacin se divide en 2 grupos o subpoblaciones, G1 y
G2 , sobre cuyos individuos se observan en general, p variables X = (X1 , X2 ...Xy). Y
supongamos que, en cada grupo Gf, (f = 1, 2), la variable absolutamente continua X = (X1 ,
X2 ...Xy) se distribuye segn una cierta funcin de densidad de probabilidad f l(x). Adems
representaremos por u y E el vector de medias y la matriz de varianzas y covarianzas
poblacionales y, anlogamente, por u1 , u2 , E1 y E2 los correspondientes vectores de medias y
matrices de varianzas y covarianzas de los respectivos grupos G1 y G2 . En estas
circunstancias, el Anlisis Discriminante trata de establecer alguna regla que relacione
caractersticas y grupos, de forma que permita la identificacin (clasificacin) ptima de
individuos en funcin de sus caractersticas.

Un criterio muy importante empleado en el Anlisis Discriminante, es el criterio de mxima


verosimilitud, siempre induce a considerar como solucin del problema planteado aqulla
que explique con una mxima probabilidad lo que se observa en la realidad. Por tanto, la
Regla de Mxima Verosimilitud aplicada al anlisis discriminante para identificar (clasificar)
un individuo de caractersticas x en alguno de los 2 grupos existentes ser:

Asignar x al grupo G1 f1(x) f1(x)

Es decir, la regla de mxima verosimilitud asigna el nuevo individuo, que presenta


caractersticas x, al grupo G y en el que dichas caractersticas presentan la mxima
probabilidad o densidad de probabilidad.
Para ilustrar intuitivamente el proceder de esta regla, supongamos que tenemos una nica
caracterstica unidimensional clasificadora continua de forma que, en los grupos G 1 y G 2 se
distribuya y localice distintamente como aparece en los siguientes grficos:

Conduce
una
ambulancia

Como observamos en el grfico, un individuo de caracterstica x presenta una densidad de


probabilidad en cada distribucin de cada grupo. As, la caracterstica x del individuo en el

grupo G2 , se encuentra en una zona muy improbable, por ser mayor de lo comn en este
grupo. Sin embargo, la caracterstica x del individuo se encuentra en una zona ms probable
en el grupo G1 , ya que se encuentra ms cercana a la moda. As pues, la regla de mxima
verosimilitud nos inducir a asignar los individuos que presentasen la caracterstica x al
grupo G1 , para el que la densidad de probabilidad en dicho valor de la caracterstica, x, es
ms alta.

Leccin
anterior

Siguiente
Leccin

Curso SPSS
Aula curso
Aula Frances

Cursos
Gratis INEM
cursos-subvencio
La Mejor Gua de
Formacin
Gratuita Gran
Oportunidad,
Prepara Tu Futuro

Leccin 3
LECCIN 3: ANALISIS DISCRIMINANTE. CASO PARTICULAR.

CASO PARTICULAR: 2 GRUPOS NORMALES UNIVARIANTES CON IGUAL


VARIANZA (k=2, p=1).

En este caso slo habra dos grupos (k=2) para clasificar a los individuos en funcin de una
nica variable x (p=1). Adems, supondremos que esta caracterstica clasificadora x se
distribuye normalmente en ambos grupos, con igual varianza s pero con distintas u1 y u2 .

Si suponemos, sin perdida de generalidad, que u1 u2 , la funcin de densidad de la


caracterstica para el grupo G1 se encontrara a la izquierda de la correspondiente funcin de
densidad para el grupo G2 , ya que, en el grupo G1 los valores ms probables estn alrededor
de u1 y en el grupo G2 , alrededor de u2 .

Existen valores de la caracterstica para los que podemos encontrar individuos ubicados en
cualquiera de los dos grupos, aunque con distintas verosimilitudes. As, en la zona
sombreada del siguiente grfico es ms probable que el individuo pertenezca al grupo G2
que al G1 ; mientras que en la zona simtrica es ms probable que el individuo pertenezca al
grupo G1 que al grupo G2 .

Listado De
Cursos 2014
Msters
Oficiales
EAE
Atencin
Sociosanitari
a

Intuitivamente, de lo dicho hasta aqu, podemos deducir cual ser la forma de decidir sobre
la pertenencia a los grupos de un elemento que presenta una caracterstica x. El eje de
simetra del grfico pasa por el valor promedio de u1 y u2 , y es ste punto el valor crtico que
separa las dos zonas de mxima verosimilitud de cada grupo. En la zona de la izquierda es
ms probable la pertenencia al grupo G1 pues la funcin de densidad en este grupo es
siempre superior a la del G2 , y en la zona opuesta ocurre lo contrario. Luego, cualquier
individuo con caracterstica a la izquierda de la lnea vertical debe ser asignado al grupo G1 ,

y todo individuo con caracterstica a la derecha de esta lnea debe ser asignado al grupo G2 .

Analticamente, sustituyendo la densidad de probabilidad en cada grupo Gj, por la expresin


correspondiente a la de una distribucin normal univariante de media uj y desviacin tpica
s, en la expresin de la regla discriminante de mxima verosimilitud antes definida, sta
quedara como:
Hasta aqu hemos realizado un repaso de anlisis multivariado, espero no haberlo asustado a
usted con toda sta teora, pero como la idea es que a usted se le quite el miedo a utilizar el
programa SPSS, procedemos a continuacin a realizar algunos ejemplos de Anlisis
Discriminante con el software en cuestin.

Leccin
anterior

Siguiente
Leccin

Curso SPSS
Aula curso
Aula Frances

Leccin 4
LECCIN 4: ANALISIS DISCRIMINANTE CON SPSS.

En la figura nmero 1 se observa la forma de acceder al Anlisis Discriminante en el SPSS.


Primeramente, se da un clic en el men Analizar, luego en el submen Clasificar, y
luego damos un clic en la opcin Discriminante.

Cursos
Gratis INEM
cursos-subvencio
La Mejor Gua de
Formacin
Gratuita Gran
Oportunidad,
Prepara Tu Futuro

Listado De
Cursos 2014
Conduce
una
ambulancia
Atencin
Sociosanitari
a

Una vez hemos elegido la opcin Discriminante, nos aparece el recuadro de la figura 2.
Ahora lo que tenemos que hacer es seleccionar las variables que deseemos llevar a nuestro
anlisis discriminante, tal y como se muestra en la figura 2.
Es de aclarar que la base de datos que utilizaremos me fue proporcionada en mis clases
cuando cursaba el Doctorado, y presenta informacin para analizar de un banco que se
encuentra interesado en saber si el cliente pagar a tiempo el prstamo, o si caer en
morosidad y ya no pagar la deuda que tienen pendiente. En esta situacin, se utilizan las
variables de fallido (caer o no en mora), patrimonio neto que es el capital con que
cuenta, y la deuda pendiente que an tiene con el banco el cliente.

Leccin
anterior

Siguiente
Leccin

Leccin 5

Curso SPSS
Aula curso
Aula Frances

LECCIN 5: ANALISIS DISCRIMINANTE

Cursos
Gratuitos
2014
tumaster.com
Buscador de
Cursos N1.
Encuentra Aqu el
Curso Que Buscas!

Cursos
Ingls

Una vez que hemos seleccionado las variables en nuestro modelo de anlisis discriminante
(figura 3), procedemos a definir los rangos de las mismas. Para nuestro caso, el rango de
fallido oscila de 1 a 2, y se puede ver esto en la figura 4.

Cursos
Gratis INEM

Listado De
Cursos 2014

Cuando ya tenemos seleccionadas las variables, tanto de agrupacin como las


independientes, entonces procedemos a determinar los estadsticos (figura 5) que
utilizaremos en nuestro anlisis discriminante. El resultado del mismo se puede observar en
la figura 6.

Leccin
anterior

Siguiente
Leccin

Leccin 6

Curso SPSS
Aula curso
Aula Frances

LECCIN 6: ANALISIS DISCRIMINANTE

En la opcin de estadsticos encontramos muchas medidas, agrupadas en tres grandes


reas: Descriptivos, Coeficientes de la funcin y Matrices.

Cursos
Gratis INEM
cursos-subvencio
La Mejor Gua de
Formacin
Gratuita Gran
Oportunidad,
Prepara Tu Futuro

Para nuestro ejemplo, seleccionaremos las siguientes opciones: Medias, Coeficiente de


Fisher, Coeficientes No tipificados. Para elegirlas, basta dar un clic en cada casilla y
automticamente son seleccionadas las opciones. Una vez hemos definido las opciones, basta
dar un clic en la casilla de aceptar y los cambios quedan guardados.

Listado De
Cursos 2014
Cursos
Superiores
Online
Atencin
Sociosanitari
a

En el Anlisis Discriminante, tambin tenemos la opcin de seleccionar el mtodo de


introducir independientes juntas o usar mtodo de inclusin por pasos; entonces, para
nuestro ejemplo, seleccionaremos con un clic el segundo mtodo, tal y como se muestra en la
figura 8.

Leccin
anterior

Siguiente
Leccin

Leccin 7

LECCIN 7: ANALISIS DISCRIMINANTE.

Curso SPSS
Aula curso
Aula Frances

Ahora, el siguiente paso es seleccionar el mtodo que utilizaremos en nuestro Anlisis


Discriminante. Para esto, basta con dar un clic en la opcin de mtodo segn se observa en
la figura 9, y con esto se obtiene el recuadro de la figura 10.

Cursos
Gratuitos
2014
tumaster.com
Buscador de
Cursos N1.
Encuentra Aqu el
Curso Que Buscas!

Si se observa detenidamente, el mtodo presenta varias opciones, entre ellas: Lambda de


Wilks, Varianza no explicada, Distancia de Mahalanobis, V de Rao, etc. Para nuestro
ejemplo, dejaremos las opciones que vienen por defecto en el SPSS, y una vez que hemos
finalizado con el mtodo, nicamente damos clic en el botn de continuar.

Otra opcin que debemos revisar es la de clasificar, que debemos elegir dentro de nuestro
anlisis discriminante, y para hacerlo, basta dar un clic en el botn clasificar tal y como se
observa en la figura 11.

Cursos
Ingls

Cursos
Gratis INEM

Listado De
Cursos 2014

Al dar clic en la opcin de clasificar obtenemos el recuadro de que se puede observar en la


figura 12. Aqu tenemos las diversas opciones para clasificar al grupo observado en diversas
reas.

Leccin
anterior

Siguiente
Leccin

Leccin 8

Curso SPSS
Aula curso
Aula Frances

LECCIN 8: ANALISIS DISCRIMINANTE.

Una opcin interesante que tenemos en la opcin de Clasificacin es la de Reemplazar


los valores perdidos con la media. Resulta que en ms de alguna investigacin que nosotros
llevemos a cabo, tendremos por algn motivo en nuestra base de datos valores perdidos, y
para que stos datos no afecten los resultados finales, tenemos sta opcin de reemplazo.
Personalmente la recomiendo.
Siguiendo con nuestro ejemplo, seleccionaremos algunas opciones y el resto las dejaremos en
blanco, y le damos clic en el botn continuar tal y como se observa en la figura 12 a.


Si deseamos que nuestro anlisis sea Guardado, procedemos a dar un clic en el botn de
Guardar, tal y como se observa en la figura 13, y al hacer esto, nos aparece el recuadro de la
figura 14.

Aqu podemos guardar los resultados en tres factores:


Grupo de pertenencia pronosticado.
Puntuaciones discriminantes.
Probabilidades de pertenencia al grupo.

Tambin tenemos la opcin de exportar informacin del modelo a un archivo con extensin
*.xml.

Para el ejemplo, elegiremos todas las opciones mencionadas para efectos meramente
didcticos. Cuando tenemos listo todo el proceso, debemos dar clic en el botn de
continuar, as como se observa en la figura 15.

Leccin
anterior

Siguiente
Leccin

Leccin 9

LECCIN 9: ANALISIS DISCRIMINANTE.

Curso SPSS
Aula curso
Aula Frances

Ahora podemos decir que ya nos encontramos listos para ejecutar nuestro anlisis
discriminante. Si no tenemos ms opciones que elegir para nuestro estudio, entonces bastar
dar un clic en el botn de aceptar para que el SPSS procese la informacin con las
opciones que nosotros hemos elegido, y nos brinde los resultados del mismo. Esto se puede
ver en la figura 16.

El visor de resultados del SPSS nos muestra los resultados del anlisis realizado, y el primer
recuadro que aparece es el resumen del procesamiento de casos.
Para nuestro ejemplo, podemos observar que en total eran 16 casos, de los cuales no tuvimos
ningn caso perdido o fuera de rango.

Discriminante

Resumen del procesamiento para el anlisis de casos

Casos no ponderados
Vlidos
Excluidos

N
Cdigos de grupo perdidos o fuera
de rango
Perdida al menos una variable
discriminante
Perdidos o fuera de rango ambos, el
cdigo de grupo y al menos una de
las variables discriminantes.

16

Porcentaje
100,0

,0

,0

,0


Casos Totales

Total excluidos

0
16

,0
100,0

Las estadsticas de grupo muestran los resultados tanto de la media como la desviacin
tpica, as como los casos ponderados y no ponderados vlidos segn listado.

Estadsticos de grupo

FALLIDO

1,00

2,00

Total

PATRNETO
DEUDAPEN
PATRNETO
DEUDAPEN
PATRNETO
DEUDAPEN

Media

5,0000
5,0000
9,0000
3,0000
7,0000
4,0000

Desv. Tp.

2,07089
1,86394
2,28910
1,74438
2,95184
2,02682

N vlido (segn lista)


No ponderados
8
8
8
8
16
16

Ponderados
8,000
8,000
8,000
8,000
16,000
16,000

En esta primera tabla se muestran las caractersticas descriptivas muestrales de las variables
independientes (en este caso solo una X1= PATRNETO). Debe observarse que el punto de
corte de los dos grupos para sta variable se sita en el valor 7, resultado de (5 + 9)/2= 7.

En el recuadro siguiente se presentan los estadsticos por pasos, que el SPSS denomina
Anlisis 1. Esta tabla muestra las variables introducidas, el respectivo estadstico, los
grados de libertad (gl) y la significatividad (sig) de cada valor.

Leccin
anterior

Siguiente
Leccin

Leccin 10

LECCIN 10: ANALISIS DISCRIMINANTE.

Anlisis 1
Estadsticos por pasos

Variables en el anlisis

Paso
1
2

PATRNETO
PATRNETO
DEUDAPEN

Tolerancia
1,000
,935
,935

F para
eliminar
13,433
13,136
5,016

Lambda de
Wilks

,740
,510

Variables no incluidas en el anlisis

Paso

PATRNETO
DEUDAPEN
DEUDAPEN

Tolerancia
1,000
1,000
,935

Tolerancia mn.
1,000
1,000
,935

F para
introducir
13,433
4,910
5,016

Lambda de
Wilks
,510
,740
,368

En las siguientes tablas se presenta el resumen de las funciones cannicas discriminantes que
nos a arrojado el SPSS. Se incluyen los autovalores, la Lambda de Wilks, coeficientes en el
modelo, entre otros.

Resumen de las funciones cannicas discriminantes

Autovalores

Correlacin
Funcin
Autovalor
% de varianza
% acumulado
cannica
1
1,716(a)
100,0
100,0
,795
a Se han empleado las 1 primeras funciones discriminantes cannicas en el anlisis.

La tabla de los Autovalores presenta los autovalores de las funciones cannicas discriminantes,
que miden las desviaciones de las puntuaciones discriminantes entre grupos respecto a las
desviaciones dentro de los grupos. El autovalor de una funcin se interpreta como la parte de
variabilidad total de la nube de puntos proyectada sobre el conjunto de todas las funciones
atribuible a la funcin. Si su valor es grande, la funcin discriminar mucho. En cuanto a las
correlaciones cannicas, miden las desviaciones de las puntuaciones discriminantes entre grupos
respecto a las desviaciones totales sin distinguir grupos. Si su valor es grande (prximo a 1) la
dispersin ser debida a las diferencias entre grupos, y por tanto, la funcin discriminar mucho.
En la tabla se observa que la primera funcin discriminante explica el total 100% de la
variabilidad del fenmeno, y dicha funcin, es la que dar prcticamente la clasificacin.

Lambda de Wilks

Contraste de las
Lambda de
funciones
Wilks
Chi-cuadrado
1
,368
12,987

gl

Sig.
2

,002

Los llamados coeficientes estandarizados de las funciones discriminantes cannicas son los
coeficientes de la funcin lineal discriminante calculados sobre las variables tipificadas. Se
observa que la Lambda de Wilks slo es significativa en la primera funcin discriminante.

Leccin
anterior

Siguiente
Leccin

Leccin 11

LECCIN 11: ANALISIS DISCRIMINANTE.

Coeficientes estandarizados de las funciones discriminantes cannicas

Funcin

PATRNETO
DEUDAPEN

1
,922
-,686

En la matriz de correlacin se presentan las correlaciones intra-grupo entre las variables


discriminantes y las funciones discriminantes cannicas tipificadas, y es muy til para
analizar que variable tiene ms importancia en la discriminacin:

Matriz de estructura

Funcin

PATRNETO
DEUDAPEN

1
,748
-,452

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes
cannicas tipificadas Variables ordenadas por el tamao de la correlacin con la funcin.

El punto de corte ser el cero, ya veremos ms adelante como se plantea ste valor.

Coeficientes de las funciones cannicas discriminantes

Funcin

PATRNETO
DEUDAPEN
(Constante)

1
,422
-,380
-1,437

Coeficientes no tipificados

Funciones en los centroides de los grupos

Funcin
FALLIDO

1,00
2,00

-1,225
1,225

Funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos

Con los resultados obtenidos, el punto de corte discriminante ser el punto medio de las
funciones en los centroides de los grupos:

C = (D1 + D2 )/2 = 0

Estadsticos de clasificacin
Resumen del proceso de clasificacin

Procesados
Excluidos

16
Cdigo de grupo
perdido o fuera de
rango
Perdida al menos una
variable discriminante

Usados en los resultados

0
0
16

Probabilidades previas para los grupos

Casos utilizados

FALLIDO
Previas
en el anlisis

1,00
2,00
Total

No ponderados
,500
,500
1,000

8
8
16

Ponderados
8,000
8,000
16,000

Los grupos son de igual tamao, pues tienen el mismo nmero de elementos, luego, la
probabilidad de pertenencia a priori para cada uno de los grupos es la misma.

Coeficientes de la funcin de clasificacin

FALLIDO

PATRNETO
DEUDAPEN
(Constante)

1,00
,777
1,296
-5,876

2,00
1,813
,364
-9,396

Funciones discriminantes lineales de Fisher

De la expresin de stos coeficientes, se deduce que las funciones de clasificacin son:


F1 = 0,777PTRNETO + 1,296DEUDAPEN 5,876
F2 = 1,813PTRNETO + 0.364DEUNAPEN 9,396

Al simplificar las funciones F2 F1 = D C

Nos queda la siguiente funcin discriminante:


F2 F1 = 1,035PATRNETO 0,932DEUDAPEN 3,520

Leccin
anterior

Siguiente
Leccin

Leccin 12

LECCIN 12: ANALISIS DISCRIMINANTE.

Los estadsticos de clasificacin son los que aparecen en la tabla siguiente, en la que se aprecia
que existe un caso mal clasificado (el que se encuentra sealado con dos asteriscos).

Los grficos de los grupos por separado son (hay que fijarse que el cero es la puntuacin de
corte discriminante).

Grficos por grupos separados

Resultados de la clasificacin(a)

FALLIDO

Grupo de pertenencia
pronosticado
2,00

1,00

Original

Recuento

1,00

Total


2,00
1,00

100,0
,0

12,5
87,5
100,0
2,00
a Clasificados correctamente el 93,8% de los casos agrupados originales.

100,0

En este caso solo hemos encontrado un caso mal clasificado segn nuestra funcin lineal
discriminante, y se trata de un caso del grupo dos (caso 13 en la tabla de los estadsticos de
clasificacin) que ha sido incluido errneamente dentro del grupo 1.

Leccin
anterior

Siguiente
Leccin

Leccin 13

LECCIN 13: ANALISIS DISCRIMINANTE.

BANCO DE MASARROJOS.
Esta prctica la realic con mis profesores del curso de Doctorado, y se realiz para ilustrar el
anlisis discriminante con ms de dos grupos, entonces se analiz la concesin de prstamos
en el Banco de Massarrojos (se utiliz el fichero BANCO DE MASSAROJOS.SAV). Las
variables que aparecen en dicho fichero son:
Categ: que es la variable utilizada como variable de agrupacin, que adopta tres valores:
1: cliente cumplidor, que paga puntualmente.
2: cliente moroso, con dificultades en el pago.
3: cliente fallido, que no consigue terminar de pagar.
Ingresos: ingresos anuales en miles de pesetas.
Patrneto: patrimonio neto en millones de pesetas.
Proviv: toma el valor de 1 si el individuo posee vivienda, y 0 en otro caso.
Casado: toma el valor de 1 si la persona est casada, y 0 en otros casos.
Salfijo: toma el valor de 1 si la persona tiene contrato fijo, y 0 en otro caso.

Ahora bien, si realizamos el anlisis discriminante considerando como variable de agrupacin


la variable categ, el procedimiento a seguir en el SPSS es el siguiente:

En la figura 17 observamos la manera de seleccionar la variable categ como variable de


agrupacin. nicamente seleccionamos la variable en mencin, y luego basta dar un clic en el
botn que aparece en el crculo en rojo, una vez realizada sta accin, aparece la variable
categ tal y como se observa en la figura 18.

Cuando hemos seleccionado la variable de agrupacin, procedemos a elegir las variables


independientes de nuestro modelo discriminante, que para nuestro ejemplo, sern el resto de
variables analizadas. Para elegir dichas variables, procedemos con seleccionarlas o
sombrearlas, y luego damos un clic en el botn de envo que aparece en la figura 18 en el
crculo en rojo, y aparecern en la figura 19 ya todas las variables de nuestro modelo
discriminante.

Leccin

Siguiente

anterior

Leccin

Leccin 14

LECCIN 14: ANALISIS DISCRIMINANTE.

El siguiente paso en nuestro procedimiento para realizar el anlisis discriminante es definir el


rango de la variable de agrupacin. La figura 20 nos muestra la manera de realizar esto,
nicamente damos un clic en el botn de definir rango y aparece el recuadro que indica la
flecha. Luego solamente debemos de colocar la numeracin respectiva y continuar con el
proceso. Para el caso de nuestra variable de agrupacin, les recuerdo que los valores se
encontraban en una escala del 1 al 3, as que nuestro valor mnimo ser el 1 y nuestro valor
mximo el 3.

Luego, seleccionaremos los estadsticos para nuestro modelo, para lo cual presionamos sobre el
botn de estadsticos tal y como se observa en la figura 21, dndonos como resultado la
figura 22.

Como es un ejemplo el que estamos realizando, entonces en la figura 22 seleccionamos el


mayor nmero de estadsticos, para luego analizar los resultados. En la prctica, usted deber
elegir aquellos estadsticos que renan los requisitos y sus expectativas de anlisis, para la
investigacin que usted se encuentre realizando.
Cuando tenemos elegidos todos los estadsticos a emplear en nuestro modelo, presionamos en
el botn de continuar y todo queda guardado.

Leccin
anterior

Siguiente
Leccin

Leccin 15

LECCIN 15: ANALISIS DISCRIMINANTE.

El siguiente paso es seleccionar el mtodo de inclusin para nuestro modelo. Para ello damos
un clic en el botn mtodo (vase figura 23) y con ello obtenemos un recuadro tal y como lo
muestra la figura 24.

Para realizar el anlisis del Banco de Massarojos, elegiremos como mtodo a la Lambda de

Wilks, usaremos el valor de F predeterminado del SPSS, y le solicitaremos que nos muestre
un resumen de los pasos llevados a cabo.
Una vez culminado esto, damos clic al botn continuar y nuestro pedido ya queda guardado
y listo para realizar el anlisis respectivo.

Otra opcin que nunca debemos olvidar, y quizs las ms importante, es la de Clasificar, que
en la figura 25 se muestra el procedimiento para obtener las alternativas de clasificacin para
nuestro anlisis discriminante.

Leccin
anterior

Siguiente
Leccin

Leccin 16
LECCIN 16: ANALISIS DISCRIMINANTE.

La figura 26 muestra las posibilidades de Clasificacin que podemos elegir. Para el ejemplo,
seleccionaremos que Todos los grupos son iguales, la matriz Ingra grupos, y pediremos
que nos muestren los resultados para cada caso as como la tabla resumen de resultados. Con
todo esto procesado, nicamente damos clic en el botn continuar y ya estamos listos para
ordenar al SPSS que nos realice el anlisis discriminante que le hemos solicitado.

Ahora, ya nos encontramos listos para realizar el anlisis discriminante de los clientes del
Banco de Massarojos. Para esto, damos clic en el botn de Aceptar como se observa en la
figura 27 y el visor de resultados del SPSS nos muestra los resultados del anlisis llevado a
cabo. A continuacin presento los resultados:

Leccin
anterior

Siguiente
Leccin

Leccin 17

LECCIN 17: ANALISIS DISCRIMINANTE

Discriminante
Resumen del procesamiento para el anlisis de casos

Casos no ponderados
N
Vlidos
25
Excluidos
Cdigos de grupo
perdidos o fuera de
0
rango

0
Perdida al menos una
variable discriminante

Perdidos o fuera de
rango ambos, el cdigo
0
de grupo y al menos
una de las variables
discriminantes.

0
Total excluidos
Casos Totales
25

Porcentaje
100,0
,0

,0

,0

,0
100,0

Primero aparecern las medidas descriptivas para cada variable en cada grupo de partida:
Estadsticos de grupo

N vlido (segn lista)


CATEG
1,00

INGRESOS

PATRNETO

2,00

PROVIV

CASADO

SALFIJO
INGRESOS

PATRNETO

PROVIV

CASADO

SALFIJO

Media
4873,0769

Desv. tp.
2094,29934

No ponderados
13

Ponderados
13,000

35,5385

19,06399

13

13,000

,7692

,43853

13

13,000

,8462

,37553

13

13,000

,8462

,37553

13

13,000

3128,5714

1832,31573

7,000

17,7143

11,91238

7,000

,4286

,53452

7,000

,7143

,48795

7,000

,7143

,48795

7,000

3,00

INGRESOS

Total

PATRNETO

PROVIV

CASADO

SALFIJO
INGRESOS

PATRNETO

PROVIV

CASADO

SALFIJO

1970,0000

1011,55820

5,000

11,0000

8,27647

5,000

,4000

,54772

5,000

,6000

,54772

5,000

,2000

,44721

5,000

3804,0000

2157,73415

25

25,000

25,6400

18,56493

25

25,000

,6000

,50000

25

25,000

,7600

,43589

25

25,000

,6800

,47610

25

25,000

Pruebas de igualdad de las medias de los grupos

Lambda de

Wilks
F
gl1
INGRESOS
,688
4,990
2
PATRNETO
,663
5,584
2
PROVIV
,870
1,639
2
CASADO
,948
,609
2
SALFIJO
,721
4,262
2

gl2

Sig.
22

,016

22
22
22
22

,011
,217
,553
,027

Coeficientes estandarizados de las funciones discriminantes cannicas

Funcin

PATRNETO
SALFIJO

2
1,193
1,154

-,511
,594

Y la matriz de estructura ser:

Matriz de estructura

Funcin

CASADO(a)
SALFIJO
PATRNETO
PROVIV(a)
INGRESOS(a)

2
-,332(*)
,394
,457
-,020
-,033

,016
,919(*)
-,889(*)
-,233(*)
-,209(*)

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes cannicas
tipificadas Variables ordenadas por el tamao de la correlacin con la funcin.
* Mayor correlacin absoluta entre cada variable y cualquier funcin discriminante.
a Esta variable no se emplea en el anlisis.

Lo cual nos dice qu variable tiene ms importancia en la discriminacin en una funcin


discriminante u otra.
Las puntuaciones de los centroides de ambos grupos con respecto a las funciones

discriminantes son las siguientes (conviene darse cuenta que en este caso no tenemos un punto
de corte discriminante, pues tenemos nuestro conjunto de datos separado en tres grupos).

Leccin
anterior

Siguiente
Leccin

Leccin 18
LECCIN 18: ANALISIS DISCRIMINANTE

Coeficientes de las funciones cannicas discriminantes

Funcin

PATRNETO
SALFIJO
(Constante)

,076
2,734
-3,796

-,032
1,406
-,126

Coeficientes no tipificados

Funciones en los centroides de los grupos

Funcin
CATEG
1,00
2,00
3,00

2
1,202
-,505
-2,418

-,087
,305
-,201

Funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos

Ahora tenemos que calcular el valor de tres funciones de clasificacin, y clasificaremos a cada
individuo en aqul grupo cuya funcin de clasificacin resulte tomar el mayor valor.

Coeficientes de la funcin de clasificacin

CATEG

PATRNETO
SALFIJO
(Constante)

1,00

2,00
,376
13,721
-13,590

,235
9,604
-6,607

3,00
,107
3,662
-2,051

Funciones discriminantes lineales de Fisher

De esta forma, las funciones de clasificacin resultan:

F1 = -13,590 + 0,376PATRNETO + 13,721SALFIJO


F2 = -6,607 + 0,235PATRNETO + 9,604SALFIJO
F3 = -2,051 + 0,107PATRNETO + 3,662SALFIJO

Y nos permiten clasificar a un caso en aqul grupo cuya funcin de clasificacin resulte ser
mayor.

El mapa territorial sirve para ver cmo quedan la clasificacin en funcin de las dos funciones
lineales discriminantes:

Smbolos usados en el mapa territorial

Smbolo Grupo Etiqueta


1 1
2 2
3 3
Indica un centroide de grupo.

Hay seis casos mal clasificados, como se muestra en la tabla a continuacin, comprobndose
como las probabilidades de pertenencia son mayores para la pertenencia al grupo mayor, y
tambin que las puntuaciones discriminantes son las que sitan a cada caso en el mapa
territorial.

Leccin
anterior

Siguiente
Leccin

Leccin 19

LECCIN 19: ANALISIS DISCRIMINANTE.

Representando los grupos por separado, tendremos tres grficos (uno por cada grupo), en los
cuales se ven algunos puntos que se alejan demasiado del centroide del grupo al que
pertenecen.

Grficos por grupos separados

Puede notarse la concentracin o dispersin que existe por parte de la nube de puntos
alrededor del centroide de la distribucin. En otras palabras, a mayor cercana con el
centroide, menor discriminacin; y a mayor lejana del centroide, mayor discriminacin.

Leccin

Siguiente

anterior

Leccin

Leccin 20
LECCIN 20: ANALISIS DISCRIMINANTE.

Si ahora los dibujamos todos juntos, y ampliamos el grfico para apreciar mejor los distintos
grupos, tenemos el siguiente diagrama:

En el grfico puede notarse, a partir de los colores asignados por el SPSS, las distribuciones
de cada grupo contra su respectivo centroide.

Resultados de la clasificacin(a)

CATEG

Grupo de pertenencia pronosticado


3,00

1,00
2,00

Original

Recuento

1,00

2,00

3,00
1,00

2,00

Total

10

13

76,9

23,1

,0

100,0

14,3

71,4

14,3

100,0

,0
20,0
80,0
3,00
a Clasificados correctamente el 76,0% de los casos agrupados originales.

100,0

Analizando la matriz de confusin (matriz anterior), comprobamos que hay seis casos mal
clasificados, que representan el 24% de los mismos.
Si se estn preguntando de donde obtuvimos esos 6 casos mal clasificados, la respuesta es
sencilla. En la columna del grupo 1, 10 casos pertenecen a dicho grupo, en tanto que 1 se
encuentra mal clasificado. En el grupo 2 se tienen que 5 casos pertenecen a dicho grupo, y
se tienen 4 mal clasificados; y finalmente, en el grupo 3 se tienen que 4 casos pertenecen a
dicho grupo, en tanto que 1 caso se encuentra mal clasificado. Ahora sumemos los casos, y el
total ser de 6.

Leccin
anterior

Siguiente
Leccin

Leccin 21

LECCIN 21: ANALISIS DE COMPONENTES PRINCIPALES.

Cuando afrontamos un Anlisis Multivariante de datos, el escenario tpico suele estar


constituido por una masa de datos generalmente grande no slo porque suele proceder de
muchos individuos (muchos casos), sino tambin porque sobre cada uno de esos individuos se
suele medir un nmero sustancial de variables.

Generalmente, la informacin que proporcionan estas muchas variables suele ser en buena
parte redundante al presentarse entre ellas mltiples relaciones de dependencia manifestadas
por la existencia de correlaciones considerables. As, al explicar el comportamiento de los
datos, de una forma clara (o al menos sencilla), a partir de esas variables inicialmente
observadas y altamente correlacionadas resulta una tarea dificultosa.

Las tcnicas factoriales pretenden, desde sus diferentes enfoques, abordar el problema de
simplificar la interpretacin del comportamiento observado de los datos.
Para ilustrar brevemente algunos de estos enfoques, imaginemos que disponemos de las
calificaciones en nueve asignaturas de los 29 alumnos de un curso, segn se indica en el
cuadro siguiente (lista detallada de datos en el ejemplo al final del tema):

Caso
ST1
ST2
GES
ST3
IOP
INF
MAT
ECO
ING
1
0,3
0,3
1,0
0,0
1,7
0,6
0,6
0,6
0,3
***
***
***
***
***
***
***
***
***
***
15
6,2
6,5
4,1
4,2
2,4
3,4
5,5
6,2
5,8
***
***
***
***
***
***
***
***
***
***
29
10,0
10,0
9,6
8,7
9,6
9,3
10,0
7,2
7,5
Variables: Estadstica 1 (ST1), Estadstica 2 (ST2), Estadstica 3 (ST3), Investigacin
Operativa (IOP), Informtica (INF), Matemticas (MAT), Economa (ECO), Gestin (GES) e
Ingls (ING).

Ya en una primera aproximacin podemos comprobar la dificultad de visualizar esta


informacin de manera completa. Nuestra limitada percepcin intuitiva de las cosas,
acostumbrada a espacios fsicos de 3 dimensiones (o a lo sumo 4 si incorporamos el tiempo),
puede permitirnos imaginar la existencia de un espacio de nueve dimensiones como el de
nuestro ejemplo, pero difcilmente nos permite visualizar lo que ocurre en l y que los datos
manifiestan.

Podemos tratar de vislumbrar este comportamiento global en ese espacio complejo, a partir de

sus proyecciones resultantes sobre los subespacios formados por cada dos tres de esas nueve
variables; lo que podemos representar y comprender bastante bien mediante grficos
bidimensionales o tridimensionales.
En estas representaciones, las nubes de puntos proyectados aparecern ms alargada en
aquella direccin donde se presente una mayor dispersin o variabilidad (en general, mayor
variedad o diversidad) de los datos, y menos alargada en aquella direccin donde haya una
menor dispersin o variabilidad (en general, menor variedad o diversidad) de los datos, como
intuitivamente puede verse en el anterior grfico.

Leccin
anterior

Siguiente
Leccin

Leccin 22

LECCIN 22: ANALISIS DE COMPONENTES PRINCIPALES.

En cualquier caso, con las 9 variables originales podemos construir 84 proyecciones


tridimensionales sustancialmente diferentes. Surge inmediatamente la necesidad de
simplificar este enfoque: para empezar, cul de todas estas proyecciones refleja mejor la
realidad global? se pierde mucha informacin? Y si no nos restringimos a las variables,
existen proyecciones ms fidedignas sobre otros subespacios? Desde una ptima ms
intuitiva, 3 dimensiones son deseables, pero son suficientes para reflejar la realidad con
cierta precisin?.

Si nuestro objetivo es llegar a comprender de una forma sencilla y simplificada a qu se debe


la diversidad de calificaciones que se observan, intuitivamente podramos estar de acuerdo en
que los alumnos ms inteligentes y con mejor presdisposicin al estudio tendrn generalmente
mejores notas en la mayora de las asignaturas, o en que los alumnos con peor formacin
cuantitativa probablemente tendrn ms problemas a la hora de sacar buenas notas en
asignaturas como las matemticas o las estadsticas. Al hacer este razonamiento estamos
implcitamente admitiendo que probablemente existen unas variables (factores,
componentes...), probablemente no observadas directamente, y que, de forma causal o no,
permiten simplificar la explicacin de los comportamientos observados.

As, el Anlisis de Componentes Principales simplemente se pregunta por cuntas y cules


sern esas pocas variables que nos permitiran resumir la diversidad de las calificaciones
observadas con la menor prdida de informacin posible. Por su parte, el Anlisis Factorial
presupone la existencia de un nmero pequeo de variables no observables o latentes
(factores) que seran la causa de las calificaciones observadas y que trata de identificar.

Para el autor Csar Prez Lpez, el Anlisis de Componentes Principales es una tcnica de
anlisis estadstico Multivariante que se clasifica entre los mtodos de simplificacin o
reduccin de la dimensin y que se aplica cuando se dispone de un conjunto elevado de
variables con datos cuantitativos persiguiendo obtener un menor nmero de variables,
combinacin lineal de las primitivas, que se denominan componentes principales o factores,
cuya posterior interpretacin permitir un anlisis ms simple del problema estudiado. Su
aplicacin es directa sobre cualquier conjunto de variables, a las que considera en bloque, sin
que el investigador haya previamente establecido jerarquas entre ellas, ni necesite comprobar
la normalidad de su distribucin. Se trata por tanto de una tcnica para el anlisis de la
interdependencia (en contraposicin con las tcnicas de la dependencia). En anlisis en
componentes principales permite describir, de un modo sinttico, la estructura y las
interrelaciones de las variables originales en el fenmeno que se estudia a partir de las
componentes obtenidas, que, naturalmente, habr que interpretar y nombrar. El mayor
nmero posible de componentes coincide, como veremos, con el nmero total de variables.
Quedarse con todas ellas no simplificara el problema, por lo que el investigador deber
seleccionar entre las distintas alternativas aqullas que, siendo pocas e interpretables,
expliquen una proporcin aceptable de la varianza global o inercia de la nube de puntos que
suponga una razonable prdida de informacin. Esta reduccin de muchas variables a pocas
componentes puede simplificar la aplicacin sobre estas ltimas de otras tcnicas
multivariantes (regresin, clusters, etc.).

Leccin
anterior

Siguiente
Leccin

Leccin 23
LECCIN 23: ANALISIS DE COMPONENTES PRINCIPALES.

Aproximacin al Anlisis de Componentes Principales.

El Anlisis de Componentes Principales (ACP) tratar de representar de forma clara y


ordenada, la variedad de los comportamientos observados en un conjunto de n individuos
mediante un conjunto de p variables. Es decir, buscar un nuevo sistema de ejes coordenados,
ordenados (nuevas variables de referencia que llamaremos componentes principales) con el
que poder apreciar y analizar ms claramente la diversidad de comportamiento reflejada en
los datos. Para ello, determinar como primer eje coordenado la nueva variable (primera
componente principal) que explique la mxima variabilidad (diversidad) posible de los datos
observados, para proceder secuencialmente y de forma anloga a determinar los sucesivos ejes
coordenados (sucesivas componentes principales) a partir del resto de la variablidad
(diversidad) de los datos, an no explicada por los anteriores.

As, siguiendo con nuestro ejemplo, el ACP tratar de responder a la pregunta en qu


sistema de nuevos ejes coordenados podramos apreciar de una forma ms clara y ordenada la
diversidad de las calificaciones?

Si representamos por X1,..., Xp las variables originales y nuestro objetivo es pues, encontrar
unas nuevas variables (componentes principales) Z1,..., Zp, que nos expliquen ordenadamente
y de una forma ms clara la variabilidad de los datos, parece lgico determinar la primera
componente principal Z1 como aquella que vaya en la direccin de mxima variabilidad de
los datos y que, por tanto, explicar la mayor diversidad entre los datos; ya que los datos se
dispersan de una forma mxima justamente en esa direccin. Esta direccin, pues, nos
informar mucho del comportamiento ms diversamente llamativo de esa nube de puntos.

Por otra parte, obsrvese que para que estas nuevas variables de referencia (nuevo sistema de
ejes coordenados) permita una representacin clara de la realidad, deberamos pedir
lgicamente que estuviesen incorrelacionadas para que cada nueva variable informara de
aspectos diferentes de la realidad y as facilitar la interpretacin. Recordemos que nubes de
puntos inclinadas indicaban correlacin entre variables y que nubes de puntos paralelas a los
ejes indicaban incorrelacin entre variables, por lo que la incorrelacin entre las nuevas
variables de referencia (componentes principales) se conseguir cuando se tomen paralelas a
los ejes principales de la nube de puntos. Ello nos induce a pensar que si la nube de puntos es
lo suficientemente regular (aproximadamente elipsoidal), la direccin de las componentes
principales deben ser ejes ortogonales.

As pues, la variable Z2 deber ser la variable que, siendo ortogonal a Z1, tenga la direccin
de mxima dispersin de las restantes. As aportar una informacin adicional del resto de la
variabilidad de los datos y que no quedaba explicada por la direccin Z1 (ntese que existe
toda una gama de individuos con un mismo valor para Z1 que pueden presentar diferentes
valores para Z2).

Intuitivamente, este proceso puede verse reflejado en la siguiente figura.

Secuencialmente, las sucesivas componentes principales irn perdiendo importancia


explicativa de la diversidad o variabilidad de los datos, ya que se extienden en direcciones de
cada vez menos dispersin. Ello se acentuar ms cuanto mayor sea la correlacin entre las
variables originales, ya que cuanta mayor dependencia haya entre ellas, ms alargada ser la
nube de puntos en alguna direccin y ms estrecha en alguna direccin perpendicular
(suponiendo siempre que la relacin entre ellas fuera lineal), como se aprecia en la siguiente
figura:

En el caso lmite de que esa regresin fuera perfecta, y por tanto todos los puntos estuvieran
sobre el hiperplano, la componente principal perpendicular al hiperplano no aportara ninguna
informacin porque no habra variabilidad en su direccin. Es en estos casos cuando vamos a
conseguir una reduccin efectiva de la dimensin de nuestro problema, al poder obviar o
suprimir las componentes principales que no aportan informacin sobre la diversidad.

As que, como consecuencia del proceso, el ACP no slo encuentra ordenadamente las
direcciones que mejor explican la variabilidad de esa nube de puntos, sino que tambin en el
caso de que haya informacin redundante, permitir prescindir de alguna de las ltimas
componentes, bien porque estrictamente no expliquen nada acerca de la variacin de los
datos, o bien porque expliquen una cantidad despreciable de la misma, consiguiendo
simplificar el problema mediante la reduccin efectiva de la dimensin del mismo.
.

Leccin
anterior

Siguiente
Leccin

Leccin 24

LECCIN 24: ANALISIS DE COMPONENTES PRINCIPALES.

INTERPRETACIN DE LAS COMPONENTES PRINCIPALES.


La problemtica de la interpretacin de las componentes principales es, nada ms y nada
menos, tratar de asignar un significado inteligible y til a las componentes principales
obtenidas.
Para ello se recurre a examinar la relacin existente entre las componentes principales y las
variables originales (u otras auxiliares), para por medio de esta relacin tratar de darles un
contenido a su significado, para lo que la informacin bsica para esta tarea es la matriz de
correlaciones entre las componentes principales y las variables originales, que toman en este
mbito el nombre de matriz de estructura.
Hasta aqu hemos presentado un esbozo general sobre la teora del ACP, ahora pasemos a
desarrollar un ejemplo prctico haciendo uso del Programa SPSS.

COMARCAS DE GUADALAJARA.SAV

Para realizar la prctica de Componentes Principales con el SPSS, este se debe realizar a
travs del Anlisis Factorial, el cual intenta identificar variables subyacentes, o factores que
expliquen la configuracin de correlaciones dentro de un conjunto de variables observadas.
Para que ste procedimiento estadstico tenga sentido, es necesario que entre las variables de
estudio haya una estructura importante de correlacin, es decir, es necesario que las variables
han sido observadas estn relacionadas entre s.
En el SPSS, el procedimiento que permite realizar el anlisis factorial se encuentran en el
submen Reduccin de datos del men Analizar.

Cuando nos interesa realizar un Anlisis de Componentes Principales (ACP), el proceso para
seguir en el SPSS es el siguiente: ir al men analizar, luego al submen Reduccin de los
datos y luego a Anlisis factorial, tal y como se muestra en la figura 28.

Al dar clic en dicha opcin, el cuadro de dilogo que aparece tiene el aspecto de la Figura 29,
en la que figuran todas las opciones que permite este procedimiento. Para empezar, hay que
seleccionar las variables que vayan a ser incluidas en el anlisis.

En la figura 29 se observan las opciones que nos brinda un ACP. Pasemos a revisar cada una
de dichas opciones.

Leccin
anterior

Siguiente
Leccin

Leccin 25
LECCIN 25: ANALISIS DE COMPONENTES PRINCIPALES.

Si damos clic en la opcin Descriptivos, se obtiene el siguiente recuadro:

La figura 30 muestra los Descriptivos que podemos elegir en nuestro modelo de componentes
principales. En dicha opcin se pueden solicitar una serie de medidas de resumen para cada
variable, la solucin inicial (comunalidades, autovalores y porcentaje de varianza explicada
por cada factor), as como algunos estadsticos que permiten comprobar la adecuacin de la
muestra al anlisis factorial. Desde un punto de vista prctico, la prueba de esfericidad de
Bartlett contrasta si la matriz de correlaciones es una matriz identidad, lo cual indicara que el
modelo factorial es inadecuado. El estadstico de Bartlett se obtiene a partir de una
transformacin c 2 del determinante de la matriz de correlaciones y cuanto mayor sea, y por
tanto menor el nivel de significacin, ms improbable es que la matriz sea una matriz
identidad y ms adecuado resulta el anlisis factorial.

La medida de la adecuacin muestral de Kaiser-Meyer-Olkin (Coeficiente KMO) contrasta si


las correlaciones parciales entre las variables son pequeas, toma valores entre 0 y 1, e indica
que el anlisis factorial es tanto ms adecuado cuanto mayor sea su valor. As, Kaiser propuso
en 1974 el siguiente criterio para decidir sobre la adecuacin del anlisis factorial de un
conjunto de datos:

0,9<KMO1,0 = Excelente adecuacin muestral.


0,8<KMO0,9 = Buena adecuacin muestral.
0,7<KMO0,8 = Aceptable adecuacin muestral.
0,6<KMO0,7 = Regular adecuacin muestral.
0,5<KMO0,6 = Mala adecuacin muestral.

0,0<KMO0,5 = Adecuacin muestral inaceptable.

En cuanto al mtodo de extraccin (botn Extraccin), las opciones que presenta SPSS son
las que aparecen en la siguiente figura:

Como se observa, los mtodos de extraccin de factores que realiza el SPSS son los de las
componentes principales, mxima verosimilitud, mnimos cuadrados no ponderados, y
algunos ms que no hemos estudiado.

Volviendo a las opciones que presenta el mtodo de extraccin de factores del anlisis
factorial, se puede especificar que el anlisis se aplique a una matriz de correlaciones o a una
matriz de covarianzas. Tambin se puede seleccionar a priori el nmero de factores que se
desea extraer, o especificar alguna condicin genrica que permita extraer slo aquellos que
verifiquen una determinada condicin (usualmente se eligen aquellos factores cuyos
autovalores sean superiores a la unidad). Se puede mostrar la solucin factorial sin rotar, as
como el grfico de sedimentacin (criterio grfico para la posterior decisin del nmero de
factores a extraer). Todas estas opciones se seleccionan en el mismo cuadro de opciones que
el de la figura anterior, y que se presenta para mayor facilidad en la figura 32:

Leccin
anterior

Siguiente
Leccin

Leccin 26

LECCIN 26: ANALISIS DE COMPONENTES PRINCIPALES.

Si se pulsa en el botn Puntuaciones del cuadro de dilogo del anlisis factorial, se


comprueba que se pueden almacenar las puntuaciones factoriales obtenidas a partir del
anlisis factorial en el rea de trabajo del fichero de datos, es decir, se puede aadir m nuevas
variables que representen los m factores extrados. La matriz de coeficientes de las
puntuaciones factoriales muestra los coeficientes por los cuales se multiplican las variables
para obtener las puntuaciones factoriales. Todo esto se puede ver en la figura 33:

Los mtodos de rotacin que se pueden utilizar para clarificar la interpretacin de los factores
son los que aparecen en la siguiente figura, que se obtienen al pulsar en el botn de Rotacin
del cuadro de dilogo del anlisis factorial:

Se aprecia que se puede elegir no rotar la solucin inicial obtenida, o elegir alguno de los

mtodos de rotacin que aparecen en las opciones del SPSS. Adems, se pueden representar
las variables observadas en funcin de los factores extrados, si se solicitan los Grficos de
saturaciones.

El SPSS muestra algunas opciones ms, que hacen referencia a los posibles valores perdidos,
y a la visualizacin de los resultados en la ventana del Visor de resultados. Esto se aprecia en
la figura 35.

En la figura 35 se observan otras opciones, principalmente en dos reas: la del tratamiento de


valores perdidos, en donde podemos elegir excluir casos segn lista, excluir casos segn
pareja o reemplazar por la media. Y en Formato de visualizacin de los coeficientes,
podemos elegir Ordenados por tamao y suprimir valores absolutos menores que en
donde se puede elegir una opcin numrica para eliminar aquellos valores que tengan un
nmero menor al seleccionado.

Leccin
anterior

Siguiente
Leccin

Leccin 27

LECCIN 27: ANALISIS DE COMPONENTES PRINCIPALES.

APLICACIN PRCTICA.
Realizaremos un ejemplo con el fichero de datos Comarcas de Guadalajara.sav. Las
variables que vamos a incluir en el anlisis son: agri, sal, cons, emp, ind, m16a, m65a, serv,
tactiv.

Lo que significa cada una de las variables son:

Agri: porcentaje de la poblacin que trabaja en el sector agrcola.


Asal: Porcentaje de la poblacin asalariada.
Cons: Porcentaje de la poblacin que trabaja en el sector construccin.
Emp: Porcentaje de la poblacin que posee su propia empresa.
Ind: Porcentaje de la poblacin que trabaja en el sector industrial.
M16a: Porcentaje de la poblacin de 16 aos o menos.
M65a: Porcentaje de la poblacin de 65 aos o ms.
Serv: Porcentaje de la poblacin que trabaja en el sector servicios.
Tactiv: Tasa de poblacin activa.

La base de datos en el SPSS se observa como en el siguiente recuadro:

Luego, en la figura 37 procedemos a realizar nuestro anlisis de Componentes Principales, con


el proceso que ya conocamos:

En la figura 38 se observan las variables que elegiremos para desarrollar nuestro ACP. Luego
de seleccionadas nuestras variables, procedemos a elegir los Descriptivos que podemos ver
en la figura 39.

Leccin
anterior

Siguiente
Leccin

Leccin 28

LECCIN 28: ANALISIS DE COMPONENTES PRINCIPALES.

Entre los descriptivos que utilizaremos para el ACP se seleccionaron los siguientes:
descriptivos univariados, solucin inicial, matriz de coeficientes y el test KMO y prueba de
esfericidad de Bartlett. Esto puede verse en la figura 39, y una vez elegidos los Descriptivos,
basta presionar el botn continuar para proseguir con nuestro anlisis.

La figura 40 nos muestra la extraccin de los coeficientes para nuestro ACP. Si observan
detenidamente, el mtodo es Componentes principales, que es uno de los mtodos de
anlisis factorial que se pueden emplear. En Analizar podemos elegir entre la matriz de
correlaciones o la matriz de covarianza. Tambin podemos elegir entre las opciones de
Extraer los Autovalores mayores que y el nmero de factores; y las de Mostrar, tambin
podemos ver la solucin inicial sin rotar y el grfico de sedimentacin.
Finalmente, podemos ver el nmero mximo de iteraciones para convergencia que nosotros
podemos establecer para el ACP que estemos realizando.


La figura 41 presenta la opcin Rotacin, que bsicamente podemos utilizar alguno de los
siguientes mtodos: Varimax, Oblimin directo, Quartimax, Equamax o Promax, o simplemente
omitir dichos mtodos con la opcin de Ninguno.
Cada uno de estos mtodos tiene su aplicacin, y depender del caso en el cul se encuentre
usted, para decidirse por uno u por otro mtodo.

Leccin
anterior

Siguiente
Leccin

Leccin 29

LECCIN 29: ANALISIS DE COMPONENTES PRINCIPALES.

En el botn de Puntuaciones factoriales nos aparecen las opciones de guardar como


variables y seleccionar un mtodo factorial (Regresin, Barlett y Anderson-Rubin).
En el caso nuestro, seleccionamos la opcin de guardar como variables en nuestra base de
datos, a travs del mtodo de Regresin. Cuando estamos listos, basta dar un clic en el botn
de continuar y todo lo que hemos elegido queda guardado (ver figura 42).


El botn de opciones nos presenta varias alternativas, como podemos verlo en la figura 43,
y presenta la forma de tratar los valores perdidos en nuestra base de datos. Las alternativas
ms comunes son: Excluir casos segn lista, Excluir casos segn pareja, y Reemplazar por la
media.
Una vez que hayamos elegido la opcin que ms nos interese, damos clic en la opcin
continuar y ya nos encontramos preparados para desarrollar nuestro ACP.

Leccin
anterior

Siguiente
Leccin

Leccin 30

LECCIN 30: ANALISIS DE COMPONENTES PRINCIPALES.

Cuando ya tenemos previsto todo para nuestro ACP, entonces procedemos a dar clic en el
botn Aceptar (ver figura 44) para que el Programa SPSS comience a desarrollar todos los
clculos y nos presente los resultados en el visor de resultados.

A. factorial

Este es el visor de resultados del SPSS, en donde muestra todos los cuadros, grficos y
resultados del anlisis que le hemos solicitado efecte, en nuestro caso, un Anlisis Factorial a
con el Mtodo de Componentes Principales.
El primer cuadro es el que presenta los estadsticos descriptivos, en donde se puede ver la
media y desviacin tpica de cada una de las variables en estudio.

Estadsticos descriptivos

Desviacin

Media
tpica
AGRI
19,0443
12,22738
ASAL
65,3586
15,14112
CONS
14,3286
4,18580
EMP
31,1314
14,09154
IND
24,2400
10,18694
M16A
16,6643
5,69981
M65A
23,7043
10,12656

N del anlisis
7
7
7
7
7
7
7

SERV
TACTIV

42,3857
41,01

8,21876
8,465

7
7

Las comunalidades aparecen al principio, y se puede comprobar que son muy altas
(cercanas a 1), con lo cual se puede decir que las variables quedan muy bien
explicadas a travs de las componentes extradas.

Comunalidades

Inicial
Extraccin
AGRI
1,000
,963
ASAL
1,000
,988
CONS
1,000
,809
EMP
1,000
,976
IND
1,000
,927
M16A
1,000
,979
M65A
1,000
,965
SERV
1,000
,898
TACTIV
1,000
,893
Mtodo de extraccin: Anlisis de Componentes principales.

En el siguiente cuadro podemos comprobar el porcentaje de varianza explicada cada


componente y cules son las componentes que han sido extradas (aquellas cuyos
autovalores superan la unidad, como se puede comprobar). Entre las dos
componentes extradas se acumula el 93,323% de la variabilidad de las variables
originales.
En otras palabras, de la totalidad o 100% del fenmeno estudiado, el componente 1
explica dicho fenmeno en un 78.28% y el componente 2 lo explica en un 15.05%,
entonces, si unimos ambos componentes, se obtiene que el porcentaje que explican
los dos componentes del fenmeno investigado es de 93.33%, o que la varianza total
del fenmeno es explicada en un 93.3% por los componentes 1 y 2.

Varianza total explicada

Autovalores iniciales
Componente
1
2
3
4
5
6
7
8
9

Total
7,045
1,354
,448
,117
,030
,007
6,435E-16
9,622E-17
-1,302E-16

% de la
varianza
78,277
15,046
4,978
1,295
,330
,074
7,150E-15
1,069E-15
-1,447E-15

% acumulado
78,277
93,323
98,300
99,596
99,926
100,000
100,000
100,000
100,000

Mtodo de extraccin: Anlisis de Componentes principales.

Sumas de las saturaciones al cuadrado de la


extraccin
Total
7,045
1,354

% de la
varianza
78,277
15,046

% acumulado
78,277
93,323

Leccin
anterior

Siguiente
Leccin

Leccin 31

LECCIN 31: ANALISIS DE COMPONENTES PRINCIPALES.

El grfico de sedimentacin (herramienta grfica para la decisin del nmero de


componentes que hay que seleccionar) resulta ser:

En esta figura se aprecia que la seleccin de dos componentes parece ser adecuada,
pues a partir de la tercera componente no es muy acusada la pendiente de la
representacin grfica de los autovalores.

La matriz de componentes que aparece en la salida del ordenador es la que se


denomina matriz de cargas o saturaciones factoriales, y nos indican la carga de cada
variable en cada factor, de modo que los factores con unos pesos factoriales ms
elevados en trminos absolutos nos indican una relacin estrecha con las variables.

Matriz de componentes(a)

Componente

AGRI
ASAL
CONS
EMP
IND

2
-,974
,993
-,458
-,986
,869

-,121
,038
,774
-,053
,414

M16A
M65A
SERV
TACTIV

,980
-,975
,606
,945

,137
-,119
-,729
-,023

Mtodo de extraccin: Anlisis de componentes principales.


(a) 2 componentes extrados

Adems, se puede expresar cada variable en funcin de los factores, haciendo una
combinacin lineal de ellos utilizando sus cargas factoriales respectivas. Por ejemplo,
se puede expresar la variable agri en funcin de las componentes extradas de la
forma:

Agri = -0,974F1 0,121F2

Incluso, a partir de las cargas factoriales se puede calcular la comunalidad de cada


una de las variables, por ejemplo, para la variable agri:

Comunalidad (agri) = 0,963 (-0,974) 2 + (-0,121) 2

El grfico de saturaciones (denominado grfico de componentes en la salida del


ordenador) permite realizar la representacin grfica de la matriz de componentes
que hemos analizado. De esta representacin grfica, se extrae la explicacin de los
factores subyacentes, de tal manera que se puede interpretar el primer factor como
un factor de tipo econmico-demogrfico, que se opone a las variables agri, cons,
emp y m65a al resto. El segundo factor es un factor de tipo ocupacional, y separa
los sectores en los que trabaja la poblacin.

Leccin
anterior

Siguiente
Leccin

Leccin 32

LECCIN 32: ANALISIS DE CONGLOMERADOS NO JERARQUICOS.

El anlisis de conglomerados, denominado cluster analisys en ingls, es una tcnica


Multivariante que permite agrupar los casos o variables de un archivo de datos en funcin del
parecido o similaridad existente entre ellos.

El anlisis de conglomerado como tcnica de agrupacin de variables, es muy similar al


anlisis factorial, pero, en tanto que la factorizacin es poco flexible en algunos de sus
supuestos (linealidad, normalidad, variables cuantitativas, etc.) y siempre se estima de la
misma manera la matriz de distancias, la aglomeracin es menos restrictiva en sus supuestos
(no requiere linealidad, ni simetra, permite variables categricas, etc.) y
admite varios mtodos de estimacin de la matriz de distancias.

Como una tcnica de agrupacin de casos, el anlisis de conglomerados es similar al anlisis


discriminante. Sin embargo, mientras que el anlisis discriminante efecta la clasificacin
tomando como referencia un criterio o variable dependiente (los grupos de clasificacin), el
anlisis de conglomerados permite detectar el nmero ptimo de grupos y su composicin
nicamente a partir de la similaridad existente entre los casos; adems, el anlisis de
conglomerados no asume ninguna distribucin especfica para las variables. Por simplicidad,
en este captulo se comienza exponiendo la agrupacin de casos.

El software SPSS dispone de dos tipos de anlisis de conglomerados: el anlisis de


conglomerados jerrquico (que ya analizamos en el curso precedente) y el anlisis de
conglomerados de K medias. Este segundo mtodo permite procesar un nmero ilimitado de
casos, pero slo permite utilizar un mtodo de aglomeracin y requiere que se proponga
previamente el nmero de conglomerados que se desea obtener.

El anlisis de conglomerados de K medias es un mtodo de agrupacin de casos que se basa


en las distancias existentes entre ellos en un conjunto de variables (este mtodo de
aglomeracin no permite agrupar variables).

El anlisis de conglomerado de K medias es especialmente til cuando se dispone de un gran


nmero de casos. Existe la posibilidad de utilizar la tcnica de manera exploratoria,
clasificando los casos e iterando para encontrar la ubicacin de los centroides, o slo como
tcnica de clasificacin, agrupando los casos a partir de centroides conocidos suministrados
por el usuario. Cuando se utiliza como tcnica exploratoria, es habitual que el usuario
desconozca el nmero idneo de conglomerados, por lo que es conveniente repetir el anlisis
con distinto nmero de conglomerados y comparar las soluciones obtenidas; en estos casos
tambin puede utilizarse el mtodo de anlisis de conglomerados jerrquico con una
submuestra de casos.

Para ejemplificar lo que anteriormente se ha dicho, procedemos ahora a realizar un ejercicio


con el programa SPSS, versin 11.5 en espaol.

El anlisis de conglomerados es un procedimiento estadstico de clasificacin que pretende


identificar grupos relativamente homogneos de casos (o de variables) basndose en las

caractersticas seleccionadas. Dentro del anlisis de conglomerados estn los procedimientos


jerrquicos y los no jerrquicos. En esta prctica estudiaremos los procedimientos no
jerrquicos, concretamente el mtodo de las K-medias de MacQueen.

El anlisis de conglomerados de las K-medias slo clasificar a los casos de la matriz de datos,
no a las variables.
Csar Prez Lpez dice que el algoritmo de las K-medias, el ms importante desde los
puntos de vista conceptual y prctico, parte tambin de unas medias arbitrarias y, mediante
pruebas sucesivas, contrasta el efecto que sobre la varianza residual tiene la asignacin de
cada uno de los casos a cada uno de los grupos. El valor mnimo de varianza determina una
configuracin de nuevos grupos con sus respectivas medias. Se asignan otra vez todos los
casos a estos nuevos centroides en un proceso que se repite hasta que ninguna transferencia
puede ya dismimuir la varianza residual; o se alcance otro criterio de parada: un nmero
limitado de pasos de iteracin o, simplemente, que la diferencia obtenida entre los centroides
de dos pasos consecutivos sea menor que un valor prefijado. El procedimiento configura los
grupos maximizando, a su vez, la distancia entre sus centros de gravedad. Como la varianza
total es fija, minimizar la residual hace mxima la factorial o intergrupos. Y puesto que
minimizar la varianza residual es equivalente a conseguir que sea mnima la suma distancias
al cuadrado desde los casos a la media del cluster al que van a ser asignados, es esta distancia
eucldea al cuadrado la utilizada por el mtodo. Como se comprueban los casos
secuencialmente para ver su influencia individual, el clculo puede verse afectado por el
orden de los mismos en la tabla; pese a lo cual es el algoritmo que mejores resultados
produce. Otras variantes propuestas a este mtodo llevan a clasificaciones muy similares.
Como cualquier otro mtodo de clasificacin no jerrquica, proporciona una solucin final
nica para el nmero de clusters elegido, a la que se llegar con menor nmero de iteraciones
cuanto ms cerca estn las medias de arranque de las que van a ser finalmente obtenidas.
Los programas automticos seleccionan generalmente estos primeros valores, tantos como
grupos se pretenda formar, entre los puntos ms separados de la nube.

Leccin
anterior

Siguiente
Leccin

Leccin 33

LECCIN 33: ANALISIS DE CONGLOMERADOS NO JERARQUICO.

Dentro del SPSS, el procedimiento que permite realizar el anlisis de conglomerados de las Kmedias de MacQueen se encuentran en el submen Clasificar del men Analizar, justo
encima del procedimiento de los conglomerados jerrquicos, como se aprecio en la siguiente
figura:

Al pulsar en dicha opcin, el cuadro de dilogo que aparece tiene el aspecto de la Figura 46,
en la cual se pueden apreciar todas las opciones que permite el SPSS en este procedimiento.


Las variables deben ser cuantintativas (escala de medida de intervalo o razn). En caso de
tener variables cualitativas, no se puede aplicar este procedimiento, ya que las distancias se
calculan utilizando la distancia eucldea. Si las variables utilizan unidades de medida muy
diferentes, los resultados podran ser equvocos y sera conveniente estandarizar las variables
antes de realizar el anlisis de conglomerados de K-medias (esto se puede hacer en el
procedimiento Descriptivos).

Leccin
anterior

Siguiente
Leccin

Leccin 34

LECCIN 34: ANALISIS DE CONGLOMERADOS NO JERARQUICO.

Si se pulsa en la opcin Centros>>, se despliegan las opciones de especificacin de los


archivos en los que se encuentran los centroides de partida, y en los que se quieran escribir los
centroides resultantes, como se muestra en la siguiente figura:

Si no se indica en un fichero en el que se especifiquen los centros iniciales de los


conglomerados, se selecciona entre los datos un nmero de casos debidamente espaciados igual
al nmero de conglomerados fijados.

En el procedimiento de anlisis de conglomerados de las K-medias, podemos elegir la opcin
de realizar la clasificacin en torno a los centros iniciales (Slo clasificar) que utiliza los
centros iniciales de conglomerados para clasificar los casos, y los centros de los
conglomerados no se actualizan, o de conseguir la mejor clasificacin (Iterar y clasificar)
mediante un proceso iterativo de reasignacin de los casos al grupo cuyo centroide est ms
cercano (los centros iniciales de los conglomerados se utilizan como criterio para una primera
clasificacin y, a partir de ah, se van actualizando). Lo normal es utilizar siempre el criterio
iterativo a partir de unos centros iniciales.

Si se pulsa en el botn Iterar..., se obtiene el cuadro de dilogo que se presenta a


continuacin en la figura con las siguientes opciones:

Leccin
anterior

Siguiente
Leccin

Leccin 35

LECCIN 35: ANALISIS DE CONGLOMERADOS NO JERARQUICO.

Estas opciones slo estn disponibles si se selecciona el mtodo itetar y clasificar en el cuadro
de dilogo principal. En el No mximo de iteraciones se limita el nmero de iteraciones en el
algoritmo de K-medias. La iteracin se detiene despus de esta nmero de iteraciones, incluso
si no se ha satisfecho el criterio de convergencia. Este nmero debe estar entre el 1 y el 999.
Por defecto, est fijado en 10. El Criterio de convergencia sirve para determinar cundo se
detiene el proceso de iteracin. Representa una proporcin de la distancia mnima entre los
centros iniciales de los conglomerados, por lo que debe ser mayor que 0 pero no mayor que 1.
Por ejemplo, si el criterio es igual a 0,02, la iteracin cesar si una iteracin completa no
mueve ninguno de los centros de los conglomerados en una distancia superior al dos por
ciento de la distancia menor entre cualquiera de los centros iniciales. Inicialmente, fijaremos
su valor en 0. Seleccionando la opcin Usar medias actualizadas se permite la actualizacin
de los centros de los conglomerados tras la asignacin de cada caso. Si no seleccionramos
esta opcin, los nuevos centros de los conglomerados se calcularan despus de la asignacin
de todos los casos.

Se puede guardar la informacin sobre la solucin como nuevas variables para que puedan ser
utilizadas en anlisis subsiguientes, como se aprecia si pulsramos en el botn de Guardar
como se observa en la figura 49.

Si marcramos la opcin Conglomerado de pertenencia se crea una nueva variable en el


fichero de datos que indica el conglomerado final al que pertenece cada caso. Los valores de
la nueva variable van desde el 1 hasta el nmero de conglomerados. Si marcamos la opcin
Distancia desde centro del conglomerado se crea una nueva variable que indica la distancia
eucldea entre cada caso y su centro de clasificacin (ver figura 50).

En el cuadro de las Opciones del anlisis, son las que se presentan a continuacin:

Si se solicitan los Centros de conglomerados iniciales, se mostrar en los resultados la


primera estimacin de las medias de las variables para cada uno de los conglomerados. La
Tabla de ANOVA se corresponde con las pruebas de anlisis de la varianza para cada
variable de aglomeracin. La tabla de ANOVA no se mostrar si se asignan todos los casos a
un nico conglomerado. Por ltimo, se puede solicitar, mediante la Informacin del
conglomerado para cada caso, el conglomerado final asignado y la distancia eucldea entre el
caso y el centro del conglomerado utilizado para clasificarlo. Tambin se mostrar la distancia
eucldea entre los centros de conglomerados finales. En caso de que hubiera valores perdidos
en el fichero, se puede decidir si excluirlos o no del anlisis.

Leccin
anterior

Siguiente
Leccin

Leccin 36

LECCIN 36: ANALISIS DE CONLGOMERADOS NO JERARQUICOS.

APLICACIN PRACTICA.

Recuperamos el fichero de datos correspondiente a los Municipios de Guadalajara


(Municipios de Guadalajara.sav), en el que se encuentran datos relativos a los 47
Municipios de Guadalajara con ms de 300 habitantes (fueron seleccionados por motivos de
conveniencia). Vamos a realizar el anlisis correspondiente con las variables adecuadas para
ello. De entre todas las variables del fichero, seleccionamos slo las siguientes: agri, asal,
cons, dist, emp, ind, m16a, m65a, serv, tactiv, cuya definicin se encuentra en la siguiente
lista:

Agri: porcentaje de la poblacin que trabaja en el sector agrcola.


Asal: Porcentaje de la poblacin asalariada.
Cons: Porcentaje de la poblacin que trabaja en el sector construccin.
Dist: Distancia del municipio a la capital, en Km.
Emp: Porcentaje de la poblacin que posee su propia empresa.
Ind: Porcentaje de la poblacin que trabaja en el sector industrial.
M16a: Porcentaje de la poblacin de 16 aos o menos.
M65a: Porcentaje de la poblacin de 65 aos o ms.
Serv: Porcentaje de la poblacin que trabaja en el sector servicios.
Tactiv: Tasa de poblacin activa.

Lo primero que habr que hacer es homogeneizar las unidades de medida de estas variables a
travs del procedimiento Descriptivos dentro del submen Estadsticos descriptivos del men
Analizar, tal como se observa en la figura 51.

En la figura 52 se observa que uno de los primeros pasos para realizar nuestro anlisis de
Conglomerados de K Medias es la seleccin de las variables en cuestin. El mecanismo es el
mismo, se sombrean las variables que deseo insertar en mi anlisis, y las envo al recuadro de
variables con el botn de envo, y cuando hemos realizado sta accin nos aparece tal y
como se observa en la figura 53.

Leccin
anterior

Siguiente
Leccin

Leccin 37

LECCIN 37: ANALISIS DE CONGLOMERADOS NO JERARQUICO.

Si seleccionamos las diez variables a incluir en el anlisis y marcamos la opcin de Guardar


valores tipificados como variables, se almacenarn en el fichero de datos unas nuevas
variables, que comienzan con la letra z, de tal forma que representan los valores tipificados
de las variables para cada caso, y sobre esas nuevas variables tipificadas es sobre las que
realizaremos el anlisis, de la forma que se muestra en la figura 54:

Basta un sencillo clic sobre la casilla en blanco y con esto ya tenemos elegida nuestra opcin.
Luego, pulsamos el botn de Aceptar y ya podemos continuar con la seleccin de las otras
opciones para nuestro anlisis.

Ocurre que al Guardar valores tipificados como variables nos aparecen nuevas variables en
nuestra ventana de variables totales, en este caso, conviene realizar nuevamente la seleccin de
las variables para que el anlisis sea mucho ms consistente, y por supuesto que elegimos las
variables tipificadas, ya que con ellas, entre otras cosas, eliminamos o minimizamos el sesgo
en nuestro anlisis.

Leccin
anterior

Siguiente
Leccin

Leccin 38

LECCIN 38: ANALISIS DE CONGLOMERADOS NO JERARQUICO.

Entonces, en la figura 55 se eligen o seleccionan las variables, luego pulsamos sobre el botn
de envo y nos aparece la figura 56 ya con todas las variables elegidas. Otra opcin que
podemos seleccionar es la de Etiquetar los casos mediante, y para dicha opcin elegimos el
nombre de la variable como etiqueta de los casos. Para seleccionar dicha variable, el proceso
es el mismo: seleccionamos con el cursor del ratn la variable, damos clic en el botn de
envo y ya tenemos elegida la etiqueta de los casos, lo que puede verse en la figura 57.

Otro paso que no debemos olvidar es seleccionar el nmero de conglomerados que deseamos
encontrar en nuestro anlisis. Dicho nmero depende de lo que al final arrojar nuestro
estudio, para nuestro ejemplo estableceremos que sean cuatro los conglomerados a determinar,
y esto puede verse en la figura 58.


En la figura 59 se aprecia la opcin de Iterar, que muestra el nmero de veces en que el
SPSS har las relaciones entre las distintas variables y grupos. Entre mayor sea el nmero de
iteraciones, mejores resultados tendremos en los conglomerados resultantes. Tambin cabe
destacar, que si ya se ha llegado a la solucin ptima, el SPSS detiene las iteraciones y no
contina haciendo los clculos, sino que emite un mensaje en el cual expresa que se ha llegado
a la solucin ptima.
Una vez hemos elegido el nmero de iteraciones de nuestra preferencia (para nuestro ejemplo
ser 10), entonces basta con dar un clic en el botn continuar y proseguimos con nuestro
anlisis.

Leccin
anterior

Siguiente
Leccin

Leccin 39

LECCIN 39: ANALISIS DE CONGLOMERADOS NO JERARQUICO.

En la figura 60 se observa la opcin de Guardar con la cual podemos guardar los resultados
como conglomerado de pertenencia y distancia desde centro del conglomerado. Eso puede
verse en la figura 61.


Para seleccionar cada una de las opciones, con un simple clic sobre la casilla en blanco, tal y
como se observa en la figura 61, y luego pulsamos sobre el botn continuar para proseguir
con nuestro anlisis.

Finalmente, nos queda seleccionar las opciones que incluiremos en nuestro anlisis de
conglomerados, para ello solamente debemos dar un clic en el botn de opciones como se
observa en la figura 62 y nos aparecer un recuadro como en la figura 63.

Para nuestro ejemplo, en los Estadsticos analizaremos los Centros de conglomerados


iniciales, Tabla de ANOVA y la Informacin del conglomerado para cada caso. Y
tambin pediremos al SPSS que nos excluya los casos segn lista. Cuando ya tenemos listo
esto, entonces pulsamos sobre el botn de continuar y ya tenemos todo concluido para
realizar nuestro el anlisis de los datos.

Entonces, hemos finalizado de colocar todas las opciones y restricciones que desebamos para
nuestro Anlisis de Conglomerados, y estamos listos para obtener los resultados en el visor de
resultados del SPSS. Para ello damos clic en el botn de Aceptar y presentamos a
continuacin los productos obtenidos.

Leccin
anterior

Siguiente
Leccin

Leccin 40

LECCIN 40: ANALISIS DE CONGLOMERADOS NO JERARQUICO.

Anlisis de conglomerados de K medias

Centros iniciales de los conglomerados

Conglomerado

Puntua(DIST)
Puntua(M16A)
Puntua(M65A)
Puntua(TACTIV)
Puntua(AGRI)
Puntua(IND)
Puntua(CONS)
Puntua(SERV)
Puntua(EMP)
Puntua(ASAL)

2
-,16629
-,88063
,50804
-,85507
-,98207
2,32399
-,99370
-,65590
-1,30587
1,51985

-,00150
,66697
-,56897
,30740
-,91368
-,87756
2,23162
,74746
,02780
,01608

3
2,54097
-1,20918
1,80299
-2,01755
1,46590
-1,62352
,04481
-,16274
2,54899
-2,40261

4
-1,06087
2,13028
-2,14521
1,80202
-1,39395
1,88052
-,62465
,15892
-1,67523
1,79448

En este procedimiento, el historial de iteraciones se limita a registrar los distintos cambios


producidos entre los centros de los grupos:

Historial de iteraciones(a)

Cambio en los centros de los conglomerados


Iteracin
1
2
3
4
5
6
7
8
9
10

2
2,066
,140
,151
,007
,000
1,415E-05
6,433E-07
2,924E-08
1,329E-09
6,042E-11

1,500
,793
,370
,053
,008
,001
,000
2,201E-05
3,144E-06
4,492E-07

3
2,405
,167
,017
,002
,000
1,667E-05
1,667E-06
1,667E-07
1,667E-08
1,667E-09

4
1,625
,288
,195
,016
,001
,000
9,411E-06
7,842E-07
6,535E-08
5,446E-09

a Se han detenido las iteraciones debido a que se ha alcanzado el nmero mximo de iteraciones. Las
iteraciones no han logrado la convergencia. El cambio mximo de coordenadas absolutas para cualquier centro
es de 2,246E-07. La iteracin actual es 10. La distancia mnima entre los centros iniciales es de 5,034.

Naturalmente, no se ha producido la convergencia del procedimiento debido a que la


exigencia que habamos impuesto es muy fuerte, en el sentido de que solo admitiremos que el
algoritmo ha llegado al final cuando no se producen ms cambios.

La clasificacin individual de cada paso en el conjunto general de observaciones se almacena


en una nueva variable, llamada qcl_1 (se puede comprobar su aparicin en la hoja de datos),
y su distancia al centro del conglomerado al que pertenece en otra nueva variable, llamada
qcl_2. En el visor de resultados aparece la siguiente tabla:

Pertenencia a los conglomerados

Nmero de caso
1

NOMBRE
Albalate de Zorita

1,753

2
3

Albares

1,675

Alcolea del Pinar

2,473

Almoguera

2,029

Almonacid de Zorita

2,273

Alovera
Anguita
Atienza

4
3
1

1,383
2,002
2,020

Azuqueca de Henares

1,993

Brihuega
Budia

1
1

1,228
1,761

Cabanillas del Campo

1,429

Casar (El)

2,058

14
15

Checa

2,864

Chiloeches

1,753

16
17

Cifuentes

1,347

Cogolludo

1,147

Corduente

1,878

Driebes

2,288

Espinosa de Henares

1,539

Fontanar

,897

Galve de Sorbe

3,412

Guadalajara

2,585

24
25

Horche

2,074

Humanes

1,181

26
27
28

Illana
Jadraque

3
1

2,316
1,799

Mandayona

2,488

Maranchn

2,380

Mazuecos

2,685

Molina de Aragn

3,020

Conglomerado

Distancia

6
7
8
9

10
11
12

13

18
19
20

21
22
23

29

30

31

32
33
34
35
36
37
38
39

Mondjar
Pareja
Pastrana
Sacedn
Sigenza
Tendilla
Torija

1
1
1
1
1
1
1

1,853
1,576
1,406
2,156
2,426
2,244
2,649

Torrejn del Rey

1,991

Torremocha del Campo

1,998

Trtola de Henares

,936

Trillo
Uceda

4
1

1,618
2,072

Villanueva de Alcorn

2,138

Villel de Mesa

2,478

Yebra

2,105

Yunquera de Henares

1,718

40

41

42
43
44

45
46
47

La matriz anterior nos muestra, caso por caso, el conglomerado de pertenencia de cada caso,
as como la distancia existente del centroide con cada uno de los casos en cuestin.

Centros de los conglomerados finales

Conglomerado

Puntua(DIST)
Puntua(M16A)
Puntua(M65A)
Puntua(TACTIV)
Puntua(AGRI)
Puntua(IND)
Puntua(CONS)
Puntua(SERV)
Puntua(EMP)
Puntua(ASAL)

1
-,00150
-,00205
,01606
-,08009
-,23552
-,33632
,58182
,31316
,13855
-,16448

2
-,58219
-,35036
,23309
-,35687
-,04608
1,03388
-,40709
-,84244
-,34911
,26434

3
1,28281
-1,25000
1,29293
-1,02114
1,55759
-1,05731
-,61347
-,49230
1,41540
-1,33063

4
-,72915
1,21775
-1,21564
1,18304
-,79964
,94321
-,38676
,26445
-1,23214
1,25852

Por ltimo, se presentan las distancias entre los centroides de los conglomerados resultantes:

Distancias entre los centros de los conglomerados finales

Conglomerado
1
2
3
1

2,287
3,811
2
2,287

4,315
3
3,811
4,315

4
3,454
3,244
6,722

ANOVA

Conglomerado

Error

4
3,454
3,244
6,722


Puntua(DIST)
7,564
Puntua(M16A)
Puntua(M65A)
Puntua(TACTIV)
Puntua(AGRI)
Puntua(IND)
Puntua(CONS)
Puntua(SERV)
Puntua(EMP)
Puntua(ASAL)

Media
cuadrtica

Media
cuadrtica

gl

3
10,370
10,544
8,560
10,015
9,545
4,379
3,089
11,955
11,448

,542
3
3
3
3
3
3
3
3
3

gl

43
,346
,334
,473
,371
,404
,764
,854
,236
,271

13,955
43
43
43
43
43
43
43
43
43

,000
29,951
31,555
18,112
26,994
23,638
5,729
3,617
50,718
42,238

Sig.

,000
,000
,000
,000
,000
,002
,020
,000
,000

Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido
elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son
corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los
conglomerados son iguales.

Y se indica el nmero de casos que han resultado incluidos en cada conglomerado:

Nmero de casos en cada conglomerado

Conglomerado
1
21,000

6,000
9,000
11,000

Vlidos
Perdidos

47,000
,000

Finalmente, tenemos cuatro conglomerados resultantes, y el total de casos pertenecientes a


cada conglomerado, adems tenemos 47 casos vlidos y ningn caso perdido. El
conglomerado con mayor nmero de casos es el 1 con 21 y el conglomerado menor es el 2
con 6 casos. Si quisiramos saber el orden o jerarqua de los conglomerados resultantes,
tendramos en este caso que aplicar una tcnica de anlisis de conglomerado jerrquico.

Leccin
anterior

Siguiente
Leccin

También podría gustarte