Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIN.
Que tal amigas y amigos que gustan de la estadstica, para m es un enorme placer
presentarles este Curso Avanzado de SPSS. Hace un par de meses, cuando Jos Luis me
plante la posibilidad de escribir un tercer curso sobre tcnicas estadsticas multivariadas con
el SPSS, me sent sumamente feliz, ya que podra continuar compartiendo mi experiencia
docente en estadstica multivariada con todos vosotros.
Con este curso pretendemos cerrar un ciclo en cuanto al manejo estadstico del programa
SPSS, que es complemento de los dos cursos predecesores sobre sta misma temtica.
Este nuevo curso lo he enriquecido con notas y ejemplos que mis profesores Dr. D. Cecilio
Mar Molinero y Dr. D. Francisco Jos Callealta me impartieron en las clases del curso de
Doctorado que aprob hace un par de aos en Sevilla. Gracias a ellos aprend muchsimo
sobre el manejo del programa informtico en mencin, y que ahora os traslado a todos
ustedes.
Otro aspecto que quiero resaltar de este nuevo curso, es que se analizan tcnicas estadsticas
mulvitariadas bastante interesantes pero a la vez un tanto complicadas de analizar, as que se
ha tratado de utilizar un lenguaje sencillo para que nuestros amigos lectores aprovechen al
mximo cada leccin del curso.
Un dato ms, y es que se han incorporado ejemplos completos para que al momento de
realizar un anlisis, se observe todo el proceso, y sea ms comprensible para el estudiante al
instante de arribar a conclusiones en el fenmeno investigado.
Nuevamente las gracias a mis amigos de AulaFacil.com por permitirme llegar a todos los
internautas deseosos de aprender las principales tcnicas de anlisis multivariante de datos.
Desde ya les auguro el mayor de los xitos. Para consultas o comentarios, les dejo a
continuacin mi correo electrnico.
Temario
Siguiente
Leccin
Leccin 1
Curso SPSS
Aula curso
En primer lugar, supongamos que disponemos de un conjunto de individuos clasificados en
Aula Frances distintos grupos de acuerdo con la observacin de una determinada caracterstica que los
diferencia. Parece lgico pensar que esa caracterstica observada que los diferencia pudiera
estar relacionada con otras caractersticas ms fcilmente observables, de forma que si
dispusiramos de ellas y conociramos la relacin existente entre stas y aqullas (por ejemplo,
mediante algn tipo de funcin predictiva) podramos tratar de anticipar su comportamiento
ms probable, con cierta fiabilidad, sin necesidad de esperar a observarla. Ello lgicamente es
tanto ms interesante cuanto mayor es el coste asociado a la observacin final de la
Cursos
que expresa finalmente la clasificacin real, tanto ms cuando la observacin de
Gratis INEM caracterstica
esta caracterstica conlleve la desaparicin de la propia unidad observada (caso de que la
cursos-subvencio caracterstica sea, por ejemplo, la muerte).
Frmate
Introduzcamos como ilustracin el siguiente ejemplo simplificado. Imaginemos que a una
Gratis.Cursos
inmobiliaria llegan una serie de compradores potenciales interesndose por la compra de
Vlidos INEM.
vivienda. Pensemos que el acto final de acabar comprando o no la vivienda en cuestin puede
Plazas Limitadas.
ponerse en relacin con (depende de) una serie de caractersticas de los individuos que
Ms Informacin!
manifiestan el inters de comprar como pueden ser la propia posesin (o no) de una primera
vivienda, su proximidad a un posible enlace matrimonial o convivencia, sus ahorros y
capacidad de endeudamiento, etc.; y supongamos hipotticamente que penssemos que la
decisin de compra, de una forma simplificada, estara bsicamente relacionada con slo dos
caractersticas fcilmente observables como son la cantidad de dinero que pensaban dejar
para pagar a plazos por la compra de la vivienda (X1 ) y el nmero de aos que tardaran en
pagarla (X2 ).
Listado De
Cursos 2014 Si en los archivos de la inmobiliaria existen 49 casos de situaciones anteriores similares en las
que, adems de conocer estas dos caractersticas, tambin se conoce la decisin final sobre la
compra que adoptaron los correspondientes clientes, podramos establecer un procedimiento
que nos permitiera saber, en base a esa experiencia acumulada por la inmobiliaria, si sera
Cursos
muy probable que un nuevo cliente, que dice que aplazara 75 mil euros de pesetas a pagar en
5 aos para adquirir la vivienda, terminase comprando la vivienda? O, si por el contrario,
Superiores
sera ms probable que no la comprara?
EAE
ambulancia Dado un conjunto de individuos, de los que se conocen sus caractersticas, clasificados en K
grupos diferentes, el Anlisis Discriminante (AD) trata de establecer las relaciones ptimas
existentes entres aqullas caractersticas de los individuos y sus grupos de pertenencia; lo que
en uno de aquellos grupos y mediante una regla de decisin ptima que permitir predecir la
clasificacin de los nuevos individuos de la forma ms fiable posible con respecto a la
realidad.
La pertenencia de un individuo a un grupo se modeliza mediante una variable categrica que
toma tantos valores como grupos haya y que tambin se conoce como variable grupo o
variable independiente.
Y para obtener la relacin ptima existente entre las caractersticas de los individuos y sus
grupos de pertenencia pueden plantearse varias opciones. La opcin que parte del
establecimiento de un modelo similar al de regresin que nos permite explicar la variable
categrica en funcin de las dems variables clasificadoras y la resolucin de los problemas
tericos que plantea, conduce a los mencionados Modelos de Respuesta Cualitativa.
En palabras del autor Csar Prez Lpez, el anlisis discriminante es una tcnica estadstica
que permite asignar o clasificar nuevos individuos dentro de grupos previamente reconocidos o
definidos. Para ilustrar el concepto, consideremos un ejemplo tpico en el campo de la
medicina. Supongamos que se dispone de una muestra de pacientes en los que se ha medido
un conjunto de variables relativas al diagnstico de una enfermedad (presin sangunea, edad,
peso, etc.) y que con esta informacin o por comprobacin posterior, el investigador ha
dividido la muestra en dos (o ms) grupos diagnsticos. La finalidad del anlisis discriminante
es que cuando llegue un nuevo enfermo en el que son medidas las mismas variables, sus
valores permitan asignar dicho paciente a un grupo de diagnstico con la mxima
probabilidad, cuantificacin a la vez el valor de sta probabilidad. El anlisis discriminante
puede aplicarse a todos los campos de la ciencia en los que el objeto de investigacin sea la
clasificacin de individuos, a travs de un perfil observado. El anlisis discriminante se conoce
en ocasiones como anlisis de clasificacin, ya que su objetivo fundamental es producir una
regla o un esquema de clasificacin que permita a un investigador predecir la poblacin a la
que es ms probable que tenga que pertenecer una nueva observacin (supuestas conocidas
varias poblaciones a las que pueden pertenecer las observaciones).
Introduccin
Siguiente
Leccin
Leccin 2
Curso SPSS
Aula curso
Aula Frances
Cursos
Ingls
kysy.com/Cursos-
Resultados 100%
Gratis sobre Cursos
Ingls!
Listado De
Cursos 2014
Atencin
Sociosanitari
a
Conduce
una
ambulancia
grupo G2 , se encuentra en una zona muy improbable, por ser mayor de lo comn en este
grupo. Sin embargo, la caracterstica x del individuo se encuentra en una zona ms probable
en el grupo G1 , ya que se encuentra ms cercana a la moda. As pues, la regla de mxima
verosimilitud nos inducir a asignar los individuos que presentasen la caracterstica x al
grupo G1 , para el que la densidad de probabilidad en dicho valor de la caracterstica, x, es
ms alta.
Leccin
anterior
Siguiente
Leccin
Curso SPSS
Aula curso
Aula Frances
Cursos
Gratis INEM
cursos-subvencio
La Mejor Gua de
Formacin
Gratuita Gran
Oportunidad,
Prepara Tu Futuro
Leccin 3
LECCIN 3: ANALISIS DISCRIMINANTE. CASO PARTICULAR.
En este caso slo habra dos grupos (k=2) para clasificar a los individuos en funcin de una
nica variable x (p=1). Adems, supondremos que esta caracterstica clasificadora x se
distribuye normalmente en ambos grupos, con igual varianza s pero con distintas u1 y u2 .
Existen valores de la caracterstica para los que podemos encontrar individuos ubicados en
cualquiera de los dos grupos, aunque con distintas verosimilitudes. As, en la zona
sombreada del siguiente grfico es ms probable que el individuo pertenezca al grupo G2
que al G1 ; mientras que en la zona simtrica es ms probable que el individuo pertenezca al
grupo G1 que al grupo G2 .
Listado De
Cursos 2014
Msters
Oficiales
EAE
Atencin
Sociosanitari
a
Intuitivamente, de lo dicho hasta aqu, podemos deducir cual ser la forma de decidir sobre
la pertenencia a los grupos de un elemento que presenta una caracterstica x. El eje de
simetra del grfico pasa por el valor promedio de u1 y u2 , y es ste punto el valor crtico que
separa las dos zonas de mxima verosimilitud de cada grupo. En la zona de la izquierda es
ms probable la pertenencia al grupo G1 pues la funcin de densidad en este grupo es
siempre superior a la del G2 , y en la zona opuesta ocurre lo contrario. Luego, cualquier
individuo con caracterstica a la izquierda de la lnea vertical debe ser asignado al grupo G1 ,
y todo individuo con caracterstica a la derecha de esta lnea debe ser asignado al grupo G2 .
Leccin
anterior
Siguiente
Leccin
Curso SPSS
Aula curso
Aula Frances
Leccin 4
LECCIN 4: ANALISIS DISCRIMINANTE CON SPSS.
Cursos
Gratis INEM
cursos-subvencio
La Mejor Gua de
Formacin
Gratuita Gran
Oportunidad,
Prepara Tu Futuro
Listado De
Cursos 2014
Conduce
una
ambulancia
Atencin
Sociosanitari
a
Una vez hemos elegido la opcin Discriminante, nos aparece el recuadro de la figura 2.
Ahora lo que tenemos que hacer es seleccionar las variables que deseemos llevar a nuestro
anlisis discriminante, tal y como se muestra en la figura 2.
Es de aclarar que la base de datos que utilizaremos me fue proporcionada en mis clases
cuando cursaba el Doctorado, y presenta informacin para analizar de un banco que se
encuentra interesado en saber si el cliente pagar a tiempo el prstamo, o si caer en
morosidad y ya no pagar la deuda que tienen pendiente. En esta situacin, se utilizan las
variables de fallido (caer o no en mora), patrimonio neto que es el capital con que
cuenta, y la deuda pendiente que an tiene con el banco el cliente.
Leccin
anterior
Siguiente
Leccin
Leccin 5
Curso SPSS
Aula curso
Aula Frances
Cursos
Gratuitos
2014
tumaster.com
Buscador de
Cursos N1.
Encuentra Aqu el
Curso Que Buscas!
Cursos
Ingls
Una vez que hemos seleccionado las variables en nuestro modelo de anlisis discriminante
(figura 3), procedemos a definir los rangos de las mismas. Para nuestro caso, el rango de
fallido oscila de 1 a 2, y se puede ver esto en la figura 4.
Cursos
Gratis INEM
Listado De
Cursos 2014
Leccin
anterior
Siguiente
Leccin
Leccin 6
Curso SPSS
Aula curso
Aula Frances
Cursos
Gratis INEM
cursos-subvencio
La Mejor Gua de
Formacin
Gratuita Gran
Oportunidad,
Prepara Tu Futuro
Listado De
Cursos 2014
Cursos
Superiores
Online
Atencin
Sociosanitari
a
Leccin
anterior
Siguiente
Leccin
Leccin 7
Curso SPSS
Aula curso
Aula Frances
Cursos
Gratuitos
2014
tumaster.com
Buscador de
Cursos N1.
Encuentra Aqu el
Curso Que Buscas!
Otra opcin que debemos revisar es la de clasificar, que debemos elegir dentro de nuestro
anlisis discriminante, y para hacerlo, basta dar un clic en el botn clasificar tal y como se
observa en la figura 11.
Cursos
Ingls
Cursos
Gratis INEM
Listado De
Cursos 2014
Leccin
anterior
Siguiente
Leccin
Leccin 8
Curso SPSS
Aula curso
Aula Frances
Si deseamos que nuestro anlisis sea Guardado, procedemos a dar un clic en el botn de
Guardar, tal y como se observa en la figura 13, y al hacer esto, nos aparece el recuadro de la
figura 14.
Tambin tenemos la opcin de exportar informacin del modelo a un archivo con extensin
*.xml.
Para el ejemplo, elegiremos todas las opciones mencionadas para efectos meramente
didcticos. Cuando tenemos listo todo el proceso, debemos dar clic en el botn de
continuar, as como se observa en la figura 15.
Leccin
anterior
Siguiente
Leccin
Leccin 9
Curso SPSS
Aula curso
Aula Frances
Ahora podemos decir que ya nos encontramos listos para ejecutar nuestro anlisis
discriminante. Si no tenemos ms opciones que elegir para nuestro estudio, entonces bastar
dar un clic en el botn de aceptar para que el SPSS procese la informacin con las
opciones que nosotros hemos elegido, y nos brinde los resultados del mismo. Esto se puede
ver en la figura 16.
El visor de resultados del SPSS nos muestra los resultados del anlisis realizado, y el primer
recuadro que aparece es el resumen del procesamiento de casos.
Para nuestro ejemplo, podemos observar que en total eran 16 casos, de los cuales no tuvimos
ningn caso perdido o fuera de rango.
Discriminante
Casos no ponderados
Vlidos
Excluidos
N
Cdigos de grupo perdidos o fuera
de rango
Perdida al menos una variable
discriminante
Perdidos o fuera de rango ambos, el
cdigo de grupo y al menos una de
las variables discriminantes.
16
Porcentaje
100,0
,0
,0
,0
Casos Totales
Total excluidos
0
16
,0
100,0
Las estadsticas de grupo muestran los resultados tanto de la media como la desviacin
tpica, as como los casos ponderados y no ponderados vlidos segn listado.
Estadsticos de grupo
FALLIDO
1,00
2,00
Total
PATRNETO
DEUDAPEN
PATRNETO
DEUDAPEN
PATRNETO
DEUDAPEN
Media
5,0000
5,0000
9,0000
3,0000
7,0000
4,0000
Desv. Tp.
2,07089
1,86394
2,28910
1,74438
2,95184
2,02682
Ponderados
8,000
8,000
8,000
8,000
16,000
16,000
En esta primera tabla se muestran las caractersticas descriptivas muestrales de las variables
independientes (en este caso solo una X1= PATRNETO). Debe observarse que el punto de
corte de los dos grupos para sta variable se sita en el valor 7, resultado de (5 + 9)/2= 7.
En el recuadro siguiente se presentan los estadsticos por pasos, que el SPSS denomina
Anlisis 1. Esta tabla muestra las variables introducidas, el respectivo estadstico, los
grados de libertad (gl) y la significatividad (sig) de cada valor.
Leccin
anterior
Siguiente
Leccin
Leccin 10
Anlisis 1
Estadsticos por pasos
Variables en el anlisis
Paso
1
2
PATRNETO
PATRNETO
DEUDAPEN
Tolerancia
1,000
,935
,935
F para
eliminar
13,433
13,136
5,016
Lambda de
Wilks
,740
,510
Paso
PATRNETO
DEUDAPEN
DEUDAPEN
Tolerancia
1,000
1,000
,935
Tolerancia mn.
1,000
1,000
,935
F para
introducir
13,433
4,910
5,016
Lambda de
Wilks
,510
,740
,368
En las siguientes tablas se presenta el resumen de las funciones cannicas discriminantes que
nos a arrojado el SPSS. Se incluyen los autovalores, la Lambda de Wilks, coeficientes en el
modelo, entre otros.
Autovalores
Correlacin
Funcin
Autovalor
% de varianza
% acumulado
cannica
1
1,716(a)
100,0
100,0
,795
a Se han empleado las 1 primeras funciones discriminantes cannicas en el anlisis.
La tabla de los Autovalores presenta los autovalores de las funciones cannicas discriminantes,
que miden las desviaciones de las puntuaciones discriminantes entre grupos respecto a las
desviaciones dentro de los grupos. El autovalor de una funcin se interpreta como la parte de
variabilidad total de la nube de puntos proyectada sobre el conjunto de todas las funciones
atribuible a la funcin. Si su valor es grande, la funcin discriminar mucho. En cuanto a las
correlaciones cannicas, miden las desviaciones de las puntuaciones discriminantes entre grupos
respecto a las desviaciones totales sin distinguir grupos. Si su valor es grande (prximo a 1) la
dispersin ser debida a las diferencias entre grupos, y por tanto, la funcin discriminar mucho.
En la tabla se observa que la primera funcin discriminante explica el total 100% de la
variabilidad del fenmeno, y dicha funcin, es la que dar prcticamente la clasificacin.
Lambda de Wilks
Contraste de las
Lambda de
funciones
Wilks
Chi-cuadrado
1
,368
12,987
gl
Sig.
2
,002
Los llamados coeficientes estandarizados de las funciones discriminantes cannicas son los
coeficientes de la funcin lineal discriminante calculados sobre las variables tipificadas. Se
observa que la Lambda de Wilks slo es significativa en la primera funcin discriminante.
Leccin
anterior
Siguiente
Leccin
Leccin 11
Funcin
PATRNETO
DEUDAPEN
1
,922
-,686
Matriz de estructura
Funcin
PATRNETO
DEUDAPEN
1
,748
-,452
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes
cannicas tipificadas Variables ordenadas por el tamao de la correlacin con la funcin.
El punto de corte ser el cero, ya veremos ms adelante como se plantea ste valor.
Funcin
PATRNETO
DEUDAPEN
(Constante)
1
,422
-,380
-1,437
Coeficientes no tipificados
Funcin
FALLIDO
1,00
2,00
-1,225
1,225
Con los resultados obtenidos, el punto de corte discriminante ser el punto medio de las
funciones en los centroides de los grupos:
C = (D1 + D2 )/2 = 0
Estadsticos de clasificacin
Resumen del proceso de clasificacin
Procesados
Excluidos
16
Cdigo de grupo
perdido o fuera de
rango
Perdida al menos una
variable discriminante
0
0
16
Casos utilizados
FALLIDO
Previas
en el anlisis
1,00
2,00
Total
No ponderados
,500
,500
1,000
8
8
16
Ponderados
8,000
8,000
16,000
Los grupos son de igual tamao, pues tienen el mismo nmero de elementos, luego, la
probabilidad de pertenencia a priori para cada uno de los grupos es la misma.
FALLIDO
PATRNETO
DEUDAPEN
(Constante)
1,00
,777
1,296
-5,876
2,00
1,813
,364
-9,396
Leccin
anterior
Siguiente
Leccin
Leccin 12
Los estadsticos de clasificacin son los que aparecen en la tabla siguiente, en la que se aprecia
que existe un caso mal clasificado (el que se encuentra sealado con dos asteriscos).
Los grficos de los grupos por separado son (hay que fijarse que el cero es la puntuacin de
corte discriminante).
Resultados de la clasificacin(a)
FALLIDO
Grupo de pertenencia
pronosticado
2,00
1,00
Original
Recuento
1,00
Total
2,00
1,00
100,0
,0
12,5
87,5
100,0
2,00
a Clasificados correctamente el 93,8% de los casos agrupados originales.
100,0
En este caso solo hemos encontrado un caso mal clasificado segn nuestra funcin lineal
discriminante, y se trata de un caso del grupo dos (caso 13 en la tabla de los estadsticos de
clasificacin) que ha sido incluido errneamente dentro del grupo 1.
Leccin
anterior
Siguiente
Leccin
Leccin 13
BANCO DE MASARROJOS.
Esta prctica la realic con mis profesores del curso de Doctorado, y se realiz para ilustrar el
anlisis discriminante con ms de dos grupos, entonces se analiz la concesin de prstamos
en el Banco de Massarrojos (se utiliz el fichero BANCO DE MASSAROJOS.SAV). Las
variables que aparecen en dicho fichero son:
Categ: que es la variable utilizada como variable de agrupacin, que adopta tres valores:
1: cliente cumplidor, que paga puntualmente.
2: cliente moroso, con dificultades en el pago.
3: cliente fallido, que no consigue terminar de pagar.
Ingresos: ingresos anuales en miles de pesetas.
Patrneto: patrimonio neto en millones de pesetas.
Proviv: toma el valor de 1 si el individuo posee vivienda, y 0 en otro caso.
Casado: toma el valor de 1 si la persona est casada, y 0 en otros casos.
Salfijo: toma el valor de 1 si la persona tiene contrato fijo, y 0 en otro caso.
Leccin
Siguiente
anterior
Leccin
Leccin 14
Luego, seleccionaremos los estadsticos para nuestro modelo, para lo cual presionamos sobre el
botn de estadsticos tal y como se observa en la figura 21, dndonos como resultado la
figura 22.
Leccin
anterior
Siguiente
Leccin
Leccin 15
El siguiente paso es seleccionar el mtodo de inclusin para nuestro modelo. Para ello damos
un clic en el botn mtodo (vase figura 23) y con ello obtenemos un recuadro tal y como lo
muestra la figura 24.
Para realizar el anlisis del Banco de Massarojos, elegiremos como mtodo a la Lambda de
Wilks, usaremos el valor de F predeterminado del SPSS, y le solicitaremos que nos muestre
un resumen de los pasos llevados a cabo.
Una vez culminado esto, damos clic al botn continuar y nuestro pedido ya queda guardado
y listo para realizar el anlisis respectivo.
Otra opcin que nunca debemos olvidar, y quizs las ms importante, es la de Clasificar, que
en la figura 25 se muestra el procedimiento para obtener las alternativas de clasificacin para
nuestro anlisis discriminante.
Leccin
anterior
Siguiente
Leccin
Leccin 16
LECCIN 16: ANALISIS DISCRIMINANTE.
La figura 26 muestra las posibilidades de Clasificacin que podemos elegir. Para el ejemplo,
seleccionaremos que Todos los grupos son iguales, la matriz Ingra grupos, y pediremos
que nos muestren los resultados para cada caso as como la tabla resumen de resultados. Con
todo esto procesado, nicamente damos clic en el botn continuar y ya estamos listos para
ordenar al SPSS que nos realice el anlisis discriminante que le hemos solicitado.
Ahora, ya nos encontramos listos para realizar el anlisis discriminante de los clientes del
Banco de Massarojos. Para esto, damos clic en el botn de Aceptar como se observa en la
figura 27 y el visor de resultados del SPSS nos muestra los resultados del anlisis llevado a
cabo. A continuacin presento los resultados:
Leccin
anterior
Siguiente
Leccin
Leccin 17
Discriminante
Resumen del procesamiento para el anlisis de casos
Casos no ponderados
N
Vlidos
25
Excluidos
Cdigos de grupo
perdidos o fuera de
0
rango
0
Perdida al menos una
variable discriminante
Perdidos o fuera de
rango ambos, el cdigo
0
de grupo y al menos
una de las variables
discriminantes.
0
Total excluidos
Casos Totales
25
Porcentaje
100,0
,0
,0
,0
,0
100,0
Primero aparecern las medidas descriptivas para cada variable en cada grupo de partida:
Estadsticos de grupo
INGRESOS
PATRNETO
2,00
PROVIV
CASADO
SALFIJO
INGRESOS
PATRNETO
PROVIV
CASADO
SALFIJO
Media
4873,0769
Desv. tp.
2094,29934
No ponderados
13
Ponderados
13,000
35,5385
19,06399
13
13,000
,7692
,43853
13
13,000
,8462
,37553
13
13,000
,8462
,37553
13
13,000
3128,5714
1832,31573
7,000
17,7143
11,91238
7,000
,4286
,53452
7,000
,7143
,48795
7,000
,7143
,48795
7,000
3,00
INGRESOS
Total
PATRNETO
PROVIV
CASADO
SALFIJO
INGRESOS
PATRNETO
PROVIV
CASADO
SALFIJO
1970,0000
1011,55820
5,000
11,0000
8,27647
5,000
,4000
,54772
5,000
,6000
,54772
5,000
,2000
,44721
5,000
3804,0000
2157,73415
25
25,000
25,6400
18,56493
25
25,000
,6000
,50000
25
25,000
,7600
,43589
25
25,000
,6800
,47610
25
25,000
Lambda de
Wilks
F
gl1
INGRESOS
,688
4,990
2
PATRNETO
,663
5,584
2
PROVIV
,870
1,639
2
CASADO
,948
,609
2
SALFIJO
,721
4,262
2
gl2
Sig.
22
,016
22
22
22
22
,011
,217
,553
,027
Funcin
PATRNETO
SALFIJO
2
1,193
1,154
-,511
,594
Matriz de estructura
Funcin
CASADO(a)
SALFIJO
PATRNETO
PROVIV(a)
INGRESOS(a)
2
-,332(*)
,394
,457
-,020
-,033
,016
,919(*)
-,889(*)
-,233(*)
-,209(*)
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes cannicas
tipificadas Variables ordenadas por el tamao de la correlacin con la funcin.
* Mayor correlacin absoluta entre cada variable y cualquier funcin discriminante.
a Esta variable no se emplea en el anlisis.
discriminantes son las siguientes (conviene darse cuenta que en este caso no tenemos un punto
de corte discriminante, pues tenemos nuestro conjunto de datos separado en tres grupos).
Leccin
anterior
Siguiente
Leccin
Leccin 18
LECCIN 18: ANALISIS DISCRIMINANTE
Funcin
PATRNETO
SALFIJO
(Constante)
,076
2,734
-3,796
-,032
1,406
-,126
Coeficientes no tipificados
Funcin
CATEG
1,00
2,00
3,00
2
1,202
-,505
-2,418
-,087
,305
-,201
Ahora tenemos que calcular el valor de tres funciones de clasificacin, y clasificaremos a cada
individuo en aqul grupo cuya funcin de clasificacin resulte tomar el mayor valor.
CATEG
PATRNETO
SALFIJO
(Constante)
1,00
2,00
,376
13,721
-13,590
,235
9,604
-6,607
3,00
,107
3,662
-2,051
Y nos permiten clasificar a un caso en aqul grupo cuya funcin de clasificacin resulte ser
mayor.
El mapa territorial sirve para ver cmo quedan la clasificacin en funcin de las dos funciones
lineales discriminantes:
Hay seis casos mal clasificados, como se muestra en la tabla a continuacin, comprobndose
como las probabilidades de pertenencia son mayores para la pertenencia al grupo mayor, y
tambin que las puntuaciones discriminantes son las que sitan a cada caso en el mapa
territorial.
Leccin
anterior
Siguiente
Leccin
Leccin 19
Representando los grupos por separado, tendremos tres grficos (uno por cada grupo), en los
cuales se ven algunos puntos que se alejan demasiado del centroide del grupo al que
pertenecen.
Puede notarse la concentracin o dispersin que existe por parte de la nube de puntos
alrededor del centroide de la distribucin. En otras palabras, a mayor cercana con el
centroide, menor discriminacin; y a mayor lejana del centroide, mayor discriminacin.
Leccin
Siguiente
anterior
Leccin
Leccin 20
LECCIN 20: ANALISIS DISCRIMINANTE.
Si ahora los dibujamos todos juntos, y ampliamos el grfico para apreciar mejor los distintos
grupos, tenemos el siguiente diagrama:
En el grfico puede notarse, a partir de los colores asignados por el SPSS, las distribuciones
de cada grupo contra su respectivo centroide.
Resultados de la clasificacin(a)
CATEG
Original
Recuento
1,00
2,00
3,00
1,00
2,00
Total
10
13
76,9
23,1
,0
100,0
14,3
71,4
14,3
100,0
,0
20,0
80,0
3,00
a Clasificados correctamente el 76,0% de los casos agrupados originales.
100,0
Analizando la matriz de confusin (matriz anterior), comprobamos que hay seis casos mal
clasificados, que representan el 24% de los mismos.
Si se estn preguntando de donde obtuvimos esos 6 casos mal clasificados, la respuesta es
sencilla. En la columna del grupo 1, 10 casos pertenecen a dicho grupo, en tanto que 1 se
encuentra mal clasificado. En el grupo 2 se tienen que 5 casos pertenecen a dicho grupo, y
se tienen 4 mal clasificados; y finalmente, en el grupo 3 se tienen que 4 casos pertenecen a
dicho grupo, en tanto que 1 caso se encuentra mal clasificado. Ahora sumemos los casos, y el
total ser de 6.
Leccin
anterior
Siguiente
Leccin
Leccin 21
Generalmente, la informacin que proporcionan estas muchas variables suele ser en buena
parte redundante al presentarse entre ellas mltiples relaciones de dependencia manifestadas
por la existencia de correlaciones considerables. As, al explicar el comportamiento de los
datos, de una forma clara (o al menos sencilla), a partir de esas variables inicialmente
observadas y altamente correlacionadas resulta una tarea dificultosa.
Las tcnicas factoriales pretenden, desde sus diferentes enfoques, abordar el problema de
simplificar la interpretacin del comportamiento observado de los datos.
Para ilustrar brevemente algunos de estos enfoques, imaginemos que disponemos de las
calificaciones en nueve asignaturas de los 29 alumnos de un curso, segn se indica en el
cuadro siguiente (lista detallada de datos en el ejemplo al final del tema):
Caso
ST1
ST2
GES
ST3
IOP
INF
MAT
ECO
ING
1
0,3
0,3
1,0
0,0
1,7
0,6
0,6
0,6
0,3
***
***
***
***
***
***
***
***
***
***
15
6,2
6,5
4,1
4,2
2,4
3,4
5,5
6,2
5,8
***
***
***
***
***
***
***
***
***
***
29
10,0
10,0
9,6
8,7
9,6
9,3
10,0
7,2
7,5
Variables: Estadstica 1 (ST1), Estadstica 2 (ST2), Estadstica 3 (ST3), Investigacin
Operativa (IOP), Informtica (INF), Matemticas (MAT), Economa (ECO), Gestin (GES) e
Ingls (ING).
Podemos tratar de vislumbrar este comportamiento global en ese espacio complejo, a partir de
sus proyecciones resultantes sobre los subespacios formados por cada dos tres de esas nueve
variables; lo que podemos representar y comprender bastante bien mediante grficos
bidimensionales o tridimensionales.
En estas representaciones, las nubes de puntos proyectados aparecern ms alargada en
aquella direccin donde se presente una mayor dispersin o variabilidad (en general, mayor
variedad o diversidad) de los datos, y menos alargada en aquella direccin donde haya una
menor dispersin o variabilidad (en general, menor variedad o diversidad) de los datos, como
intuitivamente puede verse en el anterior grfico.
Leccin
anterior
Siguiente
Leccin
Leccin 22
Para el autor Csar Prez Lpez, el Anlisis de Componentes Principales es una tcnica de
anlisis estadstico Multivariante que se clasifica entre los mtodos de simplificacin o
reduccin de la dimensin y que se aplica cuando se dispone de un conjunto elevado de
variables con datos cuantitativos persiguiendo obtener un menor nmero de variables,
combinacin lineal de las primitivas, que se denominan componentes principales o factores,
cuya posterior interpretacin permitir un anlisis ms simple del problema estudiado. Su
aplicacin es directa sobre cualquier conjunto de variables, a las que considera en bloque, sin
que el investigador haya previamente establecido jerarquas entre ellas, ni necesite comprobar
la normalidad de su distribucin. Se trata por tanto de una tcnica para el anlisis de la
interdependencia (en contraposicin con las tcnicas de la dependencia). En anlisis en
componentes principales permite describir, de un modo sinttico, la estructura y las
interrelaciones de las variables originales en el fenmeno que se estudia a partir de las
componentes obtenidas, que, naturalmente, habr que interpretar y nombrar. El mayor
nmero posible de componentes coincide, como veremos, con el nmero total de variables.
Quedarse con todas ellas no simplificara el problema, por lo que el investigador deber
seleccionar entre las distintas alternativas aqullas que, siendo pocas e interpretables,
expliquen una proporcin aceptable de la varianza global o inercia de la nube de puntos que
suponga una razonable prdida de informacin. Esta reduccin de muchas variables a pocas
componentes puede simplificar la aplicacin sobre estas ltimas de otras tcnicas
multivariantes (regresin, clusters, etc.).
Leccin
anterior
Siguiente
Leccin
Leccin 23
LECCIN 23: ANALISIS DE COMPONENTES PRINCIPALES.
Si representamos por X1,..., Xp las variables originales y nuestro objetivo es pues, encontrar
unas nuevas variables (componentes principales) Z1,..., Zp, que nos expliquen ordenadamente
y de una forma ms clara la variabilidad de los datos, parece lgico determinar la primera
componente principal Z1 como aquella que vaya en la direccin de mxima variabilidad de
los datos y que, por tanto, explicar la mayor diversidad entre los datos; ya que los datos se
dispersan de una forma mxima justamente en esa direccin. Esta direccin, pues, nos
informar mucho del comportamiento ms diversamente llamativo de esa nube de puntos.
Por otra parte, obsrvese que para que estas nuevas variables de referencia (nuevo sistema de
ejes coordenados) permita una representacin clara de la realidad, deberamos pedir
lgicamente que estuviesen incorrelacionadas para que cada nueva variable informara de
aspectos diferentes de la realidad y as facilitar la interpretacin. Recordemos que nubes de
puntos inclinadas indicaban correlacin entre variables y que nubes de puntos paralelas a los
ejes indicaban incorrelacin entre variables, por lo que la incorrelacin entre las nuevas
variables de referencia (componentes principales) se conseguir cuando se tomen paralelas a
los ejes principales de la nube de puntos. Ello nos induce a pensar que si la nube de puntos es
lo suficientemente regular (aproximadamente elipsoidal), la direccin de las componentes
principales deben ser ejes ortogonales.
As pues, la variable Z2 deber ser la variable que, siendo ortogonal a Z1, tenga la direccin
de mxima dispersin de las restantes. As aportar una informacin adicional del resto de la
variabilidad de los datos y que no quedaba explicada por la direccin Z1 (ntese que existe
toda una gama de individuos con un mismo valor para Z1 que pueden presentar diferentes
valores para Z2).
En el caso lmite de que esa regresin fuera perfecta, y por tanto todos los puntos estuvieran
sobre el hiperplano, la componente principal perpendicular al hiperplano no aportara ninguna
informacin porque no habra variabilidad en su direccin. Es en estos casos cuando vamos a
conseguir una reduccin efectiva de la dimensin de nuestro problema, al poder obviar o
suprimir las componentes principales que no aportan informacin sobre la diversidad.
As que, como consecuencia del proceso, el ACP no slo encuentra ordenadamente las
direcciones que mejor explican la variabilidad de esa nube de puntos, sino que tambin en el
caso de que haya informacin redundante, permitir prescindir de alguna de las ltimas
componentes, bien porque estrictamente no expliquen nada acerca de la variacin de los
datos, o bien porque expliquen una cantidad despreciable de la misma, consiguiendo
simplificar el problema mediante la reduccin efectiva de la dimensin del mismo.
.
Leccin
anterior
Siguiente
Leccin
Leccin 24
COMARCAS DE GUADALAJARA.SAV
Para realizar la prctica de Componentes Principales con el SPSS, este se debe realizar a
travs del Anlisis Factorial, el cual intenta identificar variables subyacentes, o factores que
expliquen la configuracin de correlaciones dentro de un conjunto de variables observadas.
Para que ste procedimiento estadstico tenga sentido, es necesario que entre las variables de
estudio haya una estructura importante de correlacin, es decir, es necesario que las variables
han sido observadas estn relacionadas entre s.
En el SPSS, el procedimiento que permite realizar el anlisis factorial se encuentran en el
submen Reduccin de datos del men Analizar.
Cuando nos interesa realizar un Anlisis de Componentes Principales (ACP), el proceso para
seguir en el SPSS es el siguiente: ir al men analizar, luego al submen Reduccin de los
datos y luego a Anlisis factorial, tal y como se muestra en la figura 28.
Al dar clic en dicha opcin, el cuadro de dilogo que aparece tiene el aspecto de la Figura 29,
en la que figuran todas las opciones que permite este procedimiento. Para empezar, hay que
seleccionar las variables que vayan a ser incluidas en el anlisis.
En la figura 29 se observan las opciones que nos brinda un ACP. Pasemos a revisar cada una
de dichas opciones.
Leccin
anterior
Siguiente
Leccin
Leccin 25
LECCIN 25: ANALISIS DE COMPONENTES PRINCIPALES.
La figura 30 muestra los Descriptivos que podemos elegir en nuestro modelo de componentes
principales. En dicha opcin se pueden solicitar una serie de medidas de resumen para cada
variable, la solucin inicial (comunalidades, autovalores y porcentaje de varianza explicada
por cada factor), as como algunos estadsticos que permiten comprobar la adecuacin de la
muestra al anlisis factorial. Desde un punto de vista prctico, la prueba de esfericidad de
Bartlett contrasta si la matriz de correlaciones es una matriz identidad, lo cual indicara que el
modelo factorial es inadecuado. El estadstico de Bartlett se obtiene a partir de una
transformacin c 2 del determinante de la matriz de correlaciones y cuanto mayor sea, y por
tanto menor el nivel de significacin, ms improbable es que la matriz sea una matriz
identidad y ms adecuado resulta el anlisis factorial.
En cuanto al mtodo de extraccin (botn Extraccin), las opciones que presenta SPSS son
las que aparecen en la siguiente figura:
Como se observa, los mtodos de extraccin de factores que realiza el SPSS son los de las
componentes principales, mxima verosimilitud, mnimos cuadrados no ponderados, y
algunos ms que no hemos estudiado.
Volviendo a las opciones que presenta el mtodo de extraccin de factores del anlisis
factorial, se puede especificar que el anlisis se aplique a una matriz de correlaciones o a una
matriz de covarianzas. Tambin se puede seleccionar a priori el nmero de factores que se
desea extraer, o especificar alguna condicin genrica que permita extraer slo aquellos que
verifiquen una determinada condicin (usualmente se eligen aquellos factores cuyos
autovalores sean superiores a la unidad). Se puede mostrar la solucin factorial sin rotar, as
como el grfico de sedimentacin (criterio grfico para la posterior decisin del nmero de
factores a extraer). Todas estas opciones se seleccionan en el mismo cuadro de opciones que
el de la figura anterior, y que se presenta para mayor facilidad en la figura 32:
Leccin
anterior
Siguiente
Leccin
Leccin 26
Los mtodos de rotacin que se pueden utilizar para clarificar la interpretacin de los factores
son los que aparecen en la siguiente figura, que se obtienen al pulsar en el botn de Rotacin
del cuadro de dilogo del anlisis factorial:
Se aprecia que se puede elegir no rotar la solucin inicial obtenida, o elegir alguno de los
mtodos de rotacin que aparecen en las opciones del SPSS. Adems, se pueden representar
las variables observadas en funcin de los factores extrados, si se solicitan los Grficos de
saturaciones.
El SPSS muestra algunas opciones ms, que hacen referencia a los posibles valores perdidos,
y a la visualizacin de los resultados en la ventana del Visor de resultados. Esto se aprecia en
la figura 35.
Leccin
anterior
Siguiente
Leccin
Leccin 27
APLICACIN PRCTICA.
Realizaremos un ejemplo con el fichero de datos Comarcas de Guadalajara.sav. Las
variables que vamos a incluir en el anlisis son: agri, sal, cons, emp, ind, m16a, m65a, serv,
tactiv.
En la figura 38 se observan las variables que elegiremos para desarrollar nuestro ACP. Luego
de seleccionadas nuestras variables, procedemos a elegir los Descriptivos que podemos ver
en la figura 39.
Leccin
anterior
Siguiente
Leccin
Leccin 28
Entre los descriptivos que utilizaremos para el ACP se seleccionaron los siguientes:
descriptivos univariados, solucin inicial, matriz de coeficientes y el test KMO y prueba de
esfericidad de Bartlett. Esto puede verse en la figura 39, y una vez elegidos los Descriptivos,
basta presionar el botn continuar para proseguir con nuestro anlisis.
La figura 40 nos muestra la extraccin de los coeficientes para nuestro ACP. Si observan
detenidamente, el mtodo es Componentes principales, que es uno de los mtodos de
anlisis factorial que se pueden emplear. En Analizar podemos elegir entre la matriz de
correlaciones o la matriz de covarianza. Tambin podemos elegir entre las opciones de
Extraer los Autovalores mayores que y el nmero de factores; y las de Mostrar, tambin
podemos ver la solucin inicial sin rotar y el grfico de sedimentacin.
Finalmente, podemos ver el nmero mximo de iteraciones para convergencia que nosotros
podemos establecer para el ACP que estemos realizando.
La figura 41 presenta la opcin Rotacin, que bsicamente podemos utilizar alguno de los
siguientes mtodos: Varimax, Oblimin directo, Quartimax, Equamax o Promax, o simplemente
omitir dichos mtodos con la opcin de Ninguno.
Cada uno de estos mtodos tiene su aplicacin, y depender del caso en el cul se encuentre
usted, para decidirse por uno u por otro mtodo.
Leccin
anterior
Siguiente
Leccin
Leccin 29
El botn de opciones nos presenta varias alternativas, como podemos verlo en la figura 43,
y presenta la forma de tratar los valores perdidos en nuestra base de datos. Las alternativas
ms comunes son: Excluir casos segn lista, Excluir casos segn pareja, y Reemplazar por la
media.
Una vez que hayamos elegido la opcin que ms nos interese, damos clic en la opcin
continuar y ya nos encontramos preparados para desarrollar nuestro ACP.
Leccin
anterior
Siguiente
Leccin
Leccin 30
Cuando ya tenemos previsto todo para nuestro ACP, entonces procedemos a dar clic en el
botn Aceptar (ver figura 44) para que el Programa SPSS comience a desarrollar todos los
clculos y nos presente los resultados en el visor de resultados.
A. factorial
Este es el visor de resultados del SPSS, en donde muestra todos los cuadros, grficos y
resultados del anlisis que le hemos solicitado efecte, en nuestro caso, un Anlisis Factorial a
con el Mtodo de Componentes Principales.
El primer cuadro es el que presenta los estadsticos descriptivos, en donde se puede ver la
media y desviacin tpica de cada una de las variables en estudio.
Estadsticos descriptivos
Desviacin
Media
tpica
AGRI
19,0443
12,22738
ASAL
65,3586
15,14112
CONS
14,3286
4,18580
EMP
31,1314
14,09154
IND
24,2400
10,18694
M16A
16,6643
5,69981
M65A
23,7043
10,12656
N del anlisis
7
7
7
7
7
7
7
SERV
TACTIV
42,3857
41,01
8,21876
8,465
7
7
Las comunalidades aparecen al principio, y se puede comprobar que son muy altas
(cercanas a 1), con lo cual se puede decir que las variables quedan muy bien
explicadas a travs de las componentes extradas.
Comunalidades
Inicial
Extraccin
AGRI
1,000
,963
ASAL
1,000
,988
CONS
1,000
,809
EMP
1,000
,976
IND
1,000
,927
M16A
1,000
,979
M65A
1,000
,965
SERV
1,000
,898
TACTIV
1,000
,893
Mtodo de extraccin: Anlisis de Componentes principales.
Autovalores iniciales
Componente
1
2
3
4
5
6
7
8
9
Total
7,045
1,354
,448
,117
,030
,007
6,435E-16
9,622E-17
-1,302E-16
% de la
varianza
78,277
15,046
4,978
1,295
,330
,074
7,150E-15
1,069E-15
-1,447E-15
% acumulado
78,277
93,323
98,300
99,596
99,926
100,000
100,000
100,000
100,000
% de la
varianza
78,277
15,046
% acumulado
78,277
93,323
Leccin
anterior
Siguiente
Leccin
Leccin 31
En esta figura se aprecia que la seleccin de dos componentes parece ser adecuada,
pues a partir de la tercera componente no es muy acusada la pendiente de la
representacin grfica de los autovalores.
Matriz de componentes(a)
Componente
AGRI
ASAL
CONS
EMP
IND
2
-,974
,993
-,458
-,986
,869
-,121
,038
,774
-,053
,414
M16A
M65A
SERV
TACTIV
,980
-,975
,606
,945
,137
-,119
-,729
-,023
Adems, se puede expresar cada variable en funcin de los factores, haciendo una
combinacin lineal de ellos utilizando sus cargas factoriales respectivas. Por ejemplo,
se puede expresar la variable agri en funcin de las componentes extradas de la
forma:
Leccin
anterior
Siguiente
Leccin
Leccin 32
El anlisis de conglomerados de las K-medias slo clasificar a los casos de la matriz de datos,
no a las variables.
Csar Prez Lpez dice que el algoritmo de las K-medias, el ms importante desde los
puntos de vista conceptual y prctico, parte tambin de unas medias arbitrarias y, mediante
pruebas sucesivas, contrasta el efecto que sobre la varianza residual tiene la asignacin de
cada uno de los casos a cada uno de los grupos. El valor mnimo de varianza determina una
configuracin de nuevos grupos con sus respectivas medias. Se asignan otra vez todos los
casos a estos nuevos centroides en un proceso que se repite hasta que ninguna transferencia
puede ya dismimuir la varianza residual; o se alcance otro criterio de parada: un nmero
limitado de pasos de iteracin o, simplemente, que la diferencia obtenida entre los centroides
de dos pasos consecutivos sea menor que un valor prefijado. El procedimiento configura los
grupos maximizando, a su vez, la distancia entre sus centros de gravedad. Como la varianza
total es fija, minimizar la residual hace mxima la factorial o intergrupos. Y puesto que
minimizar la varianza residual es equivalente a conseguir que sea mnima la suma distancias
al cuadrado desde los casos a la media del cluster al que van a ser asignados, es esta distancia
eucldea al cuadrado la utilizada por el mtodo. Como se comprueban los casos
secuencialmente para ver su influencia individual, el clculo puede verse afectado por el
orden de los mismos en la tabla; pese a lo cual es el algoritmo que mejores resultados
produce. Otras variantes propuestas a este mtodo llevan a clasificaciones muy similares.
Como cualquier otro mtodo de clasificacin no jerrquica, proporciona una solucin final
nica para el nmero de clusters elegido, a la que se llegar con menor nmero de iteraciones
cuanto ms cerca estn las medias de arranque de las que van a ser finalmente obtenidas.
Los programas automticos seleccionan generalmente estos primeros valores, tantos como
grupos se pretenda formar, entre los puntos ms separados de la nube.
Leccin
anterior
Siguiente
Leccin
Leccin 33
Dentro del SPSS, el procedimiento que permite realizar el anlisis de conglomerados de las Kmedias de MacQueen se encuentran en el submen Clasificar del men Analizar, justo
encima del procedimiento de los conglomerados jerrquicos, como se aprecio en la siguiente
figura:
Al pulsar en dicha opcin, el cuadro de dilogo que aparece tiene el aspecto de la Figura 46,
en la cual se pueden apreciar todas las opciones que permite el SPSS en este procedimiento.
Las variables deben ser cuantintativas (escala de medida de intervalo o razn). En caso de
tener variables cualitativas, no se puede aplicar este procedimiento, ya que las distancias se
calculan utilizando la distancia eucldea. Si las variables utilizan unidades de medida muy
diferentes, los resultados podran ser equvocos y sera conveniente estandarizar las variables
antes de realizar el anlisis de conglomerados de K-medias (esto se puede hacer en el
procedimiento Descriptivos).
Leccin
anterior
Siguiente
Leccin
Leccin 34
Leccin
anterior
Siguiente
Leccin
Leccin 35
Estas opciones slo estn disponibles si se selecciona el mtodo itetar y clasificar en el cuadro
de dilogo principal. En el No mximo de iteraciones se limita el nmero de iteraciones en el
algoritmo de K-medias. La iteracin se detiene despus de esta nmero de iteraciones, incluso
si no se ha satisfecho el criterio de convergencia. Este nmero debe estar entre el 1 y el 999.
Por defecto, est fijado en 10. El Criterio de convergencia sirve para determinar cundo se
detiene el proceso de iteracin. Representa una proporcin de la distancia mnima entre los
centros iniciales de los conglomerados, por lo que debe ser mayor que 0 pero no mayor que 1.
Por ejemplo, si el criterio es igual a 0,02, la iteracin cesar si una iteracin completa no
mueve ninguno de los centros de los conglomerados en una distancia superior al dos por
ciento de la distancia menor entre cualquiera de los centros iniciales. Inicialmente, fijaremos
su valor en 0. Seleccionando la opcin Usar medias actualizadas se permite la actualizacin
de los centros de los conglomerados tras la asignacin de cada caso. Si no seleccionramos
esta opcin, los nuevos centros de los conglomerados se calcularan despus de la asignacin
de todos los casos.
Se puede guardar la informacin sobre la solucin como nuevas variables para que puedan ser
utilizadas en anlisis subsiguientes, como se aprecia si pulsramos en el botn de Guardar
como se observa en la figura 49.
En el cuadro de las Opciones del anlisis, son las que se presentan a continuacin:
Leccin
anterior
Siguiente
Leccin
Leccin 36
APLICACIN PRACTICA.
Lo primero que habr que hacer es homogeneizar las unidades de medida de estas variables a
travs del procedimiento Descriptivos dentro del submen Estadsticos descriptivos del men
Analizar, tal como se observa en la figura 51.
En la figura 52 se observa que uno de los primeros pasos para realizar nuestro anlisis de
Conglomerados de K Medias es la seleccin de las variables en cuestin. El mecanismo es el
mismo, se sombrean las variables que deseo insertar en mi anlisis, y las envo al recuadro de
variables con el botn de envo, y cuando hemos realizado sta accin nos aparece tal y
como se observa en la figura 53.
Leccin
anterior
Siguiente
Leccin
Leccin 37
Basta un sencillo clic sobre la casilla en blanco y con esto ya tenemos elegida nuestra opcin.
Luego, pulsamos el botn de Aceptar y ya podemos continuar con la seleccin de las otras
opciones para nuestro anlisis.
Ocurre que al Guardar valores tipificados como variables nos aparecen nuevas variables en
nuestra ventana de variables totales, en este caso, conviene realizar nuevamente la seleccin de
las variables para que el anlisis sea mucho ms consistente, y por supuesto que elegimos las
variables tipificadas, ya que con ellas, entre otras cosas, eliminamos o minimizamos el sesgo
en nuestro anlisis.
Leccin
anterior
Siguiente
Leccin
Leccin 38
Entonces, en la figura 55 se eligen o seleccionan las variables, luego pulsamos sobre el botn
de envo y nos aparece la figura 56 ya con todas las variables elegidas. Otra opcin que
podemos seleccionar es la de Etiquetar los casos mediante, y para dicha opcin elegimos el
nombre de la variable como etiqueta de los casos. Para seleccionar dicha variable, el proceso
es el mismo: seleccionamos con el cursor del ratn la variable, damos clic en el botn de
envo y ya tenemos elegida la etiqueta de los casos, lo que puede verse en la figura 57.
Otro paso que no debemos olvidar es seleccionar el nmero de conglomerados que deseamos
encontrar en nuestro anlisis. Dicho nmero depende de lo que al final arrojar nuestro
estudio, para nuestro ejemplo estableceremos que sean cuatro los conglomerados a determinar,
y esto puede verse en la figura 58.
En la figura 59 se aprecia la opcin de Iterar, que muestra el nmero de veces en que el
SPSS har las relaciones entre las distintas variables y grupos. Entre mayor sea el nmero de
iteraciones, mejores resultados tendremos en los conglomerados resultantes. Tambin cabe
destacar, que si ya se ha llegado a la solucin ptima, el SPSS detiene las iteraciones y no
contina haciendo los clculos, sino que emite un mensaje en el cual expresa que se ha llegado
a la solucin ptima.
Una vez hemos elegido el nmero de iteraciones de nuestra preferencia (para nuestro ejemplo
ser 10), entonces basta con dar un clic en el botn continuar y proseguimos con nuestro
anlisis.
Leccin
anterior
Siguiente
Leccin
Leccin 39
En la figura 60 se observa la opcin de Guardar con la cual podemos guardar los resultados
como conglomerado de pertenencia y distancia desde centro del conglomerado. Eso puede
verse en la figura 61.
Para seleccionar cada una de las opciones, con un simple clic sobre la casilla en blanco, tal y
como se observa en la figura 61, y luego pulsamos sobre el botn continuar para proseguir
con nuestro anlisis.
Finalmente, nos queda seleccionar las opciones que incluiremos en nuestro anlisis de
conglomerados, para ello solamente debemos dar un clic en el botn de opciones como se
observa en la figura 62 y nos aparecer un recuadro como en la figura 63.
Entonces, hemos finalizado de colocar todas las opciones y restricciones que desebamos para
nuestro Anlisis de Conglomerados, y estamos listos para obtener los resultados en el visor de
resultados del SPSS. Para ello damos clic en el botn de Aceptar y presentamos a
continuacin los productos obtenidos.
Leccin
anterior
Siguiente
Leccin
Leccin 40
Conglomerado
Puntua(DIST)
Puntua(M16A)
Puntua(M65A)
Puntua(TACTIV)
Puntua(AGRI)
Puntua(IND)
Puntua(CONS)
Puntua(SERV)
Puntua(EMP)
Puntua(ASAL)
2
-,16629
-,88063
,50804
-,85507
-,98207
2,32399
-,99370
-,65590
-1,30587
1,51985
-,00150
,66697
-,56897
,30740
-,91368
-,87756
2,23162
,74746
,02780
,01608
3
2,54097
-1,20918
1,80299
-2,01755
1,46590
-1,62352
,04481
-,16274
2,54899
-2,40261
4
-1,06087
2,13028
-2,14521
1,80202
-1,39395
1,88052
-,62465
,15892
-1,67523
1,79448
Historial de iteraciones(a)
2
2,066
,140
,151
,007
,000
1,415E-05
6,433E-07
2,924E-08
1,329E-09
6,042E-11
1,500
,793
,370
,053
,008
,001
,000
2,201E-05
3,144E-06
4,492E-07
3
2,405
,167
,017
,002
,000
1,667E-05
1,667E-06
1,667E-07
1,667E-08
1,667E-09
4
1,625
,288
,195
,016
,001
,000
9,411E-06
7,842E-07
6,535E-08
5,446E-09
a Se han detenido las iteraciones debido a que se ha alcanzado el nmero mximo de iteraciones. Las
iteraciones no han logrado la convergencia. El cambio mximo de coordenadas absolutas para cualquier centro
es de 2,246E-07. La iteracin actual es 10. La distancia mnima entre los centros iniciales es de 5,034.
Nmero de caso
1
NOMBRE
Albalate de Zorita
1,753
2
3
Albares
1,675
2,473
Almoguera
2,029
Almonacid de Zorita
2,273
Alovera
Anguita
Atienza
4
3
1
1,383
2,002
2,020
Azuqueca de Henares
1,993
Brihuega
Budia
1
1
1,228
1,761
1,429
Casar (El)
2,058
14
15
Checa
2,864
Chiloeches
1,753
16
17
Cifuentes
1,347
Cogolludo
1,147
Corduente
1,878
Driebes
2,288
Espinosa de Henares
1,539
Fontanar
,897
Galve de Sorbe
3,412
Guadalajara
2,585
24
25
Horche
2,074
Humanes
1,181
26
27
28
Illana
Jadraque
3
1
2,316
1,799
Mandayona
2,488
Maranchn
2,380
Mazuecos
2,685
Molina de Aragn
3,020
Conglomerado
Distancia
6
7
8
9
10
11
12
13
18
19
20
21
22
23
29
30
31
32
33
34
35
36
37
38
39
Mondjar
Pareja
Pastrana
Sacedn
Sigenza
Tendilla
Torija
1
1
1
1
1
1
1
1,853
1,576
1,406
2,156
2,426
2,244
2,649
1,991
1,998
Trtola de Henares
,936
Trillo
Uceda
4
1
1,618
2,072
Villanueva de Alcorn
2,138
Villel de Mesa
2,478
Yebra
2,105
Yunquera de Henares
1,718
40
41
42
43
44
45
46
47
La matriz anterior nos muestra, caso por caso, el conglomerado de pertenencia de cada caso,
as como la distancia existente del centroide con cada uno de los casos en cuestin.
Conglomerado
Puntua(DIST)
Puntua(M16A)
Puntua(M65A)
Puntua(TACTIV)
Puntua(AGRI)
Puntua(IND)
Puntua(CONS)
Puntua(SERV)
Puntua(EMP)
Puntua(ASAL)
1
-,00150
-,00205
,01606
-,08009
-,23552
-,33632
,58182
,31316
,13855
-,16448
2
-,58219
-,35036
,23309
-,35687
-,04608
1,03388
-,40709
-,84244
-,34911
,26434
3
1,28281
-1,25000
1,29293
-1,02114
1,55759
-1,05731
-,61347
-,49230
1,41540
-1,33063
4
-,72915
1,21775
-1,21564
1,18304
-,79964
,94321
-,38676
,26445
-1,23214
1,25852
Por ltimo, se presentan las distancias entre los centroides de los conglomerados resultantes:
Conglomerado
1
2
3
1
2,287
3,811
2
2,287
4,315
3
3,811
4,315
4
3,454
3,244
6,722
ANOVA
Conglomerado
Error
4
3,454
3,244
6,722
Puntua(DIST)
7,564
Puntua(M16A)
Puntua(M65A)
Puntua(TACTIV)
Puntua(AGRI)
Puntua(IND)
Puntua(CONS)
Puntua(SERV)
Puntua(EMP)
Puntua(ASAL)
Media
cuadrtica
Media
cuadrtica
gl
3
10,370
10,544
8,560
10,015
9,545
4,379
3,089
11,955
11,448
,542
3
3
3
3
3
3
3
3
3
gl
43
,346
,334
,473
,371
,404
,764
,854
,236
,271
13,955
43
43
43
43
43
43
43
43
43
,000
29,951
31,555
18,112
26,994
23,638
5,729
3,617
50,718
42,238
Sig.
,000
,000
,000
,000
,000
,002
,020
,000
,000
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido
elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son
corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los
conglomerados son iguales.
Conglomerado
1
21,000
6,000
9,000
11,000
Vlidos
Perdidos
47,000
,000
Leccin
anterior
Siguiente
Leccin