Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual Spss Usm PDF
Manual Spss Usm PDF
DEPARTAMENTO DE INDUSTRIAS
VALPARASO - CHILE
Enero 2000
1
RESUMEN.
Este manual est orientado principalmente a facilitar el aprendizaje en el uso del SPSS, para
aplicar este poderoso sistema de anlisis estadstico al anlisis de datos relacionados al mercadeo.
Por lo tanto, se consideraron los mtodos ms frecuentemente utilizados en la investigacin de
mercados, los cuales son Anlisis Factorial, Escalamiento Multimensional, Anlisis Discriminante,
Anlisis Conjunto y Anlisis de Correspondencias.
El contenido de este manual se centra tanto en los aspectos prcticos como en los tericos
de los mtodos estadsticos aplicados en la investigacin de mercados. Debido a esto, que la teora
es expuesta de manera somera y, a la vez, apoyada con una ilustracin detallada de ejemplos
resueltos para cada mtodo, fomentando un estilo adecuado para la autoinstruccin. De esta forma,
una persona con conocimientos elementales de estadstica (distribuciones de probabilidades y
mtodos de docimasia) y de lgebra de matrices debera ser capaz de aprender los mtodos y
tcnicas presentadas, con un estilo adecuado de texto.
2
I.- ANLISIS FACTORIAL.
Las cargas factoriales representan la importancia que el -isimo factor (Fi) tiene en la
definicin de la de la j-sima variable (zj).
Aunque la funcin previa parece una ecuacin de regresin, no es tal. Desde luego, debe
saberse de antemano el numero de factores en el problema que se esta analizando, pero estos
factores, al contrario que en el anlisis de regresin, no se pueden observar directamente. La
variable Uj si es anloga al residual en una regresin y representa las variaciones aleatorias
producidas en los resultados por el efecto especifico de la variable zj.
3
La especificacin del modelo se completa con las siguientes condiciones, para el caso de
factores comunes considerados variables aleatorias:
1. Los factores comunes son variables aleatorias normales, independientes , de media cero y
varianza unitaria.
2. Las variables especificas (nicas) son normales, independientes, de media cero y varianza i2.
2. Las cargas factoriales son estimadas. En este parte, es necesario establecer el mtodo empleado
para la extraccin de los factores ya sea por componentes principales u otro mtodo de
extraccin.
3. Las cargas factoriales son rotadas a fin de obtener cargas ms fcilmente interpretables. Los
mtodos de rotacin genera cargas para cada factor ya sea grandes o pequeas, pero no de
valores intermedios. Esta rotacin permite reducir el numero de factores a la estructura ms
simple que describe los datos, esto es, encontrar una solucin final.
4. Para cada caso, los puntajes pueden ser calculados para cada factor y almacenados para usarlos
como variables de entrada en otros procedimientos.
Son muchos los mtodos que pueden emplearse para extraer los factores iniciales de la matriz de
correlacin. En general, estos mtodos son complejos numricamente. El SPSS proporciona de siete
mtodos de extraccin, sin embargo, el ms ampliamente usado en la practica en es el mtodo de
extraccin por componentes principales.
4
Componentes principales. El objetivo de este mtodo es encontrar combinaciones lineales
independientes de las variables originales. La primera componente tiene la varianza mxima. Las
componentes sucesivas explican progresivamente proporciones menores de la varianza y no estn
correlacionadas las unas con las otras. El anlisis de componentes principales se utiliza para obtener
la solucin factorial inicial. Puede utilizarse cuando una matriz de correlaciones es singular.
La generacin de componentes principales se obtienen a travs de un anlisis propio a ala
matriz de correlaciones.
(S - i I) = 0
La solucin de la ecuacin caracterstica de grado p es determinar p races caractersticas
(o valores propios) i con su vector caracterstico asociado.
Los valores propios i corresponden a alas varianzas de los componentes. El tamao de los
valores propios describe la dispersin o la forma de la nube de puntos en un espacio multivariado que
tiene un eje para cada variable
Mnimos cuadrados no ponderados. Este mtodo minimiza la suma de los cuadrados de las
diferencias entre las matrices de correlaciones observada y reproducida, ignorando las diagonales.
Mnimos cuadrados generalizados. Este mtodo minimiza la suma de los cuadrados de las
diferencias entre las matrices de correlacin observada y reproducida. Las correlaciones se
ponderan por el inverso de su unicidad, de manera que las variables que tengan un valor alto de
unicidad reciban un peso menor que aqullas que tengan un valor bajo de unicidad.
Mxima verosimilitud. Este mtodo proporciona las estimaciones de los parmetros que con
mayor probabilidad han producido la matriz de correlaciones observada, si la muestra procede de
una distribucin normal multivariada. Las correlaciones se ponderan por el inverso de la unicidad de
las variables, y se emplea un algoritmo iterativo.
Ejes principales. Este mtodo parte de la matriz de correlaciones original con los cuadrados de los
coeficientes de correlacin mltiple insertados en la diagonal principal como estimaciones iniciales de
las comunalidades. Las saturaciones factoriales resultantes se utilizan para estimar de nuevo las
comunalidades y reemplazan a las estimaciones previas en la diagonal de la matriz. Las iteraciones
continan hasta que el cambio en las comunalidades, de una iteracin a la siguiente, satisfaga el
criterio de convergencia para la extraccin.
Alfa. Este mtodo considera a las variables incluidas en el anlisis como una muestra del universo
de las variables posibles. Este mtodo mximiza el Alfa de Cronbach para los factores.
Imagen. Mtodo para la extraccin de factores, desarrollado por Guttman y basado en la teora de
las imgenes. La parte comn de una variable, llamada la imagen parcial, se define como su
regresin lineal sobre las restantes variables, en lugar de ser una funcin de los factores hipotticos.
5
Con frecuencia es muy difcil interpretar los factores iniciales. Por consiguiente la solucin inicial se
rota con el propsito de generar una solucin que permita la interpretacin. existen dos amplios tipos
de rotacin: (1) rotacin ortogonal, que mantiene a los factores no correlacionados entre s y (2)
rotacin oblicua, la cual permite que los factores se correlacionen entre s. la idea bsica de la
rotacin es generar factores que tengan algunas variables muy correlacionadas y otras poco
correlacionadas. Esto evita tener el problema de factores con todas las variables que presentan
correlaciones de medio rango y, por tanto, permite una interpretacin ms fcil. El SPSS dispone de
cinco mtodos de rotacin.
Varimax. Mtodo de rotacin ortogonal que minimiza el nmero de variables que tienen
saturaciones altas en cada factor. Simplifica la interpretacin de los factores.
Quartimax. Mtodo de rotacin que minimiza el nmero de factores necesarios para explicar cada
variable. Simplifica la interpretacin de las variables observadas.
Equamax. Mtodo de rotacin que es combinacin del mtodo varimax, que simplifica los factores,
y el mtodo quartimax, que simplifica las variables. Se minimiza tanto el nmero de variables que
saturan alto en un factor como el nmero de factores necesarios para explicar una variable.
Oblimin directo. Mtodo para la rotacin oblicua (no ortogonal). Cuando delta es igual a cero (el
valor por defecto) las soluciones son las ms oblicuas. A medida que delta se va haciendo ms
negativo, los factores son menos oblicuos. Para anular el valor por defecto 0 para delta, introduzca
un nmero menor o igual que 0,8.
Promax. Rotacin oblicua que permite que los factores estn correlacionados. Puede calcularse
ms rpidamente que una rotacin oblimin directa, por lo que es til para conjuntos de datos grandes.
6
inc_pob: aumento de poblacin (porcentaje para los aos previos)
nac_def: razn entre la tasa de nacimientos y la tasa de mortalidad
log_pob: Logaritmo (base 10) de poblacin.
PAS urbana espvidaf alfabet inc_pob mortinf tasa_nat tasa_mor log_pib nac_def fertilid log_pob
Argentina 86 75 95 1,30 26 20 9 3,53 2,22 2,80 4,53
Bolivia 51 64 78 2,70 75 34 9 2,86 3,78 4,21 3,90
Brasil 75 67 81 1,28 66 21 9 3,37 2,33 2,70 5,19
Colombia 70 75 87 2,00 28 24 6 3,19 4,00 2,47 4,55
Cuba 74 78 94 0,95 10 17 7 3,14 2,43 1,90 4,05
Chile 85 78 93 1,70 15 23 6 3,41 3,83 2,50 4,15
Ecuador 56 73 88 2,01 39 26 6 3,04 4,33 3,08 4,03
Mxico 73 77 87 1,90 35 28 5 3,56 5,60 3,20 4,96
Paraguay 48 75 90 2,70 25 33 5 3,18 7,33 4,30 3,72
Per 70 67 85 2,00 54 26 7 3,04 3,71 3,11 4,37
Uruguay 89 77 96 0,80 17 17 10 3,50 1,70 2,44 3,51
Venezuela 91 76 88 2,16 28 26 5 3,45 5,20 3,05 4,31
Para realizar una anlisis factorial a los datos de la tabla previa, es necesario que elija en los
mens:
Estadsticos
Reduccin de datos
Anlisis factorial...
7
En este caso, se utilizan todos los casos (pases). Por lo tanto, no es necesario especificar
una variable de seleccin.
Los siguientes pasos en el anlisis corresponden a la seleccin de los mtodos de extraccin
y rotacin de las variables, informacin de estadstica descriptiva de las variables y las puntuaciones
de los factores (como guardarlos y el mtodo de estimacin). Por lo tanto, en los respectivos
cuadros de dialogo realice lo siguiente:
Descriptivos...
Estadsticas
Descriptivos univariados
Matriz de correlacin
Coeficientes
Extraccin...
Mtodo
8
Componentes principales
Mostrar
Grfico de sedimentacin
Rotacin...
Mtodo
Varimax
Mostrar
Grficos de saturaciones.
El ejemplo es desarrollado siguiendo los cuatro pasos descritos previamente. Los resultados
(tablas y grficos) entregados por el SPSS se muestran a continuacin:
9
Estadsticos descriptivos. Dentro de las alternativas que provee el SPSS es posible obtener
informacin estadstica bsica relativa a cada una de las variables consideradas en el anlisis. Esta
informacin es desplegada en la siguiente tabla:
Estadsticos descriptivos
Desviacin N del
Media tpica anlisis
Esperanza de vida femenina 73,50 4,80 12
Mortalidad infantil (muertes por 1000 nacim. vivos) 34,800 20,394 12
Alfabetizacin (%) 88,50 5,52 12
Tasa de natalidad (por 1.000 habitantes) 24,583 5,468 12
Nmero promedio de hijos 2,980 ,700 12
Habitantes en ciudades (%) 72,33 14,49 12
Log(10) de PIB_CAP 3,2724 ,2276 12
Aumento de la poblacin (% anual) 1,792 ,613 12
Tasa Nacimientos/Defunciones 3,8730 1,6205 12
Tasa de mortalidad (por 1.000 habitantes) 6,96 1,86 12
Log(10) de POBLAC 4,2722 ,4907 12
Matriz de correlaciones. El anlisis factorial analiza la estructura de las asociaciones entre las
variables a travs de la matriz de correlaciones. Las correlaciones contenidas en esta matriz son
obtenidas mediante el coeficiente de correlacin de Pearson. Un estudio preliminar de esta matriz de
esta matriz permite observar la existencia de una fuerte asociacin (-0,984) entre las variables
espvidaf y mortinf. Esta elevada correlacion negativa entre estas variables viene a indicar que
altos valores de esperanza de viida estn asociados a bajos niveles de mortalidada infantil y
viceversa.
Matriz de correlaciones
tasa_mor
tasa_nat
espvidaf
nac_def
log_pob
inc_pob
log_pib
urbana
alfabet
mortinf
fertilid
espvidaf 1,000 -,958 ,845 -,428 -,481 ,472 ,602 -,377 ,113 -,404 -,184
mortinf -,958 1,000 -,926 ,497 ,519 -,457 -,477 ,419 -,015 ,313 ,339
alfabet ,845 -,926 1,000 -,619 -,524 ,520 ,522 -,578 -,209 -,024 -,383
tasa_nat -,428 ,497 -,619 1,000 ,927 -,727 -,476 ,968 ,789 -,448 -,098
fertilid -,481 ,519 -,524 ,927 1,000 -,697 -,391 ,853 ,670 -,214 -,206
urbana ,472 -,457 ,520 -,727 -,697 1,000 ,781 -,678 -,501 ,229 ,218
log_pib ,602 -,477 ,522 -,476 -,391 ,781 1,000 -,509 -,131 ,014 ,343
inc_pob -,377 ,419 -,578 ,968 ,853 -,678 -,509 1,000 ,805 -,535 -,110
nac_def ,113 -,015 -,209 ,789 ,670 -,501 -,131 ,805 1,000 -,855 -,066
tasa_mor -,404 ,313 -,024 -,448 -,214 ,229 ,014 -,535 -,855 1,000 -,067
log_pob -,184 ,339 -,383 -,098 -,206 ,218 ,343 -,110 -,066 -,067 1,000
10
Comunalidades. Para cada variable, la comunalidad representa la proporcin de la varianza de
aquella que puede ser explicada por los factores comunes, en otros trminos, es la correlacin
mltiple al cuadrado de la variable con los factores. En este caso, las comunalidades son registradas
antes y despus del nmero deseado de factores extrados. En este caso se fij extraer dos factores.
Las comunalidades van de 0 a 1, con 0 indica que los factores comunes no explican ninguna
varianza de la variable y 1 que estos explican toda la varianza.
En este ejemplo, la proporcin de la varianza explicada por los factores comunes es debida a
la extraccin de dos componentes. Esto es, la comunalidad de espvidaf es de 0,965 que significa
que el 96,5 porciento de la varianza de esta variable es explicada por los dos componentes extrados.
Comunalidades
Inicial Extraccin
espvidaf 1,000 ,967
mortinf 1,000 ,984
alfabet 1,000 ,937
tasa_nat 1,000 ,956
fertilid 1,000 ,799
urbana 1,000 ,791
log_pib 1,000 ,771
inc_pob 1,000 ,939
nac_def 1,000 ,984
tasa_mor 1,000 ,869
log_pob 1,000 ,919
Mtodo de extraccin: Anlisis de Componentes principales.
El SPSS entrega dos resultados de apoyo al proceso de seleccin de los factores como es la tabla de
Varianza total explicada y el Grfico de sedimentacin.
Varianza total explicada. Estas tablas muestran los estadsticos a cada factor ya sea antes como
despus de la extraccin de los componentes.
En la columna Total se muestran los valores propios (autovalores), ordenados por tamaos,
obtenidos de la matriz de correlacin. Cada valor propio indica la varianza total explicada por el
factor (la varianza total es la suma de los elementos de la diagonal de la matriz de correlacin). El
porcentaje de la varianza total atribuible a cada factor es mostrado en la columna % de la
varianza. El primer factor es el ms importante y este explica un 71,5% de la varianza.
Esta tabla permite establecer cuales son los componentes que explican en mayor grado la
dispersin (o variabilidad) contenida en los datos .
Por defecto, el SPSS calcula tanto componentes como existan valores propios mayores que
1. Este valor puede ser no tan restrictivo en la seleccin de los valores propios, por lo tanto, puede
ser cambiado en la opcin de Autovalores mayores que del cuadro de dialogo de los mtodos de
11
extraccin. Los nuevos criterios permiten determinar un nmero ms adecuado de factores, por
ejemplo, excluir factores con varianzas menores que uno.
Otra criterio para seleccionar menos factores que los extrados por defecto, es la seleccin
de un punto de corte en donde exista un intervalo relativamente grande entre los valores y, tambin,
examinar las cargas para las soluciones son diferentes nmeros de factores para ver que resultados
proporciona la mejor interpretacin de los datos.
Grfico de sedimencin. La varianza explicada por cada factor, o sea, los valores propios, son
graficados versus el nmero de orden del componente. El criterio consiste en retener los
componentes previos al codo y descartar los restantes. Un codo en el grfico es aquel punto en la
curva, el cual distingue un decrecimiento pronunciado de los valores propios de un decrecimiento
ms estabilizado. Este criterio es netamente subjetivo.
Grfico de sedimentacin
6
2
Autovalor
0
1 2 3 4 5 6 7 8 9 10 11
Nmero de componente
12
Matriz de componentes. Esta tabla despliega los coeficientes (o cargas) que relacionan las
variables a los dos factores no rotados (componentes). Las cargas no rotadas y las cargas rotadas
ortogonalmente son las correlaciones de las variables con los factores. Segn la tabla, las variables
espvidaf, mortinf, alfabet, tasa_nat, fertilid, log-pib y inc_pob estn asociadas
mayoritariamente con el primer factor. En cambio, para el segundo factor se observa una
correlacin ms intensa nicamente con la variable tasa_mor, de -0,849. Las otras variables
presentan correlaciones relativamente iguales en ambos componentes.
Esta tabla permite identificar y descartar las variables que presentan bajas asociaciones con
los componentes y , a la vez, que su comunalidad sea baja.
Matriz de componentesa
Componente
1 2 3
espvidaf -,670 ,719 ,016
mortinf ,703 -,675 ,186
alfabet -,790 ,471 -,301
tasa_nat ,938 ,271 ,059
fertilid ,875 ,169 -,069
urbana -,831 -,069 ,309
log_pib -,676 ,202 ,522
inc_pob ,907 ,335 ,058
nac_def ,620 ,741 ,226
tasa_mor -,282 -,825 -,331
log_pob -,031 -,324 ,901
Mtodo de extraccin: Anlisis de componentes principales.
a. 3 componentes extrados
13
Matriz de componentes rotadosa
Componente
1 2 3
espvidaf -,971 ,053 ,145
mortinf ,990 ,053 ,035
alfabet -,920 -,283 -,102
tasa_nat ,456 ,833 -,234
fertilid ,468 ,686 -,330
urbana -,476 -,524 ,538
log_pib -,534 -,177 ,674
inc_pob ,390 ,856 -,232
nac_def -,074 ,989 -,025
tasa_mor ,351 -,848 -,165
log_pob ,338 -,009 ,897
Mtodo de extraccin: Anlisis de componentes principales.
Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. La rotacin ha convergido en 6 iteraciones.
Componente 1 2 3
1 ,684 ,671 -,285
2 -,716 ,693 -,085
3 ,141 ,262 ,955
Mtodo de extraccin: Anlisis de componentes principales.
Mtodo de rotacin: Normalizacin Varimax con Kaiser.
Grficos rotados. El grfico de dispersin sobre el plano formado por los dos primeros
componentes (plano principal), representa la nube de puntos explicando el 88% de la variacin total
Los puntos en este grfico corresponden a las variables y las coordenadas de cada variable son sus
cargas factoriales (de la matriz de componentes rotados). Los puntos proyectados en los extremos
de los ejes presentaran mayor asociacin con el eje, mientras que los puntos cerca del origen no
estn asociados a ningn componente.
En este plano se distingue dos nubes de puntos ubicadas en cuadrantes opuestos. Sin
embargo, las variables en el lado negativo presentan una mayor asociacin con el primer
componente que los otros puntos, los cuales tambin evidencia una asociacin con el segundo
componente.
14
Grfico de componentes en espacio rotado
tasa nacimientos/def
1,0
aumento
tasa dede la poblac
natalidad (p
nmero promedio de h
,5
esperanza de vida fe
alfabetizacin (%)
0,0
log(10) de pib_cap mortalidad infantil
log(10) de poblac
Componente 2
habitantes en ciudad
-,5
tasa de mortalidad (
-1,0
-1,0 -,5 0,0 ,5 1,0
Componente 1
Estadsticos
Resumir
Explorar...
15
En el cuadro de dialogo Explorar pulse Grficos y selccione:
Grficos
Grficos con pruebas de normalidad
Pruebas de normalidad. Segn esta tabla, que las pruebas tanto de Kolmogorov-Smirnov como de
Shapiro-Wilk no recahazan la hiptesis de normalidad para las variables observadas.
Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Regin
econm. Estadstico gl Sig. Estadstico gl Sig.
alfabet Am. Lat. ,143 12 ,200* ,953 12 ,630
espvidaf Am. Lat. ,289 12 ,006 ,821 12 ,017
fertilid Am. Lat. ,210 12 ,150 ,908 12 ,264
inc_pob Am. Lat. ,153 12 ,200* ,943 12 ,497
log_pib Am. Lat. ,169 12 ,200* ,933 12 ,433
log_pob Am. Lat. ,118 12 ,200* ,977 12 ,929
mortinf Am. Lat. ,214 12 ,135 ,905 12 ,249
nac_def Am. Lat. ,147 12 ,200* ,940 12 ,481
tasa_mo Am. Lat. ,197 12 ,200* ,908 12 ,265
rtasa_nat Am. Lat. ,148 12 ,200* ,948 12 ,563
urbana Am. Lat. ,186 12 ,200* ,923 12 ,369
*. Este es un lmite inferior de la significacin verdadera.
a. Correccin de la significacin de Lilliefors
16
Diagramas de probabilidad normal. A veces, la condicin de normalidad impuesta a las variables
pude observarse a travs de los grficos de normalidad. En estos diagramas, cada individuo
observado es graficado contra el cuantil correspondiente de una distribucin normal estandarizada
(sus valores Z) , la normalidad de una variable es verifica si los valores de la variable se distribuyen
a lo largo de la lnea. Segn los graficados Q-Q normal, indican que todas las variables presentan
una distraccin de normalidad, algunas ms que otras.
1,0
,5
0,0
-,5
-1,0
Normal
-1,5 esperado
70 80 90 100
Valor observado
1,0
,5
0,0
Normal esperado
-,5
-1,0
-1,5
62 64 66 68 70 72 74 76 78 80
Valor observado
17
Grfico Q-Q normal de Nmero promedio de hijos
Para REGIN= Amrica Latina
1,5
1,0
,5
0,0
Normal esperado
-,5
-1,0
-1,5
1,5 2,0 2,5 3,0 3,5 4,0 4,5
Valor observado
1,0
,5
0,0
Normal esperado
-,5
-1,0
-1,5
,5 1,0 1,5 2,0 2,5 3,0
Valor observado
18
Grfico Q-Q normal de Log(10) de PIB_CAP
Para REGIN= Amrica Latina
1,5
1,0
,5
0,0
Normal esperado
-,5
-1,0
-1,5
2,8 3,0 3,2 3,4 3,6 3,8
Valor observado
1,0
,5
0,0
Normal esperado
-,5
-1,0
-1,5
3,0 3,5 4,0 4,5 5,0 5,5
Valor observado
19
Grfico Q-Q normal de Mortalidad infantil (muertes por 1000 nacimientos
Para REGIN= Amrica Latina
1,5
1,0
,5
0,0
Normal esperado
-,5
-1,0
-1,5
0 10 20 30 40 50 60 70 80
Valor observado
1,0
,5
0,0
Normal esperado
-,5
-1,0
-1,5
1 2 3 4 5 6 7 8
Valor observado
20
Grfico Q-Q normal de Tasa de mortalidad (por 1.000 habitantes)
Para REGIN= Amrica Latina
1,5
1,0
,5
0,0
Normal esperado
-,5
-1,0
-1,5
4 5 6 7 8 9 10 11
Valor observado
1,0
,5
0,0
Normal esperado
-,5
-1,0
-1,5
10 20 30 40
Valor observado
21
Grfico Q-Q normal de Habitantes en ciudades (%)
Para REGIN= Amrica Latina
1,5
1,0
,5
0,0
Normal esperado
-,5
-1,0
-1,5
40 50 60 70 80 90 100
Valor observado
Si los componentes son estimados ya sea por Mxima verosimilitud o por Mnimos
cuadrados generalizados, la validacin del mtodo se efecta a travs de una dcima, prueba de
la bondad de ajuste. Esteestadstico 2 es usado para probar la especificacin de un modelo de k-
factores. La hiptesis a rechazar es que las predicciones del modelo k-factorial son buenos
estimadores de las correlaciones observadas. En otras palabras, que los k-factores son lo suficiente
para representar adecuadamente los datos. El estadstico, especialmente para grandes muestras,
puede implicar que ms factores deben ser agregados al modelo.
22
II.- ESCALAMIENTO MULTIDIMENSIONAL
No mtricas . Estos mtodos toman medidas de datos bsicos de escala ordinal y generan un
conjunto de relaciones entre los objetos que se presentan en forma de datos de intervalo, es decir, la
distancia entre los objetos en el espacio perceptual tiene un significado til.
Medidas de bondad de ajuste: Esfuerzo. La medida ms comnmente usada para evaluar cun
bien una configuracin particular reproduce la matriz de distancias observadas es la medida de
Esfuerzo. El Esfuerzo de una configuracin est definido por:
23
1/ 2
( d ij d$ij ) 2
Esfuerzo = i < j
i< j
d ij2
donde d$ij es una distancia lo ms cercana posible al dij a fin de minimizar el Esfuerzo. La
sumatoria en el denominador normaliza la funcin de Esfuerzo. Hay muchas medidas similares que
son comnmente empleadas para cuantificar la suma de las desviaciones al cuadrado entre las
distancias observadas y esperadas. Por lo tanto, mientras ms pequeo es la medida de Esfuerzo,
mejor ser el ajuste de la matriz de distancias reproducidas hacia la matriz de distancias observadas.
3.- Diagrama de sedimentacin (Cattell). Grfica el valor del Esfuerzo contra el nmero de
dimensiones.
Para realizar un anlisis de escalamiento multidimensional a los datos, es necesario que elija en los
mens:
Estadsticos
Escala
Escalamiento multidimensional...
Los siguientes pasos en el anlisis corresponden a la seleccin del tipo de datos utilizados, la
estimacin del modelo de escalamiento y las diversas opciones que estn disponibles ya sea para
mostrar resultados como para detener el proceso de iteracin.
Este mtodo trabaja sobre la base de una matriz de distancias, la cual puede ser proporcionada en
forma directa (Los datos son distancias) o indirectamente (Crear distancias a partir de los
datos).
24
1. Si los datos son distancias, debe seleccionar al menos cuatro variables y puede pulsar en Forma
para indicar el tipo de matriz (simtrica, asimtrica y rectangular).
2. En el otro caso, el SPSS crear una matriz de distancia simtrica. Adems, puede crear matrices
distintas para cada categora de una variable moviendo esa variable a Matrices individuales
para. La opcin Medida permite especificar el tipo de medida de distancia que desea. Esta
opcin presenta las siguientes alternativas:
En Medida, seleccione la opcin que corresponda a su tipo de datos (de intervalo, de recuento o
binarios); a continuacin, en la lista desplegable, seleccione una de las medidas que corresponda
a ese tipo de datos.
En Transformar valores, permite estandarizar valores de datos para casos o variables antes de
calcular proximidades. Estas transformaciones no son aplicables a los datos binarios.
5.2.- Modelo.
Para especificar el modelo de escalamiento multidimensional debe considerar el aspecto de los datos
y del modelo en s.
En Nivel de medida, permite especificar el nivel de los datos. Las opciones son:
25
Ordinal, trata los datos como categricos y realiza un anlisis no-mtrico. Si se selecciona
Desempatar observaciones empatadas se solicitar que sean consideradas como variables
continuas, de forma que los empates (valores iguales para casos diferentes) se resuelvan
ptimamente.
En Modelo de escalamiento, permite especificar los supuestos por los que se realiza el
escalamiento. Las opciones disponibles son Distancia eucldea o Distancia eucldea de diferencias
individuales (tambin conocida como INDSCAL). Para el modelo de Distancia eucldea de
diferencias individuales, puede seleccionar Permitir ponderaciones negativas de sujetos, si es
adecuado para los datos.
5.3.- Opciones.
26
En el SPSS puede seleccionarse el tipo de informacin que necesita para la interpretacin de los
resultados y tambin determinar la detencin del algoritmo a travs de las siguientes opciones:
En Criterios, permite determinar cundo debe detenerse la iteracin. Esta puede detenerse ya sea
cuando algunos de los valores de cualquier de las alternativas se cumpla.
En Tratar distancias menores que n como perdidas, consiste en que las distancias menores que
este valor se excluyen del anlisis.
A fin de fijar las ideas anteriores, se desarrollar un ejemplo para describir de manera comprensiva
la aplicacin de este metodo mediante el uso del SPSS.
6.- Ejemplo. Supongamos que deseamos medir las percepciones del consumidor con relacin a la
similitud y preferencia de 11 modelos de automviles:
27
Para las similitudes, se necesita obtener de los consumidores el rango-orden de la similitud
de las 55 combinaciones de modelos de automviles, tomando dos a la vez. En general, exsten n(n-
1)/2 ordenes de rango que se han de obtener, donde n es el nmero de objetos de inters. Una
forma de hacerlo es colocar cada una de las 55 combinaciones en una tarjeta separada.
Posteriormente, se pide a los encuestados que clasifiquen por rango-orden las tarjetas en trminos
del par ms similar al par menos similar. Una de las posibilidades combinaciones de un consumidor
aparecen en la tabla de similitudes entre pares de modelos de automviles. Por ejemplo, en
este caso el consumidor consider que los automviles c y f era el par ms similar.
Ford Mercury Lincoln Ford Ford Cadillac Jaguar XJ Mazda Plymout Biuck Le Chevrole
Taurus Sable Continenta Thunderbir Escort El Sedan 626 h Sabre t
l d dorado Sundance Cavalier
Ford Taurus 0 8 50 31 12 48 36 2 5 39 10
Mercury 8 0 38 9 33 37 22 6 4 14 32
Sable
Lincoln 50 38 0 11 55 1 23 46 41 17 52
Continental
Ford 31 9 11 0 44 13 16 19 25 18 42
Thunderbird
Ford Escort 12 33 55 44 0 54 53 30 28 45 7
Cadillac 48 37 1 13 54 0 26 47 40 24 51
El dorado
Jaguar 36 22 23 16 53 26 0 29 35 34 49
XJ Sedan
Mazda 626 2 6 46 19 30 47 29 0 3 27 15
Plymouth 5 4 41 25 28 40 35 3 0 20 21
Sundance
Biuck 39 14 17 18 45 24 34 27 20 0 43
Le Sabre
Chevrolet 10 32 52 42 7 51 49 15 21 43 0
Cavalier
Modelo...
Nivel de medida
Ordinal
28
Dimensiones
Mnimo: 2 Mximo: 2
Mostrar...
Grficos de grupo
Grficos de sujetos individuales
Matriz de datos
1 2 3 4 5 6 7 8 9 10
1 ,000
2 8,000 ,000
3 50,000 38,000 ,000
4 31,000 9,000 11,000 ,000
5 12,000 33,000 55,000 44,000 ,000
6 48,000 37,000 1,000 13,000 54,000 ,000
7 36,000 22,000 23,000 16,000 53,000 26,000 ,000
8 2,000 6,000 46,000 19,000 30,000 47,000 29,000 ,000
9 5,000 4,000 41,000 25,000 28,000 40,000 35,000 3,000 ,000
10 39,000 14,000 17,000 18,000 45,000 24,000 34,000 27,000 20,000 ,000
11 10,000 32,000 52,000 42,000 7,000 51,000 49,000 15,000 21,000 43,000
1 ,14147
2 ,09884 ,04263
3 ,08335 ,01549
4 ,07347 ,00988
5 ,06568 ,00779
29
6 ,06033 ,00536
7 ,05656 ,00377
8 ,05364 ,00292
9 ,05131 ,00233
10 ,04941 ,00190
11 ,04783 ,00159
12 ,04644 ,00138
13 ,04521 ,00123
14 ,04419 ,00102
15 ,04350 ,00069
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix
Stress = ,04717 RSQ = ,98905
Stimulus Coordinates
Dimension
Stimulus Stimulus 1 2
Number Name
1 A 1,2089 ,3568
2 B ,2442 ,3328
3 C -1,9523 ,0223
4 D -,6279 ,1926
5 E 1,9226 -,8934
6 F -1,9368 -,2685
30
7 G -,9811 1,2333
8 H ,7031 ,3976
9 I ,5072 -,0113
10 J -,7548 -,7510
11 K 1,6670 -,6114
1 2 3 4 5 6 7 8 9 10
1 ,000
2 ,925 ,000
3 3,205 2,274 ,000
4 1,803 ,925 1,325 ,000
5 1,325 2,006 3,982 2,712 ,000
6 3,205 2,274 ,291 1,325 3,910 ,000
7 2,274 1,386 1,386 1,325 3,637 1,770 ,000
8 ,466 ,574 2,712 1,347 1,8032 ,723 1,803 ,000
9 ,574 ,466 2,444 1,386 1,770 2,444 2,006 ,466 ,000
10 2,274 1,325 1,325 1,325 2,712 1,386 2,006 1,770 1,386 ,000
11 1,071 1,803 3,637 2,444 ,574 3,620 3,205 1,325 1,386 2,444
2
Distancias
0
0 10 20 30 40 50 60
Observaciones
31
Grfico de transformacin
Modelo de distancia eucldea
5
2
Distancias
0
0 10 20 30 40 50 60
Observaciones
La siguiente figura se conoce como el diagrama de Shepard, el cual despliega las distancias
observadas contra las distancias reproducidas. Si todas las distancias reproducidas son idnticas a
las distancias observadas, por lo tanto, todos los puntos en este diagrama se encontraran a lo largo
de una lnea recta.
2
Distancias
0
0 1 2 3 4 5
Disparidades
32
converge en la iteracin nmero 15, o sea, la convergencia del S-stress es mejor que 0,001). La
interpretacin de los ejes (o dimensiones) facilita la tarea para la determinacin de los gustos y
preferencias de los consumidores. En este caso, en particular, la matriz de distancia esta asociada
a la percepcin que tiene un consumidor a cerca de la similitud entre los modelos de automviles.
Por lo tanto, mediante este espacio perceptual bidimensional es posible establecer segmentos
competitivos originados por la posicin relativa que tienen los modelos dentro de este espacio.
Tambin, puede identificarse la combinacin de atributos preferidos, productos sustitutos y otros
aspectos relacionados con el producto y el mercado.
1,0
,5 h a
b
d
c i
0,0
f
Dimensin 2
-,5 k
j
e
-1,0
-3 -2 -1 0 1 2
Dimensin 1
33
III.- ANLISIS DISCRIMINANTE.
El anlisis discriminante es una tcnica apropiada en el caso de una variable dependiente nominal y
variables independientes de intervalos. Las variables dependientes nominales son muy comunes en el
rea del marketing; por ejemplo, riesgos de crdito bueno versus crdito malo, consumidores leales a
una marca versus consumidores no leales, diferentes usuarios de marcas y vendedores con xito
versus vendedores sin xito. Como resultado, este mtodo se ha aplicado en forma extensiva en la
investigacin de mercados.
La idea del anlisis discriminante es encontrar una combinacin lineal de las variables
independientes (o, para ms de dos grupos, un conjunto de combinaciones lineales) tal que los
puntajes medios de las categoras de la variable dependiente, en esta combinacin lineal, se
diferencien en forma mxima. Esta combinacin lineal recibe el nombre de funcin discriminante
(FD). En smbolos,
FD = v1 X1 + v2 X2 + ... + vm Xm
donde Xm es la m-sima independiente. El propsito es encontrar los valores para los v, los cuales
dan la FD requerida. El criterio que se emplea para decidir cuando son diferentes al mximo las
medias de grupo, es la conocida prueba ANOVA F, para las diferencias entre medias. Por tanto, las
v se derivan de tal forma que
SCentre grupo
F=
SCdentro grupo
1.- Supuestos.
El anlisis discriminante es muy similar a un anlisis de varianza y, por lo tanto, se aplican todos los
supuestos en un anlisis de varianza (ANOVA). De hecho, pueden utilizarse las pruebas estadsticas
y diagnostico de supuestos que estn disponibles en un ANOVA, a objeto de examinar los datos
antes de un anlisis discriminante. Este mtodo considera los siguientes supuestos:
Distribucin normal. Este asume que los datos representan una muestra con una distribucin
normal multivariada. Por lo tanto, pueden examinarse las variables si o no estn normalmente
distribuidas mediante grficos de distribucin de frecuencias (histogramas). Estas pueden obtenerse
a travs del men Grficos.
34
de existir diferencias intente excluir los grupos de poco inters y realice una vez ms el anlisis. El
SPSS proporciona una prueba bastante rigurosa para comprobar la homogeneidad de las matrices de
varianzas/covarianzas
Pertenencia. Este asume que la pertenencia a un grupo es exclusiva (es decir, ningn caso
pertenece a ms de un grupo) y exhaustiva de modo colectivo ( es decir, todos lo casos son
miembros de un grupo).
35
Guatemala 39 2235 03 04 5
Haiti 29 2013 03 04 5
Hunga 64 3644 04 04 8
Indonesia 29 2750 03 05 5
Irlanda 57 3778 04 04 8
Liberia 45 2382 03 03 5
Malasia 43 2774 03 04 5
Nicaragua 60 2265 03 04 5
Nigeria 35 2312 02 05 5
Noruega 75 3326 04 04 8
Nueva Zeland 84 3362 04 04 8
Pases Bajos 89 3151 04 04 8
Panam 53 2539 03 03 5
Rep. Dominic 60 2359 03 04 5
Ruanda 6 1971 02 04 8
Rumana 54 3155 03 04 8
Senegal 40 2369 03 04 5
Singapur 100 3198 04 03 5
Suiza 62 3562 04 04 8
Tailandia 22 2316 03 05 5
Turqua 61 3236 04 05 8
Uganda 11 2153 03 04 5
Uruguay 89 2653 03 04 8
Venezuela 91 2582 03 04 5
Vietnam 20 2233 02 05 5
Zambia 42 2077 03 04 5
Para realizar una anlisis discriminante a los datos de la tabla 1, es necesario que elija en los mens:
Estadsticos
Clasificar
Discriminante...
36
Para verificar los supuestos del mtodo y analizar los coeficientes de la funcin pulse en
Estadsticos. Mostrar un cuadro de dialogo en donde seleccione las siguientes alternativas:
Estadsticos...
Descriptivos
Medias
ANOVAs univariados
M de Box
Matrices
Covarianza de grupos separados
Por otra parte, en el cuadro de dialogo Clasificar es posible especificar las probabilidades de
pertenencia a los grupos, el tipo de matriz utilizada para clasificar los casos y seleccionar los
resultados requeridos para el anlisis. Por lo tanto, pulse Clasificar y seleccione lo siguiente:
37
Clasificar...
Mostrar
Resultados para cada caso
Tabla de resumen
Una de los supuestos necesarios para el mtodo es la igualdad de las matrices de covarianza de
grupo. Por ejemplo, las varianzas de caloras deben ser iguales en los dos grupos de piases ( o en
todos los grupos en un problema multivariado), y la varianzas poblacional entre caloras y urbana
deben ser iguales para los grupos. En el caso de que las observaciones en un grupo sigan una
distribucin normal multivariadas, los grupos formaran elipsoides de concentracin de puntos, los
cuales estaran construidos usando la misma media, la desviacin estndar y la matriz de covarianza
de cada grupo.
El SPSS provee el estadstico multivariado M de Box para probar la hiptesis nula que las
matrices de covarianzas son iguales.
Los valores de esta tabla Logaritmo de los determinantes dan una indicacin de las
matrices de covarianzas que ms difieren. En esta tabla se observan una dispersin de los puntos del
grupo tropical relativamente menor al otro grupo.
38
Logaritmo de los determinantes
Logaritmo
Clima del
predominante Rango determinante
tropical 4 12,954
templado 4 14,498
Intra-grupos
4 13,971
combinada
Los rangos y logaritmos naturales de los
determinantes impresos son los de las
matrices de covarianza de los grupos.
Resultados de la prueba
M de Box 13,861
F Aprox. 1,248
gl1 10
gl2 8603,929
Sig. ,255
Adems, es importante comparar las desviaciones estndar de cada variable dentro de los
grupos. En la tabla Estadstico del grupo es posible analizar estas diferencias de las variables. Se
observa que caloras presenta la mayor diferencias de las varianzas entre las dos climas. Las otras
variables no evidencia diferencias en las varianzas.
39
Estadsticos del grupo
La siguiente matiz de covarianza permite comparar las varianzas de las variables en los
grupos.
Matrices de covarianza
40
Pruebas de igualdad de las medias de los grupos
Lambda
de Wilks F gl1 gl2 Sig.
caloras ,437 56,782 1 44 ,000
Log_pib ,566 33,743 1 44 ,000
Log_pob ,992 ,372 1 44 ,545
urbana ,770 13,135 1 44 ,001
Funciones de clasificacin. Estas funciones son usadas para determinar la pertenencia de un caso
a grupo. Se obtienen tantas funciones de clasificacin como grupos existan. Las columnas de la
tabla coeficientes de la funcin de clasificacin contiene los coeficientes de la funcin para cada
grupo. Los coeficientes son calculados para maximizar las distancia entre los dos grupos.
Clima predominante
tropical templado
caloras ,002 ,008
Log_pib 20,647 21,007
Log_pob 13,502 14,111
urbana -,172 -,175
(Constante) -58,801 -78,712
Ztrop = 0,002 caloras + 20,647 log_pib + 13,502 log_pop + -0,172 urbana - 58,801
Ztemp = 0,008 caloras + 21,007 log_pib + 14,111 log_pop + -0,175 urbana - 78,712
Cada funcin permite calcular los puntajes de clasificacin para cada caso. Una vez realizado esto,
es fcil decidir como clasificar el caso: en general, un casos se dice pertenecer a un grupo cuando
su puntaje clasificacin a aquel grupo es mayor que a otros grupos.
41
Funcin discriminante lineal de Fisher. Cuando hay dos grupos pueden utilizarse las funciones
clasificacin para obtener la funcin discriminante lineal. En un diagrama de dispersin esta funcin
representa a una lineal que divide a los dos grupos. Los coeficientes de la funcin discriminante
lineal son calculados mediante la diferencia entre los coeficientes de las funciones de clasificacin
tropical y templada.
Autovalores. Mide la dispersin del centroides de los grupos. En este caso el autovalor es uno que
indica que los centroides de los dos grupos estn relativamente cerca. El autovalor corresponde al
cuociente entre la suma de cuadrados intra-grupos y suma de cuadrados inter-grupos.
Correlacin cannica. Mide la asociacin entre los puntajes discriminantes y los del grupo. Cuando
hay solamente dos grupos sta es la correlacin de Pearson..
Autovalores
% de % Correlacin
Funcin Autovalor varianza acumulado cannica
1 1,326a 100,0 100,0 ,755
a. Se han empleado las 1 primeras funciones
discriminantes cannicas en el anlisis.
Lambda de Wilks. Este indica la proporcion de la varianza total en los puntajes discriminantes que
no son explicados por las diferencias entre los grupo. En este caso, casi el 50% de la varianza no es
explicada por las difrencias de los grupos. El lambda es docimado con una distribucion 2. Con una
2 de 35,46 se tiene que la diferencia entre los dos centroides es significativa, considerando las
medias de las variables simulktaneamente.
Lambda de Wilks
Contraste Lambda
de las de Wilks Chi-cuadrado gl Sig.
funciones
1 ,430 35,460 4 ,000
42
Coeficientes estandarizados de las
funciones discriminantes cannicas
Funcin
1
caloras ,951
log_pib ,080
log_pop ,173
urbana -,026
Matriz de estructura. Una manera para determinar que variables son las que definen una funcion
discriminante es observar las correlaciones intra-grupo de cada variable predictora con la variable
cannica o funcion discriminante (mostradas en la matriz de estructura). Haciando una anlogia al
anlisis factorual, esstos correalaciones pueden pensarse como cargas factoriales de las variables en
cada funcion discriinante.
Matriz de estructura
Funcin
1
caloras ,986
Log_pib ,760
Log_pob ,474
urbana ,080
Funciones en los centroides de los grupos. Esta tabla indica los valores tomados por las
funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos.
Funciones en los
centroides de los grupos
Clima Funcin
predominante 1
tropical -1,032
templado 1,229
Estadsticos por caso. Esta tabla. permite comparar la informacin de los miembros de su grupo
actual a los miembros pronosticados por el mtodo. La pertenencia de un caso a uno de los dos
grupos, se calcula a travs de la funciones de clasificacin. Adems se entrega la probabilidad de
pertenencia de un caso a uno de los dos grupos.
43
Estadsticos por casos
Puntua
ciones
discrimi
Grupo mayor Segundo grupo mayor nantes
Distancia de Distancia de
Mahalanobis Mahalanobis
Nmero al cuadrado al cuadrado
de Grupo Grupo P(D>d | G=g) P(G=g | hasta el P(G=g | hasta el Funcin
casos real pronosticado p gl D=d) centroide Grupo D=d) centroide 1
Original 1
8 8 ,499 1 ,983 ,457 5 ,017 8,629 1,905
2 8 8 ,707 1 ,847 ,141 5 ,153 3,556 ,854
3
8 8 ,568 1 ,979 ,327 5 ,021 8,025 1,801
4
5 5 ,402 1 ,988 ,702 8 ,012 9,606 -1,870
5 5 8** ,261 1 ,503 1,266 5 ,497 1,291 ,104
6
5 5 ,456 1 ,986 ,554 8 ,014 9,035 -1,777
7
5 5 ,581 1 ,787 ,305 8 ,213 2,922 -,480
8 5 5 ,395 1 ,653 ,725 8 ,347 1,988 -,181
9
8 5** ,676 1 ,834 ,175 8 ,166 3,397 -,614
10
8 5** ,306 1 ,561 1,046 8 ,439 1,534 -,010
11 8 8 ,409 1 ,988 ,682 5 ,012 9,529 2,055
12
5 5 ,815 1 ,884 ,055 8 ,116 4,110 -,798
13 5 5 ,715 1 ,967 ,134 8 ,033 6,901 -1,398
14 8 8 ,365 1 ,990 ,820 5 ,010 10,028 2,134
15
8 8 ,155 1 ,997 2,022 5 ,003 13,565 2,651
16 5 5 ,953 1 ,919 ,003 8 ,081 4,852 -,974
17
8 8 ,476 1 ,985 ,507 5 ,015 8,840 1,941
18
5 5 ,779 1 ,961 ,079 8 ,039 6,462 -1,313
19 8 8 ,906 1 ,908 ,014 5 ,092 4,596 1,111
20
8 8 ,169 1 ,997 1,890 5 ,003 13,221 2,604
21
5 5 ,628 1 ,975 ,235 8 ,025 7,542 -1,517
22 5 5 ,240 1 ,995 1,382 8 ,005 11,812 -2,208
23
8 8 ,375 1 ,990 ,787 5 ,010 9,912 2,116
24
5 5 ,258 1 ,500 1,278 8 ,500 1,279 ,098
25 8 8 ,243 1 ,994 1,362 5 ,006 11,754 2,396
26
5 5 ,726 1 ,966 ,123 8 ,034 6,820 -1,383
27
5 5 ,315 1 ,571 1,009 8 ,429 1,579 -,028
28 5 5 ,537 1 ,981 ,381 8 ,019 8,287 -1,650
29
5 5 ,897 1 ,945 ,017 8 ,055 5,714 -1,162
30 8 8 ,961 1 ,935 ,002 5 ,065 5,336 1,278
31 8 8 ,927 1 ,941 ,008 5 ,059 5,535 1,320
32
8 8 ,792 1 ,877 ,069 5 ,123 3,992 ,966
33 5 5 ,883 1 ,902 ,022 8 ,098 4,470 -,885
34
5 5 ,805 1 ,957 ,061 8 ,043 6,288 -1,279
35
8 5** ,214 1 ,995 1,546 8 ,005 12,284 -2,276
36 8 8 ,771 1 ,870 ,085 5 ,130 3,882 ,938
37
5 5 ,836 1 ,954 ,043 8 ,046 6,095 -1,240
38
5 8** ,717 1 ,850 ,131 5 ,150 3,606 ,867
39 8 8 ,463 1 ,985 ,539 5 ,015 8,974 1,963
40
5 5 ,972 1 ,933 ,001 8 ,067 5,271 -1,067
41
8 8 ,966 1 ,934 ,002 5 ,066 5,307 1,271
42 5 5 ,496 1 ,984 ,464 8 ,016 8,657 -1,713
43
8 5** ,663 1 ,828 ,190 8 ,172 3,332 -,596
44
5 5 ,642 1 ,818 ,216 8 ,182 3,227 -,567
45 5 5 ,719 1 ,967 ,130 8 ,033 6,871 -1,392
46
5 5 ,336 1 ,991 ,925 8 ,009 10,387 -1,994
**. Caso mal clasificado
44
Por ejemplo, para el caso 2 (Argentina) el puntaje de pertenencia a las zonas es:
Ztrop= (0,002 x 3113) + (20,647 x 3,53) + (13,502 x 4,53) + (-0,172 x 86) - 58,801 = 66,68
Ztemp= (0,008 x 3113) + (21,007 x 3,53) + (14,111 x 4,53) + (-0,175 x 86) - 78,712 = 69,21
El puntaje de pertenencia de Argentina es mayor para la zona templada (grupo 8). Por lo
tanto, Argentina es clasificado como un pas de clima templado.
Distancias Mahalanobis (D2). Esta es una medida de distancias entre dos puntos en un espacio
definido por dos o ms variables (dimensiones) correlacionadas . Por ejemplo, si hay dos variables
que no estn correlacionadas, entonces las distancias Mahalanobis entre los puntos insertos en un
espacio bidimensional seria idntica a la distancia Euclidiana, esto es, la distancia, por ejemplo,
medida por una regla. ahora bien, en los casos de tener dos variables correlacionadas los ejes que
definen el espacio ya no serian ortogonales, por lo tanto, la distancia Euclidiana no correspondera a
una mtrica apropiada, mientras que la distancias Mahalanobis explicara adecuadamente las
similitudes entre los puntos.
2.5.- Prediccin.
Un resultado que cualquiera debera observar para determinar que tan bien las funciones de
clasificacin pronostica que los casos sean miembros de un grupo es la matriz de clasificacin.
45
estn clasificados correctamente y 4 (19%) estn mal clasificados. En general, el 87% de los casos
de la muestra estn clasificados correctamente.
Resultados de la clasificacina
Grupo de pertenencia
Clima pronosticado
predominante tropical templado Total
Original Recuento tropical 23 2 25
templado 4 17 21
% tropical 92,0 8,0 100,0
templado 19,0 81,0 100,0
a. Clasificados correctamente el 87,0% de los casos agrupados originales.
El objetivo de este ejemplo es la obtencin de un modelo para cuatro grupos usando algn mtodo de
seleccin de variables. Los datos relacionados con estas variables estn contenidos en la tabla 2.
La idea es construir funciones discriminantes a partir de la combinacin de algunas variables
independientes (espvidaf, mortinf, alfabet, tasa_nat, tasa_mor, fertilid, urbana, log_pib,
inc_pob, nac_def y log_pob) que mejor pronostiquen la clasificacin de un pas (caso) dentro de
una regin geogrfica: Europa, Asia/Pacfico, Medio Oriente y Amrica Latina.
PAS urbana espvidaf alfabet inc_po mortin regin tasa_nat tasa_mo log_pib nac_def fertilid log_pob
Afghanistan 18 44 29 3 168 3 53 22 02 02 7 04
Corea del Su 72 74 96 1 22 3 16 6 04 03 2 05
China 26 69 78 1 52 3 21 7 03 03 2 06
Filipinas 43 68 90 2 51 3 27 7 03 04 3 05
Hong Kong 94 80 77 0 6 3 13 6 04 02 1 04
India 26 59 52 2 79 3 29 10 02 03 4 06
Indonesia 29 65 77 2 68 3 24 9 03 03 3 05
Japn 77 82 99 0 4 3 11 7 04 02 2 05
Malasia 43 72 78 2 26 3 29 5 03 06 4 04
Pakistn 32 58 35 3 101 3 42 10 03 04 6 05
Singapur 100 79 88 1 6 3 16 6 04 03 2 03
Tailandia 22 72 93 1 37 3 19 6 03 03 2 05
Taiwan 71 78 91 1 5 3 16 . 04 . . 04
Arabia Saud 77 70 62 3 52 5 38 6 04 06 7 04
Armenia 68 75 98 1 27 5 23 6 04 04 3 04
Egipto 44 63 48 2 76 5 29 9 03 03 4 05
Emiratos ra 81 74 68 5 22 5 28 3 04 09 5 03
Irn 57 67 54 3 60 5 42 8 03 05 6 05
Iraq 72 68 60 4 67 5 44 7 03 06 7 04
Israel 92 80 92 2 9 5 21 7 04 03 3 04
46
Jordania 68 74 80 3 34 5 39 5 03 08 6 04
Kuwait 96 78 73 5 13 5 28 2 04 14 4 03
Lbano 84 71 80 2 40 5 27 7 03 04 3 04
Libia 82 65 64 4 63 5 45 8 04 06 6 04
Siria 50 68 64 4 43 5 44 6 03 07 7 04
Turqua 61 73 81 2 49 5 26 6 04 04 3 05
Argentina 86 75 95 1 26 6 20 9 04 02 3 05
Bolivia 51 64 78 3 75 6 34 9 03 04 4 04
Brasil 75 67 81 1 66 6 21 9 03 02 3 05
Colombia 70 75 87 2 28 6 24 6 03 04 2 05
Costa Rica 47 79 93 2 11 6 26 4 03 07 3 04
Cuba 74 78 94 1 10 6 17 7 03 02 2 04
Chile 85 78 93 2 15 6 23 6 03 04 3 04
Ecuador 56 73 88 2 39 6 26 6 03 04 3 04
Guatemala 39 67 55 3 57 6 35 8 03 04 5 04
Mxico 73 77 87 2 35 6 28 5 04 06 3 05
Nicaragua 60 67 57 3 53 6 35 7 03 05 4 04
Panam 53 78 88 2 17 6 25 5 03 05 3 03
Paraguay 48 75 90 3 25 6 33 5 03 07 4 04
Per 70 67 85 2 54 6 26 7 03 04 3 04
Rep. Domini 60 70 83 2 52 6 25 6 03 04 3 04
Uruguay 89 77 96 1 17 6 17 10 03 02 2 04
Venezuela 91 76 88 2 28 6 26 5 03 05 3 04
Para obtener el mejor modelo discriminante, que no necesariamente deba incluir todas las
variables independientes o predictoras, se utilizar un mtodo de seleccin de variables.
Para realizar una anlisis discriminante a los datos de la tabla 2, es necesario que elija en los mens:
Estadsticos
Clasificar
Discriminante...
47
Mtodos de seleccin de variables. Probablemente la manera ms comn de uso del anlisis
discriminante es incluir varias medidas al inicio del estudio a fin de determinar algunas que mejor
discriminan entre los grupos. El SPSS entrega varios mtodos para construir un modelo usando
procedimiento por pasos, que consisten ingresar o remover una variable independiente del modelo a
cada paso. Especficamente, en cada paso el SPSS revisa todas las variables y evala cual
contribuye ms a la discriminacin entre los grupos (es decir, aumentar la diferencia de las medias
entre los grupos). Entonces, esta variable ser incluida en el modelo, el SPSS procede al siguiente
paso para incluir una nueva variable. Los mtodos para controlar la entrada y salida de las variables
independientes de la funcin discriminante son:
Distancias de Mahalanobis. En cada paso, ingresara la variable que maximiza las distancias
Mahalanobis entre los dos grupos ms cercanos.
V de Rao. Tambin conocida como la traza de Lawley-Hotelling. En cada paso, ingresa la variable
el valor mayor de las V de Rao, la cual maximiza la diferencia entre las medias (centroides) de los
grupos.
La suma de la varianza no explicada. La suma de la varianza no explicada para todos los pares
de grupos tambin puede usarse como criterio para la seleccin de variables. La variable elegida
para ingresar es aquella que miniminiza la suma de la varianza no explicada.
48
En el cuadro de dialogo de anlisis discriminante pulse Mtodo, el cual despliega un nuevo
cuadro de dialogo, en el cual deber seleccionar:
Mostrar
F para distancias por parejas
Para obtener informacin acerca de las diferencias entre los grupos, igualdad de varianza de
las variables a travs de los grupos y los coeficientes de la variables cannicas realice lo siguiente:
Descriptivos
Medias
ANOVAs univariados
M de Box
Coeficientes de la funcin
De Fisher
Matrices
Correlacin intra-grupos
49
Para obtener un resumen y una informacin detallada del anlisis y, a la vez, grficos que
muestren las fronteras en el diagrama de dispersin seleccione las siguientes opciones en el cuadro
de dialogo Clasificacin:
Mostrar
Resultados para cada paso
Tabla de resumen
Clasificacin dejando uno fuera
Grficos
Grupos combinados
Grupos separados
Las variables utilizadas para la contsrucin del modelo discriminante deben cumplir con los
siguientes supuestos:
50
1. Las variables independientes se distribuyen normal.
2. Igual de varianzas y covarianzas de las variables a trves de los grupos.
Estadsticos del grupo. Esta tabla permite analizar si se cumplen los supuestos asociados con el
modelo. De esta, se observa las medias de las variables difieren entre los grupos (regin) y que las
desviaciones estndar de cada variables son tan similares entre los grupos.
51
Estadsticos del grupo
52
Pruebas de la igualdad de las medias de los grupos. Para probar qu tan separados estn las
medias de cada variables en todos los grupos, el SPSS calcula el Lambda de Wilks, tambin
conocido como estadstico U, para determinar est diferencia. Este estadstico toma valores entre 0
y 1. Los valores pequeos indican que las medias de las variables difieren. El estadstico lambda de
Wilks es la razn entre la suma de cuadrados intra-grupos a la suma total de los cuadrados. El
estadstico F es la razn de la variabilidad inter-grupos a la variabilidad intra-grupos. Se observan
diferencias no significativas de las variables espvidaf, log_pib, mortinf y tasa_mor.
Lambda
de Wilks F gl1 gl2 Sig.
alfabet ,877 2,727 2 39 ,078
espvidaf ,930 1,468 2 39 ,243
fertilid ,748 6,577 2 39 ,003
inc_pob ,628 11,562 2 39 ,000
log_pib ,915 1,818 2 39 ,176
log_pob ,750 6,498 2 39 ,004
mortinf ,954 ,939 2 39 ,400
nac_def ,722 7,526 2 39 ,002
tasa_mor ,903 2,090 2 39 ,137
tasa_nat ,848 3,501 2 39 ,040
urbana ,818 4,351 2 39 ,020
Prueba de Box sobre la igualdad de las matrices de covarianza de los grupos. Para tamaos
de muestra suficientemente grandes, un valor de no significativo quiere decir que no hay evidencia
suficiente de que las matrices difieran. Esta prueba es sensible a las desviaciones de la normalidad
multivariada.
Logaritmo
Regin del
econmica Rango determinante
Asia /
Pacfico 4 6,137
Oriente
4 5,797
Medio
Amrica
Latina 4 3,214
Intra-grupos
4 6,079
combinada
Los rangos y logaritmos naturales de los
determinantes impresos son los de las
matrices de covarianza de los grupos.
53
Resultados de la prueba
M de Box 48,599
F Aprox. 2,052
gl1 20
gl2 4585,168
Sig. ,004
Contrasta la hiptesis nula de que
las matrices de covarianza
poblacionales son iguales.
Matrices intra-grupos combinadas. Estas correlaciones pueden ser muy diferentes de las
correlaciones usuales en donde todos los casos son tratados como una sola muestra. Estas
correlaciones se calculan partir de las varianzas y covarianzas separadamente para cada grupo (por
ejemplo, si sus grupos son hombres y mujeres, para cada variable, las desviaciones son calculadas de
la media de los hombres y la media de las mujeres, respectivamente). Las varianzas y covarianzas
son, por lo tanto, combinadas para formar una matriz de covarianzas combinada. Las correlaciones
son calculadas desde las varianzas y covarianzas.
Conjuntos de variables que muestren una fuerte asociacin entre ellas generaran diferentes
subconjuntos alternativos de variables.
54
En lo pasos siguientes, el F-que-introducir corresponde al F calculado de un anlisis de
covarianza donde los coeficientes covariados son las variables previamente ingresadas No es fcil
asociar probabilidades con las de estas F porque es necesaria la distribucin de la F ms grande. La
distribucin de la F ms grande esta afectada por el nmero de variables observadas, la estructura
de su correlacin, el nmero de grupos, y el tamao delas muestras de los grupos. Cuando las
variables independientes estn altamente correlacionadas, el valor crtico dela F puede ser mucho
ms grande para probar una sola variable preseleccionada.
Para cada variable, el Lambda de Wilks es usado para probar la igualdad de los centroides
entre los grupos usando el conjunto de variables incluyendo esta variable y aquellas ya incorporadas
al modelo.
Una variable con baja tolerancia es casi una funcin lineal de las otras, su inclusin en el
modelo puede generar clculos inestables o pocos confiables.
55
Variables no incluidas en el anlisis
56
Variables en el anlisis. Para cada variable en el modelo, la F-que-introducir y el Lambda de
Wilks son usados para describir que sucede si la variable es sacada de el modelo estructurado en
ese momento. Por lo tanto, el Lambda de Wilks para la variable incorporada es igual al Lambda de
Wilks de todo el modelo del paso previo. La F-que-introducir para la variable ingresada es igual a su
F-que-introducir.
Variables en el anlisis
F que Lambda
Paso Tolerancia eliminar de Wilks
1 inc_pob 1,000 11,562
2 inc_pob ,893 14,875 ,818
urbana ,893 7,010 ,628
3 inc_pob ,888 14,535 ,657
urbana ,372 7,851 ,524
log_pib ,379 4,545 ,459
4 inc_pob ,807 12,861 ,507
urbana ,371 5,960 ,394
log_pib ,238 9,373 ,450
espvidaf ,337 4,401 ,368
Autovalores. El primer valor propio (1,117) corresponde al primer vector propio, el cual se
encuentra en la direccin de la mxima dispersin de los centroides, el segundo valor propio
corresponde al segundo vector propio en la direccin que tiene la siguiente dispersin ms grande,
etc. La raz cuadrada de cada valor propio entrega una indicacin de la longitud de su
correspondiente vector propio.
La primera variable cannica explica el 65,2% de la dispersin total. La correlacin entre
cada variable cannica y el conjunto de variables ficticias definen la estructura de los grupos.
Autovalores
% de % Correlacin
Funcin Autovalor varianza acumulado cannica
1 1,117a 65,2 65,2 ,726
2 ,597a 34,8 100,0 ,611
a. Se han empleado las 2 primeras funciones
discriminantes cannicas en el anlisis.
57
El valor p o nivel significativo observado es menor a 0,0005, por lo tanto, la hiptesis de igualada de
medias es rechazada.
Lambda de Wilks
Contraste Lambda
de las de Wilks Chi-cuadrado gl Sig.
funciones
1 a la 2 ,296 45,675 8 ,000
2 ,626 17,553 3 ,001
Funcin
1 2
espvidaf ,367 -1,170
inc_pob ,978 ,179
log_pib -,481 1,877
urbana ,894 -,814
Matriz de estructura. para cada variable, un arterisco indica que tiene la correlacin absoluta ms
grande con una de las tres variables cannicas.
58
Matriz de estructura
Funcin
1 2
nac_defa ,724* ,135
inc_pob ,676* ,370
urbana ,433* -,151
log_poba -,386* -,074
tasa_mora -,311* ,214
fertilida ,212 ,396*
tasa_nata ,173 ,338*
alfabeta -,074 -,304*
espvidaf ,156 -,284*
mortinfa -,192 ,282*
log_pib ,221 ,255*
Correlaciones intra-grupo combinadas entre las
discriminantes y las funciones discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la correlacin con la
*. Mayor correlacin absoluta entre cada variable y
funcin discriminante.
a. Esta variable no se emplea en el anlisis.
Funciones en los centroides de los grupos. En esta tabla se muestra la media de la variable
cannica por grupo. El contraste de los centroides de cada par de grupos es mostrada en la tabla
Comparacin de grupos por pares.
Regin Funcin
econmica 1 2
Asia /
-1,418 ,558
Pacfico
Oriente
Medio 1,220 ,664
Amrica
6,763E-02 -,901
Latina
Funciones discriminantes cannicas
no tipificadas evaluadas en las
medias de los grupos
Comparacin de grupos por pares. En esta tabla, los estadsticos F son usados para describir que
grupos son ms similares ( diferentes) y para probar la igualdad de las medias (centroides) para
cada par de grupos. Los datos son puntajes de las variables cannicas y las medias de los grupos
son desplegados en la tabla Funciones en los centroides de los grupos. El estadstico F para cada par
de los grupos es proporcional al estadstico T2 de Hotelling y la D2 Mahalanobis. Por lo tanto, es
posible pensar el estadstico F como una medida de distancia entre cada par.
59
Comparaciones de grupos por paresa,b,c,d
60
Coeficientes de la funcin de clasificacin
Regin econmica
Asia / Oriente Amrica
Pacfico Medio Latina
espvidaf 2,058 2,176 2,373
inc_pob 7,136 10,078 8,484
log_pib 5,732 3,486 -1,519
urbana -,351 -,241 -,229
(Constante) -77,784 -91,905 -86,015
Funciones discriminantes lineales de Fisher
Resultados de la clasificacion. El 81,45 de los casos totales son clasificados correctamente por
modelo de cinco variables. La clasificacion correcta de los casos es ms alta para los pases del
Asia/Pacifico (92,3%): El segundo grupo mejor clasificado corresponde a los paises de America
Latina.
61
Resultados de la clasificacinb,c
a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada,
cada caso se clasifica mediante las funciones derivadas a partir del resto de los
casos.
b. Clasificados correctamente el 81,4% de los casos agrupados originales.
c. Clasificados correctamente el 79,1% de los casos agrupados validados mediante
validacin cruzada.
3.5.- Grficos.
62
funciones discriminantes cannicas
Regin econmica = Europa (OCDE)
1,2
1,0
,8
,6
,4
,2
-,0
Centroide de grupo
Funcin 2
-,2
Centroide de grupo
-,4
-,6 OCDE
1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5
Funcin 1
-1
-2
Centroide de grupo
Funcin 2
-3
Centroide de grupo
-4 Asia / Pacfico
-3 -2 -1 0 1 2 3
Funcin 1
63
funciones discriminantes cannicas
Regin econmica = Oriente Medio
5
0
Centroide de grupo
Funcin 2
-1 Centroide de grupo
-2 Oriente Medio
-4 -3 -2 -1 0 1
Funcin 1
,5
0,0
-,5
Centroide de grupo
Funcin 2
-1,0
Centroide de grupo
Funcin 1
64
funciones discriminantes cannicas
6
2
Oriente Medio
Regin econmica
OCDE
Amrica Latina Centroides de grupo
0
-2 Oriente Medio
Funcin 2
Asia / Pacfico
-4 OCDE
-4 -2 0 2 4 6
Funcin 1
Tambin, es posible verificar la confiabilidad del modelo a travs de la validacin cruzada, es decir,
el SPSS calcula funciones de clasificacin para un subconjunto de cada grupo a fin de que analice
como el procedimiento clasifica los casos no utilizados para la generacin de estas nuevas funciones
discriminantes. Estos significa que nuevos datos pueden ser clasificados usando funciones derivadas
de los grupos originales. Por lo tanto, el mismo analista puede diseas su propia validacin cruzada
mediante una asignacin aleatoria de los casos a cada grupo para un conjunto de datos analizando y
para un conjunto de datos probado. Entonces, el SPSS estimara las funciones discriminantes usando
el conjunto de datos analizando y aplicar la funcin al resto de los casos (conjunto de datos probado).
La proporcin de clasificacin correcta para el conjunto de datos probado es una buena medida
emprica de la eficiencia del modelo discriminante.
65
IV.- ANLISIS CONJUNTO.
Sin embargo, el anlisis conjunto por comparacin totales de perfiles (tambin conocido
como mtodo por concepto total) es el explicado en este capitulo, debido a que este es considerado
como una de las tcnicas del anlisis conjunto ms realista. En esta tcnica todos los factores son
considerados simultneamente.
El SPSS tiene tres procedimiento de mtodo en el mdulo de Categoras - generacin de
diseo ortogonal, Despliegue del diseo y el anlisis conjunto - todos diseados para la tcnica por
comparacin totales de perfiles.
En esta tcnica, el encuestado se le pide que clasifique, ordene o coloque puntajes a un conjunto de
perfiles de acuerdo a su preferencia. En cada uno de estos perfiles, todos los factores de inters son
presentados y una combinacin diferente de niveles factoriales (caractersticas) aparecen. As, de
esta manera, todo un concepto esta descrito en cada perfil.
Un inconveniente que est asociado al mtodo por comparacin totales de perfiles se debe cuando el
estudio a realizar considera un nmero elevado de atributos y , a su vez, cada uno de ellos presenta
varios niveles. Por lo tanto, el nmero total de perfiles resultantes de todas las posibles
combinaciones de los niveles genera encuestas demasiados grandes para que los encuestados
clasifiquen u ordenen de una manera razonable. Por esta razn, frecuentemente solo un conjunto
ms pequeo de todos los posibles perfiles es usado en la investigacin. Este subconjunto, llamado
un arreglo ortogonal, es un tipo de diseo, en el cual solamente los efectos principales son
considerados y las interacciones entre estas son asumidas ser despreciables.
66
El procedimiento de Generar Diseo Ortogonal en el modulo de Categoras del SPSS
produce un plan de efectos principales ortogonales. Desde los factores y niveles especificados, el
procedimiento Generar Diseo Ortogonal puede crear ya se un nuevo archivo de datos de trabajo
conteniendo el plan ortogonal o esta puede reemplazar el archivo de datos de trabajo utilizado.
Segn mencionado en Recopilando y Analizando los Datos, la recoleccin de datos en el mtodo por
comparacin totales de perfiles requiere que el estimulo sea presentado a cada sujeto en cada
conjunto de perfiles individuales. Una vez que la ordenacin (o arreglo) sea elegido, cada ejemplo de
un producto completo debe colocarse en un perfil separado. Esto ayuda al encuestado a
concentrarse en solamente en el producto de ese momento bajo evaluacin. El estimulo debe
tambin ser estandarizado para asegurar que los perfiles todos sean similares en apariencia fsica,
excepto para las diferentes combinaciones de caractersticas.
El procedimiento de Generar Diseo Ortogonal en el modulo de Categoras del SPSS
efecta estas tareas tomando el diseo generado en Generar Diseo Ortogonal o ingresado por el
usuario e imprime los perfiles de concepto total en un formato listo para utilizar.
Datos. Supongamos que un compaa interesada en la venta de un nuevo alimento canino desea
examinar la influencia de cuatro atributos en las preferencias del consumidor -tamao, distribucin,
valor nutricional y prestigio de la marca. Hay tres niveles para cada uno de los atributos. La tabla 1
muestra las variables usadas en el estudio de alimento para peros, con las etiquetas de sus variables
y sus valores.
67
Tabla 1. Variables en el estudio de alimento canino.
Un diseo de arreglo ortogonal puede ser generado para los factores y niveles por factor que
especifique. En el caso que no esta abierto, el SPSS crea uno, generando nombres de las variables,
etiqueta de la variable y valores de las opciones que ha seleccionado.
En la figura 1 se muestra el Editor de datos, desplegando el diseo ortogonal para el
ejemplo de alimento canino. Los factores son desplegados como variables y los casos creados por el
procedimiento. Cada caso el Editor de datos representa un caso en el diseo ortogonal.
El SPSS tiene ya prefijado un nmero mnimo de casos necesarios para generar un arreglo
ortogonal. El procedimiento determina el nmero de casos que se necesita administrar para permitir
estimaciones de las utilidades. Tambin, se puede especificar que genere un nmero mnimo de
casos.
Adems a los casos en el diseo, se pueden especificar casos reservados. Los casos
reservados son juzgados por los sujetos, pero estos no son usados por el anlisis para estimar las
utilidades. Estos son usados para verificar la validez de las utilidades estimadas. Los casos
reservados son generados de otro arreglo aleatorio, no por medio del plan ortogonal experimental.
Los casos reservados aparecen despus de los casos experimentales.
El plan ortogonal es guardada en otro archivo de datos y es usada para desplegar el diseo
de acuerdo a los perfiles de los individuos, y en anlisis conjunto.
Observe que las dos variables adicionales,. card_ y status_ , aparecen en el archivo de
datos. La variable card_ asigna un nmero secuencia a cada perfil para su conveniencia. Status_
indica si un caso es parte de el diseo experimental.
Tambin, existe la posibilidad de crear casos simulados. Hay combinaciones que son
consideradas por el individuo pero que estn incluidas en el anlisis
68
Para obtener un diseo ortogonal, desde los mens elija:
Datos
Diseo ortogonal
Generar...
Esta despliega un cuadro de dialogo Generar un diseo ortogonal, como mostrado en la siguiente
figura:
69
En esta ventana ingrese los factores a travs de los siguientes pasos:
1. Defina al menos un factor. Ingrese un nombre en Nombre del factor. Los nombres de los
factores pueden ser cualquier nombre valido para variables en el SPSS, excepto status_ o
card_. Tambin puede agregar una etiqueta al factor.
2. Pulse en Aadir para agregar el nombre del factor y una etiqueta opcional.
1. Crea un archivo de datos nuevo que contenga los factores y los casos generados por el plan.
Por defecto, este archivo de datos recibe el nombre ortho.sav, y se guarda en el directorio
actual. Pulse en Archivo para especificar un nombre y un destino diferentes para el archivo.
Definir valores. Cuando pulse en Definir valores se desplegar el cuadro de dialogo a continuacin:
En esta ventana podr asignar valores a cada nivel de los factores seleccionados.
70
Generar como mnimo. Especifica un nmero mnimo de casos para el plan. Seleccione un entero
positivo menor o igual que el nmero total de casos que se pueden formar a partir de todas las
combinaciones posibles de los niveles de los factores.
Casos reservados. Crea casos de reserva que se suman a los casos corrientes del plan. Puede
especificar cualquier entero positivo menor o igual que el nmero total de casos que pueden
formarse a partir de todas las combinaciones posibles de los niveles de los factores. Si no especifica
un valor de reserva, no se generan casos de reserva.
Una vez que se tiene el diseo del plan, es necesario colocar cada combinacin de factores en un
perfil separado para suministrar a los individuos. Cada caso en el diseo ortogonal es mostrado como
un perfil.
Los perfiles pueden ser fcilmente observados y pueden ser configurados a la manera que el
investigador cree que es lo ms conveniente. Cada concepto puede ser producido en una hoja
separada y contener ttulos y pie de paginas ya sea en la parte superior o inferior de cada perfil.
Tambin puede controlarse la disposicin del perfil dentro de la pgina a objeto de agregar figuras a
los perfiles.
Datos
Diseo ortogonal
Mostrar...
71
En esta ventana efecte los siguientes pasos:
3. Pulse en Ttulos (opcional), para definir ttulos y pie de pgina para los perfiles.
Plancards:
72
Tamao 3 a 10 Kgs.
Card 5
Distribucin Veterinario
Valor Nutricional 0 a 20
Prestigio de la marca Alto
Tamao 3 a 10 Kgs.
Card 6
Distribucin Tienda de Mascotas
Valor Nutricional 25 a 30
Prestigio de la marca Alto
Tamao 1 a 3 Kgs.
Card 7
Distribucin Supermercados
Valor Nutricional 0 a 20
Prestigio de la marca Bajo
Tamao 1 a 3 Kgs.
Card 8
Distribucin Supermercados
Valor Nutricional 20 a 25
Prestigio de la marca Alto
Tamao 10 a 20 kgs
Card 9
Distribucin Veterinario
Valor Nutricional 20 a 25
Prestigio de la marca Medio
Tamao 1 a 3 Kgs.
Footer:
Una vez que los datos ha sido recolectados, puede utilizarse el procedimiento Conjunto para estimar
las utilidades para cada nivel de los factores. Los puntajes de estas utilidades indican la influencia de
cada nivel factor en las preferencias de los encuestados para una combinacin particular. Estos son
calculados mediante el procedimiento, el cual consiste en un conjunto de regresiones de clasificacin
o puntajes de los perfiles. Pues, todos son expresados en una unidad comn, los puntajes de las
utilidades pueden ser todos sumados, por la cual se obtendra la utilidad total de una combinacin.
Para mayor conveniencia, las utilidades totales deben ser altamente correlacionadas con los datos de
preferencias observados.
El SPSS versin 7.5, no tiene una interface grfica para el procedimiento Conjunto. Por lo
tanto, para llevar a cabo cualquier anlisis conjunto se deber realizar el anlisis a travs de la
sintaxis de los comandos.
73
ordenaron los perfiles desde el ms al menos preferido. Por ejemplo, el primer individuo, en la tabla
2, asign la preferencia nmero uno al segundo perfil. En la tabla 2 se muestran los datos de
preferencias de 30 encuestados.
SUJETO PREF1 PREF2 PREF3 PREF4 PREF5 PREF6 PREF7 PREF8 PREF9
01 02 01 09 06 04 07 03 08 05
02 06 07 09 04 05 08 02 03 01
03 04 08 09 06 03 07 02 05 01
04 09 02 05 07 08 06 04 03 01
05 03 05 04 09 06 08 02 07 01
06 08 05 06 07 09 04 03 02 01
07 07 03 09 06 08 04 02 05 01
08 09 05 04 07 08 06 03 02 01
09 09 04 03 07 08 06 05 02 01
10 05 08 07 06 09 04 02 03 01
11 03 08 07 05 09 06 02 04 01
12 07 06 03 08 09 05 04 02 01
13 07 08 09 03 05 06 02 04 01
14 06 07 08 04 09 05 03 02 01
15 08 06 04 07 09 05 02 03 01
16 09 05 07 04 08 06 02 03 01
17 09 04 07 05 06 08 01 03 02
18 06 03 09 02 07 08 04 05 01
19 05 02 08 01 07 06 04 09 03
20 05 02 09 01 06 07 04 08 03
21 09 04 07 06 05 08 03 02 01
22 04 05 07 08 06 09 01 03 02
23 08 07 03 06 05 04 09 02 01
24 09 02 07 05 08 06 04 03 01
25 09 02 07 05 08 06 03 04 01
26 03 07 04 08 09 06 02 05 01
27 09 04 03 05 07 08 06 02 01
28 06 08 05 07 09 02 01 04 03
29 05 08 07 04 09 06 03 02 01
30 07 06 05 04 08 09 02 03 01
Para realizar un anlisis conjunto, debe escribir los comandos dentro de una ventana de sintaxis, y
luego ejecutarla. Para obtener un anlisis conjunto:
74
Archivo
Nuevo
Sintaxis
CONJOINT PLAN='PLAN.SAV'
/DATA=* /SEQUENCE=PREF1 TO PREF9 /SUBJECT=sujeto
/FACTORS=TAMANO DISTRIBU (DISCRETE) NUTRICIO PRESTIGI (LINEAR)
/PRINT=ALL /UTILITY='UTIL.SAV'.
SAVE OUTFILE='RANKS.SAV'.
3.- Seleccione los comandos que desea ejecutar y, entoces, pulse Ejecutar comando actual en las
barras de herramientas.
El SPSS entrega una salida para cada encuestado mediante el subcomando SUJECT. La
figura 3 muestra la salida del primer encuestado. La salida muestra los puntajes de utilidades y sus
errores estndar para cada cada nivel de factor. Por lo tanto, la suma de los valores de una
combinacion especfica se obtiene como resultado la utilidad total de este producto.
Por ejemplo, la utilidad total de un alimento canino con un tamao de 1 a 3 kgs., ditribucin
en supermercados, valor nutricional de 0 a 20 y bajo prestigio de la marca, es:
75
+--------+ TAMANO Tamao
I31,25 I ,6667( ,9718) I- 1 a 3 Kgs.
+--------+ -2,0000( ,9718) --I 3 a 10 Kgs.
I 1,3333( ,9718) I- 10 a 20 kgs
I
+---------+ DISTRIBU Distribucin
I34,38 I -2,0000( ,9718) --I Supermercados
+---------+ ,3333( ,9718) I Veterinario
I 1,6667( ,9718) I-- Tienda de Mascotas
I
+--+ NUTRICIO Valor Nutricional
9,38 I I ,5000( ,8416) I- 0 a 20
+--+ 1,0000(1,6833) I- 20 a 25
I 1,5000(2,5249) I-- 25 a 30
I B = ,5000( ,8416)
I
+------+ PRESTIGI Prestigio de la marca
I25,00 I -1,3333( ,8416) -I Bajo
+------+ -2,6667(1,6833) ---I Medio
I -4,0000(2,5249) ----I Alto
I B = -1,3333( ,8416)
I
6,6667(2,4777) CONSTANT
Las utilidades totales deben corresponder de cerca a los datos observados. Para datos
RANK y SEQUENCE la relacin es inversa. Valores bajos indican alta preferencia y, por lo tanto,
producir altas utilidades. En cambio, altos valores indican baja preferencia y produce bajas
utilidades.
Las utilidades totales pueden estar un poco fuera de los datos observados debido a la falta
de ajuste. Los errores estndar para cada utilidad es una indicacin de que tan bien el modelo ajusta
los datos de un encuestado en particular.
Algunos resultados adicionales para cada factor en la salida CONJUNTA son los valores de
b, el coeficiente de regresin lineal o pendiente para modelos lineales y cuadrticos y el valor de c, el
termino cuadrtico para modelos IDEAL y ANTIIDEAL. Para modelos LINEAR, el puntaje
pronosticado puede ser calculado multiplicando el valor del factor por B. Para modelos cuadrticos,
puede ser calculado multiplicando el valor del factor por B, y sumando aquel valor por el producto de
C y el cuadrado de el valor del factor.
76
Los estadsticos R de Pearson y el tau de Kendall son otra indicacin de qu tan bien el
modelo ajusta los datos. Estas son correalciones entre las preferencias observadas y estimadas.
Estos coeficientes deberan siempre ser muy altos.
Por otra parte, en muchos anlisis conjunto, el nmero de parmetros es cercano al nmero
de perfiles a encuestar, lo cual aumenta artificialmente las correlaciones entre los puntajes
observados y los estimados. En estos casos, la correlacin entre los puntajes observados y estimados
para los perfiles reservados podra entregar una mejor indicacin del ajuste del modelo, puesto que
estos perfiles no fueron usados para estimar los puntajes. Estos perfiles reservados producen
siempre coeficientes de correlacin ms bajos.
suj const tam1 tam2 tam3 dist1 dist2 dist3 nutrl pres score score score score score score score score score
tl 1 2 3 4 5 6 7 8 9
01 6,67 0,67 -2,00 1,33 -2,00 0,33 1,67 0,50 -1,33 8,50 7,50 1,50 6,00 1,50 6,50 4,50 3,00 6,00
02 5,33 3,00 -0,67 -2,33 -0,33 -0,67 1,00 -0,67 0,50 0,83 4,33 3,33 4,83 4,83 8,83 7,83 2,83 7,33
03 3,33 0,67 0,33 -1,00 0,67 -1,67 1,00 0,50 0,33 2,50 4,50 6,50 6,00 3,50 7,50 5,50 5,00 4,00
04 7,67 1,33 -1,00 -0,33 -0,67 0,67 0,00 -2,33 1,00 2,00 7,00 1,00 3,00 8,00 5,00 7,00 5,00 7,00
05 2,00 -0,67 3,00 -2,33 0,00 0,00 0,00 0,33 1,17 1,83 2,33 8,33 6,83 8,83 5,83 2,83 3,83 4,33
06 2,33 1,00 0,00 -1,00 1,00 -0,33 -0,67 -0,83 2,17 0,67 4,17 5,17 2,17 7,67 6,67 5,67 7,17 5,67
07 5,00 2,33 -0,33 -2,00 2,33 -1,67 -0,67 0,17 -0,17 1,67 2,17 7,17 4,17 2,67 6,67 9,67 5,17 5,67
08 6,67 1,33 1,00 -2,33 -0,33 1,00 -0,67 -1,33 0,50 1,83 3,33 4,33 4,83 8,83 4,83 6,83 2,83 7,33
09 5,67 1,33 1,00 -2,33 1,00 -0,67 -0,33 0,17 -0,50 2,67 2,17 7,17 6,17 4,67 5,67 7,67 3,17 5,67
10 4,67 1,00 0,00 -1,00 0,67 0,00 -0,67 -1,67 1,83 0,50 5,00 4,00 2,50 8,50 5,50 6,50 6,50 6,00
11 3,00 0,33 0,67 -1,00 3,00 -1,00 -2,00 -0,33 1,33 1,33 2,33 8,33 2,33 6,33 4,33 7,33 8,33 4,33
12 3,00 2,33 -0,33 -2,00 2,33 -1,67 -0,67 0,17 0,83 0,67 2,17 7,17 3,17 3,67 7,67 8,67 6,17 5,67
13 5,33 1,67 -0,67 -1,00 2,67 -0,67 -2,00 -1,00 0,83 1,50 3,00 6,00 1,50 5,50 4,50 9,50 7,50 6,00
14 3,67 2,33 -0,67 -1,67 1,00 -1,67 0,67 -0,17 0,83 0,67 4,17 5,17 4,17 3,67 8,67 7,67 5,17 5,67
15 3,33 1,33 -0,67 -0,67 0,67 -1,67 1,00 -0,33 1,17 1,17 5,67 4,67 4,17 4,17 8,17 6,17 6,17 4,67
16 7,67 1,67 0,33 -2,00 -0,33 1,00 -0,67 -1,83 0,50 1,67 4,17 3,17 4,17 8,67 4,67 7,67 3,17 7,67
17 7,33 2,00 0,33 -2,33 -0,67 1,00 -0,33 -0,67 -0,50 3,50 3,00 4,00 5,50 6,50 5,50 7,50 1,50 8,00
18 1,33 2,00 -0,67 -1,33 0,67 -1,67 1,00 0,83 1,00 1,83 3,83 5,83 4,33 2,83 9,83 5,83 5,33 5,33
19 6,67 -1,33 -0,67 2,00 -0,67 0,67 0,00 -1,83 1,00 4,83 8,83 1,83 3,33 7,83 2,83 3,83 7,33 4,33
20 7,00 0,33 -0,67 0,33 -2,67 2,33 0,33 -1,50 0,50 5,67 7,17 0,17 4,17 8,67 4,67 3,67 3,17 7,67
21 6,67 2,33 0,33 -2,67 -0,33 0,00 0,33 -0,67 -0,17 1,83 3,33 4,33 5,83 5,83 6,83 7,83 1,83 7,33
22 7,00 0,33 1,33 -1,67 0,00 0,00 0,00 -1,00 0,00 2,33 4,33 5,33 6,33 7,33 4,33 6,33 3,33 5,33
23 3,00 0,67 0,33 -1,00 3,00 -2,00 -1,00 -0,17 1,17 0,67 3,17 8,17 3,17 4,67 5,67 7,67 8,17 3,67
24 8,33 1,67 -1,33 -0,33 -0,33 0,33 0,00 -2,33 0,67 2,00 7,00 1,00 3,00 7,00 5,00 8,00 5,00 7,00
25 7,67 1,67 -1,33 -0,33 0,00 0,33 -0,33 -2,17 0,83 2,00 6,50 1,50 2,50 7,00 5,00 8,00 5,50 7,00
26 6,00 0,67 1,00 -1,67 2,67 -2,33 -0,33 0,17 -0,67 1,83 2,83 8,83 6,33 2,83 4,83 8,83 5,33 3,33
27 6,00 0,67 2,00 -2,67 0,33 0,33 -0,67 -0,33 -0,17 2,50 2,00 7,00 6,50 7,50 4,50 6,50 2,50 6,00
28 2,00 1,67 -1,67 0,00 0,00 0,00 0,00 -0,67 2,17 2,17 5,67 2,67 1,17 6,17 8,17 5,17 7,17 6,67
77
29 6,00 0,33 1,00 -1,33 1,00 0,00 -1,00 -1,67 1,17 0,83 4,33 5,33 3,83 8,83 3,83 6,83 5,83 5,33
30 6,33 2,00 0,00 -2,00 0,33 -1,00 0,67 -1,33 0,67 0,00 5,00 4,00 5,00 6,00 7,00 8,00 4,00 6,00
SUJETO PREF PREF PREF PREF PREF PREF PREF PREF PREF
1 2 3 4 5 6 7 8 9
01 02 01 09 06 04 07 03 08 05
02 06 07 09 04 05 08 02 03 01
03 04 08 09 06 03 07 02 05 01
04 09 02 05 07 08 06 04 03 01
05 03 05 04 09 06 08 02 07 01
06 08 05 06 07 09 04 03 02 01
07 07 03 09 06 08 04 02 05 01
08 09 05 04 07 08 06 03 02 01
09 09 04 03 07 08 06 05 02 01
10 05 08 07 06 09 04 02 03 01
11 03 08 07 05 09 06 02 04 01
12 07 06 03 08 09 05 04 02 01
13 07 08 09 03 05 06 02 04 01
14 06 07 08 04 09 05 03 02 01
15 08 06 04 07 09 05 02 03 01
16 09 05 07 04 08 06 02 03 01
17 09 04 07 05 06 08 01 03 02
18 06 03 09 02 07 08 04 05 01
19 05 02 08 01 07 06 04 09 03
20 05 02 09 01 06 07 04 08 03
21 09 04 07 06 05 08 03 02 01
22 04 05 07 08 06 09 01 03 02
23 08 07 03 06 05 04 09 02 01
24 09 02 07 05 08 06 04 03 01
25 09 02 07 05 08 06 03 04 01
26 03 07 04 08 09 06 02 05 01
27 09 04 03 05 07 08 06 02 01
28 06 08 05 07 09 02 01 04 03
29 05 08 07 04 09 06 03 02 01
30 07 06 05 04 08 09 02 03 01
78
V.- ANLSIS DE CORRESPONDENCIAS.
79
Nor-Este Centro O Sur Oeste Margin
Estadstica
Reduccin de datos
Anlisis de correspondencias...
80
Luego, seleccione las variables para el anlisis.
Fila: relig
Definir rango...
Mnimo: 1
Mximo: 5
Columna: regin
Definir rango...
Mnimo: 1
Mximo: 4
En Opciones puede seleccionar el tipo de normalizacin que se aplica a los datos de la tabla
de correspondencias y tambin seleccionar el tipo de informacin (tablas y grficos) que considera
necesaria para realizar una interpretacin acerca de las asociaciones existentes entre las filas y
columnas de la tabla. Por lo tanto, pulse en Opciones y seleccione las alternativas siguientes:
Opciones
Normalizacin
Principal
Mostrar
Perfiles
Valores propios
Grfico
Fila
Columna
81
Resultados del anlisis de correspondencias.
Perfiles y distancias. Para determinar las distancias entre las categoras, esta mtodo considera las
distribuciones marginales as como las frecuencias de celdas individual. Este calcula los perfiles fila
y columna, los cuales son las proporciones para cada celda, basadas en los totales marginales.
The Rowprofiles:
1 2 3 4
Nor-Este Centro O Sur Oeste Margin
The Columnprofiles:
1 2 3 4
Nor-Este Centro O Sur Oeste Margin
82
En anlisis de correspondencias las diferencias entre los perfiles son explicadas en trminos
de medidas de distancias, por lo tanto, si dos perfiles que exhiben la mayor diferencia entre sus
perfiles, en consecuencia, mostrarn la mayor distancia entre los puntos en el grfico. Entonces, el
objetivo del anlisis de correspondencias es encontrar una configuracin en que las distancias de los
puntos fila en un grfico son iguales a las distancias entre los perfiles fila en la tabla.
Las distancias que el anlisis de correspondencias aproxima no son distancias ordinarias,
sino distancias ponderadas. Estas distancias ponderadas estn basadas en el concepto de masa.
Masa es una medida que indica la influencia de un objeto basado en su frecuencia marginal. La
masa afecta al centroide, que es la media ponderada del perfil fila o columna. El centroide fila es el
perfil fila promedio. Por lo tanto, los puntos de mayor masa influirn en la ubicacin del centroide,
esto es, acercarn el centroide a su posicin espacial.
Puntajes fila y columna. Los puntajes fila son las coordenadas de los puntos fila en el grfico 1.
Geomtricamente, los puntos columna son proporcionales al centroide ponderado de los puntos fila.
Row Scores:
Column Scores:
De acuerdo con lo anterior, surgen dos caractersticas de los puntos fila y columna que son:
1) las distancias Euclidianas entre los puntos fila se aproxima a una distancia 2; y 2) los puntos fila
estn en el centroide ponderado de los puntos columna. Los puntajes fila y columna dependen de la
normalizacin usada en el anlisis.
83
Inercia. Si las entradas en la tabla de contingencia son frecuencias, entonces la suma ponderada
sobre todas las distancias al cuadrado entre los perfiles fila y la media del perfil fila es igual al
estadstico 2. Las distancias Euclidianas en el grfico se aproximan a distancias 2 en la tabla.
La inercia total es definida como la suma ponderada de todas las distancias al centroide
dividida por la suma de todas las celdas en la tabla de contingencia. Las puntos con masa pequea
afectan la inercia nicamente con su distanciamiento al centroide. En cambio, los puntos de ms
grande influencian la inercia total aun cuando ellos se encuentren cercanos al centroide.
84
RELIG Marginal Dim Total
Profile 1 2
Grficos. Los grficos constituyen la parte ms rica de la informacin de los resultados obtenidos
del anlisis y su nmero puede ser determinado por medio de los criterios de porcentaje de variacin
explicada y grfico de Cattell.
Este mtodo permite descomponer toda la inercia (variabilidad de los puntos con respecto al
centroide) contenida en la tabla de contingencia en distintos planos con ejes de coordenadas
rectangulares (varios grficos bidimensionales).
85
La normalizacin principal utilizada en este ejemplo, que construye grficos simtricos, es
usada en el caso que el inters esta en estudiar las distancias entre los puntos fila y las distancias
entre los puntos columna, separadamente. Por lo tanto, este tipo de normalizacin es inadecuado
estudiar en solo grfico las relaciones conjuntas entre los perfiles de las variables.
,2
Catlico
Protestante
0,0
-,2
Otra
-,4
Dimensin 2
Judo
-,6
-,8
-,4 -,2 0,0 ,2 ,4 ,6 ,8 1,0 1,2
Dimensin 1
Principal normalization
,3
Oeste
,2
,1 Centro Oeste
-,0
Sur
Dimensin 2
-,1
Nor-Este
-,2
-,3
-,6 -,4 -,2 -,0 ,2 ,4 ,6
Dimensin 1
Principal normalization
86
87