Está en la página 1de 88

UNIVERSIDAD TCNICA FEDERICO SANTA MARA

DEPARTAMENTO DE INDUSTRIAS
VALPARASO - CHILE

" Manual del SPSS aplicado a mtodos de


Investigacin de Mercados "

Profesor : Sr. Cristbal Fernndez.


Ayudante : Sr. Fabin Crdova.

Enero 2000
1
RESUMEN.

Este manual est orientado principalmente a facilitar el aprendizaje en el uso del SPSS, para
aplicar este poderoso sistema de anlisis estadstico al anlisis de datos relacionados al mercadeo.
Por lo tanto, se consideraron los mtodos ms frecuentemente utilizados en la investigacin de
mercados, los cuales son Anlisis Factorial, Escalamiento Multimensional, Anlisis Discriminante,
Anlisis Conjunto y Anlisis de Correspondencias.
El contenido de este manual se centra tanto en los aspectos prcticos como en los tericos
de los mtodos estadsticos aplicados en la investigacin de mercados. Debido a esto, que la teora
es expuesta de manera somera y, a la vez, apoyada con una ilustracin detallada de ejemplos
resueltos para cada mtodo, fomentando un estilo adecuado para la autoinstruccin. De esta forma,
una persona con conocimientos elementales de estadstica (distribuciones de probabilidades y
mtodos de docimasia) y de lgebra de matrices debera ser capaz de aprender los mtodos y
tcnicas presentadas, con un estilo adecuado de texto.

2
I.- ANLISIS FACTORIAL.

El anlisis factorial es un mtodo estructural, en cuanto a establecer relaciones descriptivas de las


variables. Las variables utilizadas en el mtodo deben ser cuantitativas; es decir, estar expresadas
en unidades mtricas. La extensin caso de variables no-mtricas se analizan mediante el anlisis de
correspondencias.
El inters del anlisis factorial se centra en la descripcin de datos ms que en la inferencia
estadstica. La principal aplicacin de este mtodo es en la reduccin de datos, identificando un
pequeo numero de factores que expliquen la mayora de la varianza observada en un numero
mayor de variables manifestadas. El anlisis factorial tambin puede utilizarse en descubrir la
estructura bsica que sustenta un conjunto de medidas (variables observables); desarrollar una
escala sobre la cual pueden compararse algunos temas; y servir como paso previo a tcnicas de
anlisis de dependencia ya que permite transformar datos en factores que no estn correlacionados
entre s (independientes), eliminando el problema de multicolinealidad.

1.- El modelo factorial.

El anlisis factorial es un mtodo estadstico cuyo objetivo es representar un conjunto de variables en


trminos de un menor numero de variables hipotticas o factores, los cuales conservan la mayor
parte de la informacin del conjunto original de datos. Para esto, asume que cada variable original
puede ser descompuesta en la suma de un pequeo numero de factores comunes ms un termino de
error atribuible a las fluctuaciones muestrales de los valores individuales de cada variable. Este
mtodo se basa en la informacin contenida en la matriz de coeficiente de correlacin, cuyos
elementos representa el grado de asociacin lineal entre las variables.
El modelo de anlisis factorial comn expresa cada variable como una combinacin lineal de
los factores comunes a todas variables y un factor nico a la variable:

zj = aj1 F1 + aj2 F2 + ... + ajm Fm + Uj


donde:
zj = la variable normalizada j-sima.
Fi = los factores comunes.
m = el numero de factores comunes a todas las variables.
Uj = el factor nico a la variable zj.
aij = las cargas factoriales.

Las cargas factoriales representan la importancia que el -isimo factor (Fi) tiene en la
definicin de la de la j-sima variable (zj).

Aunque la funcin previa parece una ecuacin de regresin, no es tal. Desde luego, debe
saberse de antemano el numero de factores en el problema que se esta analizando, pero estos
factores, al contrario que en el anlisis de regresin, no se pueden observar directamente. La
variable Uj si es anloga al residual en una regresin y representa las variaciones aleatorias
producidas en los resultados por el efecto especifico de la variable zj.

3
La especificacin del modelo se completa con las siguientes condiciones, para el caso de
factores comunes considerados variables aleatorias:

1. Los factores comunes son variables aleatorias normales, independientes , de media cero y
varianza unitaria.

2. Las variables especificas (nicas) son normales, independientes, de media cero y varianza i2.

3. Los factores comunes y los especficos son independientes entre s.

4. Las variables originales son normales.

El caso de factores comunes no aleatorios es tratado en Anderson (1984).

2.- Etapas en un anlisis factorial.

El mtodo es desarrollado principalmente en cuatro pasos:

1. La matriz de correlacin o de covarianza es calculada. En el caso de que una variable muestre


bajos coeficientes de correlacin con las otras variables, esta puede ser eliminada y, por lo tanto,
obtener la nueva matriz de correlacin. Sin embargo, es necesario que observe los valores de su
comunidad y las cargas factoriales.

2. Las cargas factoriales son estimadas. En este parte, es necesario establecer el mtodo empleado
para la extraccin de los factores ya sea por componentes principales u otro mtodo de
extraccin.

3. Las cargas factoriales son rotadas a fin de obtener cargas ms fcilmente interpretables. Los
mtodos de rotacin genera cargas para cada factor ya sea grandes o pequeas, pero no de
valores intermedios. Esta rotacin permite reducir el numero de factores a la estructura ms
simple que describe los datos, esto es, encontrar una solucin final.

4. Para cada caso, los puntajes pueden ser calculados para cada factor y almacenados para usarlos
como variables de entrada en otros procedimientos.

3.- Extraccin de factores.

Son muchos los mtodos que pueden emplearse para extraer los factores iniciales de la matriz de
correlacin. En general, estos mtodos son complejos numricamente. El SPSS proporciona de siete
mtodos de extraccin, sin embargo, el ms ampliamente usado en la practica en es el mtodo de
extraccin por componentes principales.

4
Componentes principales. El objetivo de este mtodo es encontrar combinaciones lineales
independientes de las variables originales. La primera componente tiene la varianza mxima. Las
componentes sucesivas explican progresivamente proporciones menores de la varianza y no estn
correlacionadas las unas con las otras. El anlisis de componentes principales se utiliza para obtener
la solucin factorial inicial. Puede utilizarse cuando una matriz de correlaciones es singular.
La generacin de componentes principales se obtienen a travs de un anlisis propio a ala
matriz de correlaciones.

(S - i I) = 0
La solucin de la ecuacin caracterstica de grado p es determinar p races caractersticas
(o valores propios) i con su vector caracterstico asociado.
Los valores propios i corresponden a alas varianzas de los componentes. El tamao de los
valores propios describe la dispersin o la forma de la nube de puntos en un espacio multivariado que
tiene un eje para cada variable

Mnimos cuadrados no ponderados. Este mtodo minimiza la suma de los cuadrados de las
diferencias entre las matrices de correlaciones observada y reproducida, ignorando las diagonales.

Mnimos cuadrados generalizados. Este mtodo minimiza la suma de los cuadrados de las
diferencias entre las matrices de correlacin observada y reproducida. Las correlaciones se
ponderan por el inverso de su unicidad, de manera que las variables que tengan un valor alto de
unicidad reciban un peso menor que aqullas que tengan un valor bajo de unicidad.

Mxima verosimilitud. Este mtodo proporciona las estimaciones de los parmetros que con
mayor probabilidad han producido la matriz de correlaciones observada, si la muestra procede de
una distribucin normal multivariada. Las correlaciones se ponderan por el inverso de la unicidad de
las variables, y se emplea un algoritmo iterativo.

Ejes principales. Este mtodo parte de la matriz de correlaciones original con los cuadrados de los
coeficientes de correlacin mltiple insertados en la diagonal principal como estimaciones iniciales de
las comunalidades. Las saturaciones factoriales resultantes se utilizan para estimar de nuevo las
comunalidades y reemplazan a las estimaciones previas en la diagonal de la matriz. Las iteraciones
continan hasta que el cambio en las comunalidades, de una iteracin a la siguiente, satisfaga el
criterio de convergencia para la extraccin.

Alfa. Este mtodo considera a las variables incluidas en el anlisis como una muestra del universo
de las variables posibles. Este mtodo mximiza el Alfa de Cronbach para los factores.

Imagen. Mtodo para la extraccin de factores, desarrollado por Guttman y basado en la teora de
las imgenes. La parte comn de una variable, llamada la imagen parcial, se define como su
regresin lineal sobre las restantes variables, en lugar de ser una funcin de los factores hipotticos.

4.- Rotacin de fatores.

5
Con frecuencia es muy difcil interpretar los factores iniciales. Por consiguiente la solucin inicial se
rota con el propsito de generar una solucin que permita la interpretacin. existen dos amplios tipos
de rotacin: (1) rotacin ortogonal, que mantiene a los factores no correlacionados entre s y (2)
rotacin oblicua, la cual permite que los factores se correlacionen entre s. la idea bsica de la
rotacin es generar factores que tengan algunas variables muy correlacionadas y otras poco
correlacionadas. Esto evita tener el problema de factores con todas las variables que presentan
correlaciones de medio rango y, por tanto, permite una interpretacin ms fcil. El SPSS dispone de
cinco mtodos de rotacin.

Varimax. Mtodo de rotacin ortogonal que minimiza el nmero de variables que tienen
saturaciones altas en cada factor. Simplifica la interpretacin de los factores.

Quartimax. Mtodo de rotacin que minimiza el nmero de factores necesarios para explicar cada
variable. Simplifica la interpretacin de las variables observadas.

Equamax. Mtodo de rotacin que es combinacin del mtodo varimax, que simplifica los factores,
y el mtodo quartimax, que simplifica las variables. Se minimiza tanto el nmero de variables que
saturan alto en un factor como el nmero de factores necesarios para explicar una variable.

Oblimin directo. Mtodo para la rotacin oblicua (no ortogonal). Cuando delta es igual a cero (el
valor por defecto) las soluciones son las ms oblicuas. A medida que delta se va haciendo ms
negativo, los factores son menos oblicuos. Para anular el valor por defecto 0 para delta, introduzca
un nmero menor o igual que 0,8.

Promax. Rotacin oblicua que permite que los factores estn correlacionados. Puede calcularse
ms rpidamente que una rotacin oblimin directa, por lo que es til para conjuntos de datos grandes.

5.- Ejemplo 1: Componentes principales y rotacin Varimax.

El objetivo de este ejemplo es la reduccin y descripcin de un conjunto de datos mediante un grupo


de factores, los cuales son calculados por el mtodo de componentes principales y, a su vez, estos
factores son rotados mediante el mtodo Varimax.
Los datos son obtenidos del archivo Mundo 95.sav en donde se seleccionan algunas
variables (tabla 1), las cuales se definen a continuacin:

espvidaf: esperanza de vida promedio de la mujer en aos.


mortinf: mortalidad infantil (muertes por 1000 nacidos vivos durante el primer ao)
alfabet: porcentaje de la poblacin lectora
tasa_nat: tasa de nacimiento por 1000 personas.
tasa_mor: tasa de mortalidad por 1000 personas.
fertilid: fertilidad: numero de nios promedio.
urbana: porcentaje de la poblacin viviendo en ciudades.
log_pib logaritmo (base 10) del PIB_CAP (producto interno bruto per cpita)

6
inc_pob: aumento de poblacin (porcentaje para los aos previos)
nac_def: razn entre la tasa de nacimientos y la tasa de mortalidad
log_pob: Logaritmo (base 10) de poblacin.

Tabla 1. Datos econmicos y demogrficos de 12 pases de Amrica Latina.

PAS urbana espvidaf alfabet inc_pob mortinf tasa_nat tasa_mor log_pib nac_def fertilid log_pob
Argentina 86 75 95 1,30 26 20 9 3,53 2,22 2,80 4,53
Bolivia 51 64 78 2,70 75 34 9 2,86 3,78 4,21 3,90
Brasil 75 67 81 1,28 66 21 9 3,37 2,33 2,70 5,19
Colombia 70 75 87 2,00 28 24 6 3,19 4,00 2,47 4,55
Cuba 74 78 94 0,95 10 17 7 3,14 2,43 1,90 4,05
Chile 85 78 93 1,70 15 23 6 3,41 3,83 2,50 4,15
Ecuador 56 73 88 2,01 39 26 6 3,04 4,33 3,08 4,03
Mxico 73 77 87 1,90 35 28 5 3,56 5,60 3,20 4,96
Paraguay 48 75 90 2,70 25 33 5 3,18 7,33 4,30 3,72
Per 70 67 85 2,00 54 26 7 3,04 3,71 3,11 4,37
Uruguay 89 77 96 0,80 17 17 10 3,50 1,70 2,44 3,51
Venezuela 91 76 88 2,16 28 26 5 3,45 5,20 3,05 4,31

Para realizar una anlisis factorial a los datos de la tabla previa, es necesario que elija en los
mens:

Estadsticos
Reduccin de datos
Anlisis factorial...

Luego, seleccione las variables para el anlisis.

7
En este caso, se utilizan todos los casos (pases). Por lo tanto, no es necesario especificar
una variable de seleccin.
Los siguientes pasos en el anlisis corresponden a la seleccin de los mtodos de extraccin
y rotacin de las variables, informacin de estadstica descriptiva de las variables y las puntuaciones
de los factores (como guardarlos y el mtodo de estimacin). Por lo tanto, en los respectivos
cuadros de dialogo realice lo siguiente:

Descriptivos...
Estadsticas
Descriptivos univariados
Matriz de correlacin
Coeficientes

Extraccin...
Mtodo

8
Componentes principales
Mostrar
Grfico de sedimentacin

Rotacin...
Mtodo
Varimax
Mostrar
Grficos de saturaciones.

El ejemplo es desarrollado siguiendo los cuatro pasos descritos previamente. Los resultados
(tablas y grficos) entregados por el SPSS se muestran a continuacin:

5.1.- Generacin de la matriz de correlacin y comunalidades.

9
Estadsticos descriptivos. Dentro de las alternativas que provee el SPSS es posible obtener
informacin estadstica bsica relativa a cada una de las variables consideradas en el anlisis. Esta
informacin es desplegada en la siguiente tabla:

Estadsticos descriptivos

Desviacin N del
Media tpica anlisis
Esperanza de vida femenina 73,50 4,80 12
Mortalidad infantil (muertes por 1000 nacim. vivos) 34,800 20,394 12
Alfabetizacin (%) 88,50 5,52 12
Tasa de natalidad (por 1.000 habitantes) 24,583 5,468 12
Nmero promedio de hijos 2,980 ,700 12
Habitantes en ciudades (%) 72,33 14,49 12
Log(10) de PIB_CAP 3,2724 ,2276 12
Aumento de la poblacin (% anual) 1,792 ,613 12
Tasa Nacimientos/Defunciones 3,8730 1,6205 12
Tasa de mortalidad (por 1.000 habitantes) 6,96 1,86 12
Log(10) de POBLAC 4,2722 ,4907 12

Matriz de correlaciones. El anlisis factorial analiza la estructura de las asociaciones entre las
variables a travs de la matriz de correlaciones. Las correlaciones contenidas en esta matriz son
obtenidas mediante el coeficiente de correlacin de Pearson. Un estudio preliminar de esta matriz de
esta matriz permite observar la existencia de una fuerte asociacin (-0,984) entre las variables
espvidaf y mortinf. Esta elevada correlacion negativa entre estas variables viene a indicar que
altos valores de esperanza de viida estn asociados a bajos niveles de mortalidada infantil y
viceversa.

Matriz de correlaciones
tasa_mor
tasa_nat
espvidaf

nac_def

log_pob
inc_pob
log_pib
urbana
alfabet
mortinf

fertilid

espvidaf 1,000 -,958 ,845 -,428 -,481 ,472 ,602 -,377 ,113 -,404 -,184
mortinf -,958 1,000 -,926 ,497 ,519 -,457 -,477 ,419 -,015 ,313 ,339
alfabet ,845 -,926 1,000 -,619 -,524 ,520 ,522 -,578 -,209 -,024 -,383
tasa_nat -,428 ,497 -,619 1,000 ,927 -,727 -,476 ,968 ,789 -,448 -,098
fertilid -,481 ,519 -,524 ,927 1,000 -,697 -,391 ,853 ,670 -,214 -,206
urbana ,472 -,457 ,520 -,727 -,697 1,000 ,781 -,678 -,501 ,229 ,218
log_pib ,602 -,477 ,522 -,476 -,391 ,781 1,000 -,509 -,131 ,014 ,343
inc_pob -,377 ,419 -,578 ,968 ,853 -,678 -,509 1,000 ,805 -,535 -,110
nac_def ,113 -,015 -,209 ,789 ,670 -,501 -,131 ,805 1,000 -,855 -,066
tasa_mor -,404 ,313 -,024 -,448 -,214 ,229 ,014 -,535 -,855 1,000 -,067
log_pob -,184 ,339 -,383 -,098 -,206 ,218 ,343 -,110 -,066 -,067 1,000

10
Comunalidades. Para cada variable, la comunalidad representa la proporcin de la varianza de
aquella que puede ser explicada por los factores comunes, en otros trminos, es la correlacin
mltiple al cuadrado de la variable con los factores. En este caso, las comunalidades son registradas
antes y despus del nmero deseado de factores extrados. En este caso se fij extraer dos factores.
Las comunalidades van de 0 a 1, con 0 indica que los factores comunes no explican ninguna
varianza de la variable y 1 que estos explican toda la varianza.
En este ejemplo, la proporcin de la varianza explicada por los factores comunes es debida a
la extraccin de dos componentes. Esto es, la comunalidad de espvidaf es de 0,965 que significa
que el 96,5 porciento de la varianza de esta variable es explicada por los dos componentes extrados.

Comunalidades

Inicial Extraccin
espvidaf 1,000 ,967
mortinf 1,000 ,984
alfabet 1,000 ,937
tasa_nat 1,000 ,956
fertilid 1,000 ,799
urbana 1,000 ,791
log_pib 1,000 ,771
inc_pob 1,000 ,939
nac_def 1,000 ,984
tasa_mor 1,000 ,869
log_pob 1,000 ,919
Mtodo de extraccin: Anlisis de Componentes principales.

5.2.- Seleccin de factores.

El SPSS entrega dos resultados de apoyo al proceso de seleccin de los factores como es la tabla de
Varianza total explicada y el Grfico de sedimentacin.

Varianza total explicada. Estas tablas muestran los estadsticos a cada factor ya sea antes como
despus de la extraccin de los componentes.
En la columna Total se muestran los valores propios (autovalores), ordenados por tamaos,
obtenidos de la matriz de correlacin. Cada valor propio indica la varianza total explicada por el
factor (la varianza total es la suma de los elementos de la diagonal de la matriz de correlacin). El
porcentaje de la varianza total atribuible a cada factor es mostrado en la columna % de la
varianza. El primer factor es el ms importante y este explica un 71,5% de la varianza.
Esta tabla permite establecer cuales son los componentes que explican en mayor grado la
dispersin (o variabilidad) contenida en los datos .
Por defecto, el SPSS calcula tanto componentes como existan valores propios mayores que
1. Este valor puede ser no tan restrictivo en la seleccin de los valores propios, por lo tanto, puede
ser cambiado en la opcin de Autovalores mayores que del cuadro de dialogo de los mtodos de

11
extraccin. Los nuevos criterios permiten determinar un nmero ms adecuado de factores, por
ejemplo, excluir factores con varianzas menores que uno.
Otra criterio para seleccionar menos factores que los extrados por defecto, es la seleccin
de un punto de corte en donde exista un intervalo relativamente grande entre los valores y, tambin,
examinar las cargas para las soluciones son diferentes nmeros de factores para ver que resultados
proporciona la mejor interpretacin de los datos.

Varianza total explicada

Sumas de las saturaciones al Suma de las saturaciones al


Autovalores iniciales cuadrado de la extraccin cuadrado de la rotacin
% de la % % de la % % de la %
Comp Total varianza acumulado Total varianza acumulado Total varianza acumulado
1 5,65 51,3616 51,362 5,650 51,362 51,362 4,102 37,291 37,291
2 2,79 25,3465 76,708 2,788 25,347 76,708 3,987 36,244 73,536
3 1,48 13,4382 90,146 1,478 13,438 90,146 1,827 16,611 90,146
4 ,6558 5,9621 96,108
5 ,2577 2,3426 98,451
6 ,0778 ,7074 99,158
7 ,0646 ,5874 99,746
8 ,0142 ,1293 99,875
9 ,0084 ,0760 99,951
10 ,0047 ,0424 99,993
11 ,0007 ,0066 100,000
Mtodo de extraccin: Anlisis de Componentes principales.

Grfico de sedimencin. La varianza explicada por cada factor, o sea, los valores propios, son
graficados versus el nmero de orden del componente. El criterio consiste en retener los
componentes previos al codo y descartar los restantes. Un codo en el grfico es aquel punto en la
curva, el cual distingue un decrecimiento pronunciado de los valores propios de un decrecimiento
ms estabilizado. Este criterio es netamente subjetivo.

Grfico de sedimentacin
6

2
Autovalor

0
1 2 3 4 5 6 7 8 9 10 11

Nmero de componente

12
Matriz de componentes. Esta tabla despliega los coeficientes (o cargas) que relacionan las
variables a los dos factores no rotados (componentes). Las cargas no rotadas y las cargas rotadas
ortogonalmente son las correlaciones de las variables con los factores. Segn la tabla, las variables
espvidaf, mortinf, alfabet, tasa_nat, fertilid, log-pib y inc_pob estn asociadas
mayoritariamente con el primer factor. En cambio, para el segundo factor se observa una
correlacin ms intensa nicamente con la variable tasa_mor, de -0,849. Las otras variables
presentan correlaciones relativamente iguales en ambos componentes.
Esta tabla permite identificar y descartar las variables que presentan bajas asociaciones con
los componentes y , a la vez, que su comunalidad sea baja.

Matriz de componentesa

Componente
1 2 3
espvidaf -,670 ,719 ,016
mortinf ,703 -,675 ,186
alfabet -,790 ,471 -,301
tasa_nat ,938 ,271 ,059
fertilid ,875 ,169 -,069
urbana -,831 -,069 ,309
log_pib -,676 ,202 ,522
inc_pob ,907 ,335 ,058
nac_def ,620 ,741 ,226
tasa_mor -,282 -,825 -,331
log_pob -,031 -,324 ,901
Mtodo de extraccin: Anlisis de componentes principales.
a. 3 componentes extrados

5.3.- Rotacin de los componentes.

Matriz de componentes rotada. El objetivo de la rotacin es aumentar las cargas factoriales


grandes y disminuir aun ms las pequeas de aquellas obtenidas al inicio. En este caso, el mtodo de
rotacin empleado no cumple con los objetivos, puesto que en vez de disminuir las correlaciones de
las variables espvidaf, mortinf, alfabet, tasa_nat, fertilid, log-pib y inc_pob con el segundo
componente, stas aumentaron.

13
Matriz de componentes rotadosa

Componente
1 2 3
espvidaf -,971 ,053 ,145
mortinf ,990 ,053 ,035
alfabet -,920 -,283 -,102
tasa_nat ,456 ,833 -,234
fertilid ,468 ,686 -,330
urbana -,476 -,524 ,538
log_pib -,534 -,177 ,674
inc_pob ,390 ,856 -,232
nac_def -,074 ,989 -,025
tasa_mor ,351 -,848 -,165
log_pob ,338 -,009 ,897
Mtodo de extraccin: Anlisis de componentes principales.
Mtodo de rotacin: Normalizacin Varimax con Kaiser.
a. La rotacin ha convergido en 6 iteraciones.

Matriz de transformacin de las componentes. Esta es la matriz de rotacin para transformar


las cargas de la matriz de componentes a aquellas contenidas en a matriz de componentes rotada.
Por ejemplo, las componentes rotadas de la variable espvidaf se obtienn como:

componente 1: -0,952 * 0,85 + 0,244 * -0,526 = -0,938


componente 2: -0,952 * 0,526 + 0,244 * 0,85 = -0,293

Matriz de transformacin de las componentes

Componente 1 2 3
1 ,684 ,671 -,285
2 -,716 ,693 -,085
3 ,141 ,262 ,955
Mtodo de extraccin: Anlisis de componentes principales.
Mtodo de rotacin: Normalizacin Varimax con Kaiser.

Grficos rotados. El grfico de dispersin sobre el plano formado por los dos primeros
componentes (plano principal), representa la nube de puntos explicando el 88% de la variacin total
Los puntos en este grfico corresponden a las variables y las coordenadas de cada variable son sus
cargas factoriales (de la matriz de componentes rotados). Los puntos proyectados en los extremos
de los ejes presentaran mayor asociacin con el eje, mientras que los puntos cerca del origen no
estn asociados a ningn componente.
En este plano se distingue dos nubes de puntos ubicadas en cuadrantes opuestos. Sin
embargo, las variables en el lado negativo presentan una mayor asociacin con el primer
componente que los otros puntos, los cuales tambin evidencia una asociacin con el segundo
componente.

14
Grfico de componentes en espacio rotado
tasa nacimientos/def
1,0
aumento
tasa dede la poblac
natalidad (p
nmero promedio de h

,5

esperanza de vida fe

alfabetizacin (%)
0,0
log(10) de pib_cap mortalidad infantil
log(10) de poblac
Componente 2

habitantes en ciudad
-,5

tasa de mortalidad (

-1,0
-1,0 -,5 0,0 ,5 1,0

Componente 1

5.4.- Validacin del modelo.

La validacin del modelo se efecta a travs de la verificacin de las condiciones de normalidad,


esto es, si las variables observadas presentan una distribucin normal. Para probar la hiptesis que
los datos provienen de una distribucin normal, el SPSS muestra el estadstico de Kolmogorov-
Smirnov con el nivel de significacin de Lilliefors, y si el tamao de la muestra no excede de 50, se
calcula el estadstico de Shapiro-Wilk Tambin, el SPSS muestra los diagramas de probabilidad
normal para determinar grficamente desviaciones a la normalidad.

Para realizar esta prueba seleccione en el men:

Estadsticos
Resumir
Explorar...

15
En el cuadro de dialogo Explorar pulse Grficos y selccione:

Grficos
Grficos con pruebas de normalidad

Pruebas de normalidad. Segn esta tabla, que las pruebas tanto de Kolmogorov-Smirnov como de
Shapiro-Wilk no recahazan la hiptesis de normalidad para las variables observadas.

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Regin
econm. Estadstico gl Sig. Estadstico gl Sig.
alfabet Am. Lat. ,143 12 ,200* ,953 12 ,630
espvidaf Am. Lat. ,289 12 ,006 ,821 12 ,017
fertilid Am. Lat. ,210 12 ,150 ,908 12 ,264
inc_pob Am. Lat. ,153 12 ,200* ,943 12 ,497
log_pib Am. Lat. ,169 12 ,200* ,933 12 ,433
log_pob Am. Lat. ,118 12 ,200* ,977 12 ,929
mortinf Am. Lat. ,214 12 ,135 ,905 12 ,249
nac_def Am. Lat. ,147 12 ,200* ,940 12 ,481
tasa_mo Am. Lat. ,197 12 ,200* ,908 12 ,265
rtasa_nat Am. Lat. ,148 12 ,200* ,948 12 ,563
urbana Am. Lat. ,186 12 ,200* ,923 12 ,369
*. Este es un lmite inferior de la significacin verdadera.
a. Correccin de la significacin de Lilliefors

16
Diagramas de probabilidad normal. A veces, la condicin de normalidad impuesta a las variables
pude observarse a travs de los grficos de normalidad. En estos diagramas, cada individuo
observado es graficado contra el cuantil correspondiente de una distribucin normal estandarizada
(sus valores Z) , la normalidad de una variable es verifica si los valores de la variable se distribuyen
a lo largo de la lnea. Segn los graficados Q-Q normal, indican que todas las variables presentan
una distraccin de normalidad, algunas ms que otras.

Grfico Q-Q normal de Alfabetizacin (%)


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0

-,5

-1,0

Normal
-1,5 esperado
70 80 90 100

Valor observado

Grfico Q-Q normal de Esperanza de vida femenina


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0

-1,5
62 64 66 68 70 72 74 76 78 80

Valor observado

17
Grfico Q-Q normal de Nmero promedio de hijos
Para REGIN= Amrica Latina
1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0

-1,5
1,5 2,0 2,5 3,0 3,5 4,0 4,5

Valor observado

Grfico Q-Q normal de Aumento de la poblacin (% anual)


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0

-1,5
,5 1,0 1,5 2,0 2,5 3,0

Valor observado

18
Grfico Q-Q normal de Log(10) de PIB_CAP
Para REGIN= Amrica Latina
1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0

-1,5
2,8 3,0 3,2 3,4 3,6 3,8

Valor observado

Grfico Q-Q normal de Log(10) de POBLAC


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0

-1,5
3,0 3,5 4,0 4,5 5,0 5,5

Valor observado

19
Grfico Q-Q normal de Mortalidad infantil (muertes por 1000 nacimientos
Para REGIN= Amrica Latina
1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0

-1,5
0 10 20 30 40 50 60 70 80

Valor observado

Grfico Q-Q normal de Tasa Nacimientos/Defunciones


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0

-1,5
1 2 3 4 5 6 7 8

Valor observado

20
Grfico Q-Q normal de Tasa de mortalidad (por 1.000 habitantes)
Para REGIN= Amrica Latina
1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0

-1,5
4 5 6 7 8 9 10 11

Valor observado

Grfico Q-Q normal de Tasa de natalidad (por 1.000 habitantes)


Para REGIN= Amrica Latina
1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0

-1,5
10 20 30 40

Valor observado

21
Grfico Q-Q normal de Habitantes en ciudades (%)
Para REGIN= Amrica Latina
1,5

1,0

,5

0,0
Normal esperado

-,5

-1,0

-1,5
40 50 60 70 80 90 100

Valor observado

KMO y prueba de Bartlett. La medida de la adecuacin muestral de Kaiser-Meyer-Olkin


contrasta si las correlaciones parciales entre las variables son pequeas. La prueba de esfericidad
de Bartlett contrasta si la matriz de correlaciones es una matriz identidad, que indicara que el
modelo factorial es inadecuado.

Si los componentes son estimados ya sea por Mxima verosimilitud o por Mnimos
cuadrados generalizados, la validacin del mtodo se efecta a travs de una dcima, prueba de
la bondad de ajuste. Esteestadstico 2 es usado para probar la especificacin de un modelo de k-
factores. La hiptesis a rechazar es que las predicciones del modelo k-factorial son buenos
estimadores de las correlaciones observadas. En otras palabras, que los k-factores son lo suficiente
para representar adecuadamente los datos. El estadstico, especialmente para grandes muestras,
puede implicar que ms factores deben ser agregados al modelo.

22
II.- ESCALAMIENTO MULTIDIMENSIONAL

El escalamiento multidimensional puede ser considerado como un mtodo alternativo al anlisis


factorial. En general, el objetivo de este mtodo es encontrar las dimensiones fundamentales
significativas que permiten al investigador explicar las similaridades o disimilaridades (distancias)
observadas entre los objetos investigados. En el anlisis factorial, las similaridades entre los objetos
(es decir, las variables) estn expresadas en la matriz de correlaciones. Con el escalamiento
multidimensional es posible analizar cualquier tipo de matriz de similaridad o disimilaridad, adems de
las matrices de correlacin.
Las principales aplicaciones en el rea de la Mercadotecnia se deben al anlisis de (1) las
percepciones del consumidor sobre la semejanza de marcas y (2) las preferencias del consumidor
por las marcas. Este mtodo permite posicionar las marcas en un espacio n-dimensional, donde n es
la dimensin mnima fundamental de la relacin. Por tanto, podemos hablar de posicionar marcas y
preferencias relacionadas con las marcas en un espacio perceptual.
En general, existen tres tipos de escalas multidimensionales. Estos tipos, que se relacionan
con la naturaleza de los datos bsicos y resultantes, son los siguientes:

Completamente mtricas. Estos mtodos requieren medidas de datos bsicos de escala de


intervalos o de razn, y generan un conjunto de relaciones entre los objetos que tambin se
presentan en intervalos o razn.

Completamente no mtricas. Estos mtodos generalmente toman medidas de datos bsicos de


escala ordinal y generan el rango-orden de cada objeto en cada dimensin.

No mtricas . Estos mtodos toman medidas de datos bsicos de escala ordinal y generan un
conjunto de relaciones entre los objetos que se presentan en forma de datos de intervalo, es decir, la
distancia entre los objetos en el espacio perceptual tiene un significado til.

1.- Algoritmo de iteracin.

El escalamiento multidimensional no es un procedimiento exacto sino ms bien una manera de


reordenar los objetos en una manera eficiente hasta alcanzar una configuracin que mejor aproxime
las distancias observadas. El programa mueve los objetos alrededor del espacio definido por el
nmero de dimensiones y comprueba que las distancias puedan ser bien reproducidas por la nueva
configuracin. En trminos tcnicos, el programa usa un algoritmo minimizacin de funcin que
evala diferentes configuraciones con el objetivo de maximizar la bondad de ajuste.

Medidas de bondad de ajuste: Esfuerzo. La medida ms comnmente usada para evaluar cun
bien una configuracin particular reproduce la matriz de distancias observadas es la medida de
Esfuerzo. El Esfuerzo de una configuracin est definido por:

23

1/ 2
( d ij d$ij ) 2

Esfuerzo = i < j



i< j
d ij2

donde d$ij es una distancia lo ms cercana posible al dij a fin de minimizar el Esfuerzo. La
sumatoria en el denominador normaliza la funcin de Esfuerzo. Hay muchas medidas similares que
son comnmente empleadas para cuantificar la suma de las desviaciones al cuadrado entre las
distancias observadas y esperadas. Por lo tanto, mientras ms pequeo es la medida de Esfuerzo,
mejor ser el ajuste de la matriz de distancias reproducidas hacia la matriz de distancias observadas.

2.- Determinacin del nmero de dimensiones.

El objetivo es reducir la complejidad de la naturaleza de los datos observados, es decir, explicar la


matriz de distancia en trminos del mnimo nmero de dimensiones fundamentales. Para esto, es
posible establecer dos criterios:

3.- Diagrama de sedimentacin (Cattell). Grfica el valor del Esfuerzo contra el nmero de
dimensiones.

4.- Interpretabilidad de la configuracin. Consiste en determinar el nmero de dimensiones que


mejor facilitan la interpretacin de la configuracin final.

5.- Ejecucion de un anlisis de escalamiento multidimensional.

Para realizar un anlisis de escalamiento multidimensional a los datos, es necesario que elija en los
mens:

Estadsticos
Escala
Escalamiento multidimensional...

Los siguientes pasos en el anlisis corresponden a la seleccin del tipo de datos utilizados, la
estimacin del modelo de escalamiento y las diversas opciones que estn disponibles ya sea para
mostrar resultados como para detener el proceso de iteracin.

5.1.- Tipo de datos.

Este mtodo trabaja sobre la base de una matriz de distancias, la cual puede ser proporcionada en
forma directa (Los datos son distancias) o indirectamente (Crear distancias a partir de los
datos).

24
1. Si los datos son distancias, debe seleccionar al menos cuatro variables y puede pulsar en Forma
para indicar el tipo de matriz (simtrica, asimtrica y rectangular).

2. En el otro caso, el SPSS crear una matriz de distancia simtrica. Adems, puede crear matrices
distintas para cada categora de una variable moviendo esa variable a Matrices individuales
para. La opcin Medida permite especificar el tipo de medida de distancia que desea. Esta
opcin presenta las siguientes alternativas:

En Medida, seleccione la opcin que corresponda a su tipo de datos (de intervalo, de recuento o
binarios); a continuacin, en la lista desplegable, seleccione una de las medidas que corresponda
a ese tipo de datos.

En Transformar valores, permite estandarizar valores de datos para casos o variables antes de
calcular proximidades. Estas transformaciones no son aplicables a los datos binarios.

En Crear matriz de distancias, permite un anlisis Entre variables o Entre casos.

Luego, seleccione las variables para el anlisis.

5.2.- Modelo.

Para especificar el modelo de escalamiento multidimensional debe considerar el aspecto de los datos
y del modelo en s.

En Nivel de medida, permite especificar el nivel de los datos. Las opciones son:

25
Ordinal, trata los datos como categricos y realiza un anlisis no-mtrico. Si se selecciona
Desempatar observaciones empatadas se solicitar que sean consideradas como variables
continuas, de forma que los empates (valores iguales para casos diferentes) se resuelvan
ptimamente.

Intervalo, trata los datos como cuantitativos y realiza un anlisis mtrico.

Razn, trata los datos como cuantitativos y realiza un anlisis mtrico.

En Condicionalidad, permite especificar qu comparaciones tienen sentido. Las opciones son


Matriz, Fila o Incondicional.

En Dimensiones, permite especificar la dimensionalidad de la solucin o soluciones de


escalamiento. Se calcula una solucin para cada nmero del rango. Especifique enteros entre 1 y 6;
se permite un mnimo de 1 slo si selecciona Distancia eucldea como modelo de escalamiento. Para
una solucin nica, especifique el mismo nmero como mximo y mnimo.

En Modelo de escalamiento, permite especificar los supuestos por los que se realiza el
escalamiento. Las opciones disponibles son Distancia eucldea o Distancia eucldea de diferencias
individuales (tambin conocida como INDSCAL). Para el modelo de Distancia eucldea de
diferencias individuales, puede seleccionar Permitir ponderaciones negativas de sujetos, si es
adecuado para los datos.

5.3.- Opciones.

26
En el SPSS puede seleccionarse el tipo de informacin que necesita para la interpretacin de los
resultados y tambin determinar la detencin del algoritmo a travs de las siguientes opciones:

En Mostrar, permite seleccionar varios tipos de resultados ya sea tablas y grficos.

En Criterios, permite determinar cundo debe detenerse la iteracin. Esta puede detenerse ya sea
cuando algunos de los valores de cualquier de las alternativas se cumpla.

En Tratar distancias menores que n como perdidas, consiste en que las distancias menores que
este valor se excluyen del anlisis.

A fin de fijar las ideas anteriores, se desarrollar un ejemplo para describir de manera comprensiva
la aplicacin de este metodo mediante el uso del SPSS.

6.- Ejemplo. Supongamos que deseamos medir las percepciones del consumidor con relacin a la
similitud y preferencia de 11 modelos de automviles:

a.- Ford Taurus


b.- Mercury Sable
c.- Lincoln Continental
d.- Ford Thunderbird
e.- Ford Escort
f.- Cadillac El dorado
g.- Jaguar XJ Sedan
h.- Mazda 626
i.- Plymouth Sundance
j.- Biuck Le Sabre
k.- Chevrolet Cavalier

27
Para las similitudes, se necesita obtener de los consumidores el rango-orden de la similitud
de las 55 combinaciones de modelos de automviles, tomando dos a la vez. En general, exsten n(n-
1)/2 ordenes de rango que se han de obtener, donde n es el nmero de objetos de inters. Una
forma de hacerlo es colocar cada una de las 55 combinaciones en una tarjeta separada.
Posteriormente, se pide a los encuestados que clasifiquen por rango-orden las tarjetas en trminos
del par ms similar al par menos similar. Una de las posibilidades combinaciones de un consumidor
aparecen en la tabla de similitudes entre pares de modelos de automviles. Por ejemplo, en
este caso el consumidor consider que los automviles c y f era el par ms similar.

6.1.- Matriz de distancias.

Tabla rango-orden de similitudes entre pares de modelos de automviles.

Ford Mercury Lincoln Ford Ford Cadillac Jaguar XJ Mazda Plymout Biuck Le Chevrole
Taurus Sable Continenta Thunderbir Escort El Sedan 626 h Sabre t
l d dorado Sundance Cavalier
Ford Taurus 0 8 50 31 12 48 36 2 5 39 10
Mercury 8 0 38 9 33 37 22 6 4 14 32
Sable
Lincoln 50 38 0 11 55 1 23 46 41 17 52
Continental
Ford 31 9 11 0 44 13 16 19 25 18 42
Thunderbird
Ford Escort 12 33 55 44 0 54 53 30 28 45 7
Cadillac 48 37 1 13 54 0 26 47 40 24 51
El dorado
Jaguar 36 22 23 16 53 26 0 29 35 34 49
XJ Sedan
Mazda 626 2 6 46 19 30 47 29 0 3 27 15
Plymouth 5 4 41 25 28 40 35 3 0 20 21
Sundance
Biuck 39 14 17 18 45 24 34 27 20 0 43
Le Sabre
Chevrolet 10 32 52 42 7 51 49 15 21 43 0
Cavalier

Para realizar una anlisis de escalamiento multidimensional a la matriz de similitudes de


modelos de automviles dirgase a Estadsticos y seleccione la opcin Escala y, despus, la
alternativa Escalamiento multidimensional.
En el cuadro de dialogo Escalamiento multidimensional seleccione todas las variables (a
hasta k) y la opcin Los datos son distancias.

Adems, pulse en Modelo y seleccione las siguiente opciones:

Modelo...
Nivel de medida
Ordinal

28
Dimensiones
Mnimo: 2 Mximo: 2

Pulse Opciones y seleccione las siguientes alternativas:

Mostrar...
Grficos de grupo
Grficos de sujetos individuales
Matriz de datos

6.2.- Resultos del anlisis de escalamiento multidimensional.

Los resultados (tablas y grficos) obtenidos del SPSS se muestran a continuacin:

Raw (unscaled) Data for Subject 1

1 2 3 4 5 6 7 8 9 10

1 ,000
2 8,000 ,000
3 50,000 38,000 ,000
4 31,000 9,000 11,000 ,000
5 12,000 33,000 55,000 44,000 ,000
6 48,000 37,000 1,000 13,000 54,000 ,000
7 36,000 22,000 23,000 16,000 53,000 26,000 ,000
8 2,000 6,000 46,000 19,000 30,000 47,000 29,000 ,000
9 5,000 4,000 41,000 25,000 28,000 40,000 35,000 3,000 ,000
10 39,000 14,000 17,000 18,000 45,000 24,000 34,000 27,000 20,000 ,000
11 10,000 32,000 52,000 42,000 7,000 51,000 49,000 15,000 21,000 43,000

Iteration history for the 2 dimensional solution (in squared distances)

Young's S-stress formula 1 is used.

Iteration S-stress Improvement

1 ,14147
2 ,09884 ,04263
3 ,08335 ,01549
4 ,07347 ,00988
5 ,06568 ,00779

29
6 ,06033 ,00536
7 ,05656 ,00377
8 ,05364 ,00292
9 ,05131 ,00233
10 ,04941 ,00190
11 ,04783 ,00159
12 ,04644 ,00138
13 ,04521 ,00123
14 ,04419 ,00102
15 ,04350 ,00069

Iterations stopped because


S-stress improvement is less than ,001000
En este caso, la iteracin se detiene al satisfacerse el primer criterio.

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.

For matrix
Stress = ,04717 RSQ = ,98905

Configuration derived in 2 dimensions

Stimulus Coordinates

Dimension

Stimulus Stimulus 1 2
Number Name

1 A 1,2089 ,3568
2 B ,2442 ,3328
3 C -1,9523 ,0223
4 D -,6279 ,1926
5 E 1,9226 -,8934
6 F -1,9368 -,2685

30
7 G -,9811 1,2333
8 H ,7031 ,3976
9 I ,5072 -,0113
10 J -,7548 -,7510
11 K 1,6670 -,6114

Optimally scaled data (disparities) for subject 1

1 2 3 4 5 6 7 8 9 10

1 ,000
2 ,925 ,000
3 3,205 2,274 ,000
4 1,803 ,925 1,325 ,000
5 1,325 2,006 3,982 2,712 ,000
6 3,205 2,274 ,291 1,325 3,910 ,000
7 2,274 1,386 1,386 1,325 3,637 1,770 ,000
8 ,466 ,574 2,712 1,347 1,8032 ,723 1,803 ,000
9 ,574 ,466 2,444 1,386 1,770 2,444 2,006 ,466 ,000
10 2,274 1,325 1,325 1,325 2,712 1,386 2,006 1,770 1,386 ,000
11 1,071 1,803 3,637 2,444 ,574 3,620 3,205 1,325 1,386 2,444

Grfico de ajuste no lineal


Modelo de distancia eucldea
5

2
Distancias

0
0 10 20 30 40 50 60

Observaciones

31
Grfico de transformacin
Modelo de distancia eucldea
5

2
Distancias

0
0 10 20 30 40 50 60

Observaciones

La siguiente figura se conoce como el diagrama de Shepard, el cual despliega las distancias
observadas contra las distancias reproducidas. Si todas las distancias reproducidas son idnticas a
las distancias observadas, por lo tanto, todos los puntos en este diagrama se encontraran a lo largo
de una lnea recta.

Grfico de ajuste lineal


Modelo de distancia eucldea
5

2
Distancias

0
0 1 2 3 4 5

Disparidades

La siguiente figura representa la configuracin final obtenida despus de que el modelo es


ajustado sucesivamente hasta que se cumpla al criterio establecido en Opciones (el proceso

32
converge en la iteracin nmero 15, o sea, la convergencia del S-stress es mejor que 0,001). La
interpretacin de los ejes (o dimensiones) facilita la tarea para la determinacin de los gustos y
preferencias de los consumidores. En este caso, en particular, la matriz de distancia esta asociada
a la percepcin que tiene un consumidor a cerca de la similitud entre los modelos de automviles.
Por lo tanto, mediante este espacio perceptual bidimensional es posible establecer segmentos
competitivos originados por la posicin relativa que tienen los modelos dentro de este espacio.
Tambin, puede identificarse la combinacin de atributos preferidos, productos sustitutos y otros
aspectos relacionados con el producto y el mercado.

Configuracin de estmulos derivada


Modelo de distancia eucldea
1,5
g

1,0

,5 h a
b
d
c i
0,0
f
Dimensin 2

-,5 k
j
e
-1,0
-3 -2 -1 0 1 2

Dimensin 1

33
III.- ANLISIS DISCRIMINANTE.

El anlisis discriminante es una tcnica apropiada en el caso de una variable dependiente nominal y
variables independientes de intervalos. Las variables dependientes nominales son muy comunes en el
rea del marketing; por ejemplo, riesgos de crdito bueno versus crdito malo, consumidores leales a
una marca versus consumidores no leales, diferentes usuarios de marcas y vendedores con xito
versus vendedores sin xito. Como resultado, este mtodo se ha aplicado en forma extensiva en la
investigacin de mercados.
La idea del anlisis discriminante es encontrar una combinacin lineal de las variables
independientes (o, para ms de dos grupos, un conjunto de combinaciones lineales) tal que los
puntajes medios de las categoras de la variable dependiente, en esta combinacin lineal, se
diferencien en forma mxima. Esta combinacin lineal recibe el nombre de funcin discriminante
(FD). En smbolos,

FD = v1 X1 + v2 X2 + ... + vm Xm

donde Xm es la m-sima independiente. El propsito es encontrar los valores para los v, los cuales
dan la FD requerida. El criterio que se emplea para decidir cuando son diferentes al mximo las
medias de grupo, es la conocida prueba ANOVA F, para las diferencias entre medias. Por tanto, las
v se derivan de tal forma que

SCentre grupo
F=
SCdentro grupo

se maximiza. El anlisis discriminante tambin llamado anlisis de identificacin o asignacin,


requiere una clasificacin a priori de la muestra y el objetivo es establecer las fronteras entre esos
grupos (o clases) dados, a fin de asignar un nuevo individuo a uno de ellos.

1.- Supuestos.

El anlisis discriminante es muy similar a un anlisis de varianza y, por lo tanto, se aplican todos los
supuestos en un anlisis de varianza (ANOVA). De hecho, pueden utilizarse las pruebas estadsticas
y diagnostico de supuestos que estn disponibles en un ANOVA, a objeto de examinar los datos
antes de un anlisis discriminante. Este mtodo considera los siguientes supuestos:

Distribucin normal. Este asume que los datos representan una muestra con una distribucin
normal multivariada. Por lo tanto, pueden examinarse las variables si o no estn normalmente
distribuidas mediante grficos de distribucin de frecuencias (histogramas). Estas pueden obtenerse
a travs del men Grficos.

Homogeneidad de varianzas y covarianzas. Esta asume que las matrices de


varianzas/covarianzas de las variables son homogneas a travs de los grupos. Por lo tanto, ser
necesario revisar las matrices de covarianzas y de correlacin intra-grupos. Estas matrices son
entregadas como resultado a travs de la opcin Estadsticas del anlisis discriminante. En el caso

34
de existir diferencias intente excluir los grupos de poco inters y realice una vez ms el anlisis. El
SPSS proporciona una prueba bastante rigurosa para comprobar la homogeneidad de las matrices de
varianzas/covarianzas

Pertenencia. Este asume que la pertenencia a un grupo es exclusiva (es decir, ningn caso
pertenece a ms de un grupo) y exhaustiva de modo colectivo ( es decir, todos lo casos son
miembros de un grupo).

2.- Ejemplo 1: Modelo discriminante para dos grupos.

Los datos se presentan en la tabla 1 y corresponden a informacin econmica y demogrfica de 46


pases, obtenidas del archivo wordl95.sav. En este ejemplo se aplica el mtodo anlisis discriminante
a la tabla a fin de generar una funcin discriminante mediante la combinacin de la informacin
contenida en las variables caloras, urbana, log_pib y log_pop. Este funcin permitira distinguir
entre pases de zona tropical y templada, y tambin la posterior clasificacin de pases ya sea en uno
de estos dos grupos, sobre la base de su informacin econmica y demogrfica (variables caloras,
urbana, log_pib y log_pop).
La muestra de datos fue previamente clasificada segn la variable clima (variable de
agrupacin), puesto que lo requiere el mtodo. El SPSS excluye los casos incompletos.

Tabla 1 - Datos econmicos y demogrficos de 46 pases.

PAS urbana caloras log_pib log_pob clima


Alemania 85 3443 04 05 8
Argentina 86 3113 04 05 8
Austria 58 3495 04 04 8
Bangladesh 16 2021 02 05 5
Brasil 75 2751 03 05 5
Camboya 12 2166 02 04 5
Colombia 70 2598 03 05 5
Costa Rica 47 2808 03 04 5
Chile 85 2581 03 04 8
China 26 2639 03 06 8
Dinamarca 85 3628 04 04 8
Ecuador 56 2531 03 04 5
El Salvador 44 2317 03 04 5
Espaa 78 3572 04 05 8
Estados Unid 75 3671 04 05 8
Filipinas 43 2375 03 05 5
Francia 73 3465 04 05 8
Gabn 46 2383 04 03 5
Gran Bretaa 89 3149 04 05 8
Grecia 63 3825 04 04 8

35
Guatemala 39 2235 03 04 5
Haiti 29 2013 03 04 5
Hunga 64 3644 04 04 8
Indonesia 29 2750 03 05 5
Irlanda 57 3778 04 04 8
Liberia 45 2382 03 03 5
Malasia 43 2774 03 04 5
Nicaragua 60 2265 03 04 5
Nigeria 35 2312 02 05 5
Noruega 75 3326 04 04 8
Nueva Zeland 84 3362 04 04 8
Pases Bajos 89 3151 04 04 8
Panam 53 2539 03 03 5
Rep. Dominic 60 2359 03 04 5
Ruanda 6 1971 02 04 8
Rumana 54 3155 03 04 8
Senegal 40 2369 03 04 5
Singapur 100 3198 04 03 5
Suiza 62 3562 04 04 8
Tailandia 22 2316 03 05 5
Turqua 61 3236 04 05 8
Uganda 11 2153 03 04 5
Uruguay 89 2653 03 04 8
Venezuela 91 2582 03 04 5
Vietnam 20 2233 02 05 5
Zambia 42 2077 03 04 5

Para realizar una anlisis discriminante a los datos de la tabla 1, es necesario que elija en los mens:

Estadsticos
Clasificar
Discriminante...

Luego, seleccione las variables para el anlisis.

Variable de agrupacin: clima


Definir rango...
Mnimo: 5
Mximo: 8

Independientes: caloras, log_pib, log_pop,urbana

36
Para verificar los supuestos del mtodo y analizar los coeficientes de la funcin pulse en
Estadsticos. Mostrar un cuadro de dialogo en donde seleccione las siguientes alternativas:

Estadsticos...
Descriptivos
Medias
ANOVAs univariados
M de Box
Matrices
Covarianza de grupos separados

Por otra parte, en el cuadro de dialogo Clasificar es posible especificar las probabilidades de
pertenencia a los grupos, el tipo de matriz utilizada para clasificar los casos y seleccionar los
resultados requeridos para el anlisis. Por lo tanto, pulse Clasificar y seleccione lo siguiente:

37
Clasificar...
Mostrar
Resultados para cada caso
Tabla de resumen

2.1.- Verificacin de los supuestos.

Una de los supuestos necesarios para el mtodo es la igualdad de las matrices de covarianza de
grupo. Por ejemplo, las varianzas de caloras deben ser iguales en los dos grupos de piases ( o en
todos los grupos en un problema multivariado), y la varianzas poblacional entre caloras y urbana
deben ser iguales para los grupos. En el caso de que las observaciones en un grupo sigan una
distribucin normal multivariadas, los grupos formaran elipsoides de concentracin de puntos, los
cuales estaran construidos usando la misma media, la desviacin estndar y la matriz de covarianza
de cada grupo.
El SPSS provee el estadstico multivariado M de Box para probar la hiptesis nula que las
matrices de covarianzas son iguales.
Los valores de esta tabla Logaritmo de los determinantes dan una indicacin de las
matrices de covarianzas que ms difieren. En esta tabla se observan una dispersin de los puntos del
grupo tropical relativamente menor al otro grupo.

38
Logaritmo de los determinantes

Logaritmo
Clima del
predominante Rango determinante
tropical 4 12,954
templado 4 14,498
Intra-grupos
4 13,971
combinada
Los rangos y logaritmos naturales de los
determinantes impresos son los de las
matrices de covarianza de los grupos.

Los resultados de la prueba se muestra en la tabla a continuacin. La hiptesis nula de igual


en las matrices de covariancias poblacionales no se rechaza. Note, sin embargo, puede existir
situaciones con matrices de covarianzas poblacionales no son demasiado diferentes, en donde la
prueba puede ser significativa. Esto puede ocurrir cuando los tamaos muestrales intra-grupos son
grandes o cuando es violada el supuesto de normalidad multivariada.

Resultados de la prueba

M de Box 13,861
F Aprox. 1,248
gl1 10
gl2 8603,929
Sig. ,255

Adems, es importante comparar las desviaciones estndar de cada variable dentro de los
grupos. En la tabla Estadstico del grupo es posible analizar estas diferencias de las variables. Se
observa que caloras presenta la mayor diferencias de las varianzas entre las dos climas. Las otras
variables no evidencia diferencias en las varianzas.

39
Estadsticos del grupo

N vlido (segn lista)


Clima No
predominante Media Desv. tp. ponderados Ponderados
tropical caloras 2420,2800 281,3498 25 25,000
Log_pib 2,9895 ,4579 25 25,000
Log_pob 4,1805 ,6231 25 25,000
urbana 45,1200 22,5801 25 25,000
templado caloras 3258,0476 464,0787 21 21,000
Log_pib 3,8537 ,5515 21 21,000
Log_pob 4,2965 ,6651 21 21,000
urbana 68,7619 21,3680 21 21,000
Total caloras 2802,7391 562,0886 46 46,000
Log_pib 3,3841 ,6607 46 46,000
Log_pob 4,2334 ,6380 46 46,000
urbana 55,9130 24,8317 46 46,000

La siguiente matiz de covarianza permite comparar las varianzas de las variables en los
grupos.
Matrices de covarianza

Clima caloras Log_pib Log_pop urbana


predominante
tropical caloras 79157,710 100,598 -11,054 4357,590
Log_pib 100,598 ,210 -,097 7,569
Log_pop -11,054 -,097 ,388 -3,766
urbana 4357,590 7,569 -3,766 509,860
templado caloras 215369,0 206,070 -29,453 4018,762
Log_pib 206,070 ,304 -,085 8,121
Log_pop -29,453 -,085 ,442 -2,471
urbana 4018,762 8,121 -2,471 456,590

El estadstico Lambda de Wilks (Pruebas de la igualdad de las medias de los grupos) es


usado para probar la hiptesis nula que la media de todas las variables a travs de los grupos son
iguales. Los valores del estadstico lambda de Wilks son de 0 a 1. Los valores ms pequeos indican
una fuerte diferencias entre los grupos. Segn la tabla, los valores del estadstico F indica que las
diferencias son altamente significativas de las medias de las variables entre los dos grupos, excepto
para la variable log-pop.

40
Pruebas de igualdad de las medias de los grupos

Lambda
de Wilks F gl1 gl2 Sig.
caloras ,437 56,782 1 44 ,000
Log_pib ,566 33,743 1 44 ,000
Log_pob ,992 ,372 1 44 ,545
urbana ,770 13,135 1 44 ,001

2.2.- Modelo discriminante.

El propsito principal de una anlisis discriminante esta relacionado al tema de la clasificacin


predictiva de casos. Una vez que el modelo ha sido terminado y las funciones discriminantes
derivadas, debemos preguntarnos que tan bien podemos predecir la pertenencia de un caso a un
grupo particular.

Funciones de clasificacin. Estas funciones son usadas para determinar la pertenencia de un caso
a grupo. Se obtienen tantas funciones de clasificacin como grupos existan. Las columnas de la
tabla coeficientes de la funcin de clasificacin contiene los coeficientes de la funcin para cada
grupo. Los coeficientes son calculados para maximizar las distancia entre los dos grupos.

Coeficientes de la funcin de clasificacin

Clima predominante
tropical templado
caloras ,002 ,008
Log_pib 20,647 21,007
Log_pob 13,502 14,111
urbana -,172 -,175
(Constante) -58,801 -78,712

Funciones discriminantes lineales de Fisher

La funcin de clasificacin para los pases en la zona tropical son.

Ztrop = 0,002 caloras + 20,647 log_pib + 13,502 log_pop + -0,172 urbana - 58,801

La funcin de clasificacin para los pases en la zona templada son.

Ztemp = 0,008 caloras + 21,007 log_pib + 14,111 log_pop + -0,175 urbana - 78,712

Cada funcin permite calcular los puntajes de clasificacin para cada caso. Una vez realizado esto,
es fcil decidir como clasificar el caso: en general, un casos se dice pertenecer a un grupo cuando
su puntaje clasificacin a aquel grupo es mayor que a otros grupos.

41
Funcin discriminante lineal de Fisher. Cuando hay dos grupos pueden utilizarse las funciones
clasificacin para obtener la funcin discriminante lineal. En un diagrama de dispersin esta funcin
representa a una lineal que divide a los dos grupos. Los coeficientes de la funcin discriminante
lineal son calculados mediante la diferencia entre los coeficientes de las funciones de clasificacin
tropical y templada.

FD = (0,002 - 0,008) caloras + (20,647- 21,007) log_pib + (13,502 - 14,111) log_pop + (-


0,172 + 0,175) urbana + (- 58,801 + 78,712)

FD = - 0,006 caloras - 0,36 log_pib - 0,609 log_pop + 0,173 urbana + 19,911

2.3.- Resumen de la funcin cannica discriminante.

Autovalores. Mide la dispersin del centroides de los grupos. En este caso el autovalor es uno que
indica que los centroides de los dos grupos estn relativamente cerca. El autovalor corresponde al
cuociente entre la suma de cuadrados intra-grupos y suma de cuadrados inter-grupos.

Correlacin cannica. Mide la asociacin entre los puntajes discriminantes y los del grupo. Cuando
hay solamente dos grupos sta es la correlacin de Pearson..

Autovalores

% de % Correlacin
Funcin Autovalor varianza acumulado cannica
1 1,326a 100,0 100,0 ,755
a. Se han empleado las 1 primeras funciones
discriminantes cannicas en el anlisis.

Lambda de Wilks. Este indica la proporcion de la varianza total en los puntajes discriminantes que
no son explicados por las diferencias entre los grupo. En este caso, casi el 50% de la varianza no es
explicada por las difrencias de los grupos. El lambda es docimado con una distribucion 2. Con una
2 de 35,46 se tiene que la diferencia entre los dos centroides es significativa, considerando las
medias de las variables simulktaneamente.
Lambda de Wilks

Contraste Lambda
de las de Wilks Chi-cuadrado gl Sig.
funciones
1 ,430 35,460 4 ,000

Coeficientes estandarizados de las funciones cannicas discriminantes. Estos proporcionan


una indicacin ms verdadera de la contribucin relativa de cada variable a la funcin discriminante.

42
Coeficientes estandarizados de las
funciones discriminantes cannicas

Funcin
1
caloras ,951
log_pib ,080
log_pop ,173
urbana -,026

Matriz de estructura. Una manera para determinar que variables son las que definen una funcion
discriminante es observar las correlaciones intra-grupo de cada variable predictora con la variable
cannica o funcion discriminante (mostradas en la matriz de estructura). Haciando una anlogia al
anlisis factorual, esstos correalaciones pueden pensarse como cargas factoriales de las variables en
cada funcion discriinante.

Matriz de estructura

Funcin
1
caloras ,986
Log_pib ,760
Log_pob ,474
urbana ,080

Funciones en los centroides de los grupos. Esta tabla indica los valores tomados por las
funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos.

Funciones en los
centroides de los grupos

Clima Funcin
predominante 1
tropical -1,032
templado 1,229

2.4.- Clasificacin de los casos.

Estadsticos por caso. Esta tabla. permite comparar la informacin de los miembros de su grupo
actual a los miembros pronosticados por el mtodo. La pertenencia de un caso a uno de los dos
grupos, se calcula a travs de la funciones de clasificacin. Adems se entrega la probabilidad de
pertenencia de un caso a uno de los dos grupos.

43
Estadsticos por casos
Puntua
ciones
discrimi
Grupo mayor Segundo grupo mayor nantes

Distancia de Distancia de
Mahalanobis Mahalanobis
Nmero al cuadrado al cuadrado
de Grupo Grupo P(D>d | G=g) P(G=g | hasta el P(G=g | hasta el Funcin
casos real pronosticado p gl D=d) centroide Grupo D=d) centroide 1
Original 1
8 8 ,499 1 ,983 ,457 5 ,017 8,629 1,905
2 8 8 ,707 1 ,847 ,141 5 ,153 3,556 ,854
3
8 8 ,568 1 ,979 ,327 5 ,021 8,025 1,801
4
5 5 ,402 1 ,988 ,702 8 ,012 9,606 -1,870
5 5 8** ,261 1 ,503 1,266 5 ,497 1,291 ,104
6
5 5 ,456 1 ,986 ,554 8 ,014 9,035 -1,777
7
5 5 ,581 1 ,787 ,305 8 ,213 2,922 -,480
8 5 5 ,395 1 ,653 ,725 8 ,347 1,988 -,181
9
8 5** ,676 1 ,834 ,175 8 ,166 3,397 -,614
10
8 5** ,306 1 ,561 1,046 8 ,439 1,534 -,010
11 8 8 ,409 1 ,988 ,682 5 ,012 9,529 2,055
12
5 5 ,815 1 ,884 ,055 8 ,116 4,110 -,798
13 5 5 ,715 1 ,967 ,134 8 ,033 6,901 -1,398
14 8 8 ,365 1 ,990 ,820 5 ,010 10,028 2,134
15
8 8 ,155 1 ,997 2,022 5 ,003 13,565 2,651
16 5 5 ,953 1 ,919 ,003 8 ,081 4,852 -,974
17
8 8 ,476 1 ,985 ,507 5 ,015 8,840 1,941
18
5 5 ,779 1 ,961 ,079 8 ,039 6,462 -1,313
19 8 8 ,906 1 ,908 ,014 5 ,092 4,596 1,111
20
8 8 ,169 1 ,997 1,890 5 ,003 13,221 2,604
21
5 5 ,628 1 ,975 ,235 8 ,025 7,542 -1,517
22 5 5 ,240 1 ,995 1,382 8 ,005 11,812 -2,208
23
8 8 ,375 1 ,990 ,787 5 ,010 9,912 2,116
24
5 5 ,258 1 ,500 1,278 8 ,500 1,279 ,098
25 8 8 ,243 1 ,994 1,362 5 ,006 11,754 2,396
26
5 5 ,726 1 ,966 ,123 8 ,034 6,820 -1,383
27
5 5 ,315 1 ,571 1,009 8 ,429 1,579 -,028
28 5 5 ,537 1 ,981 ,381 8 ,019 8,287 -1,650
29
5 5 ,897 1 ,945 ,017 8 ,055 5,714 -1,162
30 8 8 ,961 1 ,935 ,002 5 ,065 5,336 1,278
31 8 8 ,927 1 ,941 ,008 5 ,059 5,535 1,320
32
8 8 ,792 1 ,877 ,069 5 ,123 3,992 ,966
33 5 5 ,883 1 ,902 ,022 8 ,098 4,470 -,885
34
5 5 ,805 1 ,957 ,061 8 ,043 6,288 -1,279
35
8 5** ,214 1 ,995 1,546 8 ,005 12,284 -2,276
36 8 8 ,771 1 ,870 ,085 5 ,130 3,882 ,938
37
5 5 ,836 1 ,954 ,043 8 ,046 6,095 -1,240
38
5 8** ,717 1 ,850 ,131 5 ,150 3,606 ,867
39 8 8 ,463 1 ,985 ,539 5 ,015 8,974 1,963
40
5 5 ,972 1 ,933 ,001 8 ,067 5,271 -1,067
41
8 8 ,966 1 ,934 ,002 5 ,066 5,307 1,271
42 5 5 ,496 1 ,984 ,464 8 ,016 8,657 -1,713
43
8 5** ,663 1 ,828 ,190 8 ,172 3,332 -,596
44
5 5 ,642 1 ,818 ,216 8 ,182 3,227 -,567
45 5 5 ,719 1 ,967 ,130 8 ,033 6,871 -1,392
46
5 5 ,336 1 ,991 ,925 8 ,009 10,387 -1,994
**. Caso mal clasificado

44
Por ejemplo, para el caso 2 (Argentina) el puntaje de pertenencia a las zonas es:

Ztrop= (0,002 x 3113) + (20,647 x 3,53) + (13,502 x 4,53) + (-0,172 x 86) - 58,801 = 66,68

La funcin de clasificacin para los pases en la zona templada son.

Ztemp= (0,008 x 3113) + (21,007 x 3,53) + (14,111 x 4,53) + (-0,175 x 86) - 78,712 = 69,21

El puntaje de pertenencia de Argentina es mayor para la zona templada (grupo 8). Por lo
tanto, Argentina es clasificado como un pas de clima templado.

Distancias Mahalanobis (D2). Esta es una medida de distancias entre dos puntos en un espacio
definido por dos o ms variables (dimensiones) correlacionadas . Por ejemplo, si hay dos variables
que no estn correlacionadas, entonces las distancias Mahalanobis entre los puntos insertos en un
espacio bidimensional seria idntica a la distancia Euclidiana, esto es, la distancia, por ejemplo,
medida por una regla. ahora bien, en los casos de tener dos variables correlacionadas los ejes que
definen el espacio ya no serian ortogonales, por lo tanto, la distancia Euclidiana no correspondera a
una mtrica apropiada, mientras que la distancias Mahalanobis explicara adecuadamente las
similitudes entre los puntos.

Distancias Mahalanobis y la probabilidad de pertenencia de los casos. A cada grupo puede


definirse un punto que representa las media del grupo. Estos puntos son llamados centroides del
grupo. Entonces, para cada punto asociado a un caso puede calcularse las distancias Mahalanobis
con respecto a los centroides de los grupos. Por lo tanto, podemos clasificar los casos pertenecientes
a un determinado grupo, de acuerdo con el criterio de la menor de las distancias Mahalanobis. Los
casos con grandes valores distancias Mahalanobis de la media del grupo pueden ser identificados
como casos atpicos. Para muestras grandes de una distribucin normal multivariada, la distancia
Mahalanobis de una caso a la media de su grupo es distribuida aproximadamente como una 2 con
grados de libertad igual al nmero de variables en la funcin.
La probabilidad de pertenencia indica que tanto se identifica un caso a las caractersticas
de un determinado grupo. Estas probabilidades son derivadas de las distancias Mahalanobis.
Por ejemplo, la probabilidad de pertenecer Argentina al grupo 8 (0,70) es bastante alta
comparada a la probabilidad de pertenencia al grupo 5 (0,15). Estas probabilidades son derivadas del
calculo de las distancias Mahalanobis entre el caso y el centroide del grupo.

2.5.- Prediccin.

Un resultado que cualquiera debera observar para determinar que tan bien las funciones de
clasificacin pronostica que los casos sean miembros de un grupo es la matriz de clasificacin.

Resultados de la clasificacin. Esta tabla muestra el nmero (o porcentaje) de casos clasificados


correctamente e incorrectamente. Entre los 25 pases tropical (grupo 5), 23 (92%) estn clasificados
correctamente y 2 (8%) estn clasificados incorrectamente. Para la zona templada, 17 (81%) pases

45
estn clasificados correctamente y 4 (19%) estn mal clasificados. En general, el 87% de los casos
de la muestra estn clasificados correctamente.

Resultados de la clasificacina

Grupo de pertenencia
Clima pronosticado
predominante tropical templado Total
Original Recuento tropical 23 2 25
templado 4 17 21
% tropical 92,0 8,0 100,0
templado 19,0 81,0 100,0
a. Clasificados correctamente el 87,0% de los casos agrupados originales.

3.- Ejemplo 2: Modelo discriminante para multi-grupos.

El objetivo de este ejemplo es la obtencin de un modelo para cuatro grupos usando algn mtodo de
seleccin de variables. Los datos relacionados con estas variables estn contenidos en la tabla 2.
La idea es construir funciones discriminantes a partir de la combinacin de algunas variables
independientes (espvidaf, mortinf, alfabet, tasa_nat, tasa_mor, fertilid, urbana, log_pib,
inc_pob, nac_def y log_pob) que mejor pronostiquen la clasificacin de un pas (caso) dentro de
una regin geogrfica: Europa, Asia/Pacfico, Medio Oriente y Amrica Latina.

Tabla 2 - Datos econmicos y demogrficos de 60 pases.

PAS urbana espvidaf alfabet inc_po mortin regin tasa_nat tasa_mo log_pib nac_def fertilid log_pob
Afghanistan 18 44 29 3 168 3 53 22 02 02 7 04
Corea del Su 72 74 96 1 22 3 16 6 04 03 2 05
China 26 69 78 1 52 3 21 7 03 03 2 06
Filipinas 43 68 90 2 51 3 27 7 03 04 3 05
Hong Kong 94 80 77 0 6 3 13 6 04 02 1 04
India 26 59 52 2 79 3 29 10 02 03 4 06
Indonesia 29 65 77 2 68 3 24 9 03 03 3 05
Japn 77 82 99 0 4 3 11 7 04 02 2 05
Malasia 43 72 78 2 26 3 29 5 03 06 4 04
Pakistn 32 58 35 3 101 3 42 10 03 04 6 05
Singapur 100 79 88 1 6 3 16 6 04 03 2 03
Tailandia 22 72 93 1 37 3 19 6 03 03 2 05
Taiwan 71 78 91 1 5 3 16 . 04 . . 04
Arabia Saud 77 70 62 3 52 5 38 6 04 06 7 04
Armenia 68 75 98 1 27 5 23 6 04 04 3 04
Egipto 44 63 48 2 76 5 29 9 03 03 4 05
Emiratos ra 81 74 68 5 22 5 28 3 04 09 5 03
Irn 57 67 54 3 60 5 42 8 03 05 6 05
Iraq 72 68 60 4 67 5 44 7 03 06 7 04
Israel 92 80 92 2 9 5 21 7 04 03 3 04

46
Jordania 68 74 80 3 34 5 39 5 03 08 6 04
Kuwait 96 78 73 5 13 5 28 2 04 14 4 03
Lbano 84 71 80 2 40 5 27 7 03 04 3 04
Libia 82 65 64 4 63 5 45 8 04 06 6 04
Siria 50 68 64 4 43 5 44 6 03 07 7 04
Turqua 61 73 81 2 49 5 26 6 04 04 3 05
Argentina 86 75 95 1 26 6 20 9 04 02 3 05
Bolivia 51 64 78 3 75 6 34 9 03 04 4 04
Brasil 75 67 81 1 66 6 21 9 03 02 3 05
Colombia 70 75 87 2 28 6 24 6 03 04 2 05
Costa Rica 47 79 93 2 11 6 26 4 03 07 3 04
Cuba 74 78 94 1 10 6 17 7 03 02 2 04
Chile 85 78 93 2 15 6 23 6 03 04 3 04
Ecuador 56 73 88 2 39 6 26 6 03 04 3 04
Guatemala 39 67 55 3 57 6 35 8 03 04 5 04
Mxico 73 77 87 2 35 6 28 5 04 06 3 05
Nicaragua 60 67 57 3 53 6 35 7 03 05 4 04
Panam 53 78 88 2 17 6 25 5 03 05 3 03
Paraguay 48 75 90 3 25 6 33 5 03 07 4 04
Per 70 67 85 2 54 6 26 7 03 04 3 04
Rep. Domini 60 70 83 2 52 6 25 6 03 04 3 04
Uruguay 89 77 96 1 17 6 17 10 03 02 2 04
Venezuela 91 76 88 2 28 6 26 5 03 05 3 04

Para obtener el mejor modelo discriminante, que no necesariamente deba incluir todas las
variables independientes o predictoras, se utilizar un mtodo de seleccin de variables.

Para realizar una anlisis discriminante a los datos de la tabla 2, es necesario que elija en los mens:

Estadsticos
Clasificar
Discriminante...

Luego, seleccione las variables para el anlisis.

Variable de agrupacin: regin


Definir rango...
Mnimo: 3
Mximo: 6

Independientes: espvidaf, mortinf, alfabet, tasa_nat, tasa_mor, fertilid, urbana, log_pib,


inc_pob, nac_def, log_pob

Usar un mtodo de inclusin por pasos

47
Mtodos de seleccin de variables. Probablemente la manera ms comn de uso del anlisis
discriminante es incluir varias medidas al inicio del estudio a fin de determinar algunas que mejor
discriminan entre los grupos. El SPSS entrega varios mtodos para construir un modelo usando
procedimiento por pasos, que consisten ingresar o remover una variable independiente del modelo a
cada paso. Especficamente, en cada paso el SPSS revisa todas las variables y evala cual
contribuye ms a la discriminacin entre los grupos (es decir, aumentar la diferencia de las medias
entre los grupos). Entonces, esta variable ser incluida en el modelo, el SPSS procede al siguiente
paso para incluir una nueva variable. Los mtodos para controlar la entrada y salida de las variables
independientes de la funcin discriminante son:

Lambda de Wilks. El estadstico F es calculado a cada variable independiente presente (o


disponible), el cual mide el cambio en el lambda de Wilks cuando la variable es agregada al modelo.
La variable con el F ms grande (o el lambda de Wilks ms pequeo) ingresa al modelo. El SPSS
tambin comprueba las variables ya incluidas y, en consecuencia, remover la variable si el valor de
su F-salida es demasiado pequeo.

Distancias de Mahalanobis. En cada paso, ingresara la variable que maximiza las distancias
Mahalanobis entre los dos grupos ms cercanos.

La razn ms pequea de F. En cada paso, ingresa la variable que maximiza la razn ms


pequea de F para pares de grupo.

V de Rao. Tambin conocida como la traza de Lawley-Hotelling. En cada paso, ingresa la variable
el valor mayor de las V de Rao, la cual maximiza la diferencia entre las medias (centroides) de los
grupos.

La suma de la varianza no explicada. La suma de la varianza no explicada para todos los pares
de grupos tambin puede usarse como criterio para la seleccin de variables. La variable elegida
para ingresar es aquella que miniminiza la suma de la varianza no explicada.

48
En el cuadro de dialogo de anlisis discriminante pulse Mtodo, el cual despliega un nuevo
cuadro de dialogo, en el cual deber seleccionar:

Mostrar
F para distancias por parejas

Para obtener informacin acerca de las diferencias entre los grupos, igualdad de varianza de
las variables a travs de los grupos y los coeficientes de la variables cannicas realice lo siguiente:

En el cuadro de dialogo de anlisis discriminante pulse Estadsticos. Aparecer un nuevo


cuadro de dialogo, en el cual deber seleccionar:

Descriptivos
Medias
ANOVAs univariados
M de Box

Coeficientes de la funcin
De Fisher

Matrices
Correlacin intra-grupos

49
Para obtener un resumen y una informacin detallada del anlisis y, a la vez, grficos que
muestren las fronteras en el diagrama de dispersin seleccione las siguientes opciones en el cuadro
de dialogo Clasificacin:

Mostrar
Resultados para cada paso
Tabla de resumen
Clasificacin dejando uno fuera

Grficos
Grupos combinados
Grupos separados

3.1.- Verificacion de los supuestos.

Las variables utilizadas para la contsrucin del modelo discriminante deben cumplir con los
siguientes supuestos:

50
1. Las variables independientes se distribuyen normal.
2. Igual de varianzas y covarianzas de las variables a trves de los grupos.

Estadsticos del grupo. Esta tabla permite analizar si se cumplen los supuestos asociados con el
modelo. De esta, se observa las medias de las variables difieren entre los grupos (regin) y que las
desviaciones estndar de cada variables son tan similares entre los grupos.

51
Estadsticos del grupo

N vlido (segn lista)


Regin No
econmica Media Desv. tp. ponderados Ponderados
Asia / alfabet 74,3333 23,3563 12 12,000
Pacfico espvidaf 68,5000 10,8418 12 12,000
fertilid 3,1575 1,8874 12 12,000
inc_pob 1,5192 ,8965 12 12,000
log_pib 3,2416 ,7289 12 12,000
log_pob 4,8038 ,7866 12 12,000
mortinf 51,6000 47,8872 12 12,000
nac_def 3,0892 1,1027 12 12,000
tasa_mor 8,4167 4,5817 12 12,000
tasa_nat 25,0000 12,2993 12 12,000
urbana 48,5000 29,3025 12 12,000
Oriente alfabet 71,0769 14,6143 13 13,000
Medio espvidaf 71,2308 5,0192 13 13,000
fertilid 4,8685 1,5517 13 13,000
inc_pop 3,1300 1,1576 13 13,000
log_pib 3,5317 ,4071 13 13,000
log_pop 4,0012 ,5500 13 13,000
mortinf 42,6154 21,2122 13 13,000
nac_def 6,1697 3,0198 13 13,000
tasa_mor 6,1538 1,9513 13 13,000
tasa_nat 33,3846 8,7611 13 13,000
urbana 71,6923 15,7342 13 13,000
Amrica alfabet 84,5882 11,8325 17 17,000
Latina espvidaf 73,1176 4,9860 17 17,000
fertilid 3,1559 ,7871 17 17,000
inc_pop 1,9294 ,5865 17 17,000
log_pib 3,2205 ,2514 17 17,000
log_pop 4,1010 ,5062 17 17,000
mortinf 35,6529 20,2316 17 17,000
nac_def 4,2069 1,5159 17 17,000
tasa_mor 6,6765 1,7936 17 17,000
tasa_nat 25,9412 5,6841 17 17,000
urbana 66,2941 16,0459 17 17,000
Total alfabet 77,4762 17,3307 42 42,000
espvidaf 71,2143 7,2298 42 42,000
fertilid 3,6864 1,5949 42 42,000
inc_pop 2,1838 1,0872 42 42,000
log_pib 3,3229 ,4856 42 42,000
log_pop 4,2709 ,6875 42 42,000
mortinf 42,3643 30,8275 42 42,000
nac_def 4,4951 2,3225 42 42,000
tasa_mor 7,0119 2,9765 42 42,000
tasa_nat 27,9762 9,4469 42 42,000
urbana 62,8810 22,2099 42 42,000

52
Pruebas de la igualdad de las medias de los grupos. Para probar qu tan separados estn las
medias de cada variables en todos los grupos, el SPSS calcula el Lambda de Wilks, tambin
conocido como estadstico U, para determinar est diferencia. Este estadstico toma valores entre 0
y 1. Los valores pequeos indican que las medias de las variables difieren. El estadstico lambda de
Wilks es la razn entre la suma de cuadrados intra-grupos a la suma total de los cuadrados. El
estadstico F es la razn de la variabilidad inter-grupos a la variabilidad intra-grupos. Se observan
diferencias no significativas de las variables espvidaf, log_pib, mortinf y tasa_mor.

Pruebas de igualdad de las medias de los grupos

Lambda
de Wilks F gl1 gl2 Sig.
alfabet ,877 2,727 2 39 ,078
espvidaf ,930 1,468 2 39 ,243
fertilid ,748 6,577 2 39 ,003
inc_pob ,628 11,562 2 39 ,000
log_pib ,915 1,818 2 39 ,176
log_pob ,750 6,498 2 39 ,004
mortinf ,954 ,939 2 39 ,400
nac_def ,722 7,526 2 39 ,002
tasa_mor ,903 2,090 2 39 ,137
tasa_nat ,848 3,501 2 39 ,040
urbana ,818 4,351 2 39 ,020

Prueba de Box sobre la igualdad de las matrices de covarianza de los grupos. Para tamaos
de muestra suficientemente grandes, un valor de no significativo quiere decir que no hay evidencia
suficiente de que las matrices difieran. Esta prueba es sensible a las desviaciones de la normalidad
multivariada.

Logaritmo de los determinantes

Logaritmo
Regin del
econmica Rango determinante
Asia /
Pacfico 4 6,137
Oriente
4 5,797
Medio
Amrica
Latina 4 3,214
Intra-grupos
4 6,079
combinada
Los rangos y logaritmos naturales de los
determinantes impresos son los de las
matrices de covarianza de los grupos.

53
Resultados de la prueba

M de Box 48,599
F Aprox. 2,052
gl1 20
gl2 4585,168
Sig. ,004
Contrasta la hiptesis nula de que
las matrices de covarianza
poblacionales son iguales.

Matrices intra-grupos combinadas. Estas correlaciones pueden ser muy diferentes de las
correlaciones usuales en donde todos los casos son tratados como una sola muestra. Estas
correlaciones se calculan partir de las varianzas y covarianzas separadamente para cada grupo (por
ejemplo, si sus grupos son hombres y mujeres, para cada variable, las desviaciones son calculadas de
la media de los hombres y la media de las mujeres, respectivamente). Las varianzas y covarianzas
son, por lo tanto, combinadas para formar una matriz de covarianzas combinada. Las correlaciones
son calculadas desde las varianzas y covarianzas.
Conjuntos de variables que muestren una fuerte asociacin entre ellas generaran diferentes
subconjuntos alternativos de variables.

Matrices intra-grupo combinadas


alfabet espvidaf tasa_nat inc_pop log_pib log_pop mortinf nac_def tasa_mor tasa_nat urbana
alfabet 1,000 ,822 -,791 -,533 ,615 -,192 -,801 -,117 -,581 -,789 ,493
espvidaf ,822 1,000 -,742 -,417 ,792 -,322 -,975 ,095 -,768 -,790 ,646
fertilid -,791 -,742 1,000 ,688 -,533 ,083 ,722 ,279 ,491 ,962 -,498
inc_pob -,533 -,417 ,688 1,000 -,300 -,123 ,365 ,786 ,015 ,691 -,327
log_pib ,615 ,792 -,533 -,300 1,000 -,392 -,763 ,023 -,506 -,628 ,787
log_pob -,192 -,322 ,083 -,123 -,392 1,000 ,362 -,271 ,176 ,078 -,375
mortinf -,801 -,975 ,722 ,365 -,763 ,362 1,000 -,130 ,802 ,779 -,623
nac_def -,117 ,095 ,279 ,786 ,023 -,271 -,130 1,000 -,472 ,280 -,077
tasa_mor -,581 -,768 ,491 ,015 -,506 ,176 ,802 -,472 1,000 ,518 -,321
tasa_nat -,789 -,790 ,962 ,691 -,628 ,078 ,779 ,280 ,518 1,000 -,577
urbana ,493 ,646 -,498 -,327 ,787 -,375 -,623 -,077 -,321 -,577 1,000

3.2.- Seleccin de variables por pasos.

Variables no incluidas en el anlisis. Para entender la seleccin de variables por pasos. es


necesario revisar y contrastar las tablas variables no incluidas en el anlisis y variables en el anlisis.
En el paso 0 en la tabla de variables no incluidas en el anlisis, inc_pop tiene la ms grande
de las F-que-introducir y, tambin, el Lambda de Wilks ms pequeo, por lo tanto, el SPSS ingresa
esta variable al primer modelo. En el paso 1, urbana, presenta la F-que-introducir ms grande, as
que es incorporada al modelo. Los pasos restantes se analizan de la misma manera, as que las
variables log-pib y espvidaf son ingresadas al modelo.
El estadstico F-que-introducir, en el paso 0, es igual al calculado de un anlisis de varianza
(ANOVA) para los grupos usados en el anlisis discriminante.

54
En lo pasos siguientes, el F-que-introducir corresponde al F calculado de un anlisis de
covarianza donde los coeficientes covariados son las variables previamente ingresadas No es fcil
asociar probabilidades con las de estas F porque es necesaria la distribucin de la F ms grande. La
distribucin de la F ms grande esta afectada por el nmero de variables observadas, la estructura
de su correlacin, el nmero de grupos, y el tamao delas muestras de los grupos. Cuando las
variables independientes estn altamente correlacionadas, el valor crtico dela F puede ser mucho
ms grande para probar una sola variable preseleccionada.
Para cada variable, el Lambda de Wilks es usado para probar la igualdad de los centroides
entre los grupos usando el conjunto de variables incluyendo esta variable y aquellas ya incorporadas
al modelo.
Una variable con baja tolerancia es casi una funcin lineal de las otras, su inclusin en el
modelo puede generar clculos inestables o pocos confiables.

55
Variables no incluidas en el anlisis

Tolerancia F que Lambda


Paso Tolerancia mn. introducir de Wilks
0 alfabet 1,000 1,000 2,727 ,877
espvidaf 1,000 1,000 1,468 ,930
fertilid 1,000 1,000 6,577 ,748
inc_pob 1,000 1,000 11,562 ,628
log_pib 1,000 1,000 1,818 ,915
log_pob 1,000 1,000 6,498 ,750
mortinf 1,000 1,000 ,939 ,954
nac_def 1,000 1,000 7,526 ,722
tasa_mor 1,000 1,000 2,090 ,903
tasa_nat 1,000 1,000 3,501 ,848
urbana 1,000 1,000 4,351 ,818
1 alfabet ,716 ,716 3,542 ,529
espvidaf ,826 ,826 3,837 ,522
fertilid ,526 ,526 ,826 ,602
log_pib ,910 ,910 3,746 ,524
log_pob ,985 ,985 4,290 ,512
mortinf ,867 ,867 2,512 ,554
nac_def ,382 ,382 ,318 ,617
tasa_mor 1,000 1,000 1,620 ,578
tasa_nat ,522 ,522 ,447 ,613
urbana ,893 ,893 7,010 ,459
2 alfabet ,602 ,602 1,426 ,426
espvidaf ,536 ,536 ,358 ,450
fertilid ,443 ,443 1,318 ,428
log_pib ,379 ,372 4,545 ,368
log_pob ,791 ,718 1,505 ,424
mortinf ,583 ,583 ,113 ,456
nac_def ,346 ,310 ,420 ,448
tasa_mor ,888 ,793 ,185 ,454
tasa_nat ,384 ,384 ,474 ,447
3 alfabet ,486 ,306 4,387 ,296
espvidaf ,337 ,238 4,401 ,296
fertilid ,407 ,348 2,257 ,327
log_pob ,761 ,361 2,200 ,328
mortinf ,397 ,258 2,696 ,320
nac_def ,308 ,280 1,227 ,345
tasa_mor ,713 ,304 1,769 ,335
tasa_nat ,324 ,320 ,942 ,350
4 alfabet ,275 ,191 ,729 ,284
fertilid ,270 ,223 1,855 ,267
log_pob ,751 ,236 1,222 ,277
mortinf ,046 ,039 1,387 ,274
nac_def ,147 ,123 1,707 ,270
tasa_mor ,250 ,118 ,311 ,291
tasa_nat ,214 ,214 1,392 ,274

56
Variables en el anlisis. Para cada variable en el modelo, la F-que-introducir y el Lambda de
Wilks son usados para describir que sucede si la variable es sacada de el modelo estructurado en
ese momento. Por lo tanto, el Lambda de Wilks para la variable incorporada es igual al Lambda de
Wilks de todo el modelo del paso previo. La F-que-introducir para la variable ingresada es igual a su
F-que-introducir.

Variables en el anlisis

F que Lambda
Paso Tolerancia eliminar de Wilks
1 inc_pob 1,000 11,562
2 inc_pob ,893 14,875 ,818
urbana ,893 7,010 ,628
3 inc_pob ,888 14,535 ,657
urbana ,372 7,851 ,524
log_pib ,379 4,545 ,459
4 inc_pob ,807 12,861 ,507
urbana ,371 5,960 ,394
log_pib ,238 9,373 ,450
espvidaf ,337 4,401 ,368

3.3.- Resumen de la funciones cannicas discriminantes.

Autovalores. El primer valor propio (1,117) corresponde al primer vector propio, el cual se
encuentra en la direccin de la mxima dispersin de los centroides, el segundo valor propio
corresponde al segundo vector propio en la direccin que tiene la siguiente dispersin ms grande,
etc. La raz cuadrada de cada valor propio entrega una indicacin de la longitud de su
correspondiente vector propio.
La primera variable cannica explica el 65,2% de la dispersin total. La correlacin entre
cada variable cannica y el conjunto de variables ficticias definen la estructura de los grupos.

Autovalores

% de % Correlacin
Funcin Autovalor varianza acumulado cannica
1 1,117a 65,2 65,2 ,726
2 ,597a 34,8 100,0 ,611
a. Se han empleado las 2 primeras funciones
discriminantes cannicas en el anlisis.

Lambda de Wilks. En esta Tabla se muestra el contraste de la funciones 1 a la 2, en donde se


docima la hiptesis que las medias delas dos funciones (dos variables cannicas) son iguales en los
tres grupos. Una transformacin 2 del Lambda de Wilks es usado para determinar la significancia.

57
El valor p o nivel significativo observado es menor a 0,0005, por lo tanto, la hiptesis de igualada de
medias es rechazada.

Lambda de Wilks

Contraste Lambda
de las de Wilks Chi-cuadrado gl Sig.
funciones
1 a la 2 ,296 45,675 8 ,000
2 ,626 17,553 3 ,001

Variables cannicas estandarizadas. El nmero de variables cannicas es k-1 (donde k es el


nmero de grupos) o p (el nmero de variables), el menor de los dos.

Coeficientes estandarizados de las


funciones discriminantes cannicas

Funcin
1 2
espvidaf ,367 -1,170
inc_pob ,978 ,179
log_pib -,481 1,877
urbana ,894 -,814

Matriz de estructura. para cada variable, un arterisco indica que tiene la correlacin absoluta ms
grande con una de las tres variables cannicas.

58
Matriz de estructura

Funcin
1 2
nac_defa ,724* ,135
inc_pob ,676* ,370
urbana ,433* -,151
log_poba -,386* -,074
tasa_mora -,311* ,214
fertilida ,212 ,396*
tasa_nata ,173 ,338*
alfabeta -,074 -,304*
espvidaf ,156 -,284*
mortinfa -,192 ,282*
log_pib ,221 ,255*
Correlaciones intra-grupo combinadas entre las
discriminantes y las funciones discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la correlacin con la
*. Mayor correlacin absoluta entre cada variable y
funcin discriminante.
a. Esta variable no se emplea en el anlisis.

Funciones en los centroides de los grupos. En esta tabla se muestra la media de la variable
cannica por grupo. El contraste de los centroides de cada par de grupos es mostrada en la tabla
Comparacin de grupos por pares.

Funciones en los centroides de los


grupos

Regin Funcin
econmica 1 2
Asia /
-1,418 ,558
Pacfico
Oriente
Medio 1,220 ,664
Amrica
6,763E-02 -,901
Latina
Funciones discriminantes cannicas
no tipificadas evaluadas en las
medias de los grupos

Comparacin de grupos por pares. En esta tabla, los estadsticos F son usados para describir que
grupos son ms similares ( diferentes) y para probar la igualdad de las medias (centroides) para
cada par de grupos. Los datos son puntajes de las variables cannicas y las medias de los grupos
son desplegados en la tabla Funciones en los centroides de los grupos. El estadstico F para cada par
de los grupos es proporcional al estadstico T2 de Hotelling y la D2 Mahalanobis. Por lo tanto, es
posible pensar el estadstico F como una medida de distancia entre cada par.

59
Comparaciones de grupos por paresa,b,c,d

Regin Asia / Oriente Amrica


Paso econmica Pacfico Medio Latina
1 Asia / F 20,755 1,518
Pacfico Sig. ,000 ,225
Oriente F 20,755 13,611
Medio Sig. ,000 ,001
Amrica F 1,518 13,611
Latina Sig. ,225 ,001
2 Asia / F 20,219 4,702
Pacfico Sig. ,000 ,015
Oriente F 20,219 8,640
Medio Sig. ,000 ,001
Amrica F 4,702 8,640
Latina Sig. ,015 ,001
3 Asia / F 13,281 5,841
Pacfico Sig. ,000 ,002
Oriente F 13,281 7,245
Medio Sig. ,000 ,001
Amrica F 5,841 7,245
Latina Sig. ,002 ,001
4 Asia / F 10,038 7,040
Pacfico Sig. ,000 ,000
Oriente F 10,038 6,424
Medio Sig. ,000 ,001
Amrica F 7,040 6,424
Latina Sig. ,000 ,001
a. 1, 39 grados de libertad para el paso 1.
b. 2, 38 grados de libertad para el paso 2.
c. 3, 37 grados de libertad para el paso 3.
d. 4, 36 grados de libertad para el paso 4.

3.4.- Clasificacin de los casos.

Coeficientes de la funcin de clasificacin. En el modelo multi-grupo, hay una funcin de


clasifoicacin para cada grupo.

60
Coeficientes de la funcin de clasificacin

Regin econmica
Asia / Oriente Amrica
Pacfico Medio Latina
espvidaf 2,058 2,176 2,373
inc_pob 7,136 10,078 8,484
log_pib 5,732 3,486 -1,519
urbana -,351 -,241 -,229
(Constante) -77,784 -91,905 -86,015
Funciones discriminantes lineales de Fisher

Resultados de la clasificacion. El 81,45 de los casos totales son clasificados correctamente por
modelo de cinco variables. La clasificacion correcta de los casos es ms alta para los pases del
Asia/Pacifico (92,3%): El segundo grupo mejor clasificado corresponde a los paises de America
Latina.

61
Resultados de la clasificacinb,c

Grupo de pertenencia pronosticado


Regin Asia / Oriente Amrica
econmica Pacfico Medio Latina Total
Original Recuento Asia / Pacfico 12 1 0 13
Oriente Medio 3 8 2 13
Amrica Latina
2 0 15 17
Casos
desagrupados 17 0 0 17
% Asia / Pacfico 92,3 7,7 ,0 100,0
Oriente Medio 23,1 61,5 15,4 100,0
Amrica Latina
11,8 ,0 88,2 100,0
Casos
100,0 ,0 ,0 100,0
desagrupados
Validacin
a
Recuento Asia / Pacfico 11 1 1 13
cruzada Oriente Medio 3 8 2 13
Amrica Latina
2 0 15 17
% Asia / Pacfico 84,6 7,7 7,7 100,0
Oriente Medio 23,1 61,5 15,4 100,0
Amrica Latina
11,8 ,0 88,2 100,0

a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada,
cada caso se clasifica mediante las funciones derivadas a partir del resto de los
casos.
b. Clasificados correctamente el 81,4% de los casos agrupados originales.
c. Clasificados correctamente el 79,1% de los casos agrupados validados mediante
validacin cruzada.

3.5.- Grficos.

3.5.1- Grficos por grupos separados.

62
funciones discriminantes cannicas
Regin econmica = Europa (OCDE)
1,2

1,0

,8

,6

,4

,2

-,0
Centroide de grupo
Funcin 2

-,2
Centroide de grupo
-,4
-,6 OCDE
1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5

Funcin 1

funciones discriminantes cannicas


Regin econmica = Asia / Pacfico
1

-1

-2

Centroide de grupo
Funcin 2

-3
Centroide de grupo

-4 Asia / Pacfico
-3 -2 -1 0 1 2 3

Funcin 1

63
funciones discriminantes cannicas
Regin econmica = Oriente Medio
5

0
Centroide de grupo
Funcin 2

-1 Centroide de grupo

-2 Oriente Medio
-4 -3 -2 -1 0 1

Funcin 1

funciones discriminantes cannicas


Regin econmica = Amrica Latina
1,0

,5

0,0

-,5

Centroide de grupo
Funcin 2

-1,0
Centroide de grupo

-1,5 Amrica Latina


-4 -3 -2 -1 0 1

Funcin 1

3.5.2.- Diagrama de dispersin con todos los grupos.

64
funciones discriminantes cannicas
6

2
Oriente Medio
Regin econmica
OCDE
Amrica Latina Centroides de grupo
0

Asia / Pacfico Amrica Latina

-2 Oriente Medio
Funcin 2

Asia / Pacfico

-4 OCDE
-4 -2 0 2 4 6

Funcin 1

3.6.- Validacin del modelo.

El anlisis discriminante al igual que otros mtodos estadsticos multivariados se apoya en


determinados supuestos. As que, cumplir con los supuestos tambin es una manera de validacin del
modelo obtenido. Los supuestos ms crticos de este mtodo son: las variables independientes deben
tener una distribucin normal multivariada y las matrices de varianza-covarianza intra-grupos deben
ser iguales en todos los grupos. Para verificar estos supuestos el SPSS dispone de dcimas para
probar la hiptesis que los datos provienen de una distribucin normal y diagramas de probabilidad
normal para determinar grficamente desviaciones a la normalidad mediante las opciones en el
cuadro de dialogo de Explorar (Estadsticos / Resumir).

Tambin, es posible verificar la confiabilidad del modelo a travs de la validacin cruzada, es decir,
el SPSS calcula funciones de clasificacin para un subconjunto de cada grupo a fin de que analice
como el procedimiento clasifica los casos no utilizados para la generacin de estas nuevas funciones
discriminantes. Estos significa que nuevos datos pueden ser clasificados usando funciones derivadas
de los grupos originales. Por lo tanto, el mismo analista puede diseas su propia validacin cruzada
mediante una asignacin aleatoria de los casos a cada grupo para un conjunto de datos analizando y
para un conjunto de datos probado. Entonces, el SPSS estimara las funciones discriminantes usando
el conjunto de datos analizando y aplicar la funcin al resto de los casos (conjunto de datos probado).
La proporcin de clasificacin correcta para el conjunto de datos probado es una buena medida
emprica de la eficiencia del modelo discriminante.

65
IV.- ANLISIS CONJUNTO.

La investigacin de mercados esta enfocada frecuentemente a descubrir cules caractersticas de


un producto o servicio son ms importantes a los consumidores. El producto ideal o servicio
naturalmente tendra todas las mejores caractersticas, pero de acuerdo con la realidad existe un
compromiso de por medio. Por ejemplo, el producto de caractersticas ms costosas no puede tener
el ms bajo precio.
El anlisis conjunto es una tcnica para medir las preferencias del consumidor acerca de los
atributos de un producto o servicio. El anlisis conjunto es apropiado para analizar variables
independientes nominales y una variable dependiente ordinal. Esencialmente es un anlisis de
varianza de los datos de rango-orden. El beneficio de este mtodo es que genera medidas de nivel
de intervalos de los efectos de las categoras delas variables independientes.
Existen dos enfoques en este mtodo para analizar los datos recopilados, estos son:

1. Anlisis conjunto por comparacin de pares de perfiles.

2. Anlisis conjunto por comparacin totales de perfiles.

Sin embargo, el anlisis conjunto por comparacin totales de perfiles (tambin conocido
como mtodo por concepto total) es el explicado en este capitulo, debido a que este es considerado
como una de las tcnicas del anlisis conjunto ms realista. En esta tcnica todos los factores son
considerados simultneamente.
El SPSS tiene tres procedimiento de mtodo en el mdulo de Categoras - generacin de
diseo ortogonal, Despliegue del diseo y el anlisis conjunto - todos diseados para la tcnica por
comparacin totales de perfiles.

1.- Anlisis conjunto por comparacin totales de perfiles.

En esta tcnica, el encuestado se le pide que clasifique, ordene o coloque puntajes a un conjunto de
perfiles de acuerdo a su preferencia. En cada uno de estos perfiles, todos los factores de inters son
presentados y una combinacin diferente de niveles factoriales (caractersticas) aparecen. As, de
esta manera, todo un concepto esta descrito en cada perfil.

2.- Una ordenacin ortogonal.

Un inconveniente que est asociado al mtodo por comparacin totales de perfiles se debe cuando el
estudio a realizar considera un nmero elevado de atributos y , a su vez, cada uno de ellos presenta
varios niveles. Por lo tanto, el nmero total de perfiles resultantes de todas las posibles
combinaciones de los niveles genera encuestas demasiados grandes para que los encuestados
clasifiquen u ordenen de una manera razonable. Por esta razn, frecuentemente solo un conjunto
ms pequeo de todos los posibles perfiles es usado en la investigacin. Este subconjunto, llamado
un arreglo ortogonal, es un tipo de diseo, en el cual solamente los efectos principales son
considerados y las interacciones entre estas son asumidas ser despreciables.

66
El procedimiento de Generar Diseo Ortogonal en el modulo de Categoras del SPSS
produce un plan de efectos principales ortogonales. Desde los factores y niveles especificados, el
procedimiento Generar Diseo Ortogonal puede crear ya se un nuevo archivo de datos de trabajo
conteniendo el plan ortogonal o esta puede reemplazar el archivo de datos de trabajo utilizado.

3.- El estmulo experimental.

Segn mencionado en Recopilando y Analizando los Datos, la recoleccin de datos en el mtodo por
comparacin totales de perfiles requiere que el estimulo sea presentado a cada sujeto en cada
conjunto de perfiles individuales. Una vez que la ordenacin (o arreglo) sea elegido, cada ejemplo de
un producto completo debe colocarse en un perfil separado. Esto ayuda al encuestado a
concentrarse en solamente en el producto de ese momento bajo evaluacin. El estimulo debe
tambin ser estandarizado para asegurar que los perfiles todos sean similares en apariencia fsica,
excepto para las diferentes combinaciones de caractersticas.
El procedimiento de Generar Diseo Ortogonal en el modulo de Categoras del SPSS
efecta estas tareas tomando el diseo generado en Generar Diseo Ortogonal o ingresado por el
usuario e imprime los perfiles de concepto total en un formato listo para utilizar.

4.- Recolectando y analizando los datos.

Cada encuestado en el estudio se le entrega un completo conjunto de perfiles y se le pregunta que


indica sus preferencias para el producto. El investigador puede decirle al encuestado que indique la
preferencia de una o varias maneras. El encuestado puede ser consulado que asigne un puntaje a
cada perfil y, por lo tanto, a mayor puntaje ms altos son las preferencias. Alternativamente, puede
preguntarse al encuestado que asigne un rango a cada perfil clasificado de 1 a n, donde n es el
nmero total de perfiles y un nmero de clasificacin menor significa una mayor preferencia. Una
ligera variacin de esto es consultar al encuestado que ordene los perfiles de ms al menos
preferido.
Cualquier mtodo es usado, los datos son entonces registrados para cada individuo. El
procedimiento Conjunto de Categoras del SPSS es usado para estimar los puntajes de utilidad para
cada respuesta individual y para toda la muestra. Los resultados muestran tales cosas como cules
combinaciones de caractersticas es la ms preferidas, cules son las caractersticas especficas de
mayor influencia en la preferencia de el producto total, y la importancia relativa de cada factor.
Puesto que cada nivel del factor tiene un puntaje de utilidad, que puede tambin predecir los efectos
de las combinaciones que no fueron actualmente presentadas en el experimento.
La informacin obtenida de un anlisis conjunto puede ser aplicado a una amplia variedad de
cuestionarios de investigacin de mercados. Este puede ser usado para investigar reas tales como
diseo de productos, participacin de mercados, avisos (cupones) publicitarios, anlisis costo-
beneficio y segmentacin de mercados.

Datos. Supongamos que un compaa interesada en la venta de un nuevo alimento canino desea
examinar la influencia de cuatro atributos en las preferencias del consumidor -tamao, distribucin,
valor nutricional y prestigio de la marca. Hay tres niveles para cada uno de los atributos. La tabla 1
muestra las variables usadas en el estudio de alimento para peros, con las etiquetas de sus variables
y sus valores.

67
Tabla 1. Variables en el estudio de alimento canino.

Nombre variable Etiqueta variable Etiqueta valor


tamano tamao 1 a 3 kgs,
3 a 10 kgs,
10 a 20 kgs
distribu distribucin supermercados,
veterinarios,
tienda de mascotas
nutricion valor nutricional 0 a 20,
20 a 25,
26 a 30
prestigi prestigio de la marca bajo,
medio,
alto

5.- Generacin de un diseo ortogonal.

Un diseo de arreglo ortogonal puede ser generado para los factores y niveles por factor que
especifique. En el caso que no esta abierto, el SPSS crea uno, generando nombres de las variables,
etiqueta de la variable y valores de las opciones que ha seleccionado.
En la figura 1 se muestra el Editor de datos, desplegando el diseo ortogonal para el
ejemplo de alimento canino. Los factores son desplegados como variables y los casos creados por el
procedimiento. Cada caso el Editor de datos representa un caso en el diseo ortogonal.
El SPSS tiene ya prefijado un nmero mnimo de casos necesarios para generar un arreglo
ortogonal. El procedimiento determina el nmero de casos que se necesita administrar para permitir
estimaciones de las utilidades. Tambin, se puede especificar que genere un nmero mnimo de
casos.
Adems a los casos en el diseo, se pueden especificar casos reservados. Los casos
reservados son juzgados por los sujetos, pero estos no son usados por el anlisis para estimar las
utilidades. Estos son usados para verificar la validez de las utilidades estimadas. Los casos
reservados son generados de otro arreglo aleatorio, no por medio del plan ortogonal experimental.
Los casos reservados aparecen despus de los casos experimentales.
El plan ortogonal es guardada en otro archivo de datos y es usada para desplegar el diseo
de acuerdo a los perfiles de los individuos, y en anlisis conjunto.
Observe que las dos variables adicionales,. card_ y status_ , aparecen en el archivo de
datos. La variable card_ asigna un nmero secuencia a cada perfil para su conveniencia. Status_
indica si un caso es parte de el diseo experimental.
Tambin, existe la posibilidad de crear casos simulados. Hay combinaciones que son
consideradas por el individuo pero que estn incluidas en el anlisis

Figura 1. Plan ortogonal (PLAN.SAV).

68
Para obtener un diseo ortogonal, desde los mens elija:

Datos
Diseo ortogonal
Generar...

Esta despliega un cuadro de dialogo Generar un diseo ortogonal, como mostrado en la siguiente
figura:

69
En esta ventana ingrese los factores a travs de los siguientes pasos:

1. Defina al menos un factor. Ingrese un nombre en Nombre del factor. Los nombres de los
factores pueden ser cualquier nombre valido para variables en el SPSS, excepto status_ o
card_. Tambin puede agregar una etiqueta al factor.

2. Pulse en Aadir para agregar el nombre del factor y una etiqueta opcional.

3. Pulse en Definir valores para agregar las categoras de las variables.

Archivo de datos. Permite controlar el destino del diseo ortogonal.

1. Crea un archivo de datos nuevo que contenga los factores y los casos generados por el plan.
Por defecto, este archivo de datos recibe el nombre ortho.sav, y se guarda en el directorio
actual. Pulse en Archivo para especificar un nombre y un destino diferentes para el archivo.

2. Reemplazar el archivo de trabajo con el plan generado.

Restablecer semilla de aleatorizacin a. Restituye la semilla de aleatorizacin al valor


especificado. La semilla puede ser cualquier valor entero entre 0 y 2.000.000.000. Dentro de una
sesin, SPSS utiliza una semilla diferente cada vez que genera un conjunto de nmeros aleatorios,
dando lugar a resultados distintos.

Definir valores. Cuando pulse en Definir valores se desplegar el cuadro de dialogo a continuacin:

En esta ventana podr asignar valores a cada nivel de los factores seleccionados.

Opciones. Al seleccionar Opciones aparecer el cuadro de dialogo siguiente:

70
Generar como mnimo. Especifica un nmero mnimo de casos para el plan. Seleccione un entero
positivo menor o igual que el nmero total de casos que se pueden formar a partir de todas las
combinaciones posibles de los niveles de los factores.

Casos reservados. Crea casos de reserva que se suman a los casos corrientes del plan. Puede
especificar cualquier entero positivo menor o igual que el nmero total de casos que pueden
formarse a partir de todas las combinaciones posibles de los niveles de los factores. Si no especifica
un valor de reserva, no se generan casos de reserva.

6.- Desplegando los perfiles del diseo ortogonal.

Una vez que se tiene el diseo del plan, es necesario colocar cada combinacin de factores en un
perfil separado para suministrar a los individuos. Cada caso en el diseo ortogonal es mostrado como
un perfil.
Los perfiles pueden ser fcilmente observados y pueden ser configurados a la manera que el
investigador cree que es lo ms conveniente. Cada concepto puede ser producido en una hoja
separada y contener ttulos y pie de paginas ya sea en la parte superior o inferior de cada perfil.
Tambin puede controlarse la disposicin del perfil dentro de la pgina a objeto de agregar figuras a
los perfiles.

Para mostrar un diseo ortogonal, desde los mens elija:

Datos
Diseo ortogonal
Mostrar...

Esta despliega un cuadro de dialogo Mostrar un diseo ortogonal, segn como:

71
En esta ventana efecte los siguientes pasos:

1. Mueva uno o ms factores dentro de la lista de factores.

2. Seleccione un formato para desplegar os perfiles en la salida.

3. Pulse en Ttulos (opcional), para definir ttulos y pie de pgina para los perfiles.

A continuacin, se muestra el diseo ortogonal para "alimento canino".

Plancards:

Title: Nmero de perfil )CARD


Card 1
Distribucin Veterinario
Valor Nutricional 25 a 30
Prestigio de la marca Bajo
Tamao 10 a 20 kgs
Card 2
Distribucin Tienda de Mascotas
Valor Nutricional 0 a 20
Prestigio de la marca Medio
Tamao 10 a 20 kgs
Card 3
Distribucin Supermercados
Valor Nutricional 25 a 30
Prestigio de la marca Medio
Tamao 3 a 10 Kgs.
Card 4
Distribucin Tienda de Mascotas
Valor Nutricional 20 a 25
Prestigio de la marca Bajo

72
Tamao 3 a 10 Kgs.
Card 5
Distribucin Veterinario
Valor Nutricional 0 a 20
Prestigio de la marca Alto
Tamao 3 a 10 Kgs.
Card 6
Distribucin Tienda de Mascotas
Valor Nutricional 25 a 30
Prestigio de la marca Alto
Tamao 1 a 3 Kgs.
Card 7
Distribucin Supermercados
Valor Nutricional 0 a 20
Prestigio de la marca Bajo
Tamao 1 a 3 Kgs.
Card 8
Distribucin Supermercados
Valor Nutricional 20 a 25
Prestigio de la marca Alto
Tamao 10 a 20 kgs
Card 9
Distribucin Veterinario
Valor Nutricional 20 a 25
Prestigio de la marca Medio
Tamao 1 a 3 Kgs.

Footer:

7.- Anlisis de preferencias del producto canino.

Una vez que los datos ha sido recolectados, puede utilizarse el procedimiento Conjunto para estimar
las utilidades para cada nivel de los factores. Los puntajes de estas utilidades indican la influencia de
cada nivel factor en las preferencias de los encuestados para una combinacin particular. Estos son
calculados mediante el procedimiento, el cual consiste en un conjunto de regresiones de clasificacin
o puntajes de los perfiles. Pues, todos son expresados en una unidad comn, los puntajes de las
utilidades pueden ser todos sumados, por la cual se obtendra la utilidad total de una combinacin.
Para mayor conveniencia, las utilidades totales deben ser altamente correlacionadas con los datos de
preferencias observados.
El SPSS versin 7.5, no tiene una interface grfica para el procedimiento Conjunto. Por lo
tanto, para llevar a cabo cualquier anlisis conjunto se deber realizar el anlisis a travs de la
sintaxis de los comandos.

Consideremos realizar un anlisis conjunto para el diseo de un producto "alimento canino",


para lo cual se deber disponer de los datos de preferencias recopilados de los encuestados y el plan
ortogonal. El mtodo de secuencia fue utilizado para recopilar los datos. Esto es, los individuos

73
ordenaron los perfiles desde el ms al menos preferido. Por ejemplo, el primer individuo, en la tabla
2, asign la preferencia nmero uno al segundo perfil. En la tabla 2 se muestran los datos de
preferencias de 30 encuestados.

Tabla 2. Datos de preferencias de los encuestados.

SUJETO PREF1 PREF2 PREF3 PREF4 PREF5 PREF6 PREF7 PREF8 PREF9
01 02 01 09 06 04 07 03 08 05
02 06 07 09 04 05 08 02 03 01
03 04 08 09 06 03 07 02 05 01
04 09 02 05 07 08 06 04 03 01
05 03 05 04 09 06 08 02 07 01
06 08 05 06 07 09 04 03 02 01
07 07 03 09 06 08 04 02 05 01
08 09 05 04 07 08 06 03 02 01
09 09 04 03 07 08 06 05 02 01
10 05 08 07 06 09 04 02 03 01
11 03 08 07 05 09 06 02 04 01
12 07 06 03 08 09 05 04 02 01
13 07 08 09 03 05 06 02 04 01
14 06 07 08 04 09 05 03 02 01
15 08 06 04 07 09 05 02 03 01
16 09 05 07 04 08 06 02 03 01
17 09 04 07 05 06 08 01 03 02
18 06 03 09 02 07 08 04 05 01
19 05 02 08 01 07 06 04 09 03
20 05 02 09 01 06 07 04 08 03
21 09 04 07 06 05 08 03 02 01
22 04 05 07 08 06 09 01 03 02
23 08 07 03 06 05 04 09 02 01
24 09 02 07 05 08 06 04 03 01
25 09 02 07 05 08 06 03 04 01
26 03 07 04 08 09 06 02 05 01
27 09 04 03 05 07 08 06 02 01
28 06 08 05 07 09 02 01 04 03
29 05 08 07 04 09 06 03 02 01
30 07 06 05 04 08 09 02 03 01

Para realizar un anlisis conjunto, debe escribir los comandos dentro de una ventana de sintaxis, y
luego ejecutarla. Para obtener un anlisis conjunto:

1.- Desde el men principal seleccione:

74
Archivo
Nuevo
Sintaxis

Este abre una ventana de sintaxis SPSS.

2.- Ingrese los comandos que desea ejecutar en la ventana de sintaxis.

CONJOINT PLAN='PLAN.SAV'
/DATA=* /SEQUENCE=PREF1 TO PREF9 /SUBJECT=sujeto
/FACTORS=TAMANO DISTRIBU (DISCRETE) NUTRICIO PRESTIGI (LINEAR)
/PRINT=ALL /UTILITY='UTIL.SAV'.
SAVE OUTFILE='RANKS.SAV'.

3.- Seleccione los comandos que desea ejecutar y, entoces, pulse Ejecutar comando actual en las
barras de herramientas.

El SPSS entrega una salida para cada encuestado mediante el subcomando SUJECT. La
figura 3 muestra la salida del primer encuestado. La salida muestra los puntajes de utilidades y sus
errores estndar para cada cada nivel de factor. Por lo tanto, la suma de los valores de una
combinacion especfica se obtiene como resultado la utilidad total de este producto.
Por ejemplo, la utilidad total de un alimento canino con un tamao de 1 a 3 kgs., ditribucin
en supermercados, valor nutricional de 0 a 20 y bajo prestigio de la marca, es:

utilidad(tamano: 1 a 3 kgs.) + utilidad(ditribu: supermercados) + utilidad(nutricio: 0 a 20)


+ utilidad(prestigi: bajo).

(0,6667) + (-2,0) + (0,5) + (-1,3333) = -2,1666

Figura 2. Resultados conjunto para el primer encuestado.

Factor Model Levels Label


TAMANO d 3 Tamao
DISTRIBU d 3 Distribucin
NUTRICIO l 3 Valor Nutricional
PRESTIGI l 3 Prestigio de la marca
(Models: d=discrete,l=linear,i=ideal,ai=antiideal, <=less,
>=more)

All the factors are orthogonal.


_

SUBJECT NAME: 1,00

Importance Utility(s.e.) Factor

75
+--------+ TAMANO Tamao
I31,25 I ,6667( ,9718) I- 1 a 3 Kgs.
+--------+ -2,0000( ,9718) --I 3 a 10 Kgs.
I 1,3333( ,9718) I- 10 a 20 kgs
I
+---------+ DISTRIBU Distribucin
I34,38 I -2,0000( ,9718) --I Supermercados
+---------+ ,3333( ,9718) I Veterinario
I 1,6667( ,9718) I-- Tienda de Mascotas
I
+--+ NUTRICIO Valor Nutricional
9,38 I I ,5000( ,8416) I- 0 a 20
+--+ 1,0000(1,6833) I- 20 a 25
I 1,5000(2,5249) I-- 25 a 30
I B = ,5000( ,8416)
I
+------+ PRESTIGI Prestigio de la marca
I25,00 I -1,3333( ,8416) -I Bajo
+------+ -2,6667(1,6833) ---I Medio
I -4,0000(2,5249) ----I Alto
I B = -1,3333( ,8416)
I
6,6667(2,4777) CONSTANT

Pearson's R = ,926 Significance = ,0002

Kendall's tau = ,800 Significance = ,0016

Las utilidades totales deben corresponder de cerca a los datos observados. Para datos
RANK y SEQUENCE la relacin es inversa. Valores bajos indican alta preferencia y, por lo tanto,
producir altas utilidades. En cambio, altos valores indican baja preferencia y produce bajas
utilidades.
Las utilidades totales pueden estar un poco fuera de los datos observados debido a la falta
de ajuste. Los errores estndar para cada utilidad es una indicacin de que tan bien el modelo ajusta
los datos de un encuestado en particular.
Algunos resultados adicionales para cada factor en la salida CONJUNTA son los valores de
b, el coeficiente de regresin lineal o pendiente para modelos lineales y cuadrticos y el valor de c, el
termino cuadrtico para modelos IDEAL y ANTIIDEAL. Para modelos LINEAR, el puntaje
pronosticado puede ser calculado multiplicando el valor del factor por B. Para modelos cuadrticos,
puede ser calculado multiplicando el valor del factor por B, y sumando aquel valor por el producto de
C y el cuadrado de el valor del factor.

76
Los estadsticos R de Pearson y el tau de Kendall son otra indicacin de qu tan bien el
modelo ajusta los datos. Estas son correalciones entre las preferencias observadas y estimadas.
Estos coeficientes deberan siempre ser muy altos.
Por otra parte, en muchos anlisis conjunto, el nmero de parmetros es cercano al nmero
de perfiles a encuestar, lo cual aumenta artificialmente las correlaciones entre los puntajes
observados y los estimados. En estos casos, la correlacin entre los puntajes observados y estimados
para los perfiles reservados podra entregar una mejor indicacin del ajuste del modelo, puesto que
estos perfiles no fueron usados para estimar los puntajes. Estos perfiles reservados producen
siempre coeficientes de correlacin ms bajos.

Tabla 3. Archivo de datos UTIL.SAV.

suj const tam1 tam2 tam3 dist1 dist2 dist3 nutrl pres score score score score score score score score score
tl 1 2 3 4 5 6 7 8 9
01 6,67 0,67 -2,00 1,33 -2,00 0,33 1,67 0,50 -1,33 8,50 7,50 1,50 6,00 1,50 6,50 4,50 3,00 6,00
02 5,33 3,00 -0,67 -2,33 -0,33 -0,67 1,00 -0,67 0,50 0,83 4,33 3,33 4,83 4,83 8,83 7,83 2,83 7,33
03 3,33 0,67 0,33 -1,00 0,67 -1,67 1,00 0,50 0,33 2,50 4,50 6,50 6,00 3,50 7,50 5,50 5,00 4,00
04 7,67 1,33 -1,00 -0,33 -0,67 0,67 0,00 -2,33 1,00 2,00 7,00 1,00 3,00 8,00 5,00 7,00 5,00 7,00
05 2,00 -0,67 3,00 -2,33 0,00 0,00 0,00 0,33 1,17 1,83 2,33 8,33 6,83 8,83 5,83 2,83 3,83 4,33
06 2,33 1,00 0,00 -1,00 1,00 -0,33 -0,67 -0,83 2,17 0,67 4,17 5,17 2,17 7,67 6,67 5,67 7,17 5,67
07 5,00 2,33 -0,33 -2,00 2,33 -1,67 -0,67 0,17 -0,17 1,67 2,17 7,17 4,17 2,67 6,67 9,67 5,17 5,67
08 6,67 1,33 1,00 -2,33 -0,33 1,00 -0,67 -1,33 0,50 1,83 3,33 4,33 4,83 8,83 4,83 6,83 2,83 7,33
09 5,67 1,33 1,00 -2,33 1,00 -0,67 -0,33 0,17 -0,50 2,67 2,17 7,17 6,17 4,67 5,67 7,67 3,17 5,67
10 4,67 1,00 0,00 -1,00 0,67 0,00 -0,67 -1,67 1,83 0,50 5,00 4,00 2,50 8,50 5,50 6,50 6,50 6,00
11 3,00 0,33 0,67 -1,00 3,00 -1,00 -2,00 -0,33 1,33 1,33 2,33 8,33 2,33 6,33 4,33 7,33 8,33 4,33
12 3,00 2,33 -0,33 -2,00 2,33 -1,67 -0,67 0,17 0,83 0,67 2,17 7,17 3,17 3,67 7,67 8,67 6,17 5,67
13 5,33 1,67 -0,67 -1,00 2,67 -0,67 -2,00 -1,00 0,83 1,50 3,00 6,00 1,50 5,50 4,50 9,50 7,50 6,00
14 3,67 2,33 -0,67 -1,67 1,00 -1,67 0,67 -0,17 0,83 0,67 4,17 5,17 4,17 3,67 8,67 7,67 5,17 5,67
15 3,33 1,33 -0,67 -0,67 0,67 -1,67 1,00 -0,33 1,17 1,17 5,67 4,67 4,17 4,17 8,17 6,17 6,17 4,67
16 7,67 1,67 0,33 -2,00 -0,33 1,00 -0,67 -1,83 0,50 1,67 4,17 3,17 4,17 8,67 4,67 7,67 3,17 7,67
17 7,33 2,00 0,33 -2,33 -0,67 1,00 -0,33 -0,67 -0,50 3,50 3,00 4,00 5,50 6,50 5,50 7,50 1,50 8,00
18 1,33 2,00 -0,67 -1,33 0,67 -1,67 1,00 0,83 1,00 1,83 3,83 5,83 4,33 2,83 9,83 5,83 5,33 5,33
19 6,67 -1,33 -0,67 2,00 -0,67 0,67 0,00 -1,83 1,00 4,83 8,83 1,83 3,33 7,83 2,83 3,83 7,33 4,33
20 7,00 0,33 -0,67 0,33 -2,67 2,33 0,33 -1,50 0,50 5,67 7,17 0,17 4,17 8,67 4,67 3,67 3,17 7,67
21 6,67 2,33 0,33 -2,67 -0,33 0,00 0,33 -0,67 -0,17 1,83 3,33 4,33 5,83 5,83 6,83 7,83 1,83 7,33
22 7,00 0,33 1,33 -1,67 0,00 0,00 0,00 -1,00 0,00 2,33 4,33 5,33 6,33 7,33 4,33 6,33 3,33 5,33
23 3,00 0,67 0,33 -1,00 3,00 -2,00 -1,00 -0,17 1,17 0,67 3,17 8,17 3,17 4,67 5,67 7,67 8,17 3,67
24 8,33 1,67 -1,33 -0,33 -0,33 0,33 0,00 -2,33 0,67 2,00 7,00 1,00 3,00 7,00 5,00 8,00 5,00 7,00
25 7,67 1,67 -1,33 -0,33 0,00 0,33 -0,33 -2,17 0,83 2,00 6,50 1,50 2,50 7,00 5,00 8,00 5,50 7,00
26 6,00 0,67 1,00 -1,67 2,67 -2,33 -0,33 0,17 -0,67 1,83 2,83 8,83 6,33 2,83 4,83 8,83 5,33 3,33
27 6,00 0,67 2,00 -2,67 0,33 0,33 -0,67 -0,33 -0,17 2,50 2,00 7,00 6,50 7,50 4,50 6,50 2,50 6,00
28 2,00 1,67 -1,67 0,00 0,00 0,00 0,00 -0,67 2,17 2,17 5,67 2,67 1,17 6,17 8,17 5,17 7,17 6,67

77
29 6,00 0,33 1,00 -1,33 1,00 0,00 -1,00 -1,67 1,17 0,83 4,33 5,33 3,83 8,83 3,83 6,83 5,83 5,33
30 6,33 2,00 0,00 -2,00 0,33 -1,00 0,67 -1,33 0,67 0,00 5,00 4,00 5,00 6,00 7,00 8,00 4,00 6,00

Tabla 4. Archivo de datos RANKS.SAV.

SUJETO PREF PREF PREF PREF PREF PREF PREF PREF PREF
1 2 3 4 5 6 7 8 9
01 02 01 09 06 04 07 03 08 05
02 06 07 09 04 05 08 02 03 01
03 04 08 09 06 03 07 02 05 01
04 09 02 05 07 08 06 04 03 01
05 03 05 04 09 06 08 02 07 01
06 08 05 06 07 09 04 03 02 01
07 07 03 09 06 08 04 02 05 01
08 09 05 04 07 08 06 03 02 01
09 09 04 03 07 08 06 05 02 01
10 05 08 07 06 09 04 02 03 01
11 03 08 07 05 09 06 02 04 01
12 07 06 03 08 09 05 04 02 01
13 07 08 09 03 05 06 02 04 01
14 06 07 08 04 09 05 03 02 01
15 08 06 04 07 09 05 02 03 01
16 09 05 07 04 08 06 02 03 01
17 09 04 07 05 06 08 01 03 02
18 06 03 09 02 07 08 04 05 01
19 05 02 08 01 07 06 04 09 03
20 05 02 09 01 06 07 04 08 03
21 09 04 07 06 05 08 03 02 01
22 04 05 07 08 06 09 01 03 02
23 08 07 03 06 05 04 09 02 01
24 09 02 07 05 08 06 04 03 01
25 09 02 07 05 08 06 03 04 01
26 03 07 04 08 09 06 02 05 01
27 09 04 03 05 07 08 06 02 01
28 06 08 05 07 09 02 01 04 03
29 05 08 07 04 09 06 03 02 01
30 07 06 05 04 08 09 02 03 01

78
V.- ANLSIS DE CORRESPONDENCIAS.

El Anlisis de Correspondencias es un mtodo estadstico que permite analizar tablas de


contingencia. Este mtodo representa grficamente las filas y columnas de una tabla de contingencia
en la forma de puntos dentro del mismo espacio de menor dimensin. La distancia entre los puntos
indica la similaridad entre los perfiles de la tabla, adems, la distribucin espacial de los puntos
resume toda la informacin contenida en la tabla acerca de las similaridades entre las filas y
columnas. Esta nueva representacin de la tabla de contingencia puede usarse para revelar los
patrones inherentes en los datos, es decir, mediante una abstraccin visualizar los patrones de los
datos a fin de descubrir cuales son las variables o grupo de variables que estn correlacionadas. En
este sentido, el Anlisis de Correspondencias se encuentra en aquella clase de mtodos conocidos
como anlisis de datos exploratorios o, simplemente, anlisis de datos.
El Anlisis de Correspondencias no slo ayuda a mostrar las relaciones existentes entre las
variables, sino tambin cmo stas estn relacionadas. El despliegue grfico conjunto de un Anlisis
de Correspondencias permite de manera ms fcil detectar las relaciones estructurales entre las
categoras de las variables. Adems, el Anlisis de Correspondencias tiene requerimientos de datos
altamente flexibles. El nico requerimiento de datos para un Anlisis de Correspondencias es una
tabla de contingencia con entradas no negativas. Por lo tanto, el investigador puede recabar datos
rpidamente y fcilmente.
El Anlisis de Correspondencias es concebido por sobre todo como un mtodo geomtrico
ms bien que estadstico y por lo mismo se le ha asociado principalmente con la escuela francesa de
anlisis de datos. Benzcri y sus colaboradores permitieron popularizar este mtodo.
El Anlisis de Correspondencias se ha convertido en un mtodo muy utilizado en la
investigacin de mercados. Puesto que en muchas aplicaciones de investigaciones de mercados, los
datos recopilados son categricos, principalmente, debido a las restricciones impuestas en el proceso
de recoleccin. Estas limitaciones de confeccionar encuestas ms entendibles y menos costosas se
adaptan en gran medida a las caractersticas posedas por el Anlisis de Correspondencias, lo cual
ciertamente ha contribuido a que sta se convierta en un mtodo de fcil aplicacin y de mucha
aceptacin dentro de esta rea de estudio.
El Anlisis de Correspondencias es una importante herramienta para desarrollar un
conocimiento general de cmo las caractersticas del producto y de la compaa tienden a definir la
imagen relativa de los competidores en el mercado.

Ejemplo. El propsito de este ejemplo es mostrar la aplicacin del mtodo de anlisis de


correspondencias a la tabla de contingencia (tabla 1), a objeto de estudiar las asociaciones existentes
entre las filas y columnas de esta tabla. Las filas de la tabla de contingencia representan las
principales religiones profesadas en el mundo y las columnas indican regiones geogrficas en el
mundo.

Tabla 1. Tabla de contingencia de variables religin y regin.

The table to be analyzed:


1 2 3 4

79
Nor-Este Centro O Sur Oeste Margin

1 Protesta 54 140 206 80 480


2 Catlico 55 56 28 43 182
3 Judo 10 1 1 3 15
4 Ninguna 12 20 8 24 64
5 Otra 5 4 4 2 15
-------- -------- -------- -------- --------
Margin 136 221 247 152 756

El anlisis de correspondencias analiza los datos contenidos en la tabla de contingencia y


genera ya sea tablas como grficos que permiten identificar e interpretar las relaciones
fundamentales entre las categoras y entre las dos variables.
Segn lo anterior, una eleccin importante en este mtodo es el tipo de normalizacin
aplicada. Aunque las soluciones bajos diferentes tipo de normalizacin son completamente
equivalentes en trminos del ajuste (los valores propios), los grficos pueden revelar algo diferente.
En este ejemplo se utiliza la normalizacin principal, debido a que estamos interesados en las
diferencias o similaridades entre las categoras de la variable (religin). La normalizacin principal
maximiza la distancia entre los puntos fila. La mayora de los resultados de este ejemplo son
analizados en trminos de los puntos fila.

Para obtener un anlisis de correspondencias, desde los mens elija:

Estadstica
Reduccin de datos
Anlisis de correspondencias...

Esta despliega un cuadro de dialogo Anliside correspondencias (ANACOR), como


mostrado en la siguiente figura:

80
Luego, seleccione las variables para el anlisis.

Fila: relig
Definir rango...
Mnimo: 1
Mximo: 5

Columna: regin
Definir rango...
Mnimo: 1
Mximo: 4

En Opciones puede seleccionar el tipo de normalizacin que se aplica a los datos de la tabla
de correspondencias y tambin seleccionar el tipo de informacin (tablas y grficos) que considera
necesaria para realizar una interpretacin acerca de las asociaciones existentes entre las filas y
columnas de la tabla. Por lo tanto, pulse en Opciones y seleccione las alternativas siguientes:

Opciones
Normalizacin
Principal

Mostrar
Perfiles
Valores propios

Grfico
Fila
Columna

81
Resultados del anlisis de correspondencias.

El procedimiento de Correspondencias entrega la tabla de contingencia analizada y los dems


resultados que permitan interpretar las relaciones entre las variables de esta tabla. Los resultados del
mtodo se detallan a continuacin:

Perfiles y distancias. Para determinar las distancias entre las categoras, esta mtodo considera las
distribuciones marginales as como las frecuencias de celdas individual. Este calcula los perfiles fila
y columna, los cuales son las proporciones para cada celda, basadas en los totales marginales.

The Rowprofiles:

1 2 3 4
Nor-Este Centro O Sur Oeste Margin

1 Protesta ,113 ,292 ,429 ,167 1,000


2 Catlico ,302 ,308 ,154 ,236 1,000
3 Judo ,667 ,067 ,067 ,200 1,000
4 Ninguna ,188 ,313 ,125 ,375 1,000
5 Otra ,333 ,267 ,267 ,133 1,000
-------- -------- -------- --------
Margin ,180 ,292 ,327 ,201

The Columnprofiles:

1 2 3 4
Nor-Este Centro O Sur Oeste Margin

1 Protesta ,397 ,633 ,834 ,526 ,635


2 Catlico ,404 ,253 ,113 ,283 ,241
3 Judo ,074 ,005 ,004 ,020 ,020
4 Ninguna ,088 ,090 ,032 ,158 ,085
5 Otra ,037 ,018 ,016 ,013 ,020
_

-------- -------- -------- --------


Margin 1,000 1,000 1,000 1,000

82
En anlisis de correspondencias las diferencias entre los perfiles son explicadas en trminos
de medidas de distancias, por lo tanto, si dos perfiles que exhiben la mayor diferencia entre sus
perfiles, en consecuencia, mostrarn la mayor distancia entre los puntos en el grfico. Entonces, el
objetivo del anlisis de correspondencias es encontrar una configuracin en que las distancias de los
puntos fila en un grfico son iguales a las distancias entre los perfiles fila en la tabla.
Las distancias que el anlisis de correspondencias aproxima no son distancias ordinarias,
sino distancias ponderadas. Estas distancias ponderadas estn basadas en el concepto de masa.
Masa es una medida que indica la influencia de un objeto basado en su frecuencia marginal. La
masa afecta al centroide, que es la media ponderada del perfil fila o columna. El centroide fila es el
perfil fila promedio. Por lo tanto, los puntos de mayor masa influirn en la ubicacin del centroide,
esto es, acercarn el centroide a su posicin espacial.

Puntajes fila y columna. Los puntajes fila son las coordenadas de los puntos fila en el grfico 1.
Geomtricamente, los puntos columna son proporcionales al centroide ponderado de los puntos fila.

Row Scores:

RELIG Marginal Dim


Profile 1 2

1 Protesta ,635 -,250 -,024


2 Catlico ,241 ,422 ,003
3 Judo ,020 1,119 -,629
4 Ninguna ,085 ,348 ,386
5 Otra ,020 ,284 -,286

Column Scores:

REGIN4 Marginal Dim


Profile 1 2

1 Nor-Este ,180 ,564 -,206


2 Centro O ,292 -,029 ,083
3 Sur ,327 -,407 -,096
4 Oeste ,201 ,198 ,220

De acuerdo con lo anterior, surgen dos caractersticas de los puntos fila y columna que son:
1) las distancias Euclidianas entre los puntos fila se aproxima a una distancia 2; y 2) los puntos fila
estn en el centroide ponderado de los puntos columna. Los puntajes fila y columna dependen de la
normalizacin usada en el anlisis.

83
Inercia. Si las entradas en la tabla de contingencia son frecuencias, entonces la suma ponderada
sobre todas las distancias al cuadrado entre los perfiles fila y la media del perfil fila es igual al
estadstico 2. Las distancias Euclidianas en el grfico se aproximan a distancias 2 en la tabla.
La inercia total es definida como la suma ponderada de todas las distancias al centroide
dividida por la suma de todas las celdas en la tabla de contingencia. Las puntos con masa pequea
afectan la inercia nicamente con su distanciamiento al centroide. En cambio, los puntos de ms
grande influencian la inercia total aun cuando ellos se encuentren cercanos al centroide.

Contribuciones. Cada punto fila y columna contribuyen a la inercia de la configuracin espacial.


Los puntos fila y columna que contribuyen substancialmente a la inercia de una dimensin son
importantes a esa dimensin.
Un anlisis de las contribuciones de los puntos son una ayuda importante en la interpretacin
de una solucin del anlisis de correspondencias.
Las contribuciones de los puntos a la inercia de cada dimensin se conocen como
contribuciones absolutas.

Contribution of row points to the inertia of each dimension:

RELIG Marginal Dim


Profile 1 2

1 Protesta ,635 ,333 ,017


2 Catlico ,241 ,359 ,000
3 Judo ,020 ,208 ,349
4 Ninguna ,085 ,086 ,562
5 Otra ,020 ,013 ,072
-------- --------
1,000 1,000

Contribution of column points to the inertia of each dimension:

REGIN4 Marginal Dim


Profile 1 2

1 Nor-Este ,180 ,479 ,340


2 Centro O ,292 ,002 ,090
3 Sur ,327 ,453 ,135
4 Oeste ,201 ,066 ,435
-------- --------
1,000 1,000

Las contribuciones de lasa dimensiones a la inercia de cada punto se conocen como


contribuciones relativas, puesto que estas no dependen de la masa del punto.

Contribution of dimensions to the inertia of each row point:

84
RELIG Marginal Dim Total
Profile 1 2

1 Protesta ,635 ,990 ,009 ,999


2 Catlico ,241 ,981 ,000 ,981
3 Judo ,020 ,737 ,233 ,969
4 Ninguna ,085 ,438 ,539 ,977
5 Otra ,020 ,484 ,490 ,975

Contribution of dimensions to the inertia of each column point:

REGIN4 Marginal Dim Total


Profile 1 2

1 Nor-Este ,180 ,882 ,118 1,000


2 Centro O ,292 ,063 ,530 ,592
3 Sur ,327 ,943 ,053 ,996
4 Oeste ,201 ,429 ,530 ,959

Dimensionalidad. La idea detrs del anlisis de correspondencias es generar una solucin de


menor dimensin. el nmero mximo de dimensiones para una solucin de un anlisis de
correspondencias es igual al nmero de filas menos 1 o el nmero de columnas menos 1, el menor
de los dos. Este es expresado como mn(r,c)-1. En este ejemplo, el mximo nmero de dimensiones
es mn(5,4)-1, o 3.

Dimension Singular Inertia Proportion


Cumulative
Value Explained
Proportion
1 ,34543 ,11932 ,827 ,827
2 ,14991 ,02247 ,156 ,983
3 ,05024 ,00252 ,017 1,000
--------- ---------- ---------
-
Total ,14432 1,000 1,000

Grficos. Los grficos constituyen la parte ms rica de la informacin de los resultados obtenidos
del anlisis y su nmero puede ser determinado por medio de los criterios de porcentaje de variacin
explicada y grfico de Cattell.
Este mtodo permite descomponer toda la inercia (variabilidad de los puntos con respecto al
centroide) contenida en la tabla de contingencia en distintos planos con ejes de coordenadas
rectangulares (varios grficos bidimensionales).

85
La normalizacin principal utilizada en este ejemplo, que construye grficos simtricos, es
usada en el caso que el inters esta en estudiar las distancias entre los puntos fila y las distancias
entre los puntos columna, separadamente. Por lo tanto, este tipo de normalizacin es inadecuado
estudiar en solo grfico las relaciones conjuntas entre los perfiles de las variables.

Punt. de fila para Preferencia Religiosa


,4

,2

Catlico
Protestante
0,0

-,2
Otra

-,4
Dimensin 2

Judo
-,6

-,8
-,4 -,2 0,0 ,2 ,4 ,6 ,8 1,0 1,2

Dimensin 1
Principal normalization

Punt. de columna para Regin

,3
Oeste
,2

,1 Centro Oeste

-,0
Sur
Dimensin 2

-,1

Nor-Este
-,2

-,3
-,6 -,4 -,2 -,0 ,2 ,4 ,6

Dimensin 1

Principal normalization

86
87

También podría gustarte