Está en la página 1de 23

El análisis multivariable:

conceptos básicos

Joaquín Aldás Manzano1

Universitat de València
Dpto. de Dirección de Empresas “Juan José Renau Piqueras”

1
Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de selec-
cionar, ordenar y, en algunos casos traducir los textos originales.
2 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

El análisis multivariable: conceptos básicos

1. ¿Qué es el análisis multivariable?


(Hair, Anderson, Tatham y Black, 1995)

El análisis multivariable no es fácil de definir. En general, se refiere a aquellos


métodos estadísticos que analizan simultáneamente diversas variables en cada
individuo u objeto sobre el cual se investiga. Cualquier análisis simultáneo de
más de dos variables, puede considerarse análisis multivariable. De hecho,
muchas técnicas multivariable son la simple extensión de análisis univariados o
bivariados. Así, por ejemplo, la regresión simple (con una sola variable indepen-
diente), es una técnica multivariable cuando se extiende a varios regresores.
Otras técnicas, sin embargo, como el análisis factorial o el análisis
discriminante, están específicamente diseñadas para trabajar únicamente con
estructuras multivariables.

2. Conceptos básicos

Escalas de medida
(Manzano, 1995; Uriel, 1995)

El análisis de datos, implica la identificación y medida de la variación en un


conjunto de variables, bien entre ellas mismas o entre una variable dependiente
y una o más independientes. La palabra clave es medida, puesto que el investi-
gador no puede identificar la variación hasta que ésta sea medida. En cualquier
técnica de análisis multivariable, juega un papel muy importante el tipo de
escala en que las variables estén medidas de hecho, como veremos, un criterio
determinante para decidir qué técnica multivariable es la adecuada para resol-
ver un problema determinado, será el tipo de escala en que estén medidas las
variables dependientes e independientes. Podemos distinguir entre:

Ÿ Escalas nominales. En este caso, los números se comportan como etiquetas,


con tanta validez como una letra del alfabeto. Su misión es distinguir entre
diferentes valores; por ejemplo: sexo (hombre, mujer). En el proceso de
codificación se puede asignar 1 al valor hombre y 2 al valor mujer. Esto no
significa que la mujer sea mayor que el hombre (2>1) ni el doble (2=1x2),
ni que existan personas de sexo intermedio (1,5).
3 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

Ÿ Escalas ordinales. No sólo consigue distinguir entre valores, como la


anterior, sino que además establece un orden entre ellos. El dato represen-
tado por un 3 es superior al representado por un 2; por ejemplo tamaño
relativo (enorme, grande, normal, pequeño, diminuto). Si codificamos estos
valores de la siguiente forma:

1 à diminuto; 2 à pequeño; 3 à normal; 4 à grande; 5 à enorme

entonces es cierta la relación de orden, puesto que 1<2<3<4<5, pero no es


cierto que entre grande y enorme exista la misma diferencia que entre
pequeño y normal (5-4 = 1 = 3-2), como tampoco que pequeño sea el doble
que diminuto (2=1x2).
Ÿ Escalas de intervalo. Además de distinción y orden, la distancia o diferencia
entre dos valores consecutivos cualesquiera es siempre la misma. En este
caso, entre el valor representado por un 3 y el representado por un 2, existe
la misma diferencia que entre 5 y 4. Por ejemplo, la temperatura medida en
grados centígrados. En este caso, no sólo 100º es diferente a 80º, sino que es
mayor (100º>80º); inclusive la diferencia de temperatura entre ambos es la
misma que entre 80º y 60º (100-80 = 80-60). Pero no existe un cero absolu-
to, ya que la temperatura de 0º no significa ausencia de temperatura. De
esta forma 100º no es el doble de 50º. Veámoslo con un ejemplo. Creemos
una nueva escala de temperatura que llamaremos en “arcias”, donde 1 arcia
= 1 grado centígrado. Pero esta escala no tiene el cero cuando el agua se
congela (0ºC) sino cuando entre en ebullición (100ºC). Como se observa en
la figura 1, si decimos que 40 arcias es el doble de 20 arcias, es tanto como
afirmar que 140º es el doble de 120º.

Figura 1. Ejemplo de escalas de intervalo

Arcias Centígrados

80 180
60 160
40 140
20 120
0 100
-20 80

Ÿ Escalas de razón. Además de la distinción, orden e intervalo, se añade un


origen absoluto, de forma que no sólo cabe hallar diferencias (ya se podía
4 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

hacer en la escala de intervalo), sino también múltiplos exactos. En este


caso el valor representado por 4 tiene doble cantidad medida que el repre-
sentado por 2. Éste es el caso, por ejemplo, de la edad expresada en años.
Así, 40 y 20 años son edades distintas, 40 años es una edad superior a 20
años, entre 20 y 40 años hay la misma diferencia de edad que entre 30 y 50
y, además, el 0 tiene sentido. Una persona con 0 años realmente no tiene
edad, todavía no ha nacido. De esta forma, 40 es exactamente el doble de
20.

En estos apuntes, en diferentes ocasiones, utilizaremos las expresiones escalas


métricas, escalas no métricas. No es una clasificación alternativa, sino que la
literatura agrupa a las escalas nominales y ordinales bajo el nombre de no
métricas y a las de intervalo y razón bajo el de escalas métricas.

La inferencia estadística
(Manzano, 1995)

Todas las técnicas multivariables, excepto el análisis cluster y el escalamiento


multidimensional, están basados en inferir los valores reales que toma una
variable en una población, a partir de los valores que toma esa variable en una
muestra aleatoria de la misma. Por ello es importante que nos acostumbremos
a manejar con propiedad algunos términos que aparecerán con frecuencia a lo
largo de nuestra relación con las técnicas multivariables.

Cuando se juzga a una persona, puede declarársele inocente o culpable.


Independientemente del resultado del juicio, la persona será inocente o culpa-
ble de verdad. De esta forma, tenemos las cuatro posibilidades que recoge el
cuadro 1.
Cuadro 1. Tipos de error en la inferencia estadística
Realidad
Resultado del juicio
Inocente Culpable
Inocente Acierto Error tipo II
Culpable Error tipo I Acierto

Si hemos inferido que el individuo era inocente y en la realidad lo es, o lo


hemos declarado culpable siéndolo, estamos ante situaciones de acierto. Sin
embargo las otras dos situaciones son errores. Nos planteamos entonces qué es
más grave, si declarar culpable a un inocente (error tipo I) o declarar inocente
a un culpable (error tipo II). En las sociedades democráticas, se toma como
menos grave la última situación, por lo que se parte del supuesto de inocencia.
5 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

En la inferencia estadística el razonamiento es análogo. Imaginemos que


estamos estudiando si existe relación entre el sexo y el absentismo laboral. Si
partiéramos de que hay que evitar a toda costa el error tipo II, daríamos por
supuesto que sí que existe relación y veríamos si hay evidencia de lo contrario.
Pueden no encontrarse observaciones contundentes que rechacen de manera
clara el supuesto de relación. De esta forma se concluiría que sí existe relación
y, a partir de ese momento se llevarían a cabo un abanico de decisiones
basadas en ese conocimiento “científico”. Una posible consecuencia podría ser
la segregación en los puestos de trabajo con motivo del sexo del aspirante. Por
ese motivo, en ciencia, partimos de que no existe relación y la labor del cientí-
fico consiste en encontrar las evidencias de que sí existe esa relación.

Si hemos partido de que no existe relación, podemos llamar a ese enuncia-


do hipótesis nula. El análisis estadístico va a consistir básicamente en buscar
un criterio que me lleve a rechazar la hipótesis nula sólo cuando la probabili-
dad de que me equivoque sea muy pequeña. El término pequeño, sin embargo
es algo relativo. En Ciencias Sociales se suele considerar que esa probabilidad
es pequeña cuando sea inferior al 1% en unos casos o al 5% en otros. A estos
valores se los conoce como niveles de significación y se les denota con la letra
griega α. Cuando a esos niveles de significación podamos rechazar la hipótesis
nula, diremos que la relación entre las variables analizadas es estadísticamente
significativas.

Hoy en día, con los programas informáticos, el contraste de hipótesis puede


contemplarse desde otra perspectiva mucho más racional. Así, los programas
estadísticos suelen ofrecer el llamado nivel de significación crítico α’ que suele
aparecer bajo la etiqueta de p-value o significatividad. Determinado α’, se
rechaza toda hipótesis nula a un nivel de significación α siempre que α’< α. El
nivel de significación crítico es, pues, un indicador del nivel de admisibilidad de
la hipótesis nula: cuanto mayor sea el nivel de significación crítico, mayor
confianza podemos depositar en la hipótesis nula. La utilización del nivel de
significación crítico, implica dar la vuelta al problema del contraste de
hipótesis. Así, en lugar de fijar a priori un nivel de significación, se calcula un
valor de α’ que permite determinar a posteriori para qué niveles de significa-
ción se puede rechazar la hipótesis nula.
6 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

3 Tipos de técnicas multivariables


(Hair, Anderson, Tatham y Black, 1995)

Una de las decisiones más importantes, sino la más relevante, a la hora de


llevar a cabo un análisis multivariado de los datos, pasa por determinar cuál es
la técnica más adecuada entre las muchas posibles.
Para llevar a cabo esta selección, cabe responder a tres preguntas básicas:

1. ¿Estamos tratando de establecer una relación de dependencia -


independencia entre unas variables y otras.
2. Si lo estamos haciendo, ¿cuántas variables independientes se están
considerando en el análisis?
3. ¿Qué tipo de escala se está utilizando para medir a las variables?

De la respuesta que se de a estas tres preguntas, dependerá que una u otra


técnica multivariable sea la más adecuada para nuestra investigación. Veámos-
las, por tanto, con más detalle.

Siguiendo la figura 2 se observa que e primer criterio para seleccionar un tipo u


otro de técnica, pasa por determinar si nuestro propósito es establecer o no
relaciones de dependencia e independencia entre las distintas variables. De será
sí, un grupo de ellas, las dependientes serán explicadas por otras, las indepen-
dientes, como ocurre por ejemplo con la regresión lineal. La alternativa a esta
decisión está en las técnicas de interdependencia, donde no existe un grupo de
variables que sean definidas como dependientes o independientes, sino que la
técnica que se aplique analizará todas las variables simultáneamente. Un
ejemplo de este tipo de técnicas es el análisis factorial.
7 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

Figura 2a. Clasificación de las técnicas multivariables

Tipo de relación que


se analiza

DEPENDENCIA:
Predicción de
variables dependientes
por otras
independientes

Cuántas relaciones
se miden

Múltiples relaciones Una relación entre Una relación entre una


entre varias
varias dependientes y dependiente y las
dependientes y las
las independientes independientes
independientes

Sistemas de Escala de medida de las Escala de medida de las


Ecuaciones dependientes dependientes
Estructurales

Métrica No Métrica Métrica

Escala de medida de las Correlación


independientes canónica con v. Regresión Múltiple Análisis Conjunto
ficticias

Métrica No Métrica

Análisis
Correlación multivariable de
canónica varianza

Fuente: Hair, Anderson, Tatham y Black (1995)


8 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

Figura 2b. Clasificación de las técnicas multivariables

INTERDEPENDENCIA:
Identificar la
estructura de
interrelaciones

La estructura de
relaciones en entre:

Casos/
Variables Objetos
Respuestas

Cómo se miden los


Análisis factorial Análisis cluster atributos

B Métrica No Métrica

C
No Métrica
Escalamiento Análisis de
multidimensional correspondencias

Regresión múltiple
Análisis de variable
discriminante dependiente
limitada
LEYENDA
Punto de decisión

Decisión tomada

Técnica seleccionada

Fuente: Hair, Anderson, Tatham y Black (1995)


9 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

Los distintos métodos que conforman el análisis de dependencia, pueden distin-


guirse atendiendo a dos variables (1) el número de variables dependientes y (2)
el tipo de escalas de medida utilizada con las variables. El cuadro 2 facilita al
lector la elección de la técnica de dependencia más adecuada.

Cuadro 2 Los métodos multivariables de dependencia

Correlación canónica
Y1 +Y2 +Y3 +...+Yn = X1 +X2 +X3 +...+Xm
(métricas, no métricas) (métricas, no métricas)

Análisis multivariable de la varianza


Y1 +Y2 +Y3 +...+Yn = X1 +X2 +X3 +...+Xm
(métricas) (no métricas)

Análisis de varianza
Y1 =X1 +X2 +X3 +...+Xm
(métrica) (no métricas)

Análisis de regresión múltiple


Y1 =X1 +X2 +X3 +...+Xm
(métrica) (métricas, no métricas)

Análisis conjunto
Y1 =X1 +X2 +X3 +...+Xm
(métrica, no métrica) (no métricas)

Sistemas de ecuaciones estructurales


Y1 =X11 +X12 +X13 +...+X1m
Y2 =X21 +X22 +X23 +...+X2m
Yn =Xn1 +Xn2 +Xn3 +...+Xnm
(métrica, no métrica) (no métricas)

Fuente: Hair, Anderson, Tatham y Black (1995)

En las técnicas de interdependencia que aparecen en la figura 2b, se observa


que las variables no se clasifican en dependientes o independientes, dado que
todas ellas son analizadas simultáneamente para encontrar si existe una estruc-
tura subyacente bajo el conjunto de las mismas. Cuando la relación que se
busca es entre las variables, el análisis factorial es la técnica más adecuada, si
10 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

son los casos los que se agrupan para encontrar la relación subyacente se
recurre al análisis conjunto. Finalmente si el interés está en la estructura de los
objetos, debería aplicarse el escalamiento multidimensional.

En general, el análisis factorial y el cluster se consideran que son técnicas de


interdependencia métrica, aunque los datos no métricos pueden ser transforma-
dos en variables ficticias y ser utilizados. También existen las aproximaciones
métricas y no métricas al análisis de escalamiento multidimensional. En el caso
de que se recurra a variables no métricas, el análisis de correspondencias puede
ser una alternativa al escalamiento multidimensional.

4 La construcción de un modelo multivariable


(Hair, Anderson, Tatham y Black, 1995)

Las técnicas multivariables son, en general, herramientas muy poderosas que


permiten al investigador extraer muchísima información de los datos disponi-
bles. Estas técnicas son, en sí mismas, relativamente complejas y requieren para
su utilización un conocimiento profundo de sus fundamentos y condiciones de
aplicabilidad. El desarrollo de programas informáticos de manejo sencillo, como
el SPSS, están provocando su uso indiscriminado y, muchas veces, no se utili-
zan adecuadamente.

El objeto de este epígrafe es proporcional al lector una guía que le permita la


aplicación correcta de las técnicas multivariables y le facilite el llegar a conclu-
siones razonables.

Ÿ Paso 1. Defina el problema que está investigado, sus objetivos


y decida la técnica multivariable que piensa utilizar.

No se puede pretender utilizar una técnica multivariable sin una adecuada


aproximación teórica al problema que se está abordando. El investigador
debe analizar conceptualmente su objeto de investigación, definir los
conceptos e identificar las relaciones fundamentales que se pretenden inves-
tigar. Primero hay que centrarse en el tema que se investiga, y no en las
técnicas que se van a emplear, lo que evitará que dejemos fuera del análisis
conceptos importantes. Una vez, y sólo una vez realizado esto, el lector
puede seguir los esquemas del epígrafe anterior para seleccionar la técnica
más adecuada.
11 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

Ÿ Paso 2. Desarrollo del plan de análisis.

Una vez establecido el modelo conceptual, el énfasis se centra en aplicar


adecuadamente la técnica elegida, lo que hace referencia fundamentalmente
a los tamaños muestrales mínimos que permiten su aplicación, y a asegu-
rarse de que el procedimiento de recogida de datos (v.g. los cuestionarios)
miden las variables con las escalas oportunas (métricas vs. no métricas).

Ÿ Paso 3. Tenga cuidado con las condiciones de aplicabilidad de


la técnica elegida.

Una vez recogidos los datos, es necesario conocer cuáles son las hipótesis en
que se basan las técnicas multivariables y, que si no se cumplen, hace que
carezca de sentido aplicarlas. En las técnicas de dependencia, por ejemplo,
suele ser necesario que los tados cumplan las hipótesis de normalidad, linea-
lidad, independencia del término de error y homoscedasticidad.

Ÿ Paso 4. Estime el modelo multivariable y establezca el ajuste


global del mismo.

Aplique la técnica multivariable elegida. Pero fíjese si el nivel de bondad del


ajuste es adecuado. Si no es así, deberá reespecificarse el modelo, incorpo-
rando o eliminando variables.

Ÿ Paso 5. Interprete los resultados.

Una vez logre un nivel de ajuste aceptable, interprete el modelo. Fíjese en


los efectos de las variables individuales examinando sus coeficientes, cargas
factoriales, utilidades... La interpretación puede conducirle a nuevas reespe-
cificaciones del modelo.

Ÿ Paso 6. Valide el modelo.

Antes de aceptar los resultados a los que haya llegado, debe aplicar una
serie de técnicas de diagnóstico que asegure que estos resultados son genera-
lizables al conjunto de la población.

En la explicación de las técnicas multivariables que haremos en temas posterio-


res, seguiremos cada uno de estos pasos, lo que permitirá al lector comprender
mejor la utilidad de aplicar este procedimiento.
12 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

1.5 Comprobación de las condiciones de aplicabilidad del análisis


multivariable.
(Hair, Anderson, Tatham y Black, 1995)

Como se ha indicado en el paso 3 del procedimiento antes expuesto, no basta


con que las variables estén medidas en la escala adecuada para que podamos
utilizar o no una técnica multivariable determinada. Es necesario asegurarse de
que los datos cumplen las hipótesis que se les exige a las técnicas multivariables
para poder ser aplicadas. Si no es así, las distorsiones y sesgos introducidos no
nos permitirán llegar a conclusiones adecuadas.

Este epígrafe lo estructuraremos en dos fases. En la primera de ellas, describire-


mos las técnicas de que disponemos para comprobar las principales hipótesis
que deben verificar los datos. A continuación las aplicaremos a la base de datos
que nos va a servir de referencia para explicar todas las técnicas multivariables
de este curso, lo que facilitará su comprensión. Para ello se hace necesario
detallar el contenido de la mencionada base de datos.

Descripción de la base de datos.

HATCO es una empresa fabricante de maquinaria industrial que ha pasado


una encuesta a los jefes de compras de las empresas que adquieren sus produc-
tos, los cuales han valorado su satisfacción con HATCO respecto a siete atribu-
tos determinantes de su servicio y, además, han ofrecido información acerca de
sus empresas, como su tamaño, tipo de empresa, porcentaje de sus compras de
maquinaria que efectúan a HATCO y una valoración global de sus satisfacción
con esta empresa.

De forma más detallada, las siete variables que miden la percepción que tienen
de HATCO sus clientes, son las siguientes:

1. X1: Rapidez del servicio. Tiempo que tarda en servirse el pedido una
vez que éste ha sido confirmado.
2. X2: Nivel de precios. Valoración sobre el precio que se carga respecto
a otros suministradores.
3. X3: Flexibilidad de precios. Voluntad de los vendedores de HATCO
de negociar el precio en todo tipo de compras.
4. X4: Imagen del fabricante. Imagen global de HATCO.
5. X5: Servicio. Valoración respecto a si la calidad actual del servicio es
suficiente para mantener la relación entre el comprador y HATCO.
13 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

6. X6: Imagen de los vendedores. Imagen global de la fuerza de ventas


de HATCO.
7. X7: Calidad del producto. Nivel de calidad percibida de los productos
de HATCO.

Todas estas variables se han medido mediante una escala gráfica constituida
por una línea de diez centímetros donde en los extremos aparecen las palabras
“muy mala” y “excelente”:

Muy mala Excelente

Los entrevistados indican su percepción marcando con una raya en cualquier


lugar de la línea, que luego es medida y codificada entre cero y diez.

Por su parte, las características de las empresas que compran a HATCO, se


han medido mediante escalas métricas y no métricas y son las siguientes:

1. X8: Tamaño de la empresa. Tamaño relativo de la empresa respecto


a otras del mercado. Se han creado dos categorías que son 1 =
grande y 0 = pequeña.
2. X9: Nivel de utilización de los servicios de HATCO. Es el porcentaje
del total de las compras de la empresa que se realizan a HATCO. Se
mide en una escala de cien puntos, según sea el porcentaje.
3. X10: Nivel de satisfacción con HATCO. Mide cuán satisfecha está la
empresa con HATCO en la misma escala que las variables X1 a X7.
4. X11: Procedimiento de compra. Establece si la empresa evalúa cada
compra por separado (codificado como 1) o, por el contrario, tiene
establecidas unas especificaciones de producto que se aplican a todas
las compras (codificado como 0).
5. X12: Estructura de decisión. Determina si dentro de la empresa el
proceso de toma de decisiones de compra está centralizado (codifi-
cado como 1) o descentralizado (codificado como 0).
6. X13: Tipo de industria. Responde a una tipología interna de
HATCO que las clasifica como industria tipo A (codificado como 1) u
“otros tipos” (codificado como 0).
7. X14: Tipo de situación de compra. Hace referencia a si es la primera
compra a HATCO (codificado como 1), si es una recompra pero de
14 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

otros productos (código 2) o es una recompra de los mismos produc-


tos que en la última ocasión (código 3).

Cuadro 3 Variables que contiene la base de datos.


Varia- Dependiente vs.
Descripción Escala
ble Independiente

X1 Rapidez de servicio Independiente Métrica


X2 Nivel de precios Independiente Métrica
X3 Flexibilidad precios Independiente Métrica
X4 Imagen fabricante Independiente Métrica
X5 Calidad servicio Independiente Métrica
X6 Imagen vendedores Independiente Métrica
X7 Calidad producto Independiente Métrica
X8 Tamaño empresa Depend o Independ No métrica
X9 Nivel uso servicio Dependiente Métrica
X10 Nivel satisfacción Dependiente Métrica
X11 Procedimiento compra Depend o Independ No métrica
X12 Estructura decisión Depend o Independ No métrica
X13 Tipo industria Depend o Independ No métrica
X14 Situación compra Depend o Independ No métrica

Establecidas las características de la base de datos, pasaremos a detallar los


mecanismos de comprobación de las hipótesis que garantizan la aplicabilidad
del análisis multivariante.

Normalidad

Es una de las hipótesis más importantes. Hace referencia al perfil que debe
mostrar la distribución de frecuencias de cada variable métrica
individualmente. Si este perfil se desvía de la distribución normal, cualquier
prueba estadística que llevemos a cabo no sería válida. La mayoría de las técni-
cas multivariables exigen, además, que las variables sean multivariablemente
normales, esto es, no sólo que individualmente tengan una distribución normal,
sino que las combinaciones de las mismas también posean esta forma.

Si las variables son multivariablemente normales, lo serán individualmente,


pero lo contrario no es cierto. Comprobar la normalidad individual es relativa-
mente sencillo, y a ello nos dedicaremos en este tema. Las pruebas de normali-
15 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

dad multivariables son más complejas y suelen ser específicas de las técnicas
donde esta hipótesis es más necesaria. Serán analizadas al desarrollar esas
técnicas en concreto.

Los procedimientos para detectar la violación de las hipótesis de normalidad


pueden agruparse en dos tipos: gráficos y estadísticos. Entre los primeros el
más útil es el llamado gráfico q-q o gráfico de probabilidad normal, donde se
representan los valores observados de los residuos y los esperados en el caso de
que siguieran una distribución normal. La distribución normal aparece repre-
sentada por una línea recta. Si las variables no están normalmente distribuidas,
se alejarán de la recta como se ejemplifica en el gráfico 3.
16 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

Gráfico 3 Gráficos q-q y sus correspondientes distribuciones univariadas

Variable 1

Variable 2

Variable 3

Variable 4

Distribuciones
Gráficos q-q
univariadas

En este gráfico, la variable 1 sigue una distribución normal, de manera que su


gráfico q-q es una recta. La variable 2 muestra un elevado apuntamiento en su
distribución, que se traduce en un gráfico q-q en forma de s. Las variables 3 y 4
están sesgadas respectivamente a la derecha e izquierda, lo que provoca que sus
gráficos q-q queden por debajo de la recta en el primer caso y por encima en el
segundo.
17 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

El segundo tipo de pruebas para determinar si las variables siguen o no distri-


buciones normales, son las llamadas pruebas estadísticas. Cada paquete infor-
mático proporciona las suyas, en el caso de SPSS que es el que vamos a
utilizar, la prueba es la llamada de Kolmogorov-Smirnov-Lilliefors (KSL).

Veamos la aplicación de ambas pruebas a nuestra base de datos. Como hemos


indicado, sólo procede evaluar la normalidad de las variables métricas, por ello,
lo haremos sobre X1 a X7 y X9 y X10. La sintaxis a aplicar con SPSS es la
siguiente:

EXAMINE
VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10
/PLOT BOXPLOT NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

que nos proporciona la siguiente información más relevante. Como gráficos q-q
mostramos dos ejemplos correspondientes a las variables X1 (rapidez del servi-
cio) y X6 (imagen de la fuerza de ventas)

Gráfico 4. Los gráficos q-q en SPSS


Gráfico Q-Q normal de Rapidez de servicio
3

0
Normal esperado

-1

-2

-3
-1 0 1 2 3 4 5 6 7

Valor observado
18 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

Gráfico Q-Q normal de Imagen de los vendedores


3

Normal esperado
-1

-2

-3
0 1 2 3 4 5

Valor observado

Por su parte, la salida del test de Kolmogorov-Smirnov-Lilliefors es la siguiente:

Cuadro 4 El test KSL en SPSS

Pruebas de normalidad

Kolmogorov-Smirnova
Estadístico gl Sig.
Rapidez de servicio ,063 100 ,200*
nivel de precios ,095 100 ,028
flexibilidad de precios ,095 100 ,027
Imagen del fabricante ,107 100 ,007
Servicio ,085 100 ,069
Imagen de los
,122 100 ,001
vendedores
Calidad del producto ,091 100 ,041
Nivel de uso ,079 100 ,131
nivel de satisfacción ,078 100 ,142
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors

El test KSL plantea la hipótesis nula de que la variable se distribuye según una
normal, por lo que hay que comprobar si para alguna variable existe un valor p
inferior al nivel de significación que, como dijimos, podía ser 0,01 o 0,05. Si es
así, podremos rechazar para esa variable la hipótesis nula y, consecuentemente,
afirmar que esa variable no se distribuye según una normal. Puede observarse
en el cuadro 4 que las variables X4 “imagen del fabricante” (p=0,007) y X6
“imagen de los vendedores” (p=0,001) tienen valores de p inferiores a 0,01, por
lo que podremos concluir que no siguen una distribución normal. A la misma
conclusión podríamos haber llegado analizando el gráfico 1.4. En él se
comprueba como en la gráfica correspondiente a la variable X1 “rapidez del
19 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

servicio” los valores se agrupan en torno a la recta, mientras que en la variable


X6 “imagen de los vendedores”, el perfil es más parecido al que mostrábamos
en la variable 2 de gráfico 3, que correspondía a una distribución no normal.

Si hubiésemos elegido 0.05 como nivel de significación, las variables X2 “nivel


de precios” y X3 “flexibilidad de precios” tampoco tendrían un comporta-
miento normal.

¿Qué hacer con variables que no muestran un comportamiento normal? Lo


habitual es recurrir a transformaciones del tipo:

ìï x p p ¹ 0
T (x ) = ïí
ïï ln x
î

es decir, a tomar logaritmos neperianos de la variable o tomar diversas raíces (p


= ½ serían cuadradas) o elevar al cuadrado (p = 2), al cubo (p = 3), etc. Para
determinar la más adecuada, basta con transformar y volver a aplicar el test de
KSL descrito.

Homoscedasticidad

La segunda asunción que se hace sobre los datos, para poder aplicar las técni-
cas multivariables, hace referencia a la igualdad de varianza entre las variables
independientes, ya sean éstas métricas o no métricas, respecto a la variable o
variables dependientes. SPSS proporciona un test específico para analizar esta
hipótesis, el test de Levene, cuya hipótesis nula es la homoscedasticidad, es
decir, que las varianzas son iguales. En nuestro ejemplo, habría que realizar
esta prueba de homoscedasticidad para el conjunto de variables independientes
(X1, X2, X3, X4, X5, X6, X7, X9 y X10), con respecto a las posibles variables
dependientes que, como se señaló en el cuadro 3, pueden ser las variables (X8,
X11, X12, X13 y X14). La sintaxis par obtener este test en SPSS, sería la
siguiente:
20 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

EXAMINE
VARIABLES= x1 x2 x3 x4 x5 x6 x9 x10 x7 BY x8
x11 x12 x13 x14
/PLOT SPREADLEVEL
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.

A modo de ejemplo, ofrecemos en el cuadro 5 la salida correspondiente a anali-


zar la homoscedaticidad de las variables independientes respecto a la variable
X8 o “tamaño de la empresa”.

Puede comprobarse que, tomando como nivel de significación 0,05, los valores
p correspondientes a X4 “imagen del fabricante” (p=0,012), X5 “servicio”
(p=0,006), X6 “imagen de los vendedores” (p=0.024) y X7 “Calidad del
producto” (p=0,004) permiten rechazar la hipótesis nula de homoscedasticidad
y, por ello, será necesario realizar transformaciones análogas a las que llevába-
mos a cabo para conseguir la normalidad, con el fin de poder aplicar muchas
de las técnicas multivariables que analizaremos.
21 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

Cuadro 5. Salida de SPSS para el análisis de homoscedasticidad


Prueba de homogeneidad de la varianza

Estadístico
de Levene gl1 gl2 Sig.
Rapidez de servicio Basándose en la media ,934 1 98 ,336
Basándose en la
,993 1 98 ,321
mediana.
Basándose en la
mediana y con gl ,993 1 92,885 ,322
corregido
Basándose en la media
,934 1 98 ,336
recortada
nivel de precios Basándose en la media 1,582 1 98 ,211
Basándose en la
1,668 1 98 ,200
mediana.
Basándose en la
mediana y con gl 1,668 1 97,938 ,200
corregido
Basándose en la media
1,685 1 98 ,197
recortada
flexibilidad de precios Basándose en la media 1,194 1 98 ,277
Basándose en la
,749 1 98 ,389
mediana.
Basándose en la
mediana y con gl ,749 1 85,351 ,389
corregido
Basándose en la media
,817 1 98 ,368
recortada
Imagen del fabricante Basándose en la media 6,549 1 98 ,012
Basándose en la
3,960 1 98 ,049
mediana.
Basándose en la
mediana y con gl 3,960 1 79,356 ,050
corregido
Basándose en la media
6,353 1 98 ,013
recortada
Servicio Basándose en la media 7,819 1 98 ,006
Basándose en la
6,741 1 98 ,011
mediana.
Basándose en la
mediana y con gl 6,741 1 83,075 ,011
corregido
Basándose en la media
7,932 1 98 ,006
recortada
Imagen de los Basándose en la media 5,241 1 98 ,024
vendedores Basándose en la
4,604 1 98 ,034
mediana.
Basándose en la
mediana y con gl 4,604 1 93,255 ,034
corregido
Basándose en la media
4,977 1 98 ,028
recortada
Nivel de uso Basándose en la media 1,377 1 98 ,243
Basándose en la
1,305 1 98 ,256
mediana.
Basándose en la
mediana y con gl 1,305 1 97,893 ,256
corregido
Basándose en la media
1,325 1 98 ,252
recortada
nivel de satisfacción Basándose en la media ,323 1 98 ,571
Basándose en la
,194 1 98 ,660
mediana.
Basándose en la
mediana y con gl ,194 1 97,681 ,660
corregido
Basándose en la media
,303 1 98 ,584
recortada
Calidad del producto Basándose en la media 8,748 1 98 ,004
Basándose en la
mediana. 9,178 1 98 ,003

Basándose en la
mediana y con gl 9,178 1 97,298 ,003
corregido
Basándose en la media
8,811 1 98 ,004
recortada

Linealidad

La última hipótesis que es necesario analizar es la linealidad, sobre todo en


aquellas técnicas multivariables basadas en medidas de asociación como las
correlaciones, incluyendo la regresión múltiple, la logística, el análisis factorial,
el análisis conjunto y los sistemas de ecuaciones estructurales. Dado que la
correlación representa asociaciones lineales entre variables, la ausencia de linea-
lidad provoca que el coeficiente de correlación no mida adecuadamente la
relación entre los pares de variables.
22 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

Disponemos, de nuevo, de dos procedimientos para analizar este supuesto. El


primero consiste en recurrir a representaciones gráficas bivariables para visuali-
zar si la relación que podemos aventurar es o no lineal. Por otro lado, los coefi-
cientes de correlación suelen ofrecer un indicador del grado de significación del
mismo. La hipótesis nula es que el coeficiente de correlación no es significativo
y el valor de p nos permitirá aceptarla o rechazarla.

La siguiente sintaxis de SPSS nos permite llevar a cabo ambos procedimientos:

GRAPH
/SCATTERPLOT(MATRIX)=x1 x4 x6
/MISSING=LISTWISE .
CORRELATIONS
/VARIABLES=x1 x2 x3 x4 x5 x6 x7 x9 x10
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.

donde sólo se pide, a modo de ejemplo, que se realicen los gráficos de dispersión
entre las variables X1 “rapidez del servicio”, X4 “imagen del fabricante” y X6
“imagen de los vendedores”. A simple vista se observa que no parece que exista
una relación lineal entre la rapidez del servicio y la imagen de los fabricantes,
pero sí y bastante marcada, entre la imagen de los fabricantes y la de los
vendedores.

Gráfico 5. Gráficos de dispersión entre variables

Rapidez de servicio

Imagen del fabricant

Imagen de los vended

El cuadro 6 nos confirma esta apreciación visual. Así, se comprueba que el


coeficiente de correlación de Pearson entre la variable “rapidez del servicio” y
la “imagen de la empresa”, que toma un valor de 0,05 no aparece marcado con
*, que diría que es significativo para un nivel del 5% ni con ** que indicaría
que lo es al 1%. Esta misma información nos la proporcionan las p, que toma
23 Análisis multivariable: conceptos básicos
Joaquín Aldás Manzano

un valor de 0.618 que al ser claramente superior a 0.01 y 0.05 no permiten


rechazar la hipótesis nula de no significatividad del coeficiente de correlación.

Sin embargo, el coeficiente de correlación de Pearson entre la imagen de la


empresa y la imagen de los vendedores, que es de 0,788 aparece marcado como
** y su p es de 0,000 que al ser inferior a 0,01 y 0,05 confirma de nuevo la
apreciación visual que hicimos al analizar el gráfico 5.

Cuadro 6. Coeficientes de correlación de Pearson


Correlaciones

Imagen de Calidad
Rapidez de nivel de flexibilidad Imagen del los del Nivel de nivel de
servicio precios de precios fabricante Servicio vendedores producto uso satisfacción
Rapidez de servicio Correlación de Pearson
Sig. (bilateral)
N
nivel de precios Correlación de Pearson -,349**
Sig. (bilateral) ,000
N 100
flexibilidad de precios Correlación de Pearson ,509** -,487 **
Sig. (bilateral) ,000 ,000
N 100 100
Imagen del fabricante Correlación de Pearson ,050 ,272 ** -,116
Sig. (bilateral) ,618 ,006 ,250
N 100 100 100
Servicio Correlación de Pearson ,612** ,513 ** ,067 ,299**
Sig. (bilateral) ,000 ,000 ,510 ,003
N 100 100 100 100
Imagen de los Correlación de Pearson ,077 ,185 -,035 ,788** ,240*
vendedores Sig. (bilateral) ,444 ,065 ,731 ,000 ,016
N 100 100 100 100 100
Calidad del producto Correlación de Pearson -,483** ,470 ** -,448** ,200* -,055 ,177
Sig. (bilateral) ,000 ,000 ,000 ,046 ,586 ,079
N 100 100 100 100 100 100
Nivel de uso Correlación de Pearson ,676** ,082 ,559** ,224* ,701** ,255* -,192
Sig. (bilateral) ,000 ,418 ,000 ,025 ,000 ,010 ,055
N 100 100 100 100 100 100 100
nivel de satisfacción Correlación de Pearson ,651** ,028 ,525** ,476** ,631** ,341** -,283 ** ,711**
Sig. (bilateral) ,000 ,779 ,000 ,000 ,000 ,001 ,004 ,000
N 100 100 100 100 100 100 100 100
**. La correlación es significativa al nivel 0,01 (bilateral).
*. La correlación es significante al nivel 0,05 (bilateral).

Referencias bibliográficas

HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. Y BLACK, W. (1995): Multivariate


Data Analysis. 4ª edición. Englewood Cliffs: Prentice Hall.

MANZANO ,V. (1995): Inferencia estadística: aplicaciones con SPSS/PC+.


Madrid: RA-MA.

URIEL , E. (1995): Análisis de datos. Series temporales y análisis multivariante.


Madrid: Editorial AC.

También podría gustarte