Está en la página 1de 14

STATGRAPHICS – Rev.

4/d/yyyy

Análisis Multivariable

Resumen
El procedimiento Análisis Multivariable está diseñado para resumir dos columnas o más de
datos numéricos. Calcula estadísticos de resumen para cada variable, así como las varianzas y
correlaciones entre las variables. Las gráficas incluyen una matriz de dispersión, gráficas de
estrella y de rayos. Este procedimiento es usado frecuentemente antes de construir un modelo de
regresión múltiple.

StatFolio Muestra: multvar.sgp

Datos Muestra:
El archivo 93cars.sf3 contiene información sobre 26 variables por n = 93 marcas y modelos de
automóviles, tomadas de Lock (1993). La tabla a continuación muestra una lista parcial de 4
columnas de ese archivo:

Make Model MPG MPG Engine Hors RPM Fueltank


(Marca) (Modelo) City Highway Size (Caballos (Tanque
(MPG (MPG (Tamaño de Fuerza) de
Ciudad) Carretera) deMotor) comb)
Acura Integra 25 31 1.8 140 6300 13.2
Acura Legend 18 25 3.2 200 5500 18
Audi 90 20 26 2.8 172 5500 16.9
Audi 100 19 26 2.8 172 5500 21.1
BMW 535i 22 30 3.5 208 5700 21.1
Buick Century 22 31 2.2 110 5200 16.4
Buick LeSabre 19 28 3.8 170 4800 18
Buick Roadmaster 16 25 5.7 180 4000 23
Buick Riviera 19 27 3.8 170 4800 18.8
Cadillac DeVille 16 25 4.9 200 4100 18
Cadillac Seville 16 25 4.6 295 6000 20
Chevrolet Cavalier 25 36 2.2 110 5200 15.2
Chevrolet Corsica 25 34 2.2 110 5200 15.6
Chevrolet Camaro 19 28 3.4 160 4600 15.5
Chevrolet Lumina 21 29 2.2 110 5200 16.5
Chevrolet Lumina_A 18 23 3.8 170 4800 20
PV
Chevrolet Astro 15 20 4.3 165 4000 27
Chevrolet Caprice 17 26 5.0 170 4200 23
Chevrolet Corvette 17 25 5.7 300 5000 20
Chrylser Concorde 20 28 3.3 153 5300 18

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 1


STATGRAPHICS – Rev. 4/d/yyyy
Entrada de Datos
Los datos a analizar consisten en dos columnas numéricas o más.

• Datos: columnas numéricas que contienen los datos a resumir.

• Selección: subconjunto a seleccionar.

Resumen del Análisis


El Resumen del Análisis lista los nombres de las columnas de datos.

Análisis Multivariado
Datos/Variables:
MPG Ciudad (millas por galón manejando en ciudad)
MPG Carretera (millas por galón manejando en carretera)
Tamaño del Motor (litros)
Caballos de Fuerza (máximos)
RPM (revs por minuto a caballos de fuerza máximos)
Tanque de comb. (galones)
Longitud (pulgadas)
Wheelbase (inches)
Ancho (pulgadas)
Peso (libras)

Existen 93 casos completos a utilizarse en los cálculos.

A menos que se cambien las Opciones de Análisis, sólo se incluirán en el análisis filas que
contengan información completa de todas las variables. En los datos muestra, hay n = 93
automóviles con información completa de las k = 10 variables listadas.

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 2


STATGRAPHICS – Rev. 4/d/yyyy
Opciones de Análisis

• Sólo Casos Completos: excluye de todas las gráficas y estadísticos cualquier fila en la que
una o más de las columnas de datos de entrada contengan datos faltantes.

• Todos los Datos: usa todos los datos posibles.

Matriz de Dispersiones
La Matriz de Dispersiones crea una matriz de dispersiones divariadas para todos los pares de
variables de Opciones de Análisis.

MPG City

MPG Highway

Engine Size

Horsepower

RPM

Fueltank

Length

Wheelbase

Width

Weight

La dispersión en la fila i, columna j despliega la variable i en el eje vertical y la variable j en el


eje horizontal. En la matriz, cualquier par de variables es graficado dos veces, una con la primera
variable sobre el eje X y una con esa variable sobre el eje Y. La gráfica puede usarse
frecuentemente para identificar aquellas variables que están altamente correlacionadas, así como
puntos lejanos ocasionales.

Algunas veces ayuda suavizar las dispersiones presionando el botón Suavizar/Rotar de la barra
de herramientas de análisis. La gráfica siguiente usa el suavizante por defecto LOWESS Robusto:

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 3


STATGRAPHICS – Rev. 4/d/yyyy
MPG City

MPG Highway

Engine Size

Horsepower

RPM

Fueltank

Length

Wheelbase

Width

Weight

Ahora es más fácil juzgar las relaciones que existen entre las variables.

Estadísticos de Resumen
El panel Estadísticos de Resumen calcula un número de diversos estadísticos que se usan
comúnmente para resumir una muestra de n observaciones:

Resumen Estadístico
MPG MPG Carretera Tamaño del Caballos de RPM Tanque de Longitud
Ciudad motor fuerza comb.
Recuento 93 93 93 93 93 93 93
Promedio 22.3656 29.086 2.66774 143.828 5280.65 16.6645 183.204
Desviación Estándar 5.61981 5.33173 1.03736 52.3744 596.732 3.27937 14.6024
Coeficiente de Variación 25.127% 18.3309% 38.8854% 36.4146% 11.3004% 19.6788% 7.97055%
Mínimo 15.0 20.0 1.0 55.0 3800.0 9.2 141.0
Máximo 46.0 50.0 5.7 300.0 6500.0 27.0 219.0
Rango 31.0 30.0 4.7 245.0 2700.0 17.8 78.0
Rango Intercuartílico 7.0 5.0 1.5 67.0 950.0 4.3 18.0
Sesgo Estándar 6.71035 4.84211 3.38353 3.74696 -1.01784 0.425772 -0.354703
Curtosis Estándar 7.88248 5.14606 0.750048 2.18677 -0.80606 0.250406 0.88435

La mayoría de los estadísticos caen en una de estas tres categorías:

1. medidas de tendencia central – estadísticos que caracterizan el “centro” de los datos.


2. medidas de dispersión – estadísticos que caracterizan la dispersión de los datos.
3. medidas de forma – estadísticos que caracterizan la forma de los datos en relación a una
distribución normal.

Los estadísticos incluidos en la tabla están controlados por las configuraciones del panel
Estadísticos del cuadro de diálogo Preferencias. Dentro del procedimiento, puede cambiarse la
selección usando Panel de Opciones. El significado de cada estadístico se describe en la
documentación Análisis de una Variable.

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 4


STATGRAPHICS – Rev. 4/d/yyyy

Panel de Opciones

Seleccione los estadísticos deseados.

Intervalos de Confianza
El panel Intervalos de Confianza despliega los intervalos de confianza de la media y del
desviación estándar de cada variable.

Intervalos de confianza del 95.0%


Media Error Est. Límite Inferior Límite Superior
MPG Ciudad 22.3656 0.582747 21.2082 23.523
MPG Carretera 29.086 0.552874 27.988 30.1841
Tamaño de motor 2.66774 0.10757 2.4541 2.88138
Caballos de fuerza 143.828 5.43097 133.042 154.614
RPM 5280.65 61.8782 5157.75 5403.54
Tanque de comb. 16.6645 0.340055 15.9891 17.3399
Longitud 183.204 1.5142 180.197 186.212
Wheelbase 103.946 0.707167 102.542 105.351
Ancho 69.3763 0.391863 68.5981 70.1546
Altura 3072.9 61.1694 2951.42 3194.39

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 5


STATGRAPHICS – Rev. 4/d/yyyy
Sigma Límite Inferior Límite Superior
MPG Ciudad 5.61981 4.91195 6.56794
MPG Carretera 5.33173 4.66015 6.23125
Tamaño de motor 1.03736 0.906698 1.21238
Caballos de fuerza 52.3744 45.7774 61.2106
RPM 596.732 521.568 697.407
Tanque de comb. 3.27937 2.8663 3.83264
Longitud 14.6024 12.7631 17.066
Wheelbase 6.81967 5.96067 7.97023
Ancho 3.77899 3.30299 4.41654
Altura 589.897 515.594 689.419

Se construyen intervalos de confianza del 95% del tal modo que, en muestreo repetido, el 95%
de tales intervalos contendrán el verdadero valor del parámetro a estimar. También puede ver un
intervalo de confianza al especificar el “margen de error” del mismo modo como se establece al
tomar una encuesta de opinión. Por ejemplo, el intervalo de confianza para las millas por galón
promedio al conducir en ciudad va de 21.2 a 23.5.

Panel de Opciones

• Nivel de Confianza: nivel de confianza de los intervalos.

Correlaciones
Los coeficientes de correlación miden la fuerza de la relación lineal entre dos columnas en una
escala de –1 a +1. Entre mayor sea el valor absoluto de la correlación, más fuerte es la relación
lineal entre las dos variables. STATGRAPHICS presenta los coeficientes de correlación como
una matriz, de la cual se muestra una sección a continuación:

Correlaciones
MPG MPG Tamaño Caballos de RPM Tanque de Longitud
Ciudad Carretera de motor fuerza comb.
MPG Ciudad 0.9439 -0.7100 -0.6726 0.3630 -0.8131 -0.6662
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0003 0.0000 0.0000
MPG Carretera 0.9439 -0.6268 -0.6190 0.3135 -0.7860 -0.5429
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0022 0.0000 0.0000
Tamaño de -0.7100 -0.6268 0.7321 -0.5479 0.7593 0.7803
Correlación
motor
(Tamaño de Muestra)
Valor-P (93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Caballos de -0.6726 -0.6190 0.7321 0.0367 0.7118 0.5509
fuerza
© 2006 por StatPoint,
(93)
Inc.
(93) (93) (93)
Multiple
(93)
Variable Analysis - 6
(93)
0.0000 0.0000 0.0000 0.7270 0.0000 0.0000
RPM 0.3630 0.3135 -0.5479 0.0367 -0.3333 -0.4412
(93) (93) (93) (93) (93) (93)
STATGRAPHICS – Rev. 4/d/yyyy
Para cada par de variables, la tabla muestra:

1. rij, el coeficiente de correlación de momento del producto Pearson estimado entre la


variable fila i y la variable columna j.

2. nij, el número de casos usados para estimar esa correlación. Dependiendo de las Opciones
de Análisis, la correlación puede calcularse usando filas con información completa en
todas las variables o usando todas las filas con valores no-faltantes del par seleccionado
de variables.

3. Pij, un P-valor que puede ser usado para probar la hipótesis de que la correlación entre
dos variables es igual a 0.

P-Valores pequeños (menores que 0.05 si se opera a un nivel de significancia del 5%)
corresponden a correlaciones estadísticamente significativas. En la tabla anterior, todos los pares
de variables muestran correlaciones significativas excepto RPM y Caballos de fuerza.

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 7


STATGRAPHICS – Rev. 4/d/yyyy
Correlación por Rangos
Si se sospecha la presencia de outliers, entonces la correlación entre cada par de variables puede
calcularse usando un coeficiente de correlación por rangos en lugar de una correlación producto
– momento. El panel Correlaciones por Rangos despliega una tabla de correlaciones basada en
una de las siguientes:

1. Correlaciones por rango de Spearman – Estas correlaciones se calculan primero


remplazando los datos de cada variable por sus rangos (en escala del 1 al n) y luego
calculando el grado de desacuerdo entre los rangos.

2. Correlaciones por rango de Kendall – Estas correlaciones se basan en el número de


pares de observaciones concordantes y discordantes, donde un par concordante es aquel
en el que las variables de la primera fila o son ambas mayores que las variables de la
segunda fila o son ambas más pequeñas.

El resultado es similar al de las correlaciones producto – momento:

Correlación Ordinal de Spearman


MPG Ciudad MPG Carretera Tamaño de Caballos de RPM Tanque de Longitud
motor fuerza comb.
MPG Ciudad 0.9359 -0.8212 -0.7893 0.3896 -0.8836 -0.6624
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0002 0.0000 0.0000
MPG Carretera 0.9359 -0.7257 -0.7100 0.3156 -0.8389 -0.5473
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0025 0.0000 0.0000
Tamaño de motor -0.8212 -0.7257 Correlación 0.8142 -0.5295 0.7760 0.8114
(Tamaño de Muestra)(93) (93) (93) (93) (93) (93)
Valor-P 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Caballos de fuerza -0.7893 -0.7100 0.8142 -0.0587 0.7891 0.6444
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.5731 0.0000 0.0000
RPM 0.3896 0.3156 -0.5295 -0.0587 -0.2741 -0.4231
(93) (93) (93) (93) (93) (93)
0.0002 0.0025 0.0000 0.5731 0.0086 0.0000
Tanque de comb. -0.8836 -0.8389 0.7760 0.7891 -0.2741 0.6577
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0086 0.0000
Longitud -0.6624 -0.5473 0.8114 0.6444 -0.4231 0.6577
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Wheelbase -0.7148 -0.6315 0.7889 0.6054 -0.4401 0.7424 0.8233
(93) (93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Ancho -0.8104 -0.6896 0.8729 0.7389 -0.5046 0.7775 0.7961
(93) (93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Peso -0.8928 -0.8382 0.8976 0.8043 -0.4164 0.8942 0.7885
(93) (93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0001 0.0000 0.0000

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 8


STATGRAPHICS – Rev. 4/d/yyyy
Panel de Opciones

• Método – el método usado para calcular los coeficientes de correlación por rango.

Covarianzas
Las covarianzas proven una medida de la extensión en la que dos variables varían juntas.

Covarianzas
MPG MPG Tamaño de Caballos de RPM Tanque Longitud
Ciudad Carretera motor fuerza de comb.
MPG Ciudad 31.5823 28.2834 -4.13917 -197.98 1217.48 -14.9858 -54.6733
(93) (93) (93) (93) (93) (93) (93)
MPG Carretera 28.2834 28.4273 -3.46676 -172.865 997.335 -13.7437 -42.2678
(93) (93) (93) (93) (93) (93) (93)
Tamaño de -4.13917 -3.46676 1.07612 39.777 -339.164 2.58308 11.8197
motor
(93) (93) (93) (93) (93) (93) (93)
Covarianza
Caballos de -197.98 -172.865 39.777 2743.08 1146.63 122.254 421.296
(Tamaño de Muestra)
fuerza
(93) (93) (93) (93) (93) (93) (93)
LaRPM
covarianza 1217.48
entre la variable
997.335 x y -339.164
la variable y se calcula
1146.63 a partir
356089. de -3844.92
-652.325
(93) (93) (93) (93) (93) (93) (93)
Tanque de -14.9858n -13.7437 2.58308 122.254 -652.325 10.7543 33.0638
comb.
(93) ∑( (93)
)(
xi − x y i − y
(93)
) (93) (93) (93) (93) (1)
y) =
Longitudcov( x,-54.6733
i =1
-42.2678 11.8197 421.296 -3844.92 33.0638 213.23
(93) (93)n − 1 (93) (93) (93) (93) (93)
Wheelbase -25.5671 -22.3758 5.18194 173.893 -1903.77 16.9448 82.022
Las covarianzas (93)pueden(93) guardarse (93)
en la hoja(93) (93) usarse
de datos para (93)en otros
(93)cálculos si así se
Ancho -15.3021 -12.9023 3.39923 127.544 -1217.09 9.89828 45.3679
desea. (93) (93) (93) (93) (93) (93) (93)
Peso -2795.09 -2549.65 517.133 22825.5 -150636. 1729.47 6945.16
(93) (93) (93) (93) (93) (93) (93)

Correlaciones Parciales
El panel Correlaciones Parciales despliega coeficientes que miden la fuerza de la relación entre
cada par de variables que ya se hayan computado para las relaciones con las otras variables:

Correlaciones Parciales
MPG Ciudad MPG Carretera Tamaño de Caballos de RPM Tanque de Longitud Ancho
motor fuerza comb.
MPG Ciudad 0.8507 0.0891 -0.2369 0.1960 -0.1007 -0.4046 -0.0125
(93) (93) (93) (93) (93) (93) (93)
0.0000Correlación 0.4174 0.0290 0.0723 0.3590 0.0001 0.9096
(Tamaño de Muestra)0.8507
MPG Carretera -0.0192 0.1925 -0.1126 -0.0415 0.3896 0.0849
Valor-P
(93) (93) (93) (93) (93) (93) (93)
0.0000 0.8613 0.0776 0.3051 0.7060 0.0002 0.4396
Tamaño de motor 0.0891 -0.0192 0.6729 -0.6704 0.0208 0.2344 0.1479
© 2006 por StatPoint,(93)
0.4174
Inc. (93)
0.8613
(93)
0.0000
(93)
Multiple
0.0000
(93)
Variable
0.8504
(93)
Analysis
0.0308
- (93)
90.1768
Caballos de fuerza -0.2369 0.1925 0.6729 0.7994 0.0237 -0.1796 0.1145
(93) (93) (93) (93) (93) (93) (93)
0.0290 0.0776 0.0000 0.0000 0.8295 0.1001 0.2969
STATGRAPHICS – Rev. 4/d/yyyy
Es útil medir la única correlación entre 2 variables no explicables por la otras. Por ejemplo, MPG
Ciudad es moderadamente correlacionada tanto con Tamaño de motor (-0.71) y Caballos de
fuerza (-0.67), pero las correlaciones parciales son mucho menores pues Tamaño de motor y
Caballos de fuerza tienden a explicar la misma característica de automóviles.

Llave Glifo
Se han desarrollado muchos métodos para desplegar datos multivariados. Un método útil es el
del glifo. Un glifo es una figura simbólica construida para desplegar el valor de variables
cuantitativas múltiples. El procedimiento Análisis de Múltiples Variables genera glifos en forma
de polígonos:

MPG City
Weight MPG Highway

Width Engine Size

Wheelbase Horsepower

Length RPM
Fueltank

La distancia desde el centro de la figura a cada vértice se usa para representar el valor relativo de
una variable seleccionada. Por ejemplo, el vértice de la posición de las seis en punto representa el
tamaño del tanque de combustible. Un carro con un tanque de gran capacidad tendrá un vértice
localizado lejos del centro en esa dirección, mientras el vértice para un carro con un tanque
pequeño estará mucho más cerca del centro.

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 10


STATGRAPHICS – Rev. 4/d/yyyy
Gráficas de Estrellas
El panel Gráficas de Estrella crea glifos con el siguiente formato:

Integra Legend 90 100 535i

Century LeSabre Roadmaster Riviera DeVille

Seville Cavalier Corsica Camaro Lumina

Lumina_APV Astro Caprice Corvette Concorde

LeBaron Imperial Colt Shadow Spirit

Pueden deslegarse al mismo tiempo glifos para más de 25 filas. Los polígonos se estructuran de
tal manera que la distancia de un vértice al centro es muy pequeña para la fila con un valor
mínimo de la variable relevante y de longitud máxima para la fila con el mayor valor.

Los glifos son bastante útiles al conglomerar las filas, i.e., identificar filas que son similares entre
sí. Por ejemplo, el LeBaron, el Shadow, y el Spirit tienen valores promedio en todas las variables
y por lo tanto tienen forma similar. Casos inusuales tales como el Astro también funcionan (tiene
un tanque de combustible inusualmente grande).

Panel de Opciones

• Variable Etiqueta: variable (si hay) usada para etiquetar cada glifo.

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 11


STATGRAPHICS – Rev. 4/d/yyyy

• Etiqueta: Los glifos pueden etiquetarse por su número de fila y por el valor de una columna
seleccionada en la hoja de datos.

• Número de Fila Inicial: Los glifos para más de 25 filas se desplegarán al mismo tiempo,
comenzando con el número de fila especificado.

Gráficas de Rayos
Las Gráficas de Rayos son similares a las gráficas de estrellas pero tienen un formato
ligeramente diferente:

Integra Legend 90 100 535i

Century LeSabre Roadmaster Riviera DeVille

Seville Cavalier Corsica Camaro Lumina

Lumina_APV Astro Caprice Corvette Concorde

LeBaron Imperial Colt Shadow Spirit

La mayor diferencia es la ubicación de los vértices. Para cada variable, el vértice se localiza en el
medio del rayo si el valor de esa variable es igual a la media muestral. Se localiza al final del
rayo si está 3 o más desviaciones estándar por encima de la media y muy cerca del centro de la
figura si el valor está 3 o más desviaciones estándar por debajo de la media muestral.

Para el Astro, note que el tamaño de su tanque es al menos 3 desviaciones estándar más grande
que la media de los 93 automóviles.

Guardar Resultados
Los siguientes resultados pueden guardarse en la hoja de datos:

1. Correlaciones – las correlaciones producto – momento, una fila luego de la otra.


2. Correlaciones por Rangos – las correlaciones por rangos calculadas.
3. Covarianzas – las covarianzas estimadas.
4. Correlaciones Parciales – las correlaciones parciales estimadas.

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 12


STATGRAPHICS – Rev. 4/d/yyyy
Cálculos

Coeficiente de Correlación Producto-Momento de Pearson


n

∑ (x i − x )( y i − y )
r= i =1
n n (2)
∑ (x i − x ) 2 ∑ ( y i − y )2
i=1 i =1

t=
(n − 2)r 2
(3)
1− r2

El t estadístico se compara con una t distribución con n-2 grados de libertad.

Correlación por Rangos de Spearman

Si Ui es igual al rango de xi y Vi es igual al rango de yi, entonces la correlación por rangos de


Spearman está dada por
n
A + B − ∑ Di2
R= i =1 (4)
2 AB

donde

Di = U i − Vi (5)

( )
gx
n − n − ∑ t 3j , x − t j , x
3

j =1 (6)
A=
12

( )
gy

n 3 − n − ∑ t 3j , y − t j , y
j =1 (7)
B=
12

Las cantidades A y B son correcciones de rangos ajustados. Involucran sumar el número de


observaciones ajustadas tj,x para cada uno de los gx grupos ajustados. La significancia de la
correlación se encuentra comparando

z = R n −1 (8)

con una distribución normal estándar.

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 13


STATGRAPHICS – Rev. 4/d/yyyy
Correlación por Rangos de Kendall

Si Ui es igual al rango de xi y Vi es igual al rango de yi, entonces

S
R=
n(n − 1) n(n − 1)
( ) ( )
gx g
y

− ∑ t 3j , x − t j , x − ∑ t 3j , y − t j , y (9)
2 j =1 2 j =1

donde S es el número total de pares concordantes de observaciones (pares en donde (Ui - Uj)(Vi -
Vj) es positivo) menos el número de pares discordantes de observaciones (pares en donde (Ui -
Uj)(Vi - Vj) es negativo). La significancia de la correlación se encuentra comparando

S
z=
n(n − 1)(2n + 5) / 18 (10)

con una distribución normal estándar.

© 2006 por StatPoint, Inc. Multiple Variable Analysis - 14

También podría gustarte