Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis Multivariable
Análisis Multivariable
4/d/yyyy
Análisis Multivariable
Resumen
El procedimiento Análisis Multivariable está diseñado para resumir dos columnas o más de
datos numéricos. Calcula estadísticos de resumen para cada variable, así como las varianzas y
correlaciones entre las variables. Las gráficas incluyen una matriz de dispersión, gráficas de
estrella y de rayos. Este procedimiento es usado frecuentemente antes de construir un modelo de
regresión múltiple.
Datos Muestra:
El archivo 93cars.sf3 contiene información sobre 26 variables por n = 93 marcas y modelos de
automóviles, tomadas de Lock (1993). La tabla a continuación muestra una lista parcial de 4
columnas de ese archivo:
Análisis Multivariado
Datos/Variables:
MPG Ciudad (millas por galón manejando en ciudad)
MPG Carretera (millas por galón manejando en carretera)
Tamaño del Motor (litros)
Caballos de Fuerza (máximos)
RPM (revs por minuto a caballos de fuerza máximos)
Tanque de comb. (galones)
Longitud (pulgadas)
Wheelbase (inches)
Ancho (pulgadas)
Peso (libras)
A menos que se cambien las Opciones de Análisis, sólo se incluirán en el análisis filas que
contengan información completa de todas las variables. En los datos muestra, hay n = 93
automóviles con información completa de las k = 10 variables listadas.
• Sólo Casos Completos: excluye de todas las gráficas y estadísticos cualquier fila en la que
una o más de las columnas de datos de entrada contengan datos faltantes.
Matriz de Dispersiones
La Matriz de Dispersiones crea una matriz de dispersiones divariadas para todos los pares de
variables de Opciones de Análisis.
MPG City
MPG Highway
Engine Size
Horsepower
RPM
Fueltank
Length
Wheelbase
Width
Weight
Algunas veces ayuda suavizar las dispersiones presionando el botón Suavizar/Rotar de la barra
de herramientas de análisis. La gráfica siguiente usa el suavizante por defecto LOWESS Robusto:
MPG Highway
Engine Size
Horsepower
RPM
Fueltank
Length
Wheelbase
Width
Weight
Ahora es más fácil juzgar las relaciones que existen entre las variables.
Estadísticos de Resumen
El panel Estadísticos de Resumen calcula un número de diversos estadísticos que se usan
comúnmente para resumir una muestra de n observaciones:
Resumen Estadístico
MPG MPG Carretera Tamaño del Caballos de RPM Tanque de Longitud
Ciudad motor fuerza comb.
Recuento 93 93 93 93 93 93 93
Promedio 22.3656 29.086 2.66774 143.828 5280.65 16.6645 183.204
Desviación Estándar 5.61981 5.33173 1.03736 52.3744 596.732 3.27937 14.6024
Coeficiente de Variación 25.127% 18.3309% 38.8854% 36.4146% 11.3004% 19.6788% 7.97055%
Mínimo 15.0 20.0 1.0 55.0 3800.0 9.2 141.0
Máximo 46.0 50.0 5.7 300.0 6500.0 27.0 219.0
Rango 31.0 30.0 4.7 245.0 2700.0 17.8 78.0
Rango Intercuartílico 7.0 5.0 1.5 67.0 950.0 4.3 18.0
Sesgo Estándar 6.71035 4.84211 3.38353 3.74696 -1.01784 0.425772 -0.354703
Curtosis Estándar 7.88248 5.14606 0.750048 2.18677 -0.80606 0.250406 0.88435
Los estadísticos incluidos en la tabla están controlados por las configuraciones del panel
Estadísticos del cuadro de diálogo Preferencias. Dentro del procedimiento, puede cambiarse la
selección usando Panel de Opciones. El significado de cada estadístico se describe en la
documentación Análisis de una Variable.
Panel de Opciones
Intervalos de Confianza
El panel Intervalos de Confianza despliega los intervalos de confianza de la media y del
desviación estándar de cada variable.
Se construyen intervalos de confianza del 95% del tal modo que, en muestreo repetido, el 95%
de tales intervalos contendrán el verdadero valor del parámetro a estimar. También puede ver un
intervalo de confianza al especificar el “margen de error” del mismo modo como se establece al
tomar una encuesta de opinión. Por ejemplo, el intervalo de confianza para las millas por galón
promedio al conducir en ciudad va de 21.2 a 23.5.
Panel de Opciones
Correlaciones
Los coeficientes de correlación miden la fuerza de la relación lineal entre dos columnas en una
escala de –1 a +1. Entre mayor sea el valor absoluto de la correlación, más fuerte es la relación
lineal entre las dos variables. STATGRAPHICS presenta los coeficientes de correlación como
una matriz, de la cual se muestra una sección a continuación:
Correlaciones
MPG MPG Tamaño Caballos de RPM Tanque de Longitud
Ciudad Carretera de motor fuerza comb.
MPG Ciudad 0.9439 -0.7100 -0.6726 0.3630 -0.8131 -0.6662
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0003 0.0000 0.0000
MPG Carretera 0.9439 -0.6268 -0.6190 0.3135 -0.7860 -0.5429
(93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0022 0.0000 0.0000
Tamaño de -0.7100 -0.6268 0.7321 -0.5479 0.7593 0.7803
Correlación
motor
(Tamaño de Muestra)
Valor-P (93) (93) (93) (93) (93) (93)
0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
Caballos de -0.6726 -0.6190 0.7321 0.0367 0.7118 0.5509
fuerza
© 2006 por StatPoint,
(93)
Inc.
(93) (93) (93)
Multiple
(93)
Variable Analysis - 6
(93)
0.0000 0.0000 0.0000 0.7270 0.0000 0.0000
RPM 0.3630 0.3135 -0.5479 0.0367 -0.3333 -0.4412
(93) (93) (93) (93) (93) (93)
STATGRAPHICS – Rev. 4/d/yyyy
Para cada par de variables, la tabla muestra:
2. nij, el número de casos usados para estimar esa correlación. Dependiendo de las Opciones
de Análisis, la correlación puede calcularse usando filas con información completa en
todas las variables o usando todas las filas con valores no-faltantes del par seleccionado
de variables.
3. Pij, un P-valor que puede ser usado para probar la hipótesis de que la correlación entre
dos variables es igual a 0.
P-Valores pequeños (menores que 0.05 si se opera a un nivel de significancia del 5%)
corresponden a correlaciones estadísticamente significativas. En la tabla anterior, todos los pares
de variables muestran correlaciones significativas excepto RPM y Caballos de fuerza.
• Método – el método usado para calcular los coeficientes de correlación por rango.
Covarianzas
Las covarianzas proven una medida de la extensión en la que dos variables varían juntas.
Covarianzas
MPG MPG Tamaño de Caballos de RPM Tanque Longitud
Ciudad Carretera motor fuerza de comb.
MPG Ciudad 31.5823 28.2834 -4.13917 -197.98 1217.48 -14.9858 -54.6733
(93) (93) (93) (93) (93) (93) (93)
MPG Carretera 28.2834 28.4273 -3.46676 -172.865 997.335 -13.7437 -42.2678
(93) (93) (93) (93) (93) (93) (93)
Tamaño de -4.13917 -3.46676 1.07612 39.777 -339.164 2.58308 11.8197
motor
(93) (93) (93) (93) (93) (93) (93)
Covarianza
Caballos de -197.98 -172.865 39.777 2743.08 1146.63 122.254 421.296
(Tamaño de Muestra)
fuerza
(93) (93) (93) (93) (93) (93) (93)
LaRPM
covarianza 1217.48
entre la variable
997.335 x y -339.164
la variable y se calcula
1146.63 a partir
356089. de -3844.92
-652.325
(93) (93) (93) (93) (93) (93) (93)
Tanque de -14.9858n -13.7437 2.58308 122.254 -652.325 10.7543 33.0638
comb.
(93) ∑( (93)
)(
xi − x y i − y
(93)
) (93) (93) (93) (93) (1)
y) =
Longitudcov( x,-54.6733
i =1
-42.2678 11.8197 421.296 -3844.92 33.0638 213.23
(93) (93)n − 1 (93) (93) (93) (93) (93)
Wheelbase -25.5671 -22.3758 5.18194 173.893 -1903.77 16.9448 82.022
Las covarianzas (93)pueden(93) guardarse (93)
en la hoja(93) (93) usarse
de datos para (93)en otros
(93)cálculos si así se
Ancho -15.3021 -12.9023 3.39923 127.544 -1217.09 9.89828 45.3679
desea. (93) (93) (93) (93) (93) (93) (93)
Peso -2795.09 -2549.65 517.133 22825.5 -150636. 1729.47 6945.16
(93) (93) (93) (93) (93) (93) (93)
Correlaciones Parciales
El panel Correlaciones Parciales despliega coeficientes que miden la fuerza de la relación entre
cada par de variables que ya se hayan computado para las relaciones con las otras variables:
Correlaciones Parciales
MPG Ciudad MPG Carretera Tamaño de Caballos de RPM Tanque de Longitud Ancho
motor fuerza comb.
MPG Ciudad 0.8507 0.0891 -0.2369 0.1960 -0.1007 -0.4046 -0.0125
(93) (93) (93) (93) (93) (93) (93)
0.0000Correlación 0.4174 0.0290 0.0723 0.3590 0.0001 0.9096
(Tamaño de Muestra)0.8507
MPG Carretera -0.0192 0.1925 -0.1126 -0.0415 0.3896 0.0849
Valor-P
(93) (93) (93) (93) (93) (93) (93)
0.0000 0.8613 0.0776 0.3051 0.7060 0.0002 0.4396
Tamaño de motor 0.0891 -0.0192 0.6729 -0.6704 0.0208 0.2344 0.1479
© 2006 por StatPoint,(93)
0.4174
Inc. (93)
0.8613
(93)
0.0000
(93)
Multiple
0.0000
(93)
Variable
0.8504
(93)
Analysis
0.0308
- (93)
90.1768
Caballos de fuerza -0.2369 0.1925 0.6729 0.7994 0.0237 -0.1796 0.1145
(93) (93) (93) (93) (93) (93) (93)
0.0290 0.0776 0.0000 0.0000 0.8295 0.1001 0.2969
STATGRAPHICS – Rev. 4/d/yyyy
Es útil medir la única correlación entre 2 variables no explicables por la otras. Por ejemplo, MPG
Ciudad es moderadamente correlacionada tanto con Tamaño de motor (-0.71) y Caballos de
fuerza (-0.67), pero las correlaciones parciales son mucho menores pues Tamaño de motor y
Caballos de fuerza tienden a explicar la misma característica de automóviles.
Llave Glifo
Se han desarrollado muchos métodos para desplegar datos multivariados. Un método útil es el
del glifo. Un glifo es una figura simbólica construida para desplegar el valor de variables
cuantitativas múltiples. El procedimiento Análisis de Múltiples Variables genera glifos en forma
de polígonos:
MPG City
Weight MPG Highway
Wheelbase Horsepower
Length RPM
Fueltank
La distancia desde el centro de la figura a cada vértice se usa para representar el valor relativo de
una variable seleccionada. Por ejemplo, el vértice de la posición de las seis en punto representa el
tamaño del tanque de combustible. Un carro con un tanque de gran capacidad tendrá un vértice
localizado lejos del centro en esa dirección, mientras el vértice para un carro con un tanque
pequeño estará mucho más cerca del centro.
Pueden deslegarse al mismo tiempo glifos para más de 25 filas. Los polígonos se estructuran de
tal manera que la distancia de un vértice al centro es muy pequeña para la fila con un valor
mínimo de la variable relevante y de longitud máxima para la fila con el mayor valor.
Los glifos son bastante útiles al conglomerar las filas, i.e., identificar filas que son similares entre
sí. Por ejemplo, el LeBaron, el Shadow, y el Spirit tienen valores promedio en todas las variables
y por lo tanto tienen forma similar. Casos inusuales tales como el Astro también funcionan (tiene
un tanque de combustible inusualmente grande).
Panel de Opciones
• Variable Etiqueta: variable (si hay) usada para etiquetar cada glifo.
• Etiqueta: Los glifos pueden etiquetarse por su número de fila y por el valor de una columna
seleccionada en la hoja de datos.
• Número de Fila Inicial: Los glifos para más de 25 filas se desplegarán al mismo tiempo,
comenzando con el número de fila especificado.
Gráficas de Rayos
Las Gráficas de Rayos son similares a las gráficas de estrellas pero tienen un formato
ligeramente diferente:
La mayor diferencia es la ubicación de los vértices. Para cada variable, el vértice se localiza en el
medio del rayo si el valor de esa variable es igual a la media muestral. Se localiza al final del
rayo si está 3 o más desviaciones estándar por encima de la media y muy cerca del centro de la
figura si el valor está 3 o más desviaciones estándar por debajo de la media muestral.
Para el Astro, note que el tamaño de su tanque es al menos 3 desviaciones estándar más grande
que la media de los 93 automóviles.
Guardar Resultados
Los siguientes resultados pueden guardarse en la hoja de datos:
∑ (x i − x )( y i − y )
r= i =1
n n (2)
∑ (x i − x ) 2 ∑ ( y i − y )2
i=1 i =1
t=
(n − 2)r 2
(3)
1− r2
donde
Di = U i − Vi (5)
( )
gx
n − n − ∑ t 3j , x − t j , x
3
j =1 (6)
A=
12
( )
gy
n 3 − n − ∑ t 3j , y − t j , y
j =1 (7)
B=
12
z = R n −1 (8)
S
R=
n(n − 1) n(n − 1)
( ) ( )
gx g
y
− ∑ t 3j , x − t j , x − ∑ t 3j , y − t j , y (9)
2 j =1 2 j =1
donde S es el número total de pares concordantes de observaciones (pares en donde (Ui - Uj)(Vi -
Vj) es positivo) menos el número de pares discordantes de observaciones (pares en donde (Ui -
Uj)(Vi - Vj) es negativo). La significancia de la correlación se encuentra comparando
S
z=
n(n − 1)(2n + 5) / 18 (10)