Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LECTURA OBLIGATORIA
Regresin Lineal Mltiple. En Rial, A. y Varela, J. (2008). Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo. Pginas 199-223.
Modelos Multivariantes
LA CORRELACIN LINEAL
COEFICIENTE DE CORRELACIN de PEARSON Es una medida del grado de asociacin entre dos variables de intervalo o razn Una manera til de examinar la relacin entre dos variables de intervalo es mediante un DIAGRAMA DE DISPERSIN
Tendencia lineal
Y
A valores altos de Y le corresponden valores altos de X rxy > 0, directa rxy = 0, ausencia de relacin
X Modelos Multivariantes
COVARIANZA Y CORRELACIN
La correlacin es una medida estandarizada de la Covarianza -1 < rxy < + 1: es una medida tanto de la direccin como de la fuerza de la relacin Permite que se compare la relacin entre pares de variables independientemente de las unidades en que se midan
Cov ( X , Y )
(Xi
X )( Yi n
Y)
rxy
(Xi
X )(Yi
Y)
(n) S x S y
4
Modelos Multivariantes
Aciertos test
90
80
70 60 50 50 60 70 80 90 100
Horas de estudio
Modelos Multivariantes
Mnimos cuadrados
(Yi
) 2 =e ; Y i i
e mnimo i
2
Modelos Multivariantes
r xy
Sy Sx
En el caso de que
b=
0.93
Predeciramos un incremento de 0.93 en los aciertos del test por cada hora de estudio. Un signo negativo de b indicara que a ms horas de estudio menos aciertos.
Modelos Multivariantes 7
b representa
la cantidad de cambio que pronosticaramos en Y para un cambio de una unidad en X (pendiente de la recta) La ecuacin de regresin (Y=6.16+0.93X) puede utilizarse para generar pronsticos de Y a partir de X Adems se cumple que la diferencia entre los valores observados y pronosticados elevados al cuadrado es mnima
SC error
Yi
Y i
ei
mnimo
FUENTES DE VARIACIN
Desviacin total= Desviacin debido a X + Desviacin debido al error
(Y i
Y )2
+
(Yi
)2 Y i
Variacin Total
Modelos Multivariantes
GRFICAMENTE
Y
(Yi total Y)
) (Yi Y i no explicada
y=a+bX La prediccin ms sencilla sera asignarle la media global. La parte explicada por el modelo es justamente la cantidad en que se reduce la desviacin total debido a nuestro conocimiento de otras variables y su relacin con la VD (ecuacin de regresin)
Y) (Y i explicada
Modelos Multivariantes
10
Varianza explicada
Se le llama tambin coeficiente de determinacin (R2) Es una proporcin entre la variacin explicada por la ecuacin de regresin, con respecto a la variacin total
R 2 xy variac.exp licada variac.total SC explicada SC total (Y i (Y (Y (Y Y i )2 Yi ) 2 )2 Y i Yi ) 2
R 2 xy
variac.error 1 variac.total
SC error SC total
Modelos Multivariantes
11
EJEMPLO
El objetivo del responsable de MKT de una estacin de esqu es
determinar cules son las variables que mejor explican que un sujeto esque mucho o poco en su estacin
DISEO
Prestar especial atencin a varios elementos:
Fijar bien los objetivos Todas las variables deben ser mtricas (de ESCALA) Especificar correctamente el modelo:
Especificar la VD y las VI No omitir variables relevantes ni incluir irrelevantes Utilizar herramientas adecuadas para recoger (medir) los datos
NORMALIDAD DE LAS Vs LINEALIDAD (relacin lineal entre predictores y criterio) Ausencia de MULTICOLINEALIDAD INDEPENDENCIA de los errores (no correlacionados) NORMALIDAD de los errores (residuos aleatorios, media de errores = 0)
Modelos Multivariantes 13
Interpretacin de Resultados
BONDAD DE AJUSTE
R esumen del mod elo
R cuadrado corregida ,656 ,752 ,818 Error tp. de la estimacin 1,478 1,254 1,075
M odelo 1 2 3
a. Variables predictoras: (Constante), IN GRESOS EC ONMICOS b. Variables predictoras: (Constante), IN GRESOS EC ONMICOS, AOS PR ACTIC ANDO ESQU c. Variables predictoras: (Constante), IN GRESOS EC ONMICOS, AOS PR ACTIC ANDO ESQU, SAT ISFACC IN GENERAL
Modelos Multivariantes
14
Interpretacin de Resultados
SIGNIFICACIN DEL MODELO (contraste global: F)
Se comprueba hasta qu punto la Variacin Explicada por la Regresin es significativa. Se trata de un cociente o proporcin con relacin a la varianza de error. Cuanto ms grande sea con los datos muestrales, menor probabilidad habr de que en la poblacin ese cociente sea 0. d
AN OVA
M odelo 1 Suma de cuadrados 101,995 50,245 152,240 117,619 34,621 152,240 127,987 24,253 152,240 gl 1 23 24 2 22 24 3 21 24 42,662 1,155 36,940 ,000c 58,809 1,574 37,370 ,000b M edia cuadrtica 101,995 2,185 F 46,689 Sig. ,000a
a. Variables predictoras: (Constante), IN GRESOS EC ONMICOS b. Variables predictoras: (Constante), IN GRESOS EC ONMICOS, AOS PR ACTICAND O ESQU c. Variables predictoras: (Constante), IN GRESOS EC ONMICOS, AOS PR ACTICAND O ESQU , SATISFACC IN GEN ERAL d. Variable dependiente: N D AS QUE ESQU A POR TEMPORADA
15
Interpretacin de Resultados
SIGNIFICACIN DE LOS PARMETROS (contraste particular: t)
Para comprobar si cada V.I. por influye significativamente sobre la V.D., comprobando si se trata de un predictor estadsticamente significativo (significativamente distinto de 0) H0: BP = 0 H1: BP 0
C oefici entes a
Coeficientes no estandarizados M odelo 1 B (Constante) IN GRESOS EC ONM IC OS 2 (Constante) IN GRESOS EC ONM IC OS AOS PR ACTIC ANDO ESQU 3 (Constante) IN GRESOS EC ONM IC OS AOS PR ACTIC ANDO ESQU SATISFACCIN GEN ERAL ,343 2,922E-03 9,728E-02 2,153E-03 ,227 -2,244 2,075E-03 ,201 ,388 Error tp. ,813 ,000 ,695 ,000 ,072 ,982 ,000 ,062 ,129 ,581 ,341 ,268 ,603 ,386 Coeficientes estandarizados Beta ,819 t ,422 6,833 ,140 4,924 3,151 -2,285 5,526 3,215 2,996 Sig. ,677 ,000 ,890 ,000 ,005 ,033 ,000 ,004 ,007
Bp Se B p
Modelos Multivariantes
16
Interpretacin de Resultados
INDICADORES DE BONDAD DE AJUSTE: SC Re gr 2 0.84 a) El cuadrado del Coeficiente de Correlacin Mltiple (R2 ) R SCY b) El % de varianza explicada (R2x100). 84% c) R2 ajustado, porque R2 aumenta en funcin del nmero de V.I. y con un n pequeo P (1 R 2 ) 2 2
R
aj .
LOS PARMETROS a es la constante, el intercepto, valor de Y cuando X=0 P, indica la direccin de la relacin y la intensidad de la relacin Si P > 0: un incremento en una unidad, de la variable asociada XP implica un incremento en Y en unidades (Si se incrementa en un punto la satisfaccin se incrementar la estancia en 0.338 das) Si P < 0: incremento en una unidad, de la variable asociada XP implica 17 una disminucin en Y en unidades
n P 1
0.81
Interpretacin de Resultados
b vs.
Como las XP fueron medidas en escalas diferentes (aos, euros, nmero personas, etc.) los coeficientes b NO SON COMPARABLES ENTRE S Para saber qu predictor es ms importante hay que normalizar los coeficientes b. SXp bp p SY
Modelos Multivariantes
18
La seleccin de variables
VARIOS MTODOS
A la hora de realizar el anlisis de regresin mediante SPSS existen diferentes mtodos para seleccionar los predictores a incluir en el modelo de regresin. Las opciones son fundamentalmente dos: MTODO INTRODUCIR (ENTER). Construye la ecuacin utilizando todos los predictores. Se utiliza por defecto. No aconsejable: R2 est inflado. MTODOS POR PASOS (STEPWISE). Se van incorporando o eliminando variables paso a paso,si cumplen unos criterios de seleccin. El objetivo es siempre maximizar el ajuste del modelo utilizando el menor n de predictores posible. Hacia delante vs. hacia atrs. No olvidar la Parsimonia!
Modelos Multivariantes 20
La seleccin de variables
CRITERIOS ESTADSTICOS:
Significacin Mayor correlacin con el criterio Mayor correlacin parcial (eliminando influencia del resto) Cambio en R2 (selecciona la variable que maximice el cambio) Tolerancia alta (una VI no puede ser explicada por las otras VI)
Modelos Multivariantes 21
EL ERROR EN LA REGRESIN
QU ES?
Y - Y = e
A qu puede deberse?
Variables relevantes omitidas en el modelo Mala especificacin del modelo (relaciones no lineales) Errores en la medicin (recogida de datos) Comportamiento cambiante de los sujetos Falta de recorrido en la VD o en las VI
Modelos Multivariantes
22
100 90 80 70
60 50
70
80
90
100
Distancia de Cook (valores >1 gran importancia de un sujeto en los parmetros del modelo) Distancia de Mahalanobis (valores altos, sujetos distintos al resto)
Modelos Multivariantes
23
Comprobacin de supuestos
Normalidad de cada VI (Lilliefors) Linealidad Diagramas de dispersin particulares (de cada VI con la VD) Ausencia de Multicolinealidad TOLERANCIA. Una tolerancia alta indica que la VI es independiente del resto de variables del modelo. Independencia de los errores (residuos) Estadstico Durbin-Watson Normalidad de los residuos Histograma, Grfico de probabilidad normal, K-S
Modelos Multivariantes 24