Está en la página 1de 24

TEMA III

EL ANLISIS DE REGRESIN LINEAL MLTIPLE

LECTURA OBLIGATORIA
Regresin Lineal Mltiple. En Rial, A. y Varela, J. (2008). Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo. Pginas 199-223.

Modelos Multivariantes

LA CORRELACIN LINEAL
COEFICIENTE DE CORRELACIN de PEARSON Es una medida del grado de asociacin entre dos variables de intervalo o razn Una manera til de examinar la relacin entre dos variables de intervalo es mediante un DIAGRAMA DE DISPERSIN
Tendencia lineal
Y

A valores altos de Y le corresponden valores altos de X rxy > 0, directa rxy = 0, ausencia de relacin
X Modelos Multivariantes

rxy < o, inversa


3

COVARIANZA Y CORRELACIN
La correlacin es una medida estandarizada de la Covarianza -1 < rxy < + 1: es una medida tanto de la direccin como de la fuerza de la relacin Permite que se compare la relacin entre pares de variables independientemente de las unidades en que se midan

Cov ( X , Y )

(Xi

X )( Yi n

Y)

rxy

(Xi

X )(Yi

Y)

(n) S x S y
4

Modelos Multivariantes

REGRESIN LINEAL SIMPLE


QU ES? Un tipo de anlisis que permite conocer en qu medida una VD o criterio puede ser explicada o predicha a partir de una VI o predictora, siendo ambas de intervalo o razn
Y
100

EJEMPLO : V.D. V.I.

Aciertos test

90
80

Aciertos en un Test (Y) Horas de estudio (X)

70 60 50 50 60 70 80 90 100

Horas de estudio

Modelos Multivariantes

Mtodo de MNIMOS CUADRADOS


Podramos intentar ajustar una lnea a ojo, por la mitad del diagrama de dispersin, para obtener una relacin lineal entre X e Y
Pero vamos a hacerlo siguiendo un procedimiento matemtico, definiendo una recta en el plano X,Y, con unos parmetros concretos. Tenemos que buscar la ecuacin que minimice los errores de prediccin.

Para ello tenemos que calcular la Ecuacin de la recta (Y=a+bX), donde:


a= valor de la interseccin con el eje Y b= la pendiente de la recta Debe minimizar el error o la desviacin no explicada

Mnimos cuadrados

(Yi

) 2 =e ; Y i i

e mnimo i
2

Modelos Multivariantes

Mtodo de MNIMOS CUADRADOS


Los valores de a y b que minimizan la suma del cuadrado de los ) 2 son: (Yi Y errores i
a Y bX

r xy

Sy Sx

En el caso de que

b=

0.93

Predeciramos un incremento de 0.93 en los aciertos del test por cada hora de estudio. Un signo negativo de b indicara que a ms horas de estudio menos aciertos.
Modelos Multivariantes 7

Interpretacin de los coeficientes


a indica
el valor pronosticado de Y cuando X es cero (intercepto)

b representa

la cantidad de cambio que pronosticaramos en Y para un cambio de una unidad en X (pendiente de la recta) La ecuacin de regresin (Y=6.16+0.93X) puede utilizarse para generar pronsticos de Y a partir de X Adems se cumple que la diferencia entre los valores observados y pronosticados elevados al cuadrado es mnima

SC error

Yi

Y i

ei

mnimo

Ningn otro valor de a y b dara este SCerror tan pequeo


Modelos Multivariantes 8

FUENTES DE VARIACIN
Desviacin total= Desviacin debido a X + Desviacin debido al error

SCtotal = Scexplicada por la regresin + Scno explicada por la regresin


(Yi Y )2
=

(Y i

Y )2
+

(Yi

)2 Y i

Variacin Total

Variacin. explicada por la regresin

Variacin.no explicada por la regresin

Modelos Multivariantes

GRFICAMENTE
Y
(Yi total Y)
) (Yi Y i no explicada

y=a+bX La prediccin ms sencilla sera asignarle la media global. La parte explicada por el modelo es justamente la cantidad en que se reduce la desviacin total debido a nuestro conocimiento de otras variables y su relacin con la VD (ecuacin de regresin)

Y) (Y i explicada

Modelos Multivariantes

10

Varianza explicada
Se le llama tambin coeficiente de determinacin (R2) Es una proporcin entre la variacin explicada por la ecuacin de regresin, con respecto a la variacin total
R 2 xy variac.exp licada variac.total SC explicada SC total (Y i (Y (Y (Y Y i )2 Yi ) 2 )2 Y i Yi ) 2

R 2 xy

variac.error 1 variac.total

SC error SC total

Modelos Multivariantes

11

EJEMPLO
El objetivo del responsable de MKT de una estacin de esqu es
determinar cules son las variables que mejor explican que un sujeto esque mucho o poco en su estacin

Trat de explicar el n de das que los esquiadores iban a su


estacin durante una temporada (V1). Para ello registr
Edad de los esquiadores (V2) Aos de prctica (V3)

Ingresos econmicos (V4)


Satisfaccin general (V5) N de personas con las que esqua (V6)
Modelos Multivariantes 12

DISEO
Prestar especial atencin a varios elementos:
Fijar bien los objetivos Todas las variables deben ser mtricas (de ESCALA) Especificar correctamente el modelo:

Especificar la VD y las VI No omitir variables relevantes ni incluir irrelevantes Utilizar herramientas adecuadas para recoger (medir) los datos
NORMALIDAD DE LAS Vs LINEALIDAD (relacin lineal entre predictores y criterio) Ausencia de MULTICOLINEALIDAD INDEPENDENCIA de los errores (no correlacionados) NORMALIDAD de los errores (residuos aleatorios, media de errores = 0)
Modelos Multivariantes 13

Garantizar que se cumplen una serie de Supuestos:

Interpretacin de Resultados
BONDAD DE AJUSTE
R esumen del mod elo
R cuadrado corregida ,656 ,752 ,818 Error tp. de la estimacin 1,478 1,254 1,075

M odelo 1 2 3

R ,819a ,879b ,917


c

R cuadrado ,670 ,773 ,841

a. Variables predictoras: (Constante), IN GRESOS EC ONMICOS b. Variables predictoras: (Constante), IN GRESOS EC ONMICOS, AOS PR ACTIC ANDO ESQU c. Variables predictoras: (Constante), IN GRESOS EC ONMICOS, AOS PR ACTIC ANDO ESQU, SAT ISFACC IN GENERAL

Modelos Multivariantes

14

Interpretacin de Resultados
SIGNIFICACIN DEL MODELO (contraste global: F)
Se comprueba hasta qu punto la Variacin Explicada por la Regresin es significativa. Se trata de un cociente o proporcin con relacin a la varianza de error. Cuanto ms grande sea con los datos muestrales, menor probabilidad habr de que en la poblacin ese cociente sea 0. d
AN OVA
M odelo 1 Suma de cuadrados 101,995 50,245 152,240 117,619 34,621 152,240 127,987 24,253 152,240 gl 1 23 24 2 22 24 3 21 24 42,662 1,155 36,940 ,000c 58,809 1,574 37,370 ,000b M edia cuadrtica 101,995 2,185 F 46,689 Sig. ,000a

Regresin Residual Total

Regresin Residual Total

Regresin Residual Total

a. Variables predictoras: (Constante), IN GRESOS EC ONMICOS b. Variables predictoras: (Constante), IN GRESOS EC ONMICOS, AOS PR ACTICAND O ESQU c. Variables predictoras: (Constante), IN GRESOS EC ONMICOS, AOS PR ACTICAND O ESQU , SATISFACC IN GEN ERAL d. Variable dependiente: N D AS QUE ESQU A POR TEMPORADA

15

Interpretacin de Resultados
SIGNIFICACIN DE LOS PARMETROS (contraste particular: t)
Para comprobar si cada V.I. por influye significativamente sobre la V.D., comprobando si se trata de un predictor estadsticamente significativo (significativamente distinto de 0) H0: BP = 0 H1: BP 0
C oefici entes a
Coeficientes no estandarizados M odelo 1 B (Constante) IN GRESOS EC ONM IC OS 2 (Constante) IN GRESOS EC ONM IC OS AOS PR ACTIC ANDO ESQU 3 (Constante) IN GRESOS EC ONM IC OS AOS PR ACTIC ANDO ESQU SATISFACCIN GEN ERAL ,343 2,922E-03 9,728E-02 2,153E-03 ,227 -2,244 2,075E-03 ,201 ,388 Error tp. ,813 ,000 ,695 ,000 ,072 ,982 ,000 ,062 ,129 ,581 ,341 ,268 ,603 ,386 Coeficientes estandarizados Beta ,819 t ,422 6,833 ,140 4,924 3,151 -2,285 5,526 3,215 2,996 Sig. ,677 ,000 ,890 ,000 ,005 ,033 ,000 ,004 ,007

Bp Se B p

a. Variable dependiente: N D AS QUE ESQUA POR TEMPOR ADA

Modelos Multivariantes

16

Interpretacin de Resultados
INDICADORES DE BONDAD DE AJUSTE: SC Re gr 2 0.84 a) El cuadrado del Coeficiente de Correlacin Mltiple (R2 ) R SCY b) El % de varianza explicada (R2x100). 84% c) R2 ajustado, porque R2 aumenta en funcin del nmero de V.I. y con un n pequeo P (1 R 2 ) 2 2
R
aj .

LOS PARMETROS a es la constante, el intercepto, valor de Y cuando X=0 P, indica la direccin de la relacin y la intensidad de la relacin Si P > 0: un incremento en una unidad, de la variable asociada XP implica un incremento en Y en unidades (Si se incrementa en un punto la satisfaccin se incrementar la estancia en 0.338 das) Si P < 0: incremento en una unidad, de la variable asociada XP implica 17 una disminucin en Y en unidades

n P 1

0.81

Interpretacin de Resultados
b vs.
Como las XP fueron medidas en escalas diferentes (aos, euros, nmero personas, etc.) los coeficientes b NO SON COMPARABLES ENTRE S Para saber qu predictor es ms importante hay que normalizar los coeficientes b. SXp bp p SY

Modelos Multivariantes

18

Razones por las que Bp puede no ser significativo


Tamao de la muestra inadecuado. Solucin: ampliar el n (arma de
doble filo)

Especificacin incorrecta del modelo (la relacin entre x e Y no es


lineal). Solucin: transformar las variables.

Poco recorrido de los valores de X e Y. Solucin: Recurrir al

Anlisis Discriminante o a la Regresin Logstica (Grupos Polares)

Existencia de multicolinealidad. VI en principio importantes no entran


en la ecuacin porque ya lo hicieron antes otras con las que guarda mucha relacin. Puede derivar tambin en resultados contradictorios (B negativos cuando las correlaciones son positivas). Soluciones: prescindir de alguna variable, anlisis de correlaciones previo,
Modelos Multivariantes 19

La seleccin de variables
VARIOS MTODOS
A la hora de realizar el anlisis de regresin mediante SPSS existen diferentes mtodos para seleccionar los predictores a incluir en el modelo de regresin. Las opciones son fundamentalmente dos: MTODO INTRODUCIR (ENTER). Construye la ecuacin utilizando todos los predictores. Se utiliza por defecto. No aconsejable: R2 est inflado. MTODOS POR PASOS (STEPWISE). Se van incorporando o eliminando variables paso a paso,si cumplen unos criterios de seleccin. El objetivo es siempre maximizar el ajuste del modelo utilizando el menor n de predictores posible. Hacia delante vs. hacia atrs. No olvidar la Parsimonia!
Modelos Multivariantes 20

La seleccin de variables
CRITERIOS ESTADSTICOS:

Significacin Mayor correlacin con el criterio Mayor correlacin parcial (eliminando influencia del resto) Cambio en R2 (selecciona la variable que maximice el cambio) Tolerancia alta (una VI no puede ser explicada por las otras VI)
Modelos Multivariantes 21

EL ERROR EN LA REGRESIN
QU ES?

Y - Y = e

A qu puede deberse?
Variables relevantes omitidas en el modelo Mala especificacin del modelo (relaciones no lineales) Errores en la medicin (recogida de datos) Comportamiento cambiante de los sujetos Falta de recorrido en la VD o en las VI

Modelos Multivariantes

22

Cmo mejorar el ajuste del modelo?


Y

Tratamiento de los Outliers


Sujetos que estropean el ajuste del modelo

100 90 80 70

Se detectan en base a los residuos


Otros indicadores

60 50

Brutos (no tipificados) 50 60 Tipificados (divididos por Se - nunca superior a 3, incluso 2)

70

80

90

100

Distancia de Cook (valores >1 gran importancia de un sujeto en los parmetros del modelo) Distancia de Mahalanobis (valores altos, sujetos distintos al resto)

Modelos Multivariantes

23

Comprobacin de supuestos
Normalidad de cada VI (Lilliefors) Linealidad Diagramas de dispersin particulares (de cada VI con la VD) Ausencia de Multicolinealidad TOLERANCIA. Una tolerancia alta indica que la VI es independiente del resto de variables del modelo. Independencia de los errores (residuos) Estadstico Durbin-Watson Normalidad de los residuos Histograma, Grfico de probabilidad normal, K-S
Modelos Multivariantes 24

También podría gustarte