Está en la página 1de 23

TEMA III

EL ANÁLISIS DE REGRESIÓN
LINEAL MÚLTIPLE
LECTURA OBLIGATORIA

Regresión Lineal Múltiple. En Rial, A. y Varela, J. (2008). Estadística


Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo.
Páginas 199-223.

Modelos Multivariantes 2
LA CORRELACIÓN LINEAL
COEFICIENTE DE CORRELACIÓN de PEARSON
Es una medida del grado de asociación entre dos
variables de intervalo o razón
Una manera útil de examinar la relación entre dos
variables de intervalo es mediante un DIAGRAMA DE
DISPERSIÓN
Tendencia lineal
Y A valores altos de Y le corresponden valores altos de X

rxy > 0, directa


rxy = 0, ausencia de relación

X rxy < o, inversa


Modelos Multivariantes 3
COVARIANZA Y CORRELACIÓN
La correlación es una medida estandarizada de la Covarianza

 -1 < rxy < + 1: es una medida tanto de la dirección como de la


fuerza de la relación

Permite que se compare la relación entre pares de variables


independientemente de las unidades en que se midan

Cov( X , Y ) 
 (X i  X )(Yi  Y )
rxy 
 (X i  X )(Yi  Y )
n ( n) S x S y

Modelos Multivariantes 4
REGRESIÓN LINEAL SIMPLE
¿QUÉ ES? Un tipo de análisis que permite conocer en qué
medida una VD o criterio puede ser explicada o predicha a partir de una VI o
predictora, siendo ambas de intervalo o razón
Y
100
90
Aciertos test
EJEMPLO : 80

V.D. Aciertos en un Test (Y) 70


V.I. Horas de estudio (X) 60
50
50 60 70 80 90 100
X
Horas de estudio

Modelos Multivariantes 5
Método de MÍNIMOS CUADRADOS
Podríamos intentar ajustar una línea a ojo, por la mitad del diagrama de
dispersión, para obtener una relación lineal entre X e Y
Pero vamos a hacerlo siguiendo un procedimiento matemático, definiendo
una recta en el plano X,Y, con unos parámetros concretos.
Tenemos que buscar la ecuación que minimice los errores de predicción.

Para ello tenemos que calcular la Ecuación de la recta


(Y=a+bX), donde:
a= valor de la intersección con el eje Y
b= la pendiente de la recta

Debe minimizar el error o la desviación no explicada

Mínimos cuadrados  (Yi  Yˆi ) =ei ;  ei mínimo


2 2

Modelos Multivariantes 6
Método de MÍNIMOS CUADRADOS

Los valores de a y b que minimizan la suma del cuadrado de los


errores  (Yi  Yˆi )2 son:

Sy
a  Y  bX b  rxy
Sx

En el caso de que…

b= 0.93
Predeciríamos un incremento de 0.93 en los aciertos del test por
cada hora de estudio. Un signo negativo de b indicaría que a más
horas de estudio menos aciertos.

Modelos Multivariantes 7
Interpretación de los coeficientes
a indica el valor pronosticado de Y cuando X es cero (“intercepto”)

b representala cantidad de cambio que pronosticaríamos en Y para un


cambio de una unidad en X (pendiente de la recta)
La ecuación de regresión (Y’=6.16+0.93X) puede utilizarse para
generar pronósticos de Y a partir de X
Además se cumple que la diferencia entre los valores observados
y pronosticados elevados al cuadrado es mínima

SCerror 
  Yi  Yˆi 2
 ei  mínimo
2

Ningún otro valor de a y b daría este


SCerror tan pequeño

Modelos Multivariantes 8
FUENTES DE VARIACIÓN
Desviación total= Desviación debido a X + Desviación debido al error

SCtotal = Scexplicada por la regresión + Scno explicada por la regresión


 (Yi  Y ) 2   ( Ŷi  Y )2   (Yi  Yˆi ) 2
Variación. Variación.no
Variación
Total
= explicada por + explicada por la
la regresión regresión

Modelos Multivariantes 9
GRÁFICAMENTE

Y (Yi  Yˆi )
y=a+bX
no explicada
(Yi  Y )
total (Yˆi  Y ) La predicción más sencilla sería
asignarle la media global. La parte
explicada explicada por el modelo es
Y
justamente la cantidad en que se
reduce la desviación total debido a
nuestro conocimiento de otras
variables y su relación con la VD
X (ecuación de regresión)

Modelos Multivariantes 10
Varianza explicada
 Se le llama también coeficiente de determinación (R2)
 Es una proporción entre la variación explicada por la ecuación
de regresión, con respecto a la variación total

variac.exp licada SC explicada  (Yˆi  Y i )


2

R 2 xy   
variac.total SC total  (Y  Yi ) 2

variac.err or SC error  (Y  Yˆi )


2

R 2 xy  1  
variac.total SC total  (Y  Yi ) 2

Modelos Multivariantes 11
EJEMPLO
El objetivo del responsable de MKT de una estación de esquí es
determinar cuáles son las variables que mejor explican que
un sujeto esquíe mucho o poco en su estación

Trató de explicar el nº de días que los esquiadores iban a su


estación durante una temporada (V1). Para ello registró
 Edad de los esquiadores (V2)
 Años de práctica (V3)
 Ingresos económicos (V4)
 Satisfacción general (V5)
 Nº de personas con las que esquía (V6)

Modelos Multivariantes 12
¡OJO AL DISEÑO!
Prestar especial atención a varios elementos:
Fijar bien los objetivos
Todas las variables deben ser métricas (de ESCALA)
Especificar correctamente el modelo:
Especificar la VD y las VI
No omitir variables relevantes ni incluir irrelevantes
Utilizar herramientas adecuadas para recoger (medir) los datos
Garantizar que se cumplen una serie de Supuestos:
NORMALIDAD DE LAS Vs
LINEALIDAD (relación lineal entre predictores y criterio)
Ausencia de MULTICOLINEALIDAD
INDEPENDENCIA de los errores
NORMALIDAD de los errores

Modelos Multivariantes 13
EL ANÁLISIS EN SPSS

VARIOS MÉTODOS
A la hora de realizar el análisis de regresión mediante SPSS existen
diferentes métodos para seleccionar los predictores a incluir en el modelo
de regresión. Las opciones son fundamentalmente dos:

 MÉTODO INTRODUCIR (ENTER). Construye la ecuación utilizando todos


los predictores. Se utiliza por defecto. No aconsejable: R2 está inflado.

 MÉTODOS POR PASOS (STEPWISE). Se van incorporando o eliminando


variables paso a paso, si cumplen unos criterios de selección. El objetivo
es siempre maximizar el ajuste del modelo utilizando el menor nº de
predictores posible. Hacia delante vs. hacia atrás.

Modelos Multivariantes 14
INTERPRETACIÓN DE RESULTADOS
SIGNIFICACIÓN DEL MODELO (contraste global: F)
Se comprueba hasta qué punto la Variación Explicada por la Regresión es
significativa. Se trata de un cociente o proporción con relación a la varianza de error.
Cuanto más grande sea con los datos muestrales, menor probabilidad habrá de que
en la población ese cociente sea 0. d ANOVA

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 101,995 1 101,995 46,689 ,000 a
Residual 50,245 23 2,185
Total 152,240 24
2 Regresión 117,619 2 58,809 37,370 ,000 b
Residual 34,621 22 1,574
Total 152,240 24
3 Regresión 127,987 3 42,662 36,940 ,000 c
Residual 24,253 21 1,155
Total 152,240 24
a. Variables predictoras: (Constante), INGRE SOS ECONÓMICOS

b. Variables predictoras: (Constante), INGRE SOS ECONÓMICOS, AÑOS PRACT ICANDO


ESQUÍ
c. Variables predictoras: (Constante), INGRE SOS ECONÓMICOS, AÑOS PRACT ICANDO
ESQUÍ, SATISFACCIÓN GENERAL
15
d. Variable dependiente: Nº DÍAS QUE ESQUÍA POR T EMPORADA
INTERPRETACIÓN DE RESULTADOS
INDICADORES DE BONDAD DE AJUSTE:
a) El cuadrado del Coeficiente de Correlación Múltiple (R2 )
b) El % de varianza explicada (R2x100). 84%
c) El R2 hay que corregirlo, porque R2 aumenta en función del
número de V.I. y con un “n” pequeño
Resum en d el mo delo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación P(1  R 2 )
1 ,819 a ,670 ,656 1,478 R aj.  R 
2 2
 0.81
2 ,879 b ,773 ,752 1,254 n  P 1
3 c
,917 ,841 ,818 1,075
a. Variables predictoras: (Constante), INGRES OS ECONÓMICOS

b. Variables predictoras: (Constante), INGRES OS ECONÓMICOS,


AÑOS PRACTICANDO ESQUÍ
c. Variables predictoras: (Constante), INGRES OS ECONÓMICOS,
AÑOS PRACTICANDO ESQUÍ, SA TISFACCIÓN GENE RAL

Modelos Multivariantes 16
INTERPRETACIÓN DE RESULTADOS

LOS PARÁMETROS
 “a” es la constante, el intercepto, valor de Y cuando X=0

 P, indica la dirección de la relación y la intensidad de la relación

Si P > 0: un incremento en una unidad, de la variable asociada XP


implica un incremento en Y en unidades (Si se incrementa en un
punto la satisfacción se incrementará la estancia en 0.338 días)
Si P < 0: incremento en una unidad, de la variable asociada XP implica
una disminución en Y en unidades

17
INTERPRETACIÓN DE RESULTADOS
SIGNIFICACIÓN DE LOS PARÁMETROS (contraste particular: t)
Para comprobar si cada V.I. por influye significativamente sobre la V.D.,
comprobando si se trata de un predictor estadísticamente significativo
(“significativamente distinto de 0”)
H0: BP = 0 H1: BP  0
Coeficien tes a

Coeficientes no Coeficientes
es tandarizados es tandarizados
Modelo B Error típ. Beta t Sig.
1 (Constante) ,343 ,813 ,422 ,677 Bp
INGRESOS E CONÓMICOS 2,922E-03 ,000 ,819 6,833 ,000 t
2 (Constante)
INGRESOS E CONÓMICOS
9,728E-02
2,153E-03
,695
,000 ,603
,140
4,924
,890
,000
SeB p
AÑOS PRACTICANDO ESQUÍ ,227 ,072 ,386 3,151 ,005
3 (Constante) -2,244 ,982 -2,285 ,033
INGRESOS E CONÓMICOS 2,075E-03 ,000 ,581 5,526 ,000
AÑOS PRACTICANDO ESQUÍ ,201 ,062 ,341 3,215 ,004
SAT ISFACCIÓN GENERA L ,388 ,129 ,268 2,996 ,007
a. Variable dependiente: Nº DÍAS QUE ESQUÍA POR TE MPORA DA

Modelos Multivariantes 18
INTERPRETACIÓN DE RESULTADOS

b vs. 
 Como las XP fueron medidas en escalas diferentes (años, euros, número
personas, etc.) los coeficientes “b” NO SON COMPARABLES ENTRE SÍ

 Para saber qué predictor es más importante hay que normalizar los
coeficientes b. SX p
 p  bp
SY

Modelos Multivariantes 19
Razones por las que Bp puede no ser
significativo
Tamaño de la muestra inadecuado. Solución: ampliar el “n” (arma de
doble filo)

Especificación incorrecta del modelo (la relación entre x e Y no es


lineal). Solución: transformar las variables.

Poco recorrido de los valores de X e Y. Solución: Recurrir al


Análisis Discriminante o a la Regresión Logística (“Grupos Polares”)

Existencia de multicolinealidad. VI en principio importantes no entran


en la ecuación porque ya lo hicieron antes otras con las que guarda mucha
relación. Puede derivar también en resultados contradictorios (B negativos
cuando las correlaciones son positivas). Soluciones: prescindir de alguna
variable, análisis de correlaciones previo, …

Modelos Multivariantes 20
EL ERROR EN LA REGRESIÓN

¿QUÉ ES? Y - Y’ = e
¿A qué puede deberse?
 Variables relevantes omitidas en el modelo e inclusión de irrelevantes
 Mala especificación del modelo (relaciones no lineales entre Xi e Y)
 Errores en la medición (recogida de datos)
 Comportamiento cambiante de los sujetos

Modelos Multivariantes 21
¿Cómo mejorar el ajuste del modelo?
Y
100
Tratamiento de los Outliers 90

Sujetos que estropean el ajuste del modelo 80

70

Se detectan en base a los residuos 60

50
 Brutos (no tipificados) 50 60 70 80 90 100
X
 Tipificados (divididos por Se - nunca superior a 3, incluso 2)
Otros indicadores
 Distancia de Cook (valores >1 gran importancia de un sujeto en los parámetros del
modelo)
 Distancia de Mahalanobis (valores altos, sujetos distintos al resto)

Modelos Multivariantes 22
Comprobación de supuestos
 Normalidad de cada VI (Lilliefors)
 Linealidad
Diagramas de dispersión particulares (de cada VI con la VD)
 Ausencia de Multicolinealidad
TOLERANCIA. Una tolerancia alta indica que la VI es
independiente del resto de variables del modelo.
 Independencia de los errores (residuos)
Estadístico Durbin-Watson
 Normalidad de los residuos
Histograma, Gráfico de probabilidad normal, K-S

Modelos Multivariantes 23

También podría gustarte