10 Inferencia Regresion Simple

10.
Relaciones entre dos variables cuantitativas (Inferencia)

Ya revisamos la descripción de variables cuantitativas ahora veremos la manera de hacer inferencia a
partir de los resultados muestrales.
Problema: ¿Existe relación entre las notas en la Prueba Final Acumulativa y las notas de la Prueba 1 en
cursos de Estadística en la UTAL
7
2
Examen
1
1 2 3 4 5 6 7
Prueba 1
Inferencia en Regresión Lineal Simple
Modelo de regresión lineal simple:

Se tienen n observaciones de una variable explicativa x y de una variable respuesta y,
 x1 , y1  ,  x 2 , y 2  , ...,  x n , y n 
el modelo estadístico de regresión lineal simple es:
y i     x i  ei
donde
 y  E (Y )    x es la respuesta promedio para cada x.
 representa el intercepto de la función lineal que usa todos los valores de la población y
 representa la pendiente de la función lineal que usa todos los valores de la población. y  son
parámetros
El modelo estadístico de regresión lineal simple asume que para cada valor de x, los valores de la
respuesta y son normales con media (que depende de x) y desviación estándar  que no depende de x.
Esta desviación estándar σ es la desviación estándar de todos los valores de y en la población para un
mismo valor de x.
Estos supuestos se pueden resumir como: Para cada x, Y ~ N (  y ,  ) donde  y  E (Y )    x
Podemos visualizar el modelo con la siguiente figura:
1
Los datos nos darán estimadores puntuales de los parámetros poblacionales.
Estimadores de los parámetros de regresión:
El estimador de la respuesta media está dado por E (Y )  yˆ  a  bx

El estimador del intercepto es: ̂  a
El estimador de la pendiente es: ̂  b
El estimador de la desviación estándar σ está dado por:
SCRes
 y  yˆ i  =  ei 2
2
ˆ  donde SCRes es la suma de cuadrados de los residuos i
n2
El coeficiente de correlación muestral r  ̂ es un estimador puntual de la correlación poblacional ρ
Probando la hipótesis acerca de la existencia de relación lineal
En el modelo de regresión lineal simple => E (Y )    x . Si   0 entonces las variables x e y no

están asociadas linealmente y la respuesta es una constante E(Y) =  .
E(Y) = 
Es decir, conocer el valor de x no nos va a ayudar a conocer y.
Para docimar la significancia de la relación lineal realizamos el test de hipótesis:
2
Ho:  = 0 (la pendiente de la recta de regresión en la población es cero)
H1:   0
Existen hipótesis de una cola, donde H1:  < 0 o H1:  > 0, pero lo usual es hacer el test bilateral.
Para docimar la hipótesis podemos usar el test t:
estimador puntual  valor hipotético

t
error estándar del estimador
El estimador puntual de  es b, y el valor hipotético es 0. El error estándar de b es:

ˆ
EE (b) 
 x  x
2
i
El estadístico para docimar la hipótesis acerca de la pendiente de la población es:
b0
t ~ t (n  2)
EE (b)
Intervalo de confianza para la pendiente:

Un intervalo de confianza ( 1   )*100% para la pendiente  está dado por:
b  t1-n 2
 [ EE (b)]
2
 n2 
donde t1- es el percentil apropiado de la distribución t con (n-2) grados de libertad.
2
Suponga que se rechaza al 5% la hipótesis nula del test t:

Ho:  = 0
H1:   0
¿El intervalo de 95% de confianza para la verdadera pendiente  contiene el cero?
Ejemplo: Test 1 versus Test 2 revisitado

Revisemos la salida de SPSS con lo que hemos visto hasta ahora:
Coeficientes(a)
Coeficientes no Coeficientes Intervalo de confianza para

Modelo estandarizados estandarizados t Sig. B al 95%
Límite
B Error típ. Beta Límite inferior superior
1 (Constante) .800 2.135 .375 .733 -5.996 7.596
Test 1 1.100 .173 .965 6.351 .008 .549 1.651
a Variable dependiente: Test 2
3
Análisis de varianza y regresión lineal*
El estimador de la varianza ̂ utilizado, se interpreta como la variabilidad residual alrededor de la recta,
vale decir, la variabilidad que queda después de haber sustraído la variabilidad de los valores observados
de la variable respuesta (yi) respecto de su promedio, que es la variación que se puede explicar por la
relación entre x e y. Se corrobora así que la descripción de una variable gana en precisión cuando existe
una relación con otra variable que explica parte de su comportamiento.
yi
y - ŷ
y-y
ŷ
ŷ - y
y yˆ  y
E (Y )  yˆ  a  bx
xi X
En el gráfico se muestran las fuentes de variación mencionadas:

n
La variación total está dada por SCT   ( yi  y ) .
2
i 1
La variación explicada por la inclinación de la recta, o en otras palabras, explicada por la relación entre las
variables y y x, es SC Re g   ( yˆ  y ) .
2
n
Por último, la variación no explicada, o residual es SC Re s   ( y i  yˆ i ) .
2
i 1
Podemos hacer una tabla, llamada tabla de análisis de varianza, para la regresión lineal simple y es la
siguiente:
Fuente de variación gl SC CM
Grados de libertad Suma de Cuadrados Cuadrados Medios
SC Re g   ( yˆ  y ) 2 SC Re g
Regresión 1
n SC Re s
Residuo n2 SC Re s   ( y i  yˆ i ) 2 n2
i 1
n
SCT    y i  y 
2
Total n 1
i 1
*
Adaptado de capítulo 21 del libro Bioestadística de Erica Taucher
4
Ejemplo: Test 1 versus Test 2 re-revisitado
ANOVA(b)
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 48.400 1 48.400 40.333 .008(a)
Residual 3.600 3 1.200
Total 52.000 4
a Variables predictoras: (Constante), Test 1
b Variable dependiente: Test 2
Coeficiente de determinación o bondad de ajuste (r2)

La correlación entre el test 1 y test 2 del ejemplo es de r  0,965 , este coeficiente de correlación
cuantifica el grado de asociación lineal y la dirección de la asociación entre dos variables cuantitativas
x y y. Se puede demostrar que:
r2 
SCReg

 ( yˆ  y ) 2
SCTotal   y i  y  2
este coeficiente se llama coeficiente de determinación, y representa la proporción de la variación total

de y que es explicada por la relación lineal entre x e y.
A este coeficiente se le usa entonces como medida de bondad de ajuste, es decir que tan buena es la
variable explicativa x para explicar la respuesta y. El rango del coeficiente de determinación es
naturalmente entre cero y uno ( 0  r 2  1 ), lo que nos indica que mientras más cercano a uno sea el
coeficiente de determinación (r2) mejor es el ajuste de la regresión.
En el caso del ejemplo del test 1 y test 2, el r 2  (0,965) 2  0,931 , que nos indica que el test 1 explica
el 93,1% de la variación total del test 2.
Verificando supuestos en la Regresión lineal simple

1. Examine el gráfico de dispersión de y versus x para decidir si el modelo lineal parece razonable.
2. Examine los residuos para verificar los supuestos acerca del término del error. Los residuos deben
ser una muestra aleatoria de una población normal con media 0 y desviación estándar σ.
Cuando examine los residuos verifique:
a) que provienen de una muestra aleatoria:
Grafique los residuos versus x. El supuesto de que provienen de una muestra aleatoria será
razonable si el gráfico muestra los puntos al azar, sin una forma definida.
A veces es posible detectar falta de independencia cuando los datos recogidos en el tiempo. Para
verificar este supuesto grafique los residuos versus el tiempo y los puntos no deben mostrar una
distribución definida.
5
b) Normalidad
Para verificar normalidad haga el histograma de los residuos, este debería aparecer como normal
sin valores extremos si tenemos un número grande de observaciones. En el caso de tener pocas
observaciones puede hacer un gráfico de tallo y hoja y verificar que no haya observaciones
extremas.
c) desviación estándar común (que no depende de x)

El gráfico de los residuos versus x, debe tener aproximadamente una banda del mismo ancho.
El gráfico muestra evidencia de que la variabilidad en la respuesta tiende a aumentar cuando x

aumenta.
6
Ejemplo:
Se conduce un experimento en 12 sujetos para analizar si la dosis de cierta droga (en ml) está
relacionada con el tiempo de reacción a un estímulo en segundos.
Droga (ml) 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5
Tiempo (segs) 1,0 0,8 1,8 1,4 2,1 1,8 2,2 3,0 2,75 3,0 4,1 4,9
Gráfico de dispersión del tiempo de reacción a estímulo versus dosis de droga:

5
3
Tiempo de reacción (seg)
0 R² = 0.8824
0 1 2 3 4 5 6 7
Dosis de droga (ml)
Estadísticos descriptivos
Desviación
Media típ. N
Tiempo de reacción (seg) 2.4042 1.21925 12
Dosis de droga (ml) 3.750 1.8028 12
Correlaciones
Tiempo de
reacción Dosis de
(seg) droga (ml)
Correlación de Pearson Tiempo de reacción (seg) 1.000 .939
Dosis de droga (ml) .939 1.000
Sig. (unilateral) Tiempo de reacción (seg) . .000
Dosis de droga (ml) .000 .
N Tiempo de reacción (seg) 12 12
Dosis de droga (ml) 12 12
7
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 2.174E-02 .303 .072 .944
Dosis de droga (ml) .635 .073 .939 8.663 .000
a. Variable dependiente: Tiempo de reacción (seg)
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 14.430 1 14.430 75.048 .000a
Residual 1.923 10 .192
Total 16.352 11
a. Variables predictoras: (Constante), Dosis de droga (ml)
b. Variable dependiente: Tiempo de reacción (seg)
Gráfico de residuos de la regresión versus dosis de droga:
.8
.6
.4
.2
Unstandardized Residual
-.0
-.2
-.4
-.6
0 1 2 3 4 5 6 7
Dosis de droga (ml)
8
Histograma
Variable dependiente: Tiempo de reacción (seg)
5
2
Frecuencia
1 Desv. típ. = .95

Media = 0.00
0 N = 12.00
-1.00 -.50 0.00 .50 1.00 1.50
Regresión Residuo tipificado
Tallo y hoja de los residuos
Unstandardized Residual Stem-and-Leaf Plot
Frequency Stem & Leaf
1.00 -0 . 5
5.00 -0 . 12344
4.00 0 . 1123
2.00 0 . 57
Stem width: 1.00000

Each leaf: 1 case(s)

10 Inferencia Regresion Simple

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

10 Inferencia Regresion Simple

Cargado por

Copyright:

Formatos disponibles

10.

Relaciones entre dos variables cuantitativas (Inferencia)

Inferencia en Regresión Lineal Simple

Modelo de regresión lineal simple:

Estos supuestos se pueden resumir como: Para cada x, Y ~ N (  y ,  ) donde  y  E (Y )    x

Podemos visualizar el modelo con la siguiente figura:

Estimadores de los parámetros de regresión:

El estimador de la respuesta media está dado por E (Y )  yˆ  a  bx

El coeficiente de correlación muestral r  ̂ es un estimador puntual de la correlación poblacional ρ

Probando la hipótesis acerca de la existencia de relación lineal

En el modelo de regresión lineal simple => E (Y )    x . Si   0 entonces las variables x e y no

Es decir, conocer el valor de x no nos va a ayudar a conocer y.

Para docimar la significancia de la relación lineal realizamos el test de hipótesis:

Para docimar la hipótesis podemos usar el test t:

estimador puntual  valor hipotético

El estimador puntual de  es b, y el valor hipotético es 0. El error estándar de b es:

El estadístico para docimar la hipótesis acerca de la pendiente de la población es:

Intervalo de confianza para la pendiente:

Suponga que se rechaza al 5% la hipótesis nula del test t:

Ejemplo: Test 1 versus Test 2 revisitado

Coeficientes no Coeficientes Intervalo de confianza para

En el gráfico se muestran las fuentes de variación mencionadas:

Coeficiente de determinación o bondad de ajuste (r2)

este coeficiente se llama coeficiente de determinación, y representa la proporción de la variación total

Verificando supuestos en la Regresión lineal simple

c) desviación estándar común (que no depende de x)

El gráfico muestra evidencia de que la variabilidad en la respuesta tiende a aumentar cuando x

Gráfico de dispersión del tiempo de reacción a estímulo versus dosis de droga:

Dosis de droga (ml)

Gráfico de residuos de la regresión versus dosis de droga:

Dosis de droga (ml)

1 Desv. típ. = .95

Regresión Residuo tipificado

Tallo y hoja de los residuos

Unstandardized Residual Stem-and-Leaf Plot

Frequency Stem & Leaf

Stem width: 1.00000

También podría gustarte