Está en la página 1de 9

10.

Relaciones entre dos variables cuantitativas (Inferencia)


Ya revisamos la descripcin de variables cuantitativas ahora veremos la manera de hacer inferencia a
partir de los resultados muestrales.
Problema: Existe relacin entre las notas en la Prueba Final Acumulativa y las notas de la Prueba 1 en
cursos de Estadstica en la UTAL
7

Examen

1
1

Prueba 1

Inferencia en Regresin Lineal Simple


Modelo de regresin lineal simple:
Se tienen n observaciones de una variable explicativa x y de una variable respuesta y,
x1 , y1 , x 2 , y 2 , ..., x n , y n
el modelo estadstico de regresin lineal simple es:
y i xi ei

donde
y E (Y ) x es la respuesta promedio para cada x.

representa el intercepto de la funcin lineal que usa todos los valores de la poblacin y

representa la pendiente de la funcin lineal que usa todos los valores de la poblacin.

parmetros

son

El modelo estadstico de regresin lineal simple asume que para cada valor de x, los valores de la
respuesta y son normales con media (que depende de x) y desviacin estndar que no depende de x.
Esta desviacin estndar es la desviacin estndar de todos los valores de y en la poblacin para un
mismo valor de x.
Estos supuestos se pueden resumir como: Para cada x, Y ~ N ( y , )

donde y E (Y ) x

Podemos visualizar el modelo con la siguiente figura:

Los datos nos darn estimadores puntuales de los parmetros poblacionales.


Estimadores de los parmetros de regresin:
El estimador de la respuesta media est dado por E (Y ) y a bx
El estimador del intercepto es: a
El estimador de la pendiente es: b
El estimador de la desviacin estndar est dado por:

SCRes
donde SCRes es la suma de cuadrados de los residuos
n2

y i = ei 2
2

El coeficiente de correlacin muestral r es un estimador puntual de la correlacin poblacional


Probando la hiptesis acerca de la existencia de relacin lineal
En el modelo de regresin lineal simple => E (Y ) x . Si 0 entonces las variables x e y no
estn asociadas linealmente y la respuesta es una constante E(Y) = .
E(Y) =

Es decir, conocer el valor de x no nos va a ayudar a conocer y.


Para docimar la significancia de la relacin lineal realizamos el test de hiptesis:
2

Ho: = 0 (la pendiente de la recta de regresin en la poblacin es cero)


H1: 0
Existen hiptesis de una cola, donde H1: < 0 o H1: > 0, pero lo usual es hacer el test bilateral.
Para docimar la hiptesis podemos usar el test t:
t

estimador puntual valor hipottico


error estndar del estimador

El estimador puntual de es b, y el valor hipottico es 0. El error estndar de b es:

EE (b)

El estadstico para docimar la hiptesis acerca de la pendiente de la poblacin es:


t

b0
~ t ( n 2)
EE (b)

Intervalo de confianza para la pendiente:


Un intervalo de confianza ( 1 )*100% para la pendiente est dado por:
2
b t1-n
[ EE (b)]

n2

donde t1-

es el percentil apropiado de la distribucin t con (n-2) grados de libertad.

Suponga que se rechaza al 5% la hiptesis nula del test t:


Ho: = 0
H1: 0
El intervalo de 95% de confianza para la verdadera pendiente contiene el cero?
Ejemplo: Test 1 versus Test 2 revisitado
Revisemos la salida de SPSS con lo que hemos visto hasta ahora:
Coeficientes(a)
Coeficientes no
estandarizados

Modelo

(Constante)
Test 1

B
.800
1.100

Error tp.
2.135
.173

Coeficientes
estandarizados

Sig.

Beta
.965

.375
6.351

.733
.008

Intervalo de confianza para


B al 95%
Lmite inferior
-5.996
.549

Lmite
superior
7.596
1.651

a Variable dependiente: Test 2

Anlisis de varianza y regresin lineal*


El estimador de la varianza utilizado, se interpreta como la variabilidad residual alrededor de la recta,
vale decir, la variabilidad que queda despus de haber sustrado la variabilidad de los valores observados
de la variable respuesta (yi) respecto de su promedio, que es la variacin que se puede explicar por la
relacin entre x e y. Se corrobora as que la descripcin de una variable gana en precisin cuando existe
una relacin con otra variable que explica parte de su comportamiento.
yi

y- y

y-y
y

y
-y
y y

y
E (Y ) y a bx

xi

En el grfico se muestran las fuentes de variacin mencionadas:


n

2
La variacin total est dada por SCT ( yi y ) .
i 1

La variacin explicada por la inclinacin de la recta, o en otras palabras, explicada por la relacin entre las
2
variables y y x, es SC Re g ( y y ) .
n

2
Por ltimo, la variacin no explicada, o residual es SC Re s ( y i y i ) .
i 1

Podemos hacer una tabla, llamada tabla de anlisis de varianza, para la regresin lineal simple y es la
siguiente:
Fuente de variacin

Regresin

gl
Grados de libertad
1

SC
Suma de Cuadrados
SC Re g

( y y )
n

Residuo

n2

SC Re s ( y i y i ) 2
i 1

Total

n 1

SCT yi y

CM
Cuadrados Medios
SC Re g

SC Re s
n2

i 1

Adaptado de captulo 21 del libro Bioestadstica de Erica Taucher


4

Ejemplo: Test 1 versus Test 2 re-revisitado


ANOVA(b)
Modelo
1

Regresin
Residual

Suma de
cuadrados
48.400
3.600

gl

Total

52.000
a Variables predictoras: (Constante), Test 1
b Variable dependiente: Test 2

1
3

Media
cuadrtica
48.400
1.200

F
40.333

Sig.
.008(a)

Coeficiente de determinacin o bondad de ajuste (r2)


La correlacin entre el test 1 y test 2 del ejemplo es de r 0,965 , este coeficiente de correlacin
cuantifica el grado de asociacin lineal y la direccin de la asociacin entre dos variables cuantitativas
x y y. Se puede demostrar que:
SCReg
( y y ) 2
r2

SCTotal yi y 2
este coeficiente se llama coeficiente de determinacin, y representa la proporcin de la variacin total
de y que es explicada por la relacin lineal entre x e y.
A este coeficiente se le usa entonces como medida de bondad de ajuste, es decir que tan buena es la
variable explicativa x para explicar la respuesta y. El rango del coeficiente de determinacin es
naturalmente entre cero y uno ( 0 r 2 1 ), lo que nos indica que mientras ms cercano a uno sea el
coeficiente de determinacin (r2) mejor es el ajuste de la regresin.
En el caso del ejemplo del test 1 y test 2, el r 2 (0,965) 2 0,931 , que nos indica que el test 1 explica
el 93,1% de la variacin total del test 2.
Verificando supuestos en la Regresin lineal simple

1.

Examine el grfico de dispersin de y versus x para decidir si el modelo lineal parece razonable.

2.

Examine los residuos para verificar los supuestos acerca del trmino del error. Los residuos deben
ser una muestra aleatoria de una poblacin normal con media 0 y desviacin estndar .

Cuando examine los residuos verifique:


a) que provienen de una muestra aleatoria:
Grafique los residuos versus x. El supuesto de que provienen de una muestra aleatoria ser
razonable si el grfico muestra los puntos al azar, sin una forma definida.

A veces es posible detectar falta de independencia cuando los datos recogidos en el tiempo. Para
verificar este supuesto grafique los residuos versus el tiempo y los puntos no deben mostrar una
distribucin definida.

b) Normalidad
Para verificar normalidad haga el histograma de los residuos, este debera aparecer como normal
sin valores extremos si tenemos un nmero grande de observaciones. En el caso de tener pocas
observaciones puede hacer un grfico de tallo y hoja y verificar que no haya observaciones
extremas.

c) desviacin estndar comn (que no depende de x)


El grfico de los residuos versus x, debe tener aproximadamente una banda del mismo ancho.

El grfico muestra evidencia de que la variabilidad en la respuesta tiende a aumentar cuando x


aumenta.

Ejemplo:
Se conduce un experimento en 12 sujetos para analizar si la dosis de cierta droga (en ml) est
relacionada con el tiempo de reaccin a un estmulo en segundos.
Droga (ml)
Tiempo (segs)

1,0
1,0

1,5
0,8

2,0
1,8

2,5
1,4

3,0
2,1

3,5
1,8

4,0
2,2

4,5 5,0 5,5


3,0 2,75 3,0

6,0
4,1

6,5
4,9

Grfico de dispersin del tiempo de reaccin a estmulo versus dosis de droga:


5

Tiempo de reaccin (seg)

R = 0.8824
0

Dosis de droga (ml)

Estadsticos descriptivos

Tiempo de reaccin (seg)


Dosis de droga (ml)

Media
2.4042
3.750

Desviacin
tp.
1.21925
1.8028

N
12
12

Correlaciones

Correlacin de Pearson
Sig. (unilateral)
N

Tiempo de reaccin (seg)


Dosis de droga (ml)
Tiempo de reaccin (seg)
Dosis de droga (ml)
Tiempo de reaccin (seg)
Dosis de droga (ml)

Tiempo de
reaccin
(seg)
1.000
.939
.
.000
12
12

Dosis de
droga (ml)
.939
1.000
.000
.
12
12

Coeficientesa

Modelo
1

(Constante)
Dosis de droga (ml)

Coeficientes
estandarizad
os
Beta

Coeficientes no
estandarizados
B
Error tp.
2.174E-02
.303
.635
.073

.939

.072
8.663

Sig.
.944
.000

a. Variable dependiente: Tiempo de reaccin (seg)

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
14.430
1.923
16.352

Media
cuadrtica
14.430
.192

gl
1
10
11

F
75.048

Sig.
.000a

a. Variables predictoras: (Constante), Dosis de droga (ml)


b. Variable dependiente: Tiempo de reaccin (seg)

Grfico de residuos de la regresin versus dosis de droga:


.8

.6

.4

Unstandardized Residual

.2

-.0

-.2

-.4
-.6
0

Dosis de droga (ml)

a312yb =
negativo
positivo
0

Histograma
Variable dependiente: Tiempo de reaccin (seg)
5

Frecuencia

Desv. tp. = .95


Media = 0.00
N = 12.00

0
-1.00

-.50

0.00

.50

1.00

1.50

Regresin Residuo tipificado

Tallo y hoja de los residuos


Unstandardized Residual Stem-and-Leaf Plot
Frequency
1.00
5.00
4.00
2.00
Stem width:
Each leaf:

Stem &

Leaf

-0
-0
0
0

5
12344
1123
57

.
.
.
.

1.00000
1 case(s)

También podría gustarte