Documentos de Académico
Documentos de Profesional
Documentos de Cultura
113
Capitulo X
114
se intersecta al eje Y.
Las suposiciones del 3 al 6 equivalen a decir que los errores son aleatorios, que se distribuyen
normalmente con media cero y variancia .
Estimacin de parmetros
La funcin de regresin lineal simple es expresado como:
Y = o + 1X +
(3)
la estimacin de parmetros consiste en determinar los parmetros o y 1 a partir de los datos
muestrales observados; es decir, deben hallarse valores como bo y b1 de la muestra, que
represente a o y 1, respectivamente.
De la ecuacin (3), para un xi determinado, se tiene el correspondiente Yi, y el valor del error i
sera (Yi-o-1Xi)
Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de cuadrados de
los errores, se determinan los valores de bo y b1, as:
Q =
= 2
(y i 0 1 x i )
(y x )(1) = 0
i
(4)
Q
= 2
(y x )( x ) = 0
i
(5)
Al sistema formado por las ecuaciones (4) y (5) se les denomina ecuaciones normales.
Resolviendo las ecuaciones normales, se tiene:
b0 = y b1 x
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
b1 =
(xi x )(yi y ) =
2
(xi x )
115
xi yi
( xi)( yi)
n
( xi)
xi
2
SPXY
SCX
donde:
b0 : es el valor que representa (estimador) a 0
b1 : es el valor que representa (estimador) a 1
SPXY : denota a la suma de productos de X con Y,
SCX : denota a la suma de cuadrados de X.
Luego, la ecuacin de regresin es:
y = b0 + b1 X
El coeficiente de regressin (b1)
Est expresado en las mismas unidades de medida de la variable X. e indica el nmero de
unidades que vara Y cuando se produce cambio en una unidad en X (pendiente de la recta de
regresin).
Si b1=0, se dice que no existe relacin lineal entre las dos variables y que estas son
independientes.
152
50
155
61.5
152
54.5
155
57.5
157
63.5
152
59
157
61
165
72
162
66
178
72
183
84
Se asume que existe una relacin funcional entre X e Y, obtener la ecuacin de regresin.
Solucin: En primer lugar se observa que Y=f(x), por tanto se asume que la variable altura (X) es
independiente y la variable peso (Y) es la dependiente, luego se afirma que Y = bo + b1X. Para
ello se efectan los sgtes clculos:
n = 12,
SCX =
SPXY =
X = 1946,
x = 162.167,
Y = 783,
y = 65.25
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
178
82
116
y = 75.446 + 0.8676 X
El valor de b1 = 0.8676 indica que por cada centmetro de aumento en la altura de los hombres,
habr un incremento ,en promedio, de 0.8676 kg en el peso de los mismos.
Fuentes de variacin en la regresin lineal
Los clculos de regresin pueden ser vistos como un proceso de particin de la suma total de
cuadrados; as, grficamente se tiene:
Grafico FIG 1
Se observa que la desviacin total para un Yi en particular es igual a la suma de las desviaciones
explicada e inexplicada, simbolicamente.
( yi y ) = ( y i y ) + ( yi y i)
Luego,
2
( yi y ) = ( y i y ) + ( yi y i)
SCT
= SCR + SCE
F. de V.
Regresin
Error
Total
G.L.
1
n-2
n-1
Cuadro ANVA
SC.
b1SPXY
(Yi-Yi)
SCT
CM.
b1SPXY
SCE/(n-2)
Fc
CMR/CME
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
117
F. de V.
Regresin
Error
Total
G.L.
1
10
11
Cuadro ANVA
SC.
1061.0748
145.1752
1206.2500
CM.
1061.0748
14.5175
Fc
73.089 **
,n-2).
Sb1 = SE/SCX = CME/SCX (obtenido del cuadro ANVA) es la variancia estimada del coeficiente
de regresin.
Tambin es de inters determinar el intervalo de confianza de y/x, para un valor asumido de Xi,
que se calcula con la expresin:
y t 0 S y y / x y + t 0 S y
donde to=t
,n-2 gl.
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
118
S2y ir incrementndose
conforme Xi se aleja de X.
EJEMPLO.
Calcular los lmites de confianza para el coeficiente de regresin 1 y de y/x para X= 185 , al
95% de confianza.
a) Para 1:
clculos previos:
b)
anteriormente se tiene:
79.3454 y/x 90.7746.
Este intervalo de confianza nos indica que si las tallas fuesen de 185 cm, existe el 95% de
probabilidad que los valores del intervalo encierren el verdadero promedio.
PRUEBAS DE HIPOTESIS
Se plantea los siguientes casos:
a) Cuando =0 (Prueba de Independencia); es decir, si la variable Y es independiente de la
variable X. Esto equivale a plantear la hiptesis Hp: 1=0, y mediante la prueba F comparar la F
calculada (Fc) con la F tabular (Fo), donde Fc=CMR/CME y Fo=F (1,n-2 gl). Si Fc>Fo, se
rechaza la hipteis planteada y se concluye que Y depende de X.
b) Cuando 1 tiene un valor especfico, digamos 10; es decir; Hp: 1=10. En este caso se usa
el estadstico t para probar esta hiptesis, se calcula el valor de t:
tc =
b1 10
Sb1
b1 10
CMe
SCx
Si tc > t0 se rechaza la hiptesis planteada, donde t0 es el valor de la tabla al nivel y n-2 gl.
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
119
EJEMPLO:
Probar si el peso de los hombres es independiente de sus alturas, Tambin probar si por cada
cm. de altura en cada hombre el peso aumenta en 1.2 kg.
caso (a): Son X y Y independientes?. Las hiptesis son:
Hp: 1 = 0
Ha: 1 0
Aplicando las frmulas dadas se tiene:
Fc= 1061.0748/14.5175 = 73.089.
Las F tabulares a 0.05 y 0.01 son:
Fo = 4.96 y Fo = 10.04, respectivamente.
Luego, comparando para ambos valores se tiene que Fc > Fo. Por lo tanto se concluye en que la
influencia de X sobre Y es directa y no se debe al azar ( es decir, Y depende de X).
caso (b): Se tiene Hp: 1 = 1.2
Ha: 1 1.2
tc = (0.8676-1.2)/0.101479 = -3.27.
Como t tabular es to= -2.228 ( =0.05 y gl. = 10) el valor de tc cae en la zona de rechazo de la Hp
(tc < to =-2.228), por lo tanto se concluye que por cada cm adicional el la altura no hay aumento
de 1.2 kg.
PREDICCION
Hallada la ecuacin de regresin puede darse uso en los siguientes casos:
a) Predecir el valor probable de Y dado un valor particular de X.
b) Estimar el valor desconocido de X asociado a un valor observado de Y.
c) Construir un intervalo de prediccin para un valor predicho de Y.
Para los casos (a) y (b), se identifican los valores de las variables y se rremplazan en la ecuacin
Y=bo+b1X.
^
As por ejemplo:
Suponga que esta interesado en conocer
entonces
y p = 63.37Kg. , este valor debe interpretarse como el estimado del peso promedio si
y p t0 Syp y / x y p + t0 Syp
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
120
1 x x 2
p
Sy = CMe1 + +
p
SCx
n
54.5207 y / x 72.2193
Significa, si se tuviesen muchos hombres de 160 cm, existe el 95% de probabilidad de que el
intervalo de confianza [54.5207 , 72.2193], encierre el verdadero promedio de los pesos.
ANALISIS DE CORRELACION
El anlisis de correlacin consiste en emplear mtodos que permitan medir el grado o intensidad
de asociacin entre dos o ms variables. El concepto de correlacin est estrechamente
vinculado al concepto de regresin, pues, para que una ecuacin de regresin sea razonable los
puntos muestrales deben estar ceidos a la ecuacin de regresin; adems el coeficiente de
correlacin debe ser:
-
Si r=-1, la asociacin es perfecta pero inversa; es decir, a valores altos de una variable le
corresponde valores bajos a la otra variable, y viceversa.
Si r=+1, tambin la asociacin es perfecta pero directa.
Si r=0, no existe asociacin entre las dos variables.
Luego puede verse que a medida que r se aproxime a -1 +1 la asociacin es mayor, y cuando
se aproxima a cero la asociacin disminuye o desaparece.
El coeficiente de correlacin est dada por:
r=
SPxy
(SCx )(SCy )
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
r=
121
1223
= 0.9381
(1409.667 )(1206.25)
Este valor nos indica que hay un alto grado de asociacin entre las variables altura y peso, y la
relacin es directa (signo positivo de r).
COEFICIENTE DE DETERMINACION
De la descomposicin de la suma de cuadrados total, se obtuvo:
SCT = SCR + SCE
dividiendo ambos miembros por la SCT, se tiene:
1 = SCR/SCT + SCE/SCT
de este resultado, se define el COEFICIENTE DE DETERMINACION de la muestra, denotada
por r, como:
r = 1 - SCE/SCT = SCR/SCT
r = SC explicada/SC total
r = error explicado/error total
Como SCR SCT, se deduce que 0 r 1.
Interpretacin de r:
Puede interpretarse desde 3 aspectos:
a) Como una medida de mejora debido a la lnea de regresin. Aqu, r proporciona la reduccin
relativa de la SCT (error total).
Si r= 0 decimos que no hay reduccin en la SCT; es decir no hay mejora debido al ajuste de la
lnea de regresin, lo que significa que:
2
Error _ Explicado = y i y = 0
)2
Error _ total = y i y i = 0
Grficamente, todos los puntos del diagrama de dispersin caen sobre la lnea de regresin no
horizontal.
b) Como medida de grado de ajuste.
Si r=1, los puntos Yi caen todos sobre la lnea de regresin.
Si r=0, los puntos son esparcidos y la lnea de regresin resulta horizontal.
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm
122
En conclusin, cuando mayor es el grado de ajuste de la lnea de regresin a los puntos, el valor
de r se acerca a 1.
c) Como el grado de linealidad de dispersin de los puntos. Si r se aproxima al volor uno, la
dispersin de puntos se parece a una lnea recta.
Si r se acerca al valor cero, la dispersin no se parece a una lnea recta.
EJEMPLO. Del caso planteado. Hallar e interpretar r.
Segn los calculos,
r=
1223
(1409.667)(1206.25)
= 0.9381
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm