Está en la página 1de 5

Modelo de regresión lineal: estimación.

Guía de ejercicios

Prof. Alejandro Nasif Salum

1. Para medir la influencia de un fertilizante en el rendimiento de un


cultivo se cuenta con diez mediciones apareadas de las variables X
(dosis de fertilizante aplicadas) e Y (rendimiento por unidad de área),
donde los valores de X —es decir, la cantidad de dosis aplicadas—
fueron establecidos de antemano y luego aplicados en consecuencia;
luego de cierto plazo se midió en cada caso el valor de la variable Y
que se considera la respuesta a los valores de X.
En estas condiciones, X es una variable no aleatoria que toma los va-
lores prefijados en cada medición, pero Y sí es una variable aleatoria;
por la naturaleza del experimento es posible hipotetizar además una
relación de causalidad entre ambas variables, pero dado que los valores
de X están fijados de antemano, la única dirección en la que es posible
la causalidad es X → Y .
Y 1,76 5,80 4,12 3,37 5,97 8,27 8,61 4,47 8,03 9,4
X 0 0 0 1 1 3 3 4 4 4

a) Generar a mano o por computadora un diagrama de dispersión de


la variable Y vs. la variable X en el que estén representados los
10 pares (xi , yi ), i = 1, . . . , 10.
b) Analizar solo en base a lo observado en el gráfico si puede supo-
nerse una correlación significativa entre ambas variables y si la
misma es directa o inversa. ¿Parece adecuado representar la rela-
ción mediante una ecuación lineal?
c) Calcular el coeficiente de correlación muestral rxy y comparar los
resultados obtenidos con el análisis del punto anterior.
d ) Si en cada medición se fijó también la variable Z, que representa
las dosis de un pesticida aplicadas, cuyo número también se de-
terminó de antemano y está dada por los valores z1 , . . . , z10 de la
siguiente tabla
Z 0 1 0 2 0 3 2 3 2 2,
repetir los puntos anteriores para un modelo que relacione las
variables Y y Z.

1
e) Realizar una vez más el mismo análisis, pero entre las variables Y
y W = Z 2.

2. Dadas n variables aleatorias IID u1 , ..., un no observables tales que


ui ∼ N (0, σ 2 ) y dados valores fijos X1 , ..., Xn , determinados antes del
muestreo, supongamos que se observan las variables aleatorias Y1 , ..., Yn
que verifican
Yi = α + βXi + ui , i = 1, ..., n,
donde α y β son parámetros desconocidos1 que se desea estimar, al
igual que σ 2 .

a) Hallar los estimadores de mínimos cuadrados de α y β como aque-


llos valores α̂ = α̂M C y β̂ = β̂M C que minimizan
n
X
S(α̂, β̂) = (Yi − α̂ − β̂Xi )2 .
i=1

b) Verificar que β̂M C puede expresarse como β̂M C = ni=1 wi Yi con


P
Xi −X̄
wi = P (X i −X̄)
2 y por lo tanto es un estimador lineal de β (teniendo

en cuenta que las Xi son valores prefijados).


c) En base a lo anterior, ¿cuáles son las observaciones de Y que se
espera que influyan poco o nada en la estimación de la pendiente
y cuáles las que es de esperar que tengan mucho peso?
d ) Calcular E(β̂M C ) y verificar que β̂M C es un estimador insesgado de
β. ¿Qué supuestos fueron necesarios para llegar a esta conclusión?
e) Hallar Var(β̂M C ). ¿De qué parámetro depende?
f ) ¿Qué distribución tiene β̂M C ?

3. Usar las expresiones deducidas en el punto 2 y los datos del punto 1


para estudiar el modelo

Y i = β0 + β1 Xi + u i , ui ∼ N (0, 4) i = 1, . . . , 10.

En particular:
1
En el vocabulario del análisis de regresión, α es la ordenada al origen (o intercept) y
β la pendiente de la recta de regresión poblacional.

2
a) Estimar por MC β0 y β1 , así como sus varianzas (notar que σ 2 =
4). Dar la distribución de cada uno y usarlas para obtener sendos
pivotes.
b) Calcular el vector de residuos y verificar que
X X
ûi = 0 y ûi xi = 0.

4. En modelos como el del punto anterior, usualmente σ 2 es desconocido y


en el mejor de los casos puede suponerse que toma el mismo valor para
cada observación (supuesto de homoscedasticidad ). Por eso en general
las varianzas de los estimadores MC no pueden calcularse exactamente,
sino que solo pueden estimarse si se tiene un estimador de σ 2 .
Es posible probar que Pn
û2i
i=1
∼ χ2n−2 ;
σ2
tomando como cierto este hecho, se pide:

a) Probar que Pn
2 û2i
i=1
σ̂ =
n−2
es un estimador insesgado de σ 2 (suponiendo homoscedasticidad).
b) Hallar estimadores de Var(β̂0,M C ) y Var(β̂1,M C ) reemplazando σ 2
por la estimación σ̂ 2 .
c) Estimar σ 2 , Var(β̂0,M C ) y Var(β̂1,M C ) para el modelo del punto 2
usando los datos del punto 1.

5. Predicción puntual y esperanza condicional de Y . Volviendo al mismo


modelo planteado en el punto 2:

a) ¿Cuál es la distribución de cada Yi ? ¿Son Y1 , ..., Yn independientes?


¿Tienen todas idéntica distribución?
b) ¿Tiene sentido hablar de la esperanza de Y a secas? ¿A qué es
igual E(Ȳ )?
c) En general, si X es una variable aleatoria y definimos

Y = β0 + β1 X + u,

3
con E(u) = 0 y Var(u) = σ 2 , se puede hablar de la esperanza de
Y fijado un valor x para X, que notamos E(Y|X=x ); es inmediato
probar (hacerlo) que

E(Y|X=x ) = β0 + β1 x.

A su vez, se define el valor de Y estimado para X = x como

Ŷ (x) = βˆ0 + βˆ1 x.

Probar que Ŷ (x) es un estimador


 insesgado del parámetro E(Y|X=x )
y hallar su varianza, Var Ŷ (x) .
d ) Por otro lado, se tiene que si X = x la variable Y a medirse en una
próxima observación es Y = β0 +β1 x+u. Dado que los parámetros
se desconocen pero se tienen estimadores, y que E(u) = 0, se
propone como predictor de Y la misma expresión que se usó como
estimador de E(Y|X=x ), es decir, Ŷ (x) = βˆ0 + βˆ1 x.
Probar que se trata de una predicción insesgada, es decir que

E(Y (x) − Ŷ (x)) = 0,

y que el error cuadrático medio de la predicción, definido como


2
ECM (Y, Ŷ ) = E Y (x) − Ŷ (x) ,

es mayor a la varianza hallada en el punto anterior. Interpretar.

6. Para el modelo del punto 2, se definen


n
X n
X n
X
SCT = (Yi − Ȳ )2 , SCE = (Ŷi − Ȳ )2 y SCNE = (Yi − Ŷi )2 ,
i=1 i=1 i=1

donde Ŷi = β̂0 + β̂1 Xi .

a) Probar que vale


SCT = SCE + SCNE.
b) Calcular con los datos del punto 1 el coeficiente de determinación

SCNE
R2 = 1 − .
SCT

4
7. En base a los datos del punto 1 hallar en cada caso las estimaciones por
mínimos cuadrados de los parámetros βi para cada uno de los siguientes
modelos:

Yi = β + ui , i = 1, ..., n
Yi = β0 + β1 Xi + ui , i = 1, ..., n
Yi = βXi + ui , i = 1, ..., n
Yi = β0 + β1 Xi + β2 Zi + ui , i = 1, ..., n
Yi = β0 + β1 Xi + β2 Zi2 + ui , i = 1, ..., n
Yi = AXiβ1 vi , i = 1, ..., n, (A = eβ0 ), (vi = eui )

Calcular el coeficiente de determinación (R2 ) y el coeficiente de de-


2
terminación ajustado (R ) en cada caso y discutir la relevancia de los
mismos en cada caso y en las posibles comparaciones.

También podría gustarte