Está en la página 1de 21
VARIABLES ESTADISTICAS recta regresion de Y sobre X Empleando el método de los minimos cuadrados, en cada par (X, Y) al valor observado x; le corresponde un valor observado Vj y otro tedrico V? , que seria el que le corresponderia en la recta como funcién, es decir, Yi=Bo+ Bis: A la distancia entre estos dos valores (tedrico y experimental), la denotamos por d,=y7-Y El método de los minimos cuadrados, para obtener los pardmetros Boy B,, toma las distancias al cuadrado para que no se contrarresten los signos positivos y negativos y hacer minirna la suma. De otra parte, para simplificar el mecanismo para obtener la recta de regresion de Y sobre X, se descartan multiplicidades y suponemnos que cada par se repite una sola vez. Considerando que V7= By + BX M=a@- DH (yt-y,) "= YH (Bo+ Bisi-y,P 1 1 Para hallar los valores de B, y B, que hacen minima esta funcidn hernos de hallar las derivadas, igualando a cero las ecuaciones resultantes: 9M -7E Bo+B,x;-y,)-0 => Fe 3B, i 2D B+ Bs 5 -Y)) = o> x Bo+ Bixi-Y,) 6,)- Eh BES Dy WES AES Esyi- Dividiendo las dos expresiones por N, habiendo supuesto que la frecuencia absoluta de cada par (X, Y) es la unidad, resulta Por las propiedades del sumatorio, queda: Xs, ar considerando los momentos 1 J 1-4 _=9 B,+Bs-y=0 BF #82, =, = Bo=y- Bx + BN N A + whe COEFICIENTE DE CORRELACION - VARIANZA RESIDUAL Sea yj el valor tedrico que corresponderia en la recta de regresién de Y sobre X: =B, + B, x; Elevando al cuadrado: (y;-¥) = (yi- 9) + G-y) LG-y? = VIGi-H) + G-YP = Dwi-K) + TG-v) +2 TG-WwWG-y= = Lw-ny + TG-y! Observamos que YO -H)G 39) = Bo BrsBo+ Brsi-y = BoE Gi -Bo- Bixi) + BD si (yi -Bo- Bis) - YD (i -Bo- Bis) 0 0 0 F variacion total variacion no esplicada ——_variacion explicada con lo cual, variacién no expliada—_varincién explicada x ( = IT@-HY + LG-ysyP Dividiendo la relacién anterior por (vy, —¥)° resulta: con lo cual, Considerando la recta de regresién de Y sobre X, el coeficiente de determinacién p? puede expresarse: _r@irs¥ z[ee-o] (3 EL O-¥) xy w-y)! Una variable continua & se dice que tiene una distribucién normal o de Loplace-Gauss de media j1y desviacién tipicac si: £0) 4 wede tomar cualquier valor del intervalo (~», :) Campana de Gauss * Su funcidn de densidad es m Si una variable & es N (jn, ci) y otra voriable &: es N (\12, cz) independientes entre si, entonces la nueva variable 8s 52S sigue sarnbi de unacdietii bucidn nenmal. N ( tp, (ors a) Esta propiedad puede generalizase para ‘n variables aleatorias independientes en = Siuna variable £ es N(t.@),, lanueva varioble z=" es también una distribucién normal N(0, 1) e Distribucién Normal Bivariante porémetros (p,. 2.6). 02.) [o—1): +0 (r-0,)* 26,9,0(:-1)(y-n,)] 1 f(x,y) = e 2n0,6,\1-p° 1, =E(X) Hs =E(Y) 6; = Varianza (x) S(x,y) o = Varianza (Y) p=Coef. Correlacion (X,Y) Simulacién Distribucién Normal Bivariante parémetros (1,.12-6;.02.) oleiGa) vof(v-n.)- 20,0, (xu, (v-n:)] Normal bivariante=Distribuciones condicionadas Y/X=x sigue N(By+B4X , 6) 400 recta de regresion de Y sobre X 300 Y= BotB,x E(Y/X=x) 100 | | 100 xX 300 400 Las técnicas de Regresién Lineal simple parten de dos variables cuantitativas: ¢ La variable explicativa (X) ¢ La variable respuesta (Y) Tratando de explicar la variable de respuesta (Y) mediante una funcién lineal de la X representada por larecta y = By + B, x Para ello partimos de un Modelo de Probabilidad (la distribucién normal) y de 'n' pares de datos (x;. y;) que suponemos que provienen del modelo establecido. Considerando que los datos son conjuntos de ‘n' pares de datos (x,. yj), diferenciamos dos modelos: MODELO 1. - El observador fija los valores de la variable x; y obtiene ‘al azar’ los correspondientes valores y, MODELO 2. - El observador obtiene ‘al azar’ los correspondientes valores (Xj, Vi). Modelo 1 (Muestra aleatoria) Y, = B, + Bx, t+ U, “EXO? / Y, © N(By + B, Xj. 9”) independientes Estableciendo las hipdtesis: Normalidad: u; ¢ N(0, 6) Linealidad: E(u,) = 0 Homocedasticidad: V(u,) = 0 Independencia: Losu; son independientes. _os Pardmetros B - Representa el valor medio de la variable de respuesta (Y) cuando la variable explicativa (X) es cero. B, - Representa el incremento de la respuesta media (Y) cuando la variable explicativa (X) aumenta en una unidad. ANALISIS DE LOS RESIDUOS Bo =y- 6, x recta regresion estimada n ¥= By + Bx — YO,-%G;-y) tan B, Bh _ iG, ~ Oi =p /N cov(x,, y,) Zix,-xy' /N vars) Los residuos del modelo: &=y,-V= yi - By - B, x; ESTIMACION PUNTUAL PARAMETROS REGRESION 5 COV(X;, Y;) _ a _ COV(X;, Y;) Bo =y 2, z ) x B 2 Oy oy r= cov(x,, y,) 6; = s5=—> iyi - 9) = = isl _ 1 n - - 3 = Xi - By - Bx) i=l CONTRASTE DE LA REGRESION: ANOVA Yi yi = recta regresién estimada y= Bo + Bix, Yi=VitOi- Fi) restande (¥) (¥i-W=G%-y)+Gi-¥) Soi-y= VG -V+ VOi- I) i=l i=l i=l SS eee SCT SCE SCR Suma de cuadrados ‘Suma de cuadrados ‘Suma de cuadrados EXPLICADA RESIDUAL Variabilidad Total —_Variabilidad de Y debida o Variabilidad de Y respecto dela ¥ su relacién lineal con la X @ !a recta ajustada TABLA ANOVA Sua de cuadrados G. Libertad | Varianza Estadistico p-valor SCE=S'G,-y*] 1 SCE/I 2 SCE/I . a 52) 7 SCR/n-2 SCR=)'Gy, —¥)] n-2 |SCR/n-2 i=l SCT -Yo, -y)?} n-l isl H, : El modelo de regresién lineal NO SIRVE para explicar la variable respuesta. H, + El modelo de regresién lineal SIRVE para explicar la variable respuesta. A un nivel de significacién Ol rechazamos la hipétesis nula H, cuando F>F l,n—2,a COEFICIENTE DE DETERMINACION R° Es la proporcién de variabilidad explicada por la regresién SCE XG, -yy _ cov y) R=re= a= SCT d(y,-yP V Ox Oy a xy da, -9 = EG, -y + EQ 9 oH SCT SCR 1-8 _ SCR LOi-s¥ VO. -y¥ ports SRO _ SCR =no? (I-r’) o; = of (l=) CONTRASTE DE LA REGRESION El contraste de la regresién supone que la relacién (més o menors fuerte) es LINEAL. Por tanto, si no se la rechaza la hipétesis nula, lo nico que se puede concluir es que ‘no se ha encontrado evidencia de una relacién lineal’, pudiendo existir una relacion NO LINEAL. En la REGRESION SIMPLE el contraste ANOVA coincide exactamente con el contraste de la t-Sudent para el coeficiente de la variable regresora. Los contrastes y graficos se utilizan para ver si existe EVIDENCIA en contra de alguna de las hipétesis. Histograma de los residuos tipificados Q-Q plot de los residuos tipificados Test de K-S (Kolmogorov- Smirnov) Normalidad Linealidad jae de dispersion de residuos tipificados a. rd “ai : ‘i fen una mube de Homocedasticidad | frente a los valores pronosticados-ajustados © tivtos sin forma PREDICCIONES CON EL MODELO AJUSTADO Aceptado el modelo de regresién, pueden realizarse estimaciones y predicciones sobre distintas caracteristicas de la variable Y dado un valor fijo de la variable X que denominaremos x, Se analizaran dos opciones: = Estimacién de E(Y/X=xX,) valor medio de Y para X = x, = Prediccién de un valor de Y para X = x, En ambos casos la mejor estimacién puntual es el valor de Y predicho por la recta de regresién ajustada: }, = A, + p, X, NOTA. - Se ha aceptado una distribucion N(B, + B, X,56) Se analizaran dos cuestiones: * Estimacién de la media de Y dado X = x, - E(¥/X=x,) - Estimacién de fa altura media que tendrén todas las olas para una velocidad del viento fija x, La estimacién de la media seré mds precisa al compensar la variabilidad de la ¥Y para X = x, IC_, (estimacion) = | ¥ + t 0 © Prediccién de un valor de Y dado X = x, Prediccién de fa altura de una ola para una velocidad del viento fija x, En la prediccién de un unico valor, a la variabilidad estadistica se suma la variabilidad de los valores de la variable Y para X = x, diccién) =| ¥ + Ss IC__, (prediccion) y, ta—r0/2 b x bo ==> epron'tples ===, = #!__________ (varianza residual)

También podría gustarte