Regresion PDF

REGRESIÓN LINEAL SIMPLE
El análisis de regresión es una técnica estadística para investigar la relación

funcional entre dos o más variables, ajustando algún modelo matemático.
La regresión lineal simple utiliza una sola variable de regresión y el caso más
sencillo es el modelo de línea recta. Supóngase que se tiene un conjunto de n
pares de observaciones (xi,yi), se busca encontrar una recta que describa de la
mejor manera cada uno de esos pares observados.
CP SI 24 y = 8.1185x - 6.6269
2
xi yi R = 0.7185
2.95 18.5 22
3.2 20 Variable respuest 20
3.4 21.1
3.6 22.4 18
3.2 21.2
2.85 15 16
3.1 18
2.85 18.8 14
3.05 15.7
2.7 14.4 12
2.75 15.5
3.1 17.2 10
3.15 19 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 3.4 3.5 3.6
2.95 17.2
2.75 16.8
Xi (variable independiente o regresiva)
45.6 270.8
Preparado por: Irene P. Valdez y Alfaro

Se considera que la variable X es la variable
independiente o regresiva y se mide sin error,
mientras que Y es la variable respuesta para cada
valor específico xi de X; y además Y es una variable
aleatoria con alguna función de densidad para cada
nivel de X.
f (Y xi )
Y xi
yi
E (Y xi )
Regresión Lineal Simple
yi = β 0 + β1 xi + ε i
f (Y xi )
E (Y xi ) = β 0 + β1 xi
x 1 xi xn
Si la recta de regresión es: Y = β 0 + β1 X
Cada valor yi observado para un xi puede considerarse como el valor
esperado de Y dado xi más un error:
Modelo lineal simple : yi = β 0 + β1 xi + ε i
Los εi se suponen errores aleatorios con distribución normal,
media cero y varianza σ2 ; β0 y β1 son constantes desconocidas
(parámetros del modelo de regresión)
Método de Mínimos Cuadrados
para obtener estimadores de β0 y β1
Consiste en determinar aquellos estimadores de β0 y β1 que
minimizan la suma de cuadrados de los errores εi ; es decir,
los estimadores β̂ 0 y β̂1 de β0 y β1 respectivamente deben
ser tales que: n 2
∑εi sea mínima.
i =1
Del modelo lineal simple: yi = β 0 + β1 xi + ε i

de donde: ε i = yi − β 0 − β1 x
n 2 n
2
elevando al cuadrado: ∑ ε i = ∑ ( yi − β 0 − β1 x)
i =1 i =1

Según el método de mínimos cuadrados, los
estimadores de β0 y β1 debe satisfacer las
ecuaciones: n n
∂ n 2 ∑ yi = nβ 0 + β1 ∑ xi
∑ ( yi − β 0 − β1 x) = 0 Al derivar se obtiene un i =1 i =1
∂β 0 i =1 sistema de dos ecuaciones
n n n
denominadas “ecuaciones 2
∂ n 2 normales”: β 0 ∑ xi + β 1 ∑ xi = ∑ xi yi
∑ ( yi − β 0 − β1 x) = 0 i =1 i =1 i =1
∂β1 i =1
Cuya solución es:

βˆ0 = y − βˆ1 x
 n y  n x 
 ∑ i  ∑ i 
n
 i =1  i =1 
∑ xi yi −
βˆ1 = i =1 n
2
 x
n
∑ i 
n
 
∑ x i − i =1
2
i =1 n
Ahora, el modelo de regresión lineal simple ajustado
(o recta estimada) es:
0 yˆ = βˆ + βˆ x
1
Con respecto al numerador y denominador de B1 suelen expresarse
como Sxy y Sxx respectivamente:
 n y  n x 
 ∑ i  ∑ i 
n
 i =1  i =1 
∑ xi yi − S xy
βˆ1 = i =1 n β̂1 =
 xn
∑ i 
2
S xx
n
2  i =1 
∑ xi −
i =1 n
2
 x
n
∑ i 
n
2
S xx = ∑ x i −  i =1 
n
= ∑ (xi − x )
2
Puede demostrarse que:
i =1 n i =1
y
 n y  n x 
 ∑ i  ∑ i  n
S xy = ∑ xi yi −  i =1  i =1  = ∑ ( xi − x ) yi
n
i =1 n i =1
Por otro lado puede demostrarse que los estimadores de β0 y β1 son
insesgados con varianzas:
1 x 2  σ 2
V (βˆ0 ) = σ  + 2
 y V (βˆ1 ) = respectivamente.
 n S xx  S xx
Como σ2 (la varianza de los errores εi) es en general desconocida, para estimarla
definimos el residuo como: ei = yi − yˆ i y la suma de cuadrados del error
como: n n
SS E = ∑ ei2 SS E = ∑ ( yi − yˆ i )
2
i =1 i =1
que al sustituir ŷi también puede expresarse como: SS E = S yy − β̂1S xy

n
donde: S yy = ∑ ( yi − y )
2
i =1
n
∑ ( yi − yˆ i )
2
i =1 SS E E (MS ) = σ 2
σ̂ 2 = MS E
Sea MS E = = Entonces: E
n−2 n−2
Con lo anterior, las varianzas estimadas de βˆ0 y βˆ1
son respectivamente:
1 x 2  MS E
Vˆ (βˆ0 ) = MS E  +  y Vˆ (βˆ1 ) =
 n S xx  S xx
Además, si se cumplen los supuestos de que los εi se distribuyen
normalemte con media cero y varianza σ2, entonces, los estadísticos
βˆ0 − β 0 βˆ1 − β1
T= y T=
1 x 2  MS E
MS E  + 
 n S xx  S xx
tienen cada uno distribución t de Student con n-2 grados de libertad.
Lo que permite efectuar pruebas de hipótes y calcular intervalos

de confianza sobre los parámetros de regresión β0 y β1 .

H 0 : β1 = 0
Un caso de particular interés es probar la hipótesis:
H1 : β1 ≠ 0
Ya que si la pendiente es igual cero, entonces puede significar o que la

variación de X no influye en la variación de Y, o que no hay regresión
lineal entre X y Y.
Por otro lado, si la pendiente es diferente de cero, entonces existirá algún

grado de asociación lineal entre las dos variables, es decir, la variabilidad
de X explica en cierta forma la variabiliad de Y (aunque no implica que no
pueda obtenerse un mejor ajuste con algún polinomio de mayor grado en
X).
Nota: si se utilizara en lugar de una recta, una curva con grado mayor a 1
en X pero grado 1 en los coeficientes de X, la regresión sigue siendo lineal,
βo+β
ya que es lineal en los parámetros de regresión p.ej. Y=β β1x+ββ2x2

Estimación de intervalos de confianza en torno a la línea de regresión:
BANDAS DE CONFIANZA
Recta estimada
de regresión
Para un punto específico x0

yˆ 0 = Eˆ (Y x0 ) = βˆ0 + βˆ1 x0
x 1 xi x0 xn

Estimación de la respuesta media para un x0 específico:
µˆ yˆ 0 = yˆ 0 = Eˆ (Y x0 ) = βˆ0 + βˆ1 x0
 1 (xo − x )  2  1 (xo − x )2 
V ( yˆ 0 ) = σ  +
2
 Vˆ ( yˆ 0 ) = MS E  + 
n S xx 
 n S xx 
yˆ 0 − µ yˆ 0
ŷ0 tiene distribución normal, por lo que:
Vˆ ( yo )
tiene distribución T de Student con n-2 grados de libertad, por lo
que los límites de confianza superior e inferior para la respuesta
media dado x0 están dados por: yˆ 0 ± tα / 2, n − 2 Vˆ ( yo )
Graficando los limites de confianza superior e inferior de µ ŷ0 para cada punto xi de
X pueden dibujarse las bandas de confianza para la recta de regresión.
Puede observarse que la amplitud del intervalo de confianza es mínima cuando x0 = x

mientras que es mayor en los extremos de los valores observados de X.
Predicción de nuevas observaciones
Nótese que ŷ0 es la respuesta media para los valores de xi seleccionados para
encontrar la recta de regresión; sin embargo, frecuentemente es de interés
predecir la respuesta futura para un xa dado seleccionado posteriormente.
Sea Ya la observación futura en x = xa ., ; Ya es una variable aleatoria con

varianza σ2 y por otro lado, la varianza de yˆ a = βˆ0 + βˆ1 xa es Vˆ (yˆ a ) = MSE 1 + 1n + (xaS− x ) 
2
 xx 

Regresion PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion PDF

Cargado por

Copyright:

Formatos disponibles

REGRESIÓN LINEAL SIMPLE

El análisis de regresión es una técnica estadística para investigar la relación

Preparado por: Irene P. Valdez y Alfaro

Del modelo lineal simple: yi = β 0 + β1 xi + ε i

Preparado por: Irene P. Valdez y Alfaro

Cuya solución es:

que al sustituir ŷi también puede expresarse como: SS E = S yy − β̂1S xy

tienen cada uno distribución t de Student con n-2 grados de libertad.

Lo que permite efectuar pruebas de hipótes y calcular intervalos

Preparado por: Irene P. Valdez y Alfaro

Ya que si la pendiente es igual cero, entonces puede significar o que la

Por otro lado, si la pendiente es diferente de cero, entonces existirá algún

Preparado por: Irene P. Valdez y Alfaro

Para un punto específico x0

Preparado por: Irene P. Valdez y Alfaro

Puede observarse que la amplitud del intervalo de confianza es mínima cuando x0 = x

Sea Ya la observación futura en x = xa ., ; Ya es una variable aleatoria con

Preparado por: Irene P. Valdez y Alfaro

También podría gustarte