Está en la página 1de 10

UNIDAD V REGRESIÓN LINEAL SIMPLE

En muchos problemas hay dos o más variables inherentemente relacionadas, y es


necesario explorar la naturaleza de esta relación. El análisis de regresión es una
técnica estadística para modelar e investigar la relación entre dos o más variables.
Por ejemplo, en un proceso químico, supóngase que el rendimiento del producto se
relaciona con la temperatura de operación del proceso. El análisis de regresión puede
emplearse para construir un modelo que exprese el rendimiento como una función de la
temperatura. Este modelo puede utilizarse luego para predecir el rendimiento en un
nivel determinado de temperatura. También podría emplearse con propósitos de
optimización o control del proceso.
En general, supongamos que hay una sola variable dependiente o de respuesta y que
depende de k variables independientes o de regresión, por ejemplo X 1, X2,…,Xk. La
relación entre estas variables se caracteriza por un modelo matemático conocido como
ecuación de regresión.
Se desea determinar la relación entre una sola variable regresiva x y una variable de
respuesta y. La variable regresiva x se supone como una variable matemática continua,
controlable por el experimentador. Supóngase que la verdadera relación entre y y x es
una línea recta y que la observación y en cada nivel de x es una variable aleatoria.
Luego el valor esperado de y para cada valor de x es:
E(y|x) = α + βx
Donde la ordenada de origen α y la pendiente β son constantes desconocidas.
Suponemos que cada observación y puede describirse mediante el modelo:
y = α + βx + ε
donde ε es un error aleatorio con media cero y varianza σ 2
Supóngase que se tienen n pares de observaciones, por ejemplo (y 1, x1), (y2, x2),…, (yn,
xn). Estos datos pueden emplearse para estimar los parámetros desconocidos α y β por
medio de la ecuación de regresión estimada o ajustada ^y =a+bx. Cada par de
observaciones satisface la relación y i=a+b x i+ ei , donde e i= y i− ^yi se llama residuo y
describe el error en el ajuste del modelo en el punto i de los datos.

MÉTODO DE MÍNIMOS CUADRADOS


Se encontrarán a y b, y las estimaciones de α y β de tal forma que la suma de los
cuadrados de los residuos sea mínima. Con frecuencia, la suma de cuadrados de los
residuos recibe el nombre de suma de cuadrados de los errores alrededor de la línea de
regresión y se representa por SSE. Este procedimiento de minimización para estimar
los parámetros se llama método de mínimos cuadrados. De aquí que se encontrarán a
y b con objeto de minimizar:
n n n
SSE=∑ ei=∑ ( y i− ^yi ) =∑ ( y i−a−b x i)2
2

I=1 i=1 i=1

Diferenciando SSE con respecto a a y b se tiene:


n
∂(SSE)
=−2 ∑ ( y i−a−b x i)
∂a i=1

n
∂(SSE)
=−2 ∑ ( y i−a−b x i)( x i ¿
∂b i=1

Igualando las derivadas parciales a cero y reacomodando los términos, se obtienen las
ecuaciones siguientes (llamadas ecuaciones normales).
na+ b ∑ xi =∑ y i

a ∑ x i +b ∑ x 2i =∑ x i y i

Las cuales se pueden resolver simultáneamente para dar las fórmulas de cálculo de a y
b.
n ∑ xi y i−∑ x i ∑ y i
b= 2
n ∑ xi2−( ∑ x i )

a=
∑ y i−b ∑ x i
n
Ejemplo 5.1
Un comerciante al menudeo llevó a cabo un estudio para determinar la relación entre
los gastos de publicidad semanal y las ventas. Se obtuvieron los datos siguientes:
Costo de publicidad ($) Ventas ($)
40 385
20 400
25 395
20 365
30 475
50 440
40 490
20 420
50 560
40 525
25 480
50 510

a) Dibujar un diagrama de dispersión.


b) Encontrar la ecuación de la línea de regresión para pronosticar las ventas
semanales resultantes de los gatos de publicidad.
c) Estimar las ventas semanales cuando los gastos de publicidad ascienden a $35.
Para estar en condiciones de realizar inferencias acerca de α y β, es necesario
obtener una estimación del parámetro σ2 que es la varianza del error del modelo y
refleja la variación aleatoria o la variación del error experimental, alrededor de la
línea de regresión. Al derivar el estimador para σ 2 se utiliza la siguiente notación:
n
2
S xx =∑ (xi −x́)2=∑ (x 2i ¿ ¿−2 x i x́ + ( x́ ) )¿ ¿
i=1

n
2
S xx =∑ (xi −x́)2=∑ x 2i −2 x́ ∑ x i−n ( x́ )
i=1

n
S xx =∑ (xi −x́)2=∑ x 2i −2
∑ xi ∑ x i ∑ xi
n
∑ xi −n n
2
i=1

n 2
2 ( ∑ xi )
2
S xx =∑ (xi − x́) =∑ x − i
i=1 n

n 2
2 (∑ y i )
2
S yy =∑ ( yi − ý) =∑ y− i
i=1 n

n
S xy =∑ (x i−x́)( y i− ý)=∑ xi y i−
∑ xi ∑ yi
i=1 n

n ∑ xi y i−∑ x i ∑ y i
b= 2
n ∑ xi2−( ∑ x i )

∑ xi ∑ yi
∑ xi y i− n S xy
b= 2❑
=
( x) S xx
∑ x − ∑n i
2
i
a=
∑ y i−b ∑ x i
n
a= ý−b x́

Ahora se puede escribir la suma de cuadrados del error de la siguiente manera:

SSE=∑ ( y i−a−b x i)2

SSE=∑ ( y i− ý +b x́−b xi )2
2
SSE=∑ [ ( y i− ý ) −b(x i−x́ ) ]

SSE=∑ ( y i− ý )2−2 b ∑ ( y i −ý ) ( xi −x́ ) + b2 ∑ ( x i−x́ )2

SSE=S yy −2 b S xy + b2 S xx
S xy S xy S xy
SSE=S yy −2 S xy + S
S xx S xx S xx xx
S xy
SSE=S yy − S
S xx xy
SSE=S yy −b S xy

Una estimación insesgada de σ2 es:

2 SSE S yy −b S xy
S= =
n−2 n−2

INTERVALOS DE CONFIANZA PARA LA PENDIENTE

Intervalo de confianza para β. Un intervalo de confianza del (1 - α) 100% para el


parámetro β en la línea de regresión simple es:
S S
b−t α / 2, n−2 ≤ β ≤ b+ t α /2 ,n−2
√ S xx √ S xx
Encontrar un intervalo de confianza del 95% para la pendiente de la recta de
regresión con los datos del ejercicio 5.1.

4102
S xx =15650− =1641.666667
12
54452
S yy =2512925− =42256.25
12
410∗5445
S xy =191325− =5287.5
12
5287.5
b= =3.220812
1641.666667
5445 3.220812∗410
a= − =343.70559
12 12
42256.25−3.220812∗5287.5
S2 = =2522.62
10
S= √2522.62=50.2257
t 0.025,10 =2.228

50.2257 50.2257
3.220812−2.228 ≤ β ≤3.220812+2.228
√1641.666667 √1641.666667
0.45897 ≤ β ≤ 5.98265

INTERVALOS DE CONFIANZA PARA LA ITERCEPCIÓN

Intervalo de confianza para α. Un Intervalo de confianza del (1 - α) 100% para el


parámetro α en la línea de regresión simple es:

t ∝/ 2 ,n−2∗S ∑ x 2i
√ t α /2 ,n−2∗S ∑ x 2i

a− ≤∝ ≤ a+
√ nS xx √ nS xx
Encontrar un intervalo de confianza del 95% para la intersección de la recta de
regresión con los datos del ejercicio 5.1.
2.228∗50.2257∗√15650 2.228∗50.2257∗√ 15650
343.70559− ≤ ∝≤ 343.70559−
√12∗1641.666667 √ 12∗1641.666667
243.9665 ≤∝ ≤ 443.4446

PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL SIMPLE


Supóngase que se desea probar la hipotesis de que la pendiente es igual a una
constante, digamos β = β0. Las hipotesis apropiadas son:
Ho: β = β0
Ha: β ≠ β0
Se utiliza la distribución t con n – 2 grados de libertad para establecer una región
crítica y entonces basar la decisión con el estadístico de prueba t 0.
b−β 0
t 0=
S / √ S xx

Ejemplo:
Con un nivel de significación de 5% probar:
Ho: β = 0
Ha: β ≠ 0
Valor crítico: t 0.025,10 =2.228
3.220812−0
Estadístico de prueba: t 0= = 2.5983
50.2257/ √ 1641.666667
t0 > tα por lo tanto se rechaza Ho.
Esta hipotesis se relaciona con la significación de la regresión. El hecho de no
rechazar Ho: β = 0, es equivalente a concluir que no hay regresión lineal entre x y y.

PROCEDIMIENTO DE ANÁLISIS DE VARIANZA


Con frecuencia el problema de analizar la calidad de la línea de regresión estimada
se maneja a través de un enfoque de análisis de varianza.

S yy =∑ ( yi − ý)2 =∑ ( y i− ^y i)2 + ∑ ( ^yi − ý)2


S yy =SSE+ SSR

SST =SSE+ SSR


SSR=b S xy

SSE=S yy −b S xy ¿
¿

Valor crítico: F ∝,1 , n−2

Análisis de varianza para probar β = 0


Fuente de Suma de Grados de Cuadrados F0
variación cuadrados libertad medios
Regresión SSR 1 SSR SSR/S2
Error SSE n-2 SSE
S2 =
n−2
Total SST n-1

Ejemplo:
Ho: β = 0
Ha: β ≠ 0
Análisis de varianza para probar β = 0
Fuente de Suma de Grados de Cuadrados F0
variación cuadrados libertad medios
Regresión 17030.04 1 17030.04 6.751
Error 25226.21 10 2522.62
Total 42256.25 11

Valor crítico: F 0.05,1,10=4.96


F0 > Fα por lo tanto se rechaza Ho y se concluye que β ≠ 0

CORRELACIÓN.
Existe una correlación entre dos variables si una de ellas está relacionada con la
otra de alguna manera.
El coeficiente de correlación lineal r mide la fuerza de la relación lineal entre los
valores x y y apareados de una muestra. El coeficiente de correlación lineal también
se conoce como coeficiente de correlación de momento producto de Pearson.
S xy
r=
√ S xx S yy
Puesto que r se calcula usando datos de muestra, es una estadística de muestra
que sirve para medir la fuerza de la correlación lineal entre x y y. Si tuviéramos
todos los pares de valores x y y de la población, el resultado de la fórmula sería un
parámetro de población y lo representaríamos con ρ (letra griega rho).
El valor de r siempre debe quedar entre -1 y 1 inclusive. Si r es cercano a cero,
concluimos que no existe una correlación lineal significativa entre x y y, pero si r
está cerca de -1 o 1, concluimos que existe una correlación lineal significativa entre
x y y.
Si el valor absoluto del valor calculado de r excede el valor de la tabla siguiente,
concluimos que existe una correlación lineal significativa. En caso contrario, no hay
suficientes indicios para apoyar la conclusión de que existe una correlación lineal
significativa.
Valores críticos para el coeficiente de correlación de Pearson r.
n α = 0.05 α = 0.01 n α = 0.05 α = 0.01
4 0.95 0.999 18 0.468 0.59
5 0.878 0.959 19 0.456 0.575
6 0.811 0.917 20 0.444 0.561
7 0.754 0.875 25 0.396 0.505
8 0.707 0.834 30 0.361 0.463
9 0.666 0.798 35 0.335 0.43
10 0.632 0.765 40 0.312 0.402
11 0.602 0.735 45 0.294 0.378
12 0.576 0.708 50 0.279 0.361
13 0.553 0.684 60 0.254 0.33
14 0.532 0.661 70 0.236 0.305
15 0.514 0.641 80 0.22 0.286
16 0.497 0.623 90 0.207 0.269
17 0.482 0.606 100 0.196 0.256

PRUEBA DE HIPOTESIS PARA DETERMINAR SI EXISTE UNA CORRELACIÓN


LINEAL SIGNIFICATIVA ENTRE DOS VARIABLES.
Ho: ρ = 0 no hay correlación lineal significativa
Ha: ρ ≠ 0 si hay correlación lineal significativa
r √n−2
Estadístico de prueba: t 0=
√ 1−r 2
Valor crítico: t ∝/2 , n−2
COEFICIENTE DE DETERMINACIÓN
Es la cantidad de la variación en y que se explica con la línea de regresión y se calcula
así:
variación explicada
r 2=
variación total
Si r2 = 0.8, significa que el 80% de la variación total en y se puede explicar con la línea
de regresión. Se sigue que el 20% de la variación total en y no puede explicarse.

ANÁLISIS DE RESIDUALES: VALIDACIÓN DE LOS SUPUESTOS DEL MODELO


Un análisis de residuales ayudan a determinar si son adecuados los supuestos del
modelo de regresión: y = α + βx + ε.
Este modelo indica que y es una función lineal de x más un término de error ε. Y las
suposiciones acerca del error ε.
1. E(ε) = 0
2. La varianza de ε, representada por σ2 es igual para todos los valores de x.
3. Los valores de ε son independientes.
4. El término de error ε, tiene una distribución normal de probabilidades.
Estos supuestos forman la base teórica de la prueba t y F que se usan para determinar
si la relación entre x y y es significativa y para los estimados de intervalos de confianza
y de predicción.

RESIDUALES ESTANDARIZADOS
S y − ^y =desviación estándar del residual i=S √ 1−hi
i i

S = error estándar del estimado

1 (x i− x́)2
hi = +
n ∑ ( x i− x́ )2

y i−^y i
Residual estandarizado para la observación i =
S y − ^y
i i

xi yi ^y i ( y i− ^yi ) ( x i− x́ )2 ( xi − x́)2 S y − ^y
i i
Residual
estandarizado
∑ ( x i−x́ )2
2 58 70 -12 144 0.253521 11.119311 -1.079204
6 105 90 15 64 0.112676 12.270929 1.222401
8 88 100 -12 36 0.063380 12.649250 -0.948673
8 118 100 18 36 0.063380 12.649250 1.423009
12 117 120 -3 4 0.007042 13.068212 -0.229565
16 137 140 -3 4 0.007042 13.068212 -0.229565
20 157 160 -3 36 0.063380 12.649250 -0.237168
20 169 160 9 36 0.063380 12.649250 0.711505
22 149 170 -21 64 0.112676 12.270929 -1.711362
26 202 190 12 144 0.253521 11.119311 1.079204

La gráfica de residuales estandarizados puede suministrar una perspectiva acerca de la


hipótesis que el término de error ε tiene distribución normal. Así al trabajar en una
gráfica de residuales estandarizados cabe esperar que aproximadamente el 95% de los
residuales estandarizados están entre -2 y 2.
Chart Title
2.000000

1.500000

1.000000

0.500000

0.000000
0 5 10 15 20 25 30
-0.500000

-1.000000

-1.500000

-2.000000

También podría gustarte