Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Lineal Simple
Regresión Lineal Simple
AGRARIA DE LA SELVA
FACULTAD DE INGENIERÍA EN
INFORMÁTICA Y SISTEMAS
DEPARTAMENTO ACADÉMICO DE
CIENCIAS EXACTAS
REGRESIÓN Y
CORRELASIÓN LINEAL
SIMPLE
Yi = bo + b1 + b1Xi + ei
se distribuyen normalmente.
5. No hay errores de observación en Xi e Yi.
Yi = βo + β1 Xi + Ei , i = 1,2,….N
μyx = βo + β1Xi
Supongamos que bo y b1 son estimadores de βo y β1
1) Yi = bo + b1 Xi +ei , i = 1,2,…n
n : número de pares.
2) ei = Yi – bo – b1 Xi
En ambos miembros elevamos al cuadrado y sumamos desde 1 hasta n.
3)
n n
Q ei Yi b0 b1 X i
2 2
i 1 i 1
4)
Q
0
b 0
5)
Q
0
b1
Q n 2
n
i 0 1 i
b0 b0 i 1
(Y b b X ) 2
i 1
(Yi b0 b1 X i )( 1)
(Y
i 1
i b0 b1 X i ) 0
n n
De 5
Q n 2
n
i 0 1 i
b1 b1 i 1
(Y b b X ) 2
i 1
(Yi b0 b1 X i )( X i )
n
(2 X i ) (Yi b0 b1 X i ) 0
i 1
n n n
X Y
i 1
i i b0 Xi b1 X i2 ..............................(2)
i 1 i 1
Yi nb0 b1 X i 0......................................(1)
i 1 i 1
n n n
X iYi b0 Xi b1 X i2 0..........................(2)
i 1 i 1 i 1
Y
i 1
i X
i 1
i
b0 b1
n n
b0 Y b1 X
De la ecuación (2) y reemplazando la fórmula de bo en (2) se obtiene.
n n
n i Y Xi n n
i 1
X iYi
n
i 1
b1 i 1
n i 1
Xi b1 X i2 0
i 1
n n n
n X i Yi ( X i ) 2 n
X iYi
i 1
i 1
n
i 1 i
b1 i 1
n
b1 X i2 0
i 1
Factorizando b1 se obtiene:
n n
n
n X i Yi ( X i ) 2
n
X Y i 1 i 1
b1 i 1 X i2 0
i
i i
i 1 n n i 1
n n
n
( X i )( Yi )
X i Yi i 1
n
i 1
S .P. XY
b1 i 1
n
b1
n
( X i ) 2 S .C . X
X
i 1
i
2
i 1
n
N __ __ N
( X i )( Yi )
S .P. XY ( X i X )(Yi Y ) X iYi i 1 i 1
i 1 i 1 n
n __ n
( X i ) 2
S .C. X ( X i X ) 2 X i2 i 1
i 1 i 1 n
n __ n
(Yi ) 2
S .C.Y (Yi Y ) 2 Yi 2 i 1
i 1 i 1 n
1. PROBLEMA:
El número de acciones de la empresa SANTA ANITA que variaron durante un mes y
el precio al final del mes» se muestran en la tabla que sigue:
MOVIMIENTO PRECIO ($)
(miles de
acciones)
4 2
1 1
5 4
3 2
2 1
1. Determinar la variable X e Y.
2. Graficar los datos muéstrales en un eje de coordenadas.
3. Encontrar la ecuación de regresión estimada.
4. Granear la ecuación de regresión, estimada junto con la gráfica de los datos
observados.
SOLUCIÓN:
1. MOVIMIENTO :X
PRECIO :Y
SOLUCIÓN:
n5 Xi 15 X 2
55 XiYi 37 Yi 10 Y 2
26
__ __
X 3 Y 2
15 2
S .C. X . 55 10
5
(15)(10)
S .P. XY . 37 7
5
(15) 2
S .C.Y . 26 6
2
S .P. XY
b1
S .C . X
7
b1 0.7 bo 2 (0.7)3 0.1
10
Una vez encontrado los valores de bo y b1, podemos escribir la ECUACIÓN DE
REGRESIÓN ESTIMADA.
Y i 0.1 0.7 X 1
INTERPRETACIÓN
bo = - 0.1 Geométricamente es la distancia que hay del origen de coordenadas al
intercepto entre el eje Y y la ecuación de regresión estimada.
Indica que cuando los movimientos sea igual a cero (0), el precio tendrá una
disminución (-) de 0.1.
b1 = 0.7 Indica que para cada cambio de aumento en el movimiento (número de
acciones), habrá incremento promedio de 0.7 en el precio.
Y i 0.1 0.7 Xi, Se dirá que es la mejor estimación de la línea de regresión de la
población:
yx o 1 Xi
i 1
2
i 1
n n
RESIDUAL n–p (Yi Y i ) 2
i 1
(Yi Y i ) 2 / n p
i 1
n
TOTAL n–1 (Yi Y ) 2
i 1
n : Número de pares.
p : Número de parámetros a estimar.
Donde: Fc = C.M. regresión / C.M.residual
n __
1. S.C. TOTAL (Yi Y ) Yi ( Yi ) / n S .C.Y .
2 2 2
i 1
n __
2. S.C. REGRESIÓN b1S .P. XY b1 S .C. X . (Y i Y )
2 2
i 1
__ __ n __ __
3. S .P. XY X Y i i n X Y ( Xi X )(Yi Y )
i 1
n
4. S.C. RESIDUAL (Yi Y ) S.C. TOTAL – S.C. REGRESIÓN.
2
i 1
102
S.C.TOTAL S .C.Y . Yi ( Yi ) / n 26 2
6 2
4. CONCLUSIÓN:
Como Fc. = 13.36 es mayor que Ft= 10.1, entonces se rechaza Ho, y
concluimos que existe regresión lineal entre la variable movimiento y el precio
en formas significativa (*).
bi i
tc
Sbi
I .C.(i) bi t( n2) / 2 Sbi
A) PARA (βo)
C.M .RESIDUAL ( X 2 )
Donde. Sbo
n( S .C. X )
Con los datos de nuestro problema:
Encontrar los intervalos de confianza para βo con 95% de probabilidad.
Solución: 1- = 0.95
= 0.05
t( n2 ) / 2 t(3) 0.05 / 2 3.182
0.3666(55)
Sbo 0.635
5(10)
2.12 o 1.92
INTERPRETACIÓN
Existe una probabilidad del 95% de que el verdadero valor del parámetro βo esté
comprendido entre esos valores, ó
Existe un 95% de probabilidad de que este intervalo encierre al parámetro βo de la
línea de regresión de la población.
A) PARA (β1) I.C. (β1) = b1 t (n – 2) / 2 Sb1
C.M .RESIDUAL 0.36667
Donde: Sb1 Sb1 0.1915
S .C. X . 10
t( 3) 0.025 3.182
I .C.(1 ) 0.7 3.182(0.1915)
0.0906 1 1.3094
INTERPRETACIÓN:
Existe un 95% de confianza de que este intervalo encierre al verdadero parámetro o
coeficiente de regresión β1 de la línea de regresión de la población.
__
( X X )2
SY p C.M .residual 1 1
n
S .C. X .
PARA NUESTRO PROBLEMA
Encuentre un intervalo de predicción del 95% para el precio que experimentará la
empresa el próximo mes, si el movimiento es de 4 500 acciones.
SOLUCIÓN:
0.1 0.7(4.5) 3.05 t ( 5) 0.025 3.182
1 (4.5 3) 2
S Yp 0.36661 0.7228
5 10
I .C.(Y p ) 3.05 3.182(0.7228)
0.75 Yp 5.35
Rechazamos Ho si:
tc t( n2) / 2 ó si tc t( n2)
2
Si H1: βo > 0
Rechazamos Ho, si tc t(n-2)
Si H1: βo < 0
Rechazamos Ho, si tc - t(n-2)
5. Cálculo de tc
b0 0
tc
Sb0
6. Conclusión
B) PARA 1 (COEFICIENTE DE REGRESIÓN)
1. Plantear las hipótesis. Ho : 1 = 0
H1 : 1 ≠ 0
2. Fijar el nivel de significancia : = 0.01 ó = 0.05
3. Se usa la prueba t.
4. Regiones críticas.
Se rechaza Ho si :
tc t( n2) ó si tc t( n2)
2 2
Si H1: β1 > 0
Se rechaza Ho, si tc t(n-2)
Si H1: β1 < 0
Se rechaza Ho, si tc - t(n-2)
5. Cálculo de tc.
b1 1
tc
Sb1
6. Conclusión:
PARA NUESTRO PROBLEMA: Determinar si existe evidencias que indique que 1
difiere de cero (0) al utilizar una relación lineal entre el movimiento y el precio.
SOLUCIÓN:
1. Ho: 1 = 0 no hay regresión lineal entre x e y
H1: 1 0 si hay regresión lineal entre x e y
2. 0.05
3. Usar la prueba t.
4. Regiones críticas.
5. Cálculo de tc.
0.7
tc 3.655
0.1915
6. Conclusión:
Como tc.> t tabulado, entonces tc pertenece a la Región de Rechazo (R.R.) por
lo tanto rechazamos la hipótesis nula Ho, y concluimos que existe evidencias que
indica que los movimientos proporcionan información para predicción del precio
de las acciones en cada mes.
1.12. PRUEBA DE HIPÓTESIS PARA 1 1o
1. Ho: 1 1o
H1: 1 1o
2. 0.05
3. Usar la prueba t.
4. Regiones críticas.
b1 1o
tc
Sb1
6. Conclusión:
PARA NUESTRO EJEMPLO: Deseamos probar que por cada mil acciones de
aumento en los movimientos, en cada mes, el precio aumenta en un dólar.
SOLUCIÓN:
1. Ho: 1 1.0
H1: 1 1.0
2. 0.05
3. Usar la prueba t.
4. Regiones críticas.
Si tc t(3) 0.05 / 2 3.182 ó tc 3.182 , entonces tc pertenece a la región de
rechazo, por lo tanto RECHAZAMOS Ho
5. Cálculo de tc.
0.7 1.0
tc 1.567
0.1915
7. Conclusión: Como tc pertenece a la región de aceptación, se acepta la
hipòt6esis Ho y concluimos que existe evidencias de que el precio
aumentara en un dólar por cada mil acciones de aumento en las acciones.
1. Ho: y. x a
H1: y. x a
2. 0.05 ó 0.01
3. Usar la prueba t.
4. Regiones críticas.
Si tc t (n 2) / 2 ó tc t (n 2) / 2 , entonces tc pertenece a la región
de rechazo, por lo tanto RECHAZAMOS Ho
5. Cálculo de tc.
Y a
tc
Sy
6. Conclusión
1. Ho: y. x 3
H1: y. x 3
2. 0.05
3. Usar la prueba t.
4. Regiones críticas.
5. Cálculo de tc.
3.4 3
tc 1.01
0.394721
6. Conclusión: Como tc. = 1.01 < t(3) 0.025 = 3.182, entonces tc pertenece a la región
de aceptación, por lo tanto aceptamos la hipótesis nula (Ho) y concluimos que el
promedio del precio es de 3 dólares cuando los movimientos son en promedio de 5
00 acciones.
r2: Mide la variación total explicada por la regresión. Mide exclusivamente la fuerza
de una relación lineal entre dos variables (X e Y)
El método abreviado para calcular r2 es:
b1 S .P. X .Y .
r2
( Y ) 2
Y 2
n
5. Cálculo de t.
r n2
tc
1 r2
6. Conclusión
GLOSARIO
ALFA ( ). Probabilidad de un error de tipo I.
ANÁLISIS DE VARIANCIA (ANYA o - ANOVA). Técnica estadística con que se prueba la igualdad
de 3 ó más medias muéstrales y que, por tanto, permite hacer inferencias sobre si las muestras
provienen de poblaciones que tienen la misma media.
DISTRIBUCIÓN F. Familia de distribuciones diferenciadas por dos parámetros (g.1 del numerador
y que g.1 del denominador); se usan fundamentalmente para probar hipótesis referentes a las
variancias.
DIAGRAMA DE DISPERSIÓN. Gráfica de puntos sobre una rejilla, rectangular; las coordenadas X
e Y de cada punto corresponden a las dos mediciones hechas en algún elemento particular de la
muestra, y el patrón de puntos indica la relación existente entre las dos variables.
ECUACIÓN DE ESTIMACIÓN. Fórmula matemática que relaciona la variable desconocida con las
variables conocidas es el análisis de regresión.
ESTIMACIÓN POR INTERVALO. Gama de valores que se usan para estimar el parámetro de una
población desconocida.
ESTIMACIÓN PUNTUAL." Número individual que sirve para estimar un parámetro de una población
desconocida.
GRADOS DE LIBERTAD (G.L.) Número de valores de una muestra que podemos especificar
libremente, una vez que sepamos algo de ella.
HIPÓTESIS ALTERNATIVA (Ha ó H1). Conclusión que aceptamos cuando los datos no apoyan la
hipótesis nula (Ho).
LÍNEA DE REGRESIÓN.- Línea ajustada a un conjunto de puntos de datos para estimar la relación
entre dos variables.
NIVEL DE CÓNTIANZA.- Probabilidad que los estadísticos asocian a una estimación por intervalo
del parámetro de una población; indica la confianza de que la estimación por intervalo incluya el
parámetro de la población.
MÉTODO DE MÍNIMOS CUADRADOS. Técnica con que se ajusta una recta mediante un conjunto
de puntos, de manera que se minimice la suma de los cuadrados de las distancias verticales entre
n puntos y la línea.
NIVEL DE SIGNIFICANCIA. Valor que indica el porcentaje de los valores muéstrales que se haya
fuera de ciertos límites suponiendo que la hipótesis nula sea correcta, esto es, la probabilidad de
rechazarla cuando es verdadera.
PENDIENTE. Constante de cualquier recta, cuyo valor representa en qué medida el cambio de cada
unidad de la variable independiente modifica la variable dependiente.
RAZÓN F. Aquella que se utiliza en él análisis de variancía, entre otras pruebas, para comparar la
magnitud de dos estimaciones de la variancia de la población y determinar si ambas estimaciones
son aproximadamente iguales; en el análisis de variancía, se emplea la razón de la variancia entre
columnas con la variancia dentro de columnas.
REGRESIÓN. Proceso general de predecir una variable a partir de otra con medios estadísticos,
usando datos anteriores.
REGRESIÓN MÚLTIPLE. Procedimiento estadístico en virtud del cual algunas variables se usan
para predecir otra variable.
RELACIÓN CURVILÍNEA. Nexo de dos variables que es descrito por una línea curva.
RELACIÓN DIRECTA. Relación entre dos variables en la cual, al aumentar el valor de la variable
independiente, también aumenta el de la variable dependiente.
RELACIÓN LÍNEAL.- Tipo particular de asociación entre dos variables, que puede ser descrita
matemáticamente con una recta.