Documentos de Académico
Documentos de Profesional
Documentos de Cultura
AGRARIA DE LA SELVA
FACULTAD DE INGENIERÍA EN
INFORMÁTICA Y SISTEMAS
DEPARTAMENTO ACADÉMICO DE
CIENCIAS EXACTAS
REGRESIÓN Y
CORRELASIÓN LINEAL
SIMPLE
Yi = Y i + ei
Yi = bo + b1 + b1Xi + ei
4. Los parámetros de la variable aleatoria Yi son:
MEDIA E(Yi) = βo + β1 Xi
VARIANZA V(Yi) = E[ Yi – E (Yi)]
Yi = βo + β1 Xi + Ei , i = 1,2,….N
μyx = βo + β1Xi
Supongamos que bo y b1 son estimadores de βo y β1
1) Yi = bo + b1 Xi +ei , i = 1,2,…n
n : número de pares.
2) ei = Yi – bo – b1 Xi
En ambos miembros elevamos al cuadrado y sumamos desde 1 hasta n.
3)
n 2 n
Q=∑
i =1
e =∑ [ Y −b −b X ]
i
i=1
i 0 1 i
2
4)
∂Q
=0
∂ b0
5)
∂Q
=0
∂ b1
n n
∂Q
= ∂
∂b0 ∂b0 [∑
i−1
2
]
(Y i−b 0 −b1 X i ) =2 ∑ (Y i−b0 −b1 X i )(−1)
i−1
n
∑ (Y i−b 0 −b1 X i )=0
i −1
n n
∑ Y i −nb0 −b1 ∑ X i=0..... ... ... ......(1)
i−1 i=1
De 5
n n
∂Q
= ∂
∂b1 ∂ b1 [ ]
∑ ( Y i −b 0 −b1 X i )2 =2 ∑ (Y i −b 0−b1 X i )(− X i )
i −1 i −1
n
(−2 X i ) ∑ (Y i −b0 −b 1 X i )=0
i−1
n n n
∑ X i Y i −b 0∑ Xi−b 1∑ X 2i =..............................(2)
i−1 i=1 i=1
n n n
∑ X i Y i −b 0∑ Xi−b 1∑ X 2i =0 .. . .. .. . .. .. . .. .. .. . .. .. . .(2)
i=1 i=1 i=1
n n
n
∑ X iY i−
i=1
[ ∑Yi
i=1
n
−b 1
∑ Xi
i=1
n
] n
∑ Xi−b1 ∑ X 2i =0
i=1 i=1
n
n n n
n ∑ Xi ∑ Y i i ( ∑ X i )2 n
i=1 i=1 i=1
∑ X iY i− +b1 −b1 ∑ X i2=0
i=1 n n i=1
Factorizando b1 se obtiene:
n n n
n
∑ X iY i−
i=1
∑ Xi ∑ Y i i
i=1
n
i=1
+b1 [ ( ∑ X i )2
i=1
n
n
−∑ X 2i =0
i=1
]
n n
n ( ∑ X i )( ∑ Y i )
i=1 i=1
∑ Xi Y i−
i=1 n
b1 = n
( ∑ X i )2
n S . P . XY
∑ X2
i −
i=1
b1 =
i=1 n S.C. X
N __ __ N ( ∑ X i )( ∑ Y i )
i=1 i=1
S . P . XY =∑ ( X i− X )(Y i −Y )=∑ X i Y i−
i=1 i=1 n
n __ n ( ∑ X i )2
i=1
S .C . X =∑ ( X i− X )2=∑ X 2i −
i=1 i=1 n
n __ n ( ∑ Y i )2
i=1
S .C . Y =∑ (Y i− Y )2 =∑ Y 2i −
i=1 i =1 n
1. PROBLEMA:
El número de acciones de la empresa SANTA ANITA que variaron durante un mes y
el precio al final del mes» se muestran en la tabla que sigue:
MOVIMIENTO PRECIO ($)
(miles de
acciones)
4 2
1 1
5 4
3 2
2 1
1. Determinar la variable X e Y.
2. Graficar los datos muéstrales en un eje de coordenadas.
3. Encontrar la ecuación de regresión estimada.
4. Granear la ecuación de regresión, estimada junto con la gráfica de los datos
observados.
SOLUCIÓN:
1. MOVIMIENTO :X
PRECIO :Y
SOLUCIÓN:
(15 )(10)
S . P . XY .=37− =7
5
2
(15)
S .C . Y .=26− =6
2
S . P . XY
b1 =
S.C. X
7
b1 = =0 .7
10 bo=2−(0. 7 )3=−0 . 1
Una vez encontrado los valores de bo y b1, podemos escribir la ECUACIÓN DE
REGRESIÓN ESTIMADA.
¿
Y i=−0 .1+0 . 7 X 1
INTERPRETACIÓN
bo = - 0.1 Geométricamente es la distancia que hay del origen de coordenadas al
intercepto entre el eje Y y la ecuación de regresión estimada.
Indica que cuando los movimientos sea igual a cero (0), el precio tendrá una
disminución (-) de 0.1.
b1 = 0.7 Indica que para cada cambio de aumento en el movimiento (número de
acciones), habrá incremento promedio de 0.7 en el precio.
¿
Y i=−0 .1+0 . 7 Xi, Se dirá que es la mejor estimación de la línea de regresión de
la población:
μ yx =β o +β 1 Xi
i=1 i=1 i =1
n : Número de pares.
p : Número de parámetros a estimar.
Donde: Fc = C.M. regresión / C.M.residual
n __
=∑ (Yi−Y )2=∑ Yi 2 −( ∑ Yi )2 /n=S .C . Y .
1. S.C. TOTAL i=1
n ¿ __
=b 1 S . P . XY =b 1 S .C . X .=∑ (Y i −Y )2
2
__ __ n __ __
S . P . XY =∑ X i Y i −n X Y =∑ ( Xi−X )(Yi−Y )
3. i =1
n ¿
=∑ (Yi−Y )2 =
4. S.C. RESIDUAL i=1 S.C. TOTAL – S.C. REGRESIÓN.
Para realizar un análisis de varianza (ANVA), se utiliza la tabla de la distribución F,
con un nivel de significancia ( α ), dando para luego comparar con el factor Fc.
a) Si Fc. ¿ F tabular, entonces rechazamos la hipótesis nula (Ho) y por lo tanto
nos queda aceptar H1, con lo cual concluiremos que EXISTE REGRESIÓN
LINEAL ENTRE LA VARIABLE X Y LA VARIABLE Y, ó el siguiente caso.
b) Si Fc < F tabular, entonces aceptamos la hipótesis nula (Ho), con lo cual concluiremos
que NO EXISTE REGRESIÓN LINEAL ENTRE LAS VARIBLES X e Y.
Trabajando con los datos del problemas número 01
Probar si existe regresión lineal entre el movimiento y el precio.
SOLUCIÓN:
2 102 2
=S . C .Y .=∑ Yi −( ∑ Yi ) /n=26− =6
S.C.TOTAL 5
S.C.REGRESIÓN
=b 1 S . P . XY =(0 . 7)7=4 . 9
5. Calculo de Fc (ANVA)
REALIZAR EL ANALISIS DE VARIANZA (ANVA)
F.V. S.C. G.L. C.M. Fc. SIGNIFIC.
REGRESIÓN 4.9 1 4.9 13.36 *
RESIDUAL 1.1 3 0.36667
TOTAL 6 4
P= Numero de parámetros a estimar( β o , β 1 ¿=2
Se busca en la tabla de la distribución F. con los niveles de significancia de
1% y 5%, es decir:
Como Fc. = 13.36 > 10.1, pero 13.36 < 34.1, entonces se rechaza Ho, para
α = 5% mas no para α = 1%.
6. CONCLUSIÓN:
Como Fc. = 13.36 es mayor que Ft= 10.1, entonces se rechaza Ho, y se
concluye que existe regresión lineal entre la variable movimiento y el precio en
formas significativa (*).
Análisis moderno: como p valor es 0.035 es menor que el nivel de
significancia ∝=0,05, entonces pertenece a la región de rechazo, por lo tanto
se rechaza la hipótesis nula H0, y se concluye que existe regresión lineal entre
el movimiento y el precio.
bi− βi
±tc=
Sbi
I . C .( βi )=bi± t (n−2) α Sbi
¿ 2
A) PARA (βo)
C . M . RESIDUAL ( ∑ X 2 )
Donde.
Sbo=
√ n( S .C . X )
0 . 3666 ( 55 )
Sbo =
√ 5 ( 10 )
=0 . 635
t ( 3) 0. 025=3 . 182
I . C .( β 1 )=0 .7±3 .182(0 . 1915)
INTERPRETACIÓN:
Existe un 95% de confianza de que este intervalo encierre al verdadero parámetro o
coeficiente de regresión β1 de la línea de regresión de la población.
1.9. INTERVALO DE CONFIANZA PARA µy.x. PARA UN VALOR DE Xo
I .C .( μ y .x )=Y±t (n−2)α/2 S Y^
Donde:
Y =bo±b 1 X 0 , remplazando Xi por Xo
___
√ [
1 ( Xo− X )
S Y^ = C . M .residual +
n S .C . X .
2
]
PARA NUESTRO PROBLEMA: Encontrar el intervalo de confianza para μ y.x. con
95% de confianza, para Xo = 4 500 acciones, es decir (4.5).
Solución:
Y = - 01 + 0.7 (4.5) = 3.05
2
√
S Y^ = 0 . 3666 [ 1 ( 4 .5−3 )
+
5 10 ]
=0 . 3947
t(3)0.025 = 3.182
__
¿
√
S Y p = C . M .residual [ 1 ( X −X )
1+ n +
2
S.C. X. ]
PARA NUESTRO PROBLEMA
Encuentre un intervalo de predicción del 95% para el precio que experimentará la
empresa el próximo mes, si el movimiento es de 4 500 acciones.
SOLUCIÓN:
=−0. 1+0 .7 (4 . 5 )=3 .05 t ( 5) 0. 025=3 . 182
2
√ 1 (4 . 5−3 )
[ ]
¿
S Y p = 0. 3666 1+ + = 0. 7228
5 10
¿
I . C .( Y p )=3 . 05±3 . 182( 0 .7228 )
0 .75≤Yp≤5 .35
Interpretación: Si se tiene muchos movimientos de acciones iguales a 4 500, existe
un 95% de confianza de que el verdadero valor del precio se encuentre entre 0.75 y
5.35 dólares.
Rechazamos Ho si:
tc≤−t
tc≥t (n−2) α /2 ( n−2)
α
ó si 2
Si H1: βo > 0
Rechazamos Ho, si tc ¿ t(n-2) α
Si H1: βo < 0
Rechazamos Ho, si tc ¿ - t(n-2) α
5. Cálculo de tc
b 0− β0
tc=
Sb0
6. Conclusión
Se rechaza Ho si :
tc≥t α
tc≤−t α
( n−2)
(n−2)
2 ó si 2
Si H1: β1 > 0
Se rechaza Ho, si tc ¿ t(n-2) α
Si H1: β1 < 0
Se rechaza Ho, si tc ¿ - t(n-2) α
5. Cálculo de tc.
b1 −β 1
tc=
Sb1
6. Conclusión:
PARA NUESTRO PROBLEMA: Determinar si existe evidencias que indique que
β1 difiere de cero (0) al utilizar una relación lineal entre el movimiento y el precio.
SOLUCIÓN:
5. Cálculo de tc.
0 .7
tc= =3. 655
0 . 1915
6. Conclusión:
Como tc.> t tabulado, entonces tc pertenece a la Región de Rechazo (R.R.) por
lo tanto rechazamos la hipótesis nula Ho, y concluimos que existe evidencias
que indica que los movimientos proporcionan información para predicción del
precio de las acciones en cada mes.
1. Ho: 1 1o
H1: β1≠β1o
2. α=0 . 05
3. Usar la prueba t.
4. Regiones críticas.
b 1−β 1 o
tc=
Sb 1
6. Conclusión:
PARA NUESTRO EJEMPLO: Deseamos probar que por cada mil acciones de
aumento en los movimientos, en cada mes, el precio aumenta en un dólar.
SOLUCIÓN:
1. Ho: β1=1.0
H1: β1≠1.0
2. α=0 . 05
3. Usar la prueba t.
4. Regiones críticas.
tc≥t =3.182
(3 )0 . 05/2 tc≤−3. 182 , entonces tc pertenece a la región de
Si ó
rechazo, por lo tanto RECHAZAMOS Ho
5. Cálculo de tc.
0 . 7−1 . 0
tc= =−1 .567
0 .1915
7. Conclusión: Como tc pertenece a la región de aceptación, se acepta la
hipòt6esis Ho y concluimos que existe evidencias de que el precio
aumentara en un dólar por cada mil acciones de aumento en las acciones.
1. Ho:
μy . x = a
H1:
μ y .x ≠¿ ¿
a
2. α=0 . 05 ó α=0 . 01
3. Usar la prueba t.
4. Regiones críticas.
Si tc≥t (n−2)α /2 ó tc≤−t(n−2)α /2 , entonces tc pertenece a la
región de rechazo, por lo tanto RECHAZAMOS Ho
5. Cálculo de tc.
Y −a
tc=
Sy
6. Conclusión
1. Ho:
μ y .x = 3
H1:
μ y .x ≠¿ ¿ 3
2. α=0 . 05
3. Usar la prueba t.
4. Regiones críticas.
5. Cálculo de tc.
2
√ (1 (5−3)
S y = 0.366 +
5 10 )
=0.4686
3.4−3
tc = =0.85
0.4686
6. Conclusión: Como tc. = 1.01 < t (3) 0.025 = 3.182, entonces tc pertenece a la región
de aceptación, por lo tanto aceptamos la hipótesis nula (Ho) y concluimos que el
promedio del precio es de 3 dólares cuando los movimientos son en promedio de 5
00 acciones.
b1 S. P.X .Y .
r2=
2 ( ∑ Y )2
∑ Y −
n
I .C .( μ y .x )=Y±t (n−2)α/2 S Y^
Donde:
Y =bo±b 1 X 0 , remplazando Xi por Xo
___
√ 1 ( Xo− X )
S Y^ = C . M .residual + [
n S .C . X .
2
]
Solución:
Y =−2.2769+0.2769 ( 20 )=3.26
√
SY^ = 0,0748+ [ 1 ( 20−14 )
10
+
78 ]
= 0.7977 t ( 8) 0.025=2.306
1.42 ≤ μ y. x ≤ 5.099
bi− βi
±tc=
Sbi
I . C .( βi )=bi± t (n−2) α Sbi
¿ 2
A) PARA (βo)
C . M . RESIDUAL ( ∑ X 2 )
Donde.
Sbo=
√ n( S .C . X )
Solución:
1- α = 0.95
α = 0.05
t (n−2) α /2=t (8 ) 0.05/ 2=2.306
0.0748(2038)
Sbo=
√ 10(78)
=0.442
−2. 12≤βo≤1 . 92
INTERPRETACIÓN
Existe una probabilidad del 95% de que el verdadero valor del parámetro βo esté
comprendido entre esos valores, ó
Existe un 95% de probabilidad de que este intervalo encierre al parámetro βo de la
línea de regresión de la población.
A) PARA (β1) I.C. (β1) = b1 ± t (n – 2) α /2 Sb1
0 .36667
Donde:
Sb 1=
√ C . M . RESIDUAL
S .C . X .
Sb 1=
√ 10
=0 .1915
t ( 3) 0. 025=3 . 182
I . C .( β 1 )=0 .7±3 .182(0 . 1915)
INTERPRETACIÓN:
Existe un 95% de confianza de que este intervalo encierre al verdadero parámetro o
coeficiente de regresión β1 de la línea de regresión de la población.
h) Encontrarlos intervalos de confianza para μy.x para un valor de X = 10, con 95% de
confianza.
INTERVALO DE CONFIANZA PARA µy.x. PARA UN VALOR DE Xo
I .C .( μ y .x )=Y±t (n−2)α/2 S Y^
Donde:
Y =bo±b 1 X 0 , remplazando Xi por Xo
___
√ 1 ( Xo− X )
S Y^ = C . M .residual +
n S .C . X .[ 2
]
Solución:
Y =−2.2769+0.2769 ( 10 )=0.4921
√
SY^ = 0,0748+ [ 1 ( 10−14 )
10
+
78 ]
= 0.6164 t ( 8) 0.025=2.306
−0.929 ≤ μ y . x ≤1.913
DISTRIBUCIÓN T DE STUDENT
NIVEL DE SIGNIFICACIÓN PARA PRUEBAS DE UNA COLA
0.1 0.05 0.025 0.01 0.005 0.0005
G.L.
NIVEL DE SIGNIFICACIÓN PARA PRUEBAS DE DOS COLAS
0.,2 0,1 0,05 0,02 0,01 0,001
1 3.078 6.314 12.706 31.821 63.657 636.619
2 1.886 2.920 4.303 6.965 6.925 31.598
3 1.638 2.353 3.182 4.541 5.841 12.941
4 1.533 2.132 2.776 3.747 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.859
6 1.440 1.943 2.447 3.143 3.307 5.959
7 1.415 1.895 2.365 2.998 3.499 5.405
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.650 3.012 4.221
14 1.345 1.761 2.145 2.624 2.977 4.140
15 1341 1.753 2.131 2.602 2.947 4.073
GLOSARIO
ANÁLISIS DE VARIANCIA (ANYA o - ANOVA). Técnica estadística con que se prueba la igualdad
de 3 ó más medias muéstrales y que, por tanto, permite hacer inferencias sobre si las muestras
provienen de poblaciones que tienen la misma media.
DISTRIBUCIÓN F. Familia de distribuciones diferenciadas por dos parámetros (g.1 del numerador
y que g.1 del denominador); se usan fundamentalmente para probar hipótesis referentes a las
variancias.
DIAGRAMA DE DISPERSIÓN. Gráfica de puntos sobre una rejilla, rectangular; las coordenadas X
e Y de cada punto corresponden a las dos mediciones hechas en algún elemento particular de la
muestra, y el patrón de puntos indica la relación existente entre las dos variables.
ECUACIÓN DE ESTIMACIÓN. Fórmula matemática que relaciona la variable desconocida con las
variables conocidas es el análisis de regresión.
ESTIMACIÓN POR INTERVALO. Gama de valores que se usan para estimar el parámetro de una
población desconocida.
ESTIMACIÓN PUNTUAL." Número individual que sirve para estimar un parámetro de una
población desconocida.
GRADOS DE LIBERTAD (G.L.) Número de valores de una muestra que podemos especificar
libremente, una vez que sepamos algo de ella.
HIPÓTESIS ALTERNATIVA (Ha ó H1). Conclusión que aceptamos cuando los datos no apoyan la
hipótesis nula (Ho).
NIVEL DE CÓNTIANZA.- Probabilidad que los estadísticos asocian a una estimación por intervalo
del parámetro de una población; indica la confianza de que la estimación por intervalo incluya el
parámetro de la población.
MÉTODO DE MÍNIMOS CUADRADOS. Técnica con que se ajusta una recta mediante un
conjunto de puntos, de manera que se minimice la suma de los cuadrados de las distancias
verticales entre n puntos y la línea.
NIVEL DE SIGNIFICANCIA. Valor que indica el porcentaje de los valores muéstrales que se haya
fuera de ciertos límites suponiendo que la hipótesis nula sea correcta, esto es, la probabilidad de
rechazarla cuando es verdadera.
PENDIENTE. Constante de cualquier recta, cuyo valor representa en qué medida el cambio de
cada unidad de la variable independiente modifica la variable dependiente.
RAZÓN F. Aquella que se utiliza en él análisis de variancía, entre otras pruebas, para comparar la
magnitud de dos estimaciones de la variancia de la población y determinar si ambas estimaciones
son aproximadamente iguales; en el análisis de variancía, se emplea la razón de la variancia entre
columnas con la variancia dentro de columnas.
REGRESIÓN. Proceso general de predecir una variable a partir de otra con medios estadísticos,
usando datos anteriores.
REGRESIÓN MÚLTIPLE. Procedimiento estadístico en virtud del cual algunas variables se usan
para predecir otra variable.
RELACIÓN CURVILÍNEA. Nexo de dos variables que es descrito por una línea curva.
RELACIÓN DIRECTA. Relación entre dos variables en la cual, al aumentar el valor de la variable
independiente, también aumenta el de la variable dependiente.
RELACIÓN LÍNEAL.- Tipo particular de asociación entre dos variables, que puede ser descrita
matemáticamente con una recta.