Regresión Lineal Simple

UNIVERSIDAD NACIONAL
AGRARIA DE LA SELVA
FACULTAD DE INGENIERÍA EN
INFORMÁTICA Y SISTEMAS
DEPARTAMENTO ACADÉMICO DE
CIENCIAS EXACTAS
REGRESIÓN Y
CORRELASIÓN LINEAL
SIMPLE
TINGO MARIA – PERÚ

2020
REGRESIÓN LINEAL SIMPLE
1.1. INTRODUCCIÓN.
El análisis de regresión es una rama de la teoría estadística cuyo uso está muy
difundido en casi todas las disciplinas científicas. En administración y economía es
la técnica básica para medir o estimar las relaciones entre variables económicas
que constituyen la esencia de la teoría y la vida económica.
En este capítulo estudiaremos la relación entre dos conjuntos de datos hasta
determinar una ecuación. Esto permitirá predecir el valor de la variable dependiente
Y con base en un valor de la variable independiente X.
1. Se granean los puntos de X e Y en un diagrama de dispersión.
2. Se determinará la ecuación para la recta que mejor se ajuste a los datos.
3. Se pronosticará un valor de Y con base en un valor seleccionado de X.
4. Se medirá el error en un pronóstico.
5. Se establecerán intervalos de confianza para los pronósticos.
1.2. ANÁLISIS DE REGRESIÓN
Según se indicó en la introducción, se desarrollará una ecuación para expresar la
relación entre dos variables, y estimar el valor de la variable dependiente Y con
base en un valor seleccionado de la variable independiente X. A la técnica
empleada para hacer estas predicciones se le denomina ANÁLISIS DE
REGRESIÓN.
En el análisis de regresión el objetivo es un modelo estadístico que se puede usar
para predecir los valores de una variable dependiente (o variable respuesta Y)
basada en los Valores de por lo menos una variable independiente (X). Para elegir
una relación funcional particular como la representativa de la población bajo
estudio» generalmente se procede a realizar:
1. Una consideración analítica del fenómeno que nos ocupa.
2. Un examen del diagrama de dispersión.
Una vez decidido el tipo de función matemático que mejor se ajuste se presenta el
problema de elegir una expresión particular de esta familia de funciones. Cuando la
relación funcional entre la variable dependiente Y y la variable independiente X es
una línea recta, se tiene una regresión lineal simple dada por la siguiente ecuación:
Yi = βo + β1 Xi + Ei
I = 1, 2, 3, ….., N
Donde:
Y : variable independiente.
βo : coeficiente de intersección y nos dice cual es el nivel de Y cuando
X=O
Β : coeficiente de regresión poblacional, o coeficiente angular.
Ei : error o residual.
1.3. SUPOSISIONES:
A) RELATIVO A LOS ERRORES (Ei)
1. "Todo error es aleatorio y tiene media cero, E (Ei) = O, para todo i = 1, 2, 3,
…N
2. Todos los errores tienen la misma varianza V (Ei) =
3. Los errores son independientes, COV (ej, ej ) = 0
4. Los errores se distribuyen normalmente con media igual a cero y varianza
B) RELATIVO A LAS VARIABLES.
1. La variable Y es endógena o dependiente y la variable X es
predeterminada, explicativa o independiente.
2. La variable X es fija o matemáticamente no es aleatoria.
3. La variable Y es aleatoria y puede descomponerse en dos partea.
¿
 Parte exacta: Y i = bo + bi Xi , i = 1,2,3,....,n

 Parte aleatoria: ei = error o perturbación.
¿
Yi = Y i + ei
Yi = bo + b1 + b1Xi + ei
4. Los parámetros de la variable aleatoria Yi son:
MEDIA E(Yi) = βo + β1 Xi
VARIANZA V(Yi) = E[ Yi – E (Yi)]
Si los errores (ei) se distribuyen normalmente» entonces los Yi también

se distribuyen normalmente.
5. No hay errores de observación en Xi e Yi.
1.4. ESTIMACIÓN DE LOS PARÁMETROS DE REGRESIÓN

Si conocemos toda la población de valores (Yi,Xi) es posible computar los valores
exactos de los parámetros de regresión βo y β1. Generalmente trabajamos con
muestras, en cuyo caso el problema estadístico consiste en como estimar de la
mejor manera posible los parámetros βo y β1. El método que más se utiliza para
ajustar una recta es el método de MÍNIMOS CUADRADOS. La línea de regresión
de mínimos cuadrados no es necesariamente la "mejor", pero posee varías
propiedades estadísticas.
Yi = βo + β1 Xi + Ei , i = 1,2,….N
μyx = βo + β1Xi
Supongamos que bo y b1 son estimadores de βo y β1
1) Yi = bo + b1 Xi +ei , i = 1,2,…n
n : número de pares.
2) ei = Yi – bo – b1 Xi
En ambos miembros elevamos al cuadrado y sumamos desde 1 hasta n.
3)
n 2 n
Q=∑
i =1
e =∑ [ Y −b −b X ]
i
i=1
i 0 1 i
2
4)
∂Q
=0
∂ b0
5)
∂Q
=0
∂ b1
n n
∂Q
= ∂
∂b0 ∂b0 [∑
i−1
2
]
(Y i−b 0 −b1 X i ) =2 ∑ (Y i−b0 −b1 X i )(−1)
i−1
n
∑ (Y i−b 0 −b1 X i )=0
i −1
n n
∑ Y i −nb0 −b1 ∑ X i=0..... ... ... ......(1)
i−1 i=1
De 5
n n
∂Q
= ∂
∂b1 ∂ b1 [ ]
∑ ( Y i −b 0 −b1 X i )2 =2 ∑ (Y i −b 0−b1 X i )(− X i )
i −1 i −1
n
(−2 X i ) ∑ (Y i −b0 −b 1 X i )=0
i−1
El (-2) lo pasamos a dividir al segundo miembro y nos queda la ecuación número 2.
n n n
∑ X i Y i −b 0∑ Xi−b 1∑ X 2i =..............................(2)
i−1 i=1 i=1
Luego las ecuaciones (1) y (2) son las ecuaciones normales.

n n
∑ Y i −nb0 −b1 ∑ X i =0. . .. .. . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. ..(1 )
i=1 i=1
n n n
∑ X i Y i −b 0∑ Xi−b 1∑ X 2i =0 .. . .. .. . .. .. . .. .. .. . .. .. . .(2)
i=1 i=1 i=1
De la ecuación (1) obtenemos:

n n
∑Yi ∑ Xi
b0 = i =1 −b 1 i =1
n n
− −
b0 =Y −b1 X
De la ecuación (2) y reemplazando la fórmula de bo en (2) se obtiene.
n n
n
∑ X iY i−
i=1
[ ∑Yi
i=1
n
−b 1
∑ Xi
i=1
n
] n
∑ Xi−b1 ∑ X 2i =0
i=1 i=1
n
n n n
n ∑ Xi ∑ Y i i ( ∑ X i )2 n
i=1 i=1 i=1
∑ X iY i− +b1 −b1 ∑ X i2=0
i=1 n n i=1
Factorizando b1 se obtiene:
n n n
n
∑ X iY i−
i=1
∑ Xi ∑ Y i i
i=1
n
i=1
+b1 [ ( ∑ X i )2
i=1
n
n
−∑ X 2i =0
i=1
]
n n
n ( ∑ X i )( ∑ Y i )
i=1 i=1
∑ Xi Y i−
i=1 n
b1 = n
( ∑ X i )2
n S . P . XY
∑ X2
i −
i=1
b1 =
i=1 n S.C. X
S.P.XY: SUMA DEL PRODUCTO X e Y

n n
N __ __ N ( ∑ X i )( ∑ Y i )
i=1 i=1
S . P . XY =∑ ( X i− X )(Y i −Y )=∑ X i Y i−
i=1 i=1 n
S.C.X: SUMA DE CUADRADOS DE X
n __ n ( ∑ X i )2
i=1
S .C . X =∑ ( X i− X )2=∑ X 2i −
i=1 i=1 n
S.C.Y: SUMA DE CUADRADOS DE Y Ó SUMA DE CUADRADOS TOTAL

n
n __ n ( ∑ Y i )2
i=1
S .C . Y =∑ (Y i− Y )2 =∑ Y 2i −
i=1 i =1 n
1.5. ECUACIÓN DE REGRESIÓN ESTIMADA

Es una expresión matemática que define la relación entre dos variables.
¿
Y 1 =bo+b 1 Xi
Donde:
bo: Es la intersección con el eje Y para todo X = 0
b1: Pendiente de la recta de regresión, o coeficiente de regresión. Mide la variación
de la variable dependiente Y cuando la variable independiente X se incrementa en
una unidad.
A continuación se desarrollará un ejemplo que se irá explicando a través de los
tópicos de regresión y correlación a estudiar.
1. PROBLEMA:
El número de acciones de la empresa SANTA ANITA que variaron durante un mes y
el precio al final del mes» se muestran en la tabla que sigue:
MOVIMIENTO PRECIO ($)
(miles de
acciones)
4 2
1 1
5 4
3 2
2 1
1. Determinar la variable X e Y.
2. Graficar los datos muéstrales en un eje de coordenadas.
3. Encontrar la ecuación de regresión estimada.
4. Granear la ecuación de regresión, estimada junto con la gráfica de los datos
observados.
SOLUCIÓN:
1. MOVIMIENTO :X
PRECIO :Y
SOLUCIÓN:
n=5 ∑ Xi=15 ∑ X 2=55 ∑ XiYi=37 ∑ Yi=10

∑ Y 2=26
__ __
X =3 Y =2
2
15
S .C . X .=55− =10
5
(15 )(10)
S . P . XY .=37− =7
5
2
(15)
S .C . Y .=26− =6
2
S . P . XY
b1 =
S.C. X
7
b1 = =0 .7
10 bo=2−(0. 7 )3=−0 . 1
Una vez encontrado los valores de bo y b1, podemos escribir la ECUACIÓN DE
REGRESIÓN ESTIMADA.
¿
Y i=−0 .1+0 . 7 X 1
INTERPRETACIÓN
bo = - 0.1 Geométricamente es la distancia que hay del origen de coordenadas al
intercepto entre el eje Y y la ecuación de regresión estimada.
Indica que cuando los movimientos sea igual a cero (0), el precio tendrá una
disminución (-) de 0.1.
b1 = 0.7 Indica que para cada cambio de aumento en el movimiento (número de
acciones), habrá incremento promedio de 0.7 en el precio.
¿
Y i=−0 .1+0 . 7 Xi, Se dirá que es la mejor estimación de la línea de regresión de
la población:
μ yx =β o +β 1 Xi
2. PROBLEMA PARA EL ALUMNO

Supongamos que un ejecutivo de una empresa quiere establecer un presupuesto
flexible para estimar sus costos para un cierto rango de producción. Los costos y
producciones pasadas se encuentran en la tabla.
a) Encuentre la recta de mínimos cuadrados que le permita estimar costos a partir de la
producción.
b) Interprete
los resultados.
c) Grafique los 7 puntos y la recta de mínimos cuadrados.

PRODUCCIÓN (x $ 10 000) 3 4 5 6 7 8 9
COSTOS FIJOS (x $ 10 000) 12 10.5 13 12 13 13.3 16.5
1.6. DESCOMPOSICIÓN DE LA VARIACIÓN TOTAL
__
(Yi−Y ): DESVIACIÓN TOTAL
¿ __
(Y i−Y : DESVIACIÓN EXPLICADA O DEBIDO A LA REGRESIÓN
¿
(Yi−Y i : DESVIACIÓN NO EXPLICADA O DEBIDO AL ERROR O RESIDUAL
DESV. TOTAL = DESV. EXPLICADA + DESV. NO EXPLICADA.
__ ¿ __ ¿
(Yi−Y )=(Y i Y )+(Yi−Y i )
n __ n ¿ __ n ¿
∑ (Yi−Y ) =∑ (Y i−Y ) +∑ (Yi−Y i )2
2 2
i=1 i=1 i =1
S.C. TOTAL = S. C. REGRESIÓN + S.C. RESIDUAL

1.7. ESQUEMA DE ANALISIS DE VARIANZA (ANVA)
Para realizar un análisis de variaciones se debe plantear las siguientes hipótesis:
Ho: β1 = 0 NO EXISTE REGRESIÓN LINEAL ENTRE X e Y
H1: β1 ¿ 0 EXISTE REGRESIÓN LINEAL ENTRE X e Y.
FTE. DE VARIACIÓN GDOS. DE LIBERTAD SUMA DE CUADRADOS CUAD. MEDIOS Fc.

n ¿ __ n ¿ __
∑ (Y i− Y )2 ∑ (Y i−Y )2
REGRESIÓN 1 i =1 i=1 Fc.
n ¿ n ¿
∑ (Yi−Y i )2 ∑ (Yi−Y i )2 /n− p
RESIDUAL n–p i =1 i=1
n ¿
∑ (Yi−Y )2
TOTAL n–1 i =1
n : Número de pares.
p : Número de parámetros a estimar.
Donde: Fc = C.M. regresión / C.M.residual
n __
=∑ (Yi−Y )2=∑ Yi 2 −( ∑ Yi )2 /n=S .C . Y .
1. S.C. TOTAL i=1
n ¿ __
=b 1 S . P . XY =b 1 S .C . X .=∑ (Y i −Y )2
2
2. S.C. REGRESIÓN i=1
__ __ n __ __
S . P . XY =∑ X i Y i −n X Y =∑ ( Xi−X )(Yi−Y )
3. i =1
n ¿
=∑ (Yi−Y )2 =
4. S.C. RESIDUAL i=1 S.C. TOTAL – S.C. REGRESIÓN.
Para realizar un análisis de varianza (ANVA), se utiliza la tabla de la distribución F,
con un nivel de significancia ( α ), dando para luego comparar con el factor Fc.
a) Si Fc. ¿ F tabular, entonces rechazamos la hipótesis nula (Ho) y por lo tanto
nos queda aceptar H1, con lo cual concluiremos que EXISTE REGRESIÓN
LINEAL ENTRE LA VARIABLE X Y LA VARIABLE Y, ó el siguiente caso.
b) Si Fc < F tabular, entonces aceptamos la hipótesis nula (Ho), con lo cual concluiremos
que NO EXISTE REGRESIÓN LINEAL ENTRE LAS VARIBLES X e Y.
Trabajando con los datos del problemas número 01
Probar si existe regresión lineal entre el movimiento y el precio.
SOLUCIÓN:
2 102 2
=S . C .Y .=∑ Yi −( ∑ Yi ) /n=26− =6
 S.C.TOTAL 5
 S.C.REGRESIÓN
=b 1 S . P . XY =(0 . 7)7=4 . 9
 S.C.RESIDUAL =6−4 .9=1.1.

1. PLANTEAR LAS HIPÓTESIS
Ho: β1 = 0 No existe regresión lineal entre el movimiento y el precio.
H1: β1 ¿ 0 Existe regresión lineal entre el movimiento y el precio.
2. Fijar el nivel de significancia: ∝=0,05 ∝=0,01
3. El estadígrafo de contraste: Prueba F= C.M. Rgresion/ C.M.Residual
4. Region critica:
F(1,3) 0.01=34.1 Y F(1,3) 0.05=10.1
5. Calculo de Fc (ANVA)
REALIZAR EL ANALISIS DE VARIANZA (ANVA)
F.V. S.C. G.L. C.M. Fc. SIGNIFIC.
REGRESIÓN 4.9 1 4.9 13.36 *
RESIDUAL 1.1 3 0.36667
TOTAL 6 4
P= Numero de parámetros a estimar( β o , β 1 ¿=2
Se busca en la tabla de la distribución F. con los niveles de significancia de
1% y 5%, es decir:
Como Fc. = 13.36 > 10.1, pero 13.36 < 34.1, entonces se rechaza Ho, para
α = 5% mas no para α = 1%.
6. CONCLUSIÓN:
Como Fc. = 13.36 es mayor que Ft= 10.1, entonces se rechaza Ho, y se
concluye que existe regresión lineal entre la variable movimiento y el precio en
formas significativa (*).
Análisis moderno: como p valor es 0.035 es menor que el nivel de
significancia ∝=0,05, entonces pertenece a la región de rechazo, por lo tanto
se rechaza la hipótesis nula H0, y se concluye que existe regresión lineal entre
el movimiento y el precio.
1.8. INTERVALOS DE CONFIANZA (I.C.)

ESTIMADOR−PARÁMETRO
±t =
DESV . EST . ESTIMADOR
bi : Estimador βi : Parámetro Sbi : Desv. Estand. Del Estimador.
bi− βi
±tc=
Sbi
I . C .( βi )=bi± t (n−2) α Sbi
¿ 2
A) PARA (βo)
I.C. (βo) = bo ± t(n-2) α /2 Sbo
C . M . RESIDUAL ( ∑ X 2 )
Donde.
Sbo=
√ n( S .C . X )
Con los datos de nuestro problema:

Encontrar los intervalos de confianza para βo con 95% de probabilidad.
Solución: 1- α = 0.95
α = 0.05
t ( n−2 )α /2 =t( 3)0 . 05/2 =3 .182
0 . 3666 ( 55 )
Sbo =
√ 5 ( 10 )
=0 . 635
I . C .( βo)=−0 .1±3 .182(0 . 635)

−2. 12≤βo≤1 . 92
INTERPRETACIÓN
Existe una probabilidad del 95% de que el verdadero valor del parámetro βo esté
comprendido entre esos valores, ó
Existe un 95% de probabilidad de que este intervalo encierre al parámetro βo de la
línea de regresión de la población.
A) PARA (β1) I.C. (β1) = b1 ± t (n – 2) α /2 Sb1
0 .36667
Donde:
Sb 1=
√ C . M . RESIDUAL
S .C . X .
Sb 1=
√ 10
=0 .1915
t ( 3) 0. 025=3 . 182
I . C .( β 1 )=0 .7±3 .182(0 . 1915)
0 . 0906≤β 1 ≤1. 3094
INTERPRETACIÓN:
Existe un 95% de confianza de que este intervalo encierre al verdadero parámetro o
coeficiente de regresión β1 de la línea de regresión de la población.
1.9. INTERVALO DE CONFIANZA PARA µy.x. PARA UN VALOR DE Xo
I .C .( μ y .x )=Y±t (n−2)α/2 S Y^
Donde:
Y =bo±b 1 X 0 , remplazando Xi por Xo
___
√ [
1 ( Xo− X )
S Y^ = C . M .residual +
n S .C . X .
2
]
PARA NUESTRO PROBLEMA: Encontrar el intervalo de confianza para μ y.x. con
95% de confianza, para Xo = 4 500 acciones, es decir (4.5).
Solución:
Y = - 01 + 0.7 (4.5) = 3.05
2
√
S Y^ = 0 . 3666 [ 1 ( 4 .5−3 )
+
5 10 ]
=0 . 3947
t(3)0.025 = 3.182
I . C .( μ y . x . )=3. 05±3 .182(0 . 3947)=

1. 79≤ μ y . x≤ 4 . 31 dólares
INTERPRETACIÓN: Este intervalo de confianza nos indica que si los números de
acciones (movimientos) fueron de (4.5) ó 4 500, existe un 95% de confianza que los
valores encontrados del intervalo encierre al verdadero precio promedio.
1.10. PREDICCIÓN DE UN VALOR PARTICULAR DE Y PARA UN VALOR DADO DE X.

Una vez encontrado la ecuación de regresión estimada podemos dar uso a esta
ecuación para los siguientes casos:
1. Predecir el precio al final del mes.
2. Construir un intervalo de predicción para Y dado un valor X.
¿
Y p =−0 . 1±0 . 7 Xi
¿ ¿
I . C .(Y p )=Yp±t (n−2) α /2 SY p
Donde:
__
¿
√
S Y p = C . M .residual [ 1 ( X −X )
1+ n +
2
S.C. X. ]
PARA NUESTRO PROBLEMA
Encuentre un intervalo de predicción del 95% para el precio que experimentará la
empresa el próximo mes, si el movimiento es de 4 500 acciones.
SOLUCIÓN:
=−0. 1+0 .7 (4 . 5 )=3 .05 t ( 5) 0. 025=3 . 182
2
√ 1 (4 . 5−3 )
[ ]
¿
S Y p = 0. 3666 1+ + = 0. 7228
5 10
¿
I . C .( Y p )=3 . 05±3 . 182( 0 .7228 )
0 .75≤Yp≤5 .35
Interpretación: Si se tiene muchos movimientos de acciones iguales a 4 500, existe
un 95% de confianza de que el verdadero valor del precio se encuentre entre 0.75 y
5.35 dólares.
1.11. PRUEBAS DE HIPÓTESIS.

A) PARA βo
1. Plantar las hipótesis. Ho : βo = 0
H1 : βo ¿ 0
2. Fijar el nivel de significancia : α = 0.01 ó α = 0.05
3. Se usa la prueba t.
4. Regiones críticas.
Rechazamos Ho si:
tc≤−t
tc≥t (n−2) α /2 ( n−2)
α
ó si 2
Si H1: βo > 0
Rechazamos Ho, si tc ¿ t(n-2) α
Si H1: βo < 0
Rechazamos Ho, si tc ¿ - t(n-2) α
5. Cálculo de tc
b 0− β0
tc=
Sb0
6. Conclusión
B) PARA β1 (COEFICIENTE DE REGRESIÓN)

1. Plantear las hipótesis. Ho : β1 = 0
H1 : β1 ≠ 0
2. Fijar el nivel de significancia : α = 0.01 ó α = 0.05
3. Se usa la prueba t.
Se rechaza Ho si :
tc≥t α
tc≤−t α
( n−2)
(n−2)
2 ó si 2
Si H1: β1 > 0
Se rechaza Ho, si tc ¿ t(n-2) α
Si H1: β1 < 0
Se rechaza Ho, si tc ¿ - t(n-2) α
5. Cálculo de tc.
b1 −β 1
tc=
Sb1
6. Conclusión:
PARA NUESTRO PROBLEMA: Determinar si existe evidencias que indique que
β1 difiere de cero (0) al utilizar una relación lineal entre el movimiento y el precio.
SOLUCIÓN:
1. Ho: β1 = 0 no hay regresión lineal entre x e y
H1: β1 ¿ 0 si hay regresión lineal entre x e y

2. α=0 . 05
3. Usar la prueba t.
5. Cálculo de tc.
0 .7
tc= =3. 655
0 . 1915
6. Conclusión:
Como tc.> t tabulado, entonces tc pertenece a la Región de Rechazo (R.R.) por
lo tanto rechazamos la hipótesis nula Ho, y concluimos que existe evidencias
que indica que los movimientos proporcionan información para predicción del
precio de las acciones en cada mes.
1.12. PRUEBA DE HIPÓTESIS PARA  1   1o
1. Ho:  1   1o
H1: β1≠β1o
2. α=0 . 05
Si tc≥t (n−2)α /2 ó tc≤−t(n−2)α /2 , entonces tc pertenece a la

región de rechazo, por lo tanto RECHAZAMOS Ho
5. Cálculo de tc.
b 1−β 1 o
tc=
Sb 1
6. Conclusión:
PARA NUESTRO EJEMPLO: Deseamos probar que por cada mil acciones de
aumento en los movimientos, en cada mes, el precio aumenta en un dólar.
SOLUCIÓN:
1. Ho: β1=1.0
H1: β1≠1.0
2. α=0 . 05
tc≥t =3.182
(3 )0 . 05/2 tc≤−3. 182 , entonces tc pertenece a la región de
Si ó
rechazo, por lo tanto RECHAZAMOS Ho
5. Cálculo de tc.
0 . 7−1 . 0
tc= =−1 .567
0 .1915
7. Conclusión: Como tc pertenece a la región de aceptación, se acepta la
hipòt6esis Ho y concluimos que existe evidencias de que el precio
aumentara en un dólar por cada mil acciones de aumento en las acciones.
1.13. PRUEBA DE HIPÓTESIS PARA μy.x
1. Ho:
μy . x = a
H1:
μ y .x ≠¿ ¿
a
2. α=0 . 05 ó α=0 . 01
Si tc≥t (n−2)α /2 ó tc≤−t(n−2)α /2 , entonces tc pertenece a la
región de rechazo, por lo tanto RECHAZAMOS Ho
5. Cálculo de tc.
Y −a
tc=
Sy
6. Conclusión
PARA NUESTRO PROBLEMA: Deseamos comprobar que el promedio de los

precios es de 3 dólares cuando es de 5 000 acciones.
SOLUCION.
1. Ho:
μ y .x = 3
H1:
μ y .x ≠¿ ¿ 3
2. α=0 . 05
5. Cálculo de tc.
2
√ (1 (5−3)
S y = 0.366 +
5 10 )
=0.4686
3.4−3
tc = =0.85
0.4686
Y = - 0.1 + 0.7 (5) = 3.4
6. Conclusión: Como tc. = 1.01 < t (3) 0.025 = 3.182, entonces tc pertenece a la región
de aceptación, por lo tanto aceptamos la hipótesis nula (Ho) y concluimos que el
promedio del precio es de 3 dólares cuando los movimientos son en promedio de 5
00 acciones.
1.14. ANÁLISIS DE CORRELACIÓN

El análisis de correlación es la herramienta estadística de que nos valemos para
describir el grado de relación que existe entre dos variables x é y.
Los estadísticos han inventado dos medidas para describir la correlación entre dos
variables y ellos son:
1. EL COEFICIENTE DE DETERMINACIÓN y
2. EL COEFICIENTE DE CORRELACIÓN.
EL COEFICIENTE DE DETERMINACIÓN (p2)

r2 : COEFICIENTE DE DETERMINACIÓN MUESTRAL
El coeficiente de determinación es la manera primaria de medir el grado o fuerza,
de la relación que existe entre dos variables, X e Y.
Los valores de los coeficientes de determinación poblacional y muestral están
comprendidos entre cero (0) y uno (1) inclusive, o también podemos decir entre 0%
y 100%.
El coeficiente de determinación muestral se calcula utilizando la siguiente

formula:
S . C . REGRESIÓN
r2= X 100
S . C .TOTAL
r2: Mide la variación total explicada por la regresión. Mide exclusivamente la fuerza
de una relación lineal entre dos variables (X e Y)
El método abreviado para calcular r2 es:
b1 S. P.X .Y .
r2=
2 ( ∑ Y )2
∑ Y −
n
EL COEFICIENTE DE CORRELACIÓN (ρ)

El coeficiente de correlación es la segunda medida con que puede describirse la
eficacia con que una variable es explicada por otra. Cuando estamos trabajando
con muestras, el coeficiente muestral de correlación se denota r y es la raíz
cuadrada del coeficiente muestral de determinación.
El valor de r está comprendido entre -1 y 1 inclusive, es decir:

−1≤r ≤1
a) Si b1  0  r  0 No existe correlación lineal entre X e Y
b) Si b 1>0 ⇒r > 0
c) Si b 1<0 ⇒ r < 0
d) Si r = 1 Todos los puntos se encuentran en la línea recta
e) r = -1
PARA NUESTRO PROBLEMA: Calcular e interpretar el coeficiente de correlación
para los datos del movimiento y el precio de las acciones.
SOLUCIÓN:
S . P . XY 7
r= = =0 . 9037
√( S .C . X )( S .C . Y ) √( 10 )( 6)
Calcular el coeficiente de determinación.
S . C . REGRESIÓN
r2= X 100
S . C .TOTAL
4.9
r 2= X 100=81 .7 %
6
INTERPRETACIÓN:
1) Indica que el 81.7% de los cambios en los precios (Y) se asocian a los cambios
en los movimientos (X), resultando un 18.3% de variabilidad que no es explicada
por la regresión.
2) La ecuación de regresión explica alrededor del 81.7% de la variación total en el
precio, y el 18.3% restante se atribuye a factores incluidos en el término del error o
residual.
1.15. PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE CORRELACIÓN

POBLACIONAL SIMPLE.
1. Ho: p = 0 NO EXISTE CORRELACIÓN ENTRE X E Y.
Ho: p ¿ 0 EXISTE CORRELACIÓN ENTRE X E Y.
2. Nivel de significancia α = 0.01 ó α = 0.05
3. Usamos la distribución t.
5. Cálculo de t.
r √ n−2
tc=
√ 1− r 2
6. Conclusión
PARA NUESTRO PROBLEMA:

Probar si existe correlación lineal entre el movimiento y el precio. Usar un nivel se
significancia del 5%.
SOLUCIÓN:
1. Ho: ρ = 0 NO EXISTE CORRELACIÓN LINEAL ENTRE X E Y.
Ho: ρ ¿ 0 EXISTE CORRELACIÓN LINEAL ENTRE X E Y.
2. Nivel de significancia α = 0.01 ó α = 0.05
3. Usamos la distribución t.
T ( 3)0 .05/2 =±3 .182
5. Cálculo de tc:
0 . 9037 √ 5−2
tc= =3 . 65
2
√ 1−(0. 9037 )
6. Conclusión: Como tc > tt, entonces rechazamos Ho y concluimos que existe
evidencia estadística para indicar que el precio y el movimiento están
correlacionados.
PROBLEMAS DE REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN SIMPLE

1. Con los siguientes datos:
X : 13 16 14 11 17 9 13 17 18 12
Y : 1.0 2.0 1.4 0.8 2.2 0.5 1.1 2.8 3.0 1.2
a) Grafique el diagrama de dispersión.
b) Desarrolle la ecuación de estimación que mejor describa los datos.
c) Determine Y para X = 10, 15, 20
y=0.2769 x−2.2769
Para x=10:
y=0.2769(10)−2.2769 →0.4921
Para x=15:
y=0.2769(15)−2.2769 →1.8766
Para x=20:
y=0.2769(20)−2.2769 →3.2611
d) Probar sí existe regresión lineal entre X e Y, α = 1% Y 5%. Usar la prueba F y T.
 Usando Fisher
F(1,8) 0.01= 11.3 Y F(1,8) 0.05=5.32
 Usando Student
F(1,8) 0.01= 3.355 Y F(1,8) 0.05=2.306
e) Calcular el error estándar de estimación.
f) Calcule el intervalo de predicción, con 95% de nivel de confianza, para la variable

dependiente cuando X = 20.
INTERVALO DE CONFIANZA PARA µy.x. PARA UN VALOR DE Xo
I .C .( μ y .x )=Y±t (n−2)α/2 S Y^
Donde:
___
√ 1 ( Xo− X )
S Y^ = C . M .residual + [
n S .C . X .
2
]
Solución:
Y =−2.2769+0.2769 ( 20 )=3.26
√
SY^ = 0,0748+ [ 1 ( 20−14 )
10
+
78 ]
= 0.7977 t ( 8) 0.025=2.306
I . C . ( μ y . x )=3.26 ± 2.306 ( 0.7977 )=¿
1.42 ≤ μ y. x ≤ 5.099

X fueron de (20), existe un 95% de confianza que los valores encontrados del
intervalo encierren al verdadero Y.
g) Encontrar los intervalos de confianza para

β 1 y β 1 con 95 % de confianza e interpretar
sus resultados.
INTERVALOS DE CONFIANZA (I.C.)
ESTIMADOR−PARÁMETRO
±t =
DESV . EST . ESTIMADOR
bi : Estimador βi : Parámetro Sbi : Desv. Estand. Del Estimador.
bi− βi
±tc=
Sbi
I . C .( βi )=bi± t (n−2) α Sbi
¿ 2
A) PARA (βo)
I.C. (βo) = bo ± t(n-2) α /2 Sbo
C . M . RESIDUAL ( ∑ X 2 )
Donde.
Sbo=
√ n( S .C . X )
Solución:
1- α = 0.95
α = 0.05
t (n−2) α /2=t (8 ) 0.05/ 2=2.306
0.0748(2038)
Sbo=
√ 10(78)
=0.442
I . C . ( βo )=−2.2769± 2.306 ( 0.442 )=¿
−2. 12≤βo≤1 . 92
INTERPRETACIÓN
Existe una probabilidad del 95% de que el verdadero valor del parámetro βo esté
comprendido entre esos valores, ó
Existe un 95% de probabilidad de que este intervalo encierre al parámetro βo de la
línea de regresión de la población.
A) PARA (β1) I.C. (β1) = b1 ± t (n – 2) α /2 Sb1
0 .36667
Donde:
Sb 1=
√ C . M . RESIDUAL
S .C . X .
Sb 1=
√ 10
=0 .1915
t ( 3) 0. 025=3 . 182
I . C .( β 1 )=0 .7±3 .182(0 . 1915)
0 . 0906≤β 1 ≤1. 3094
INTERPRETACIÓN:
Existe un 95% de confianza de que este intervalo encierre al verdadero parámetro o
coeficiente de regresión β1 de la línea de regresión de la población.
h) Encontrarlos intervalos de confianza para μy.x para un valor de X = 10, con 95% de
confianza.
INTERVALO DE CONFIANZA PARA µy.x. PARA UN VALOR DE Xo
I .C .( μ y .x )=Y±t (n−2)α/2 S Y^
Donde:
___
√ 1 ( Xo− X )
S Y^ = C . M .residual +
n S .C . X .[ 2
]
Solución:
Y =−2.2769+0.2769 ( 10 )=0.4921
√
SY^ = 0,0748+ [ 1 ( 10−14 )
10
+
78 ]
= 0.6164 t ( 8) 0.025=2.306
I . C . ( μ y . x )=0.4921 ± 2.306 ( 0.6164 )=¿
−0.929 ≤ μ y . x ≤1.913

X fueron de (10), existe un 95% de confianza que los valores encontrados del
intervalo encierren al verdadero Y.
¿
i) Encontrar los intervalos de confianza para. Y p para un valor de X = 15, con 95 % de

seguridad,
j) Probar si por cada unidad de aumento en X la variable Y aumenta en 4 unidades.
Usar un nivel de significancia de 5%.
k) Probar si Y es 2.5 cuando X = 20, usar un nivel de significancia de 5%.
l) Calcular el coeficiente de correlación y determinación.
m) Probar si existe correlación lineal entre X e Y.
2. En economía, la función demanda de un producto se estima a menudo calculando la regresión

de la cantidad vendida (Q) sobre el precio (P). Una empresa está tratando de estimar dicha
función para su nueva muñeca "Mary" y a recabado los siguientes datos:
P 10.0 4.7 8.5 8.0 4.5 4.0 3.0 2.0
Q 100 150 128 120 162 170 180 200
a) Grafique los datos anteriores.
b) Calcule la línea de regresión de mínimos cuadrados.
c) Interprete el valor de coeficiente de regresión.
d) Determinar los residuales y construya una gráfica de los residuales con respecto a los
valores ajustados del precio.
e) Utilizar la ecuación de regresión que se encontró en (b), y estime el precio cuando la
cantidad es igual a 220.
f) Probar si existe regresión lineal entre e! precio y la cantidad .Utilizar un nivel de
significancia del 5%, utilizar la prueba F y la prueba T.
g) Determinar el intervalo de confianza para e! coeficiente de regresión, con 95% de
seguridad.
h) Determinar el intervalo de confianza para el intercepto con 99% de seguridad.
i) Calcular el coeficiente de correlación simple entre el precio y la cantidad.
j) Calcular e interpretar el coeficiente de determinación.
k) Probar si la correlación entre X e Y es significativa usar la prueba T, nivel de significancia 1
y 5%.
l) Encontrar los intervalos de confianza para μy.x, cuando el precio es de 5.0, con 99% de
seguridad.
m) Probar si por cada unidad de aumento en el precio, la cantidad disminuye en 9 muñecas.
Usar un nivel de significancia del 5 %. .
n) Probar si la cantidad vendida de muñecas es de 175 cuando el precio es de 4,0 usar un
nivel de significancia del 5 %.
3. En la contabilidad de costos, con frecuencia se trata de estimar los gastos indirectos
basándose en el número de unidades producidas. La gerencia de la empresa, en el problema
1, ha reunido información sobre estos gastos y las unidades producidas en diferentes plantes y
le gustaría estimar una ecuación de regresión para predecir los gastos indirectos en el futuro.
GASTOS INDIRECTOS 191 170 272 155 280 173 234 116 153
UNIDADES 40 42 53 35 56 39 48 30 37
a) Prediga el gasto general cuando se producen 50 unidades.
b) Interprete el valor del coeficiente de regresión.
c) Probar sí existe regresión lineal entre los gastos indirectos y las unidades, α = 0.05 y
0.01. Usar la prueba F y la prueba T.
d) Determinar e interpretar los intervalos de confianza para bo, y b1 con 95% de seguridad.
e) Calcular el coeficiente de correlación simple entre los gastos indirectos y las unidades.
f) Calcular e interpretar el coeficiente de determinación.
g) Probar sí la correlación entre X e Y es significativa. Usar prueba T. α = 0.05
4. Con los siguientes datos de una muestra:

∑ X =18 ∑ Y =30 ∑ XY =71 X =3 Y=5 ∑ Y 2=202
∑ Y 2=64
a) Calcular los estimadores de bo y b1.
b) Calcular la varianza de los estimadores bo y b1.
c) Explicar el significado de los estimadores.
d) Hallar el coeficiente determinación y el coeficiente de correlación.
e) ¿Es significativa la influencia de X sobre Y al 95 % de confianza?
5. Con los siguientes datos:
AÑO 2005 2006 2007 2008 2009
INGRESO 8 9 10 11 12
AHORRO 3 2 4 5 6
a) Hallar la función que explique el fenómeno.

b) Hallar la desviación estándar de cada estimador.
c) Probar si el ingreso influye sobre el ahorro con 5% de significancia.
d) Hallar e interpretar el coeficiente de determinación.
e) Estimar el ahorro cuando el ingreso es de 15.
6. Se tiene interés en examinar la tasa de matrimonios y de divorcios por miles de habitantes en

Tingo María. Las tasas para 8 años, según informes del INEI son:
AÑO 2002 2003 2004 2005 2006 2007 2008 2009

TASA DE MATRI 10.0 10.3 10.4 12.2 9.3 9.3 10.1 10.2
TASA DE DIVOR. 0.8 1.5 1.7 3.5 2.3 2.5 4.9 5.0
a) trace un diagrama de dispersión localizando la tasa de matrimonio en el eje X y la tasa de
divorcios en el eje Y.
b) Determine la ecuación de regresión.
c) Probar sí existe regresión lineal entre las tasas de matrimonio y de divorcios, α = 0.01 y
0.05 Interpretación.
d) Calcularlos intervalos de confianza para bo y b1, con 95% de confianza.
e) Calcular e interpretar los coeficientes de correlación y determinación.
f) Calcular el error estándar de estimación.
g) Probar si existe correlación lineal entre X e Y, α = 5 %
7. En el departamento de producción de una empresa se desea examinar la relación entre el

número de obreros que arman un subensamble y el número de subensambles producidos.
Como experimento, a dos empleados se les asignó armar el subensamble. Produjeron 15
durante un periodo de una hora. Después se dedicaron a armarlo 4 empleados. Produjeron 25
subensambles durante un periodo de una hora. El conjunto completo de pares de
observaciones es como sigue.
N° DE OBREROS 2 4 1 5 3
PRODUCCIÓN 15 25 10 40 30
a) Trace un diagrama de dispersión.
b) Determine la ecuación de regresión.
c) Si contamos con tres ensambladores, ¿Cuál es la producción pronosticada por hora?
d) Probar si existe regresión lineal entre el número de obreros y la producción, con los niveles
de significancia de 1% y 5%. Dé su conclusión.
e) Encontrar intervalos de confianza para el coeficiente de regresión con el 95% de confianza.
f) Probar mediante la prueba T si la variable Y no esta relacionado linealmente con la
variable X, usar α = 0.05.
g) Probar si por cada obrero adicional en el número de obreros, la producción aumenta, en 8
unidades, usar α = 0.05.
h) Calcular e interpretar el coeficiente de determinación.
i) Calcular e interpretar el coeficiente de correlación.
j) Probar si existe correlación lineal, entre el número de obreros y la producción, usar un nivel
de significancia del 5 %.
VALORES CRÍTICOS DE LA DISTRIBUCIÓN F
NIVEL DE SIGNIFICANCIA DE 5% (0.05)
GRADOS DE LIBERTAD DEL MUNERADOR
G.L.
DENOM. 1 2 3 4 5 6 7
1 161 200 218 225 230 234 237
2 18.5 19 19.2 18.2 18.3 19.3 19.4
3 10.1 9.55 8.28 9.12 9.01 8.94 8.89
4 7.71 6.94 8.59 6.39 8.26 6.16 8.09
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88
6 5.88 5.14 4.76 4.53 4.39 4.28 4.21

7 5.59 4.74 4.35 4.12 3.97 3.87 3.79
8 5.32 4.48 4.07 3.84 3.69 3.58 3.5
9 5.12 4.28 3.86 3.63 3.48 3.37 3.29
10 4.96 4.1 3.71 3.43 3.33 3.22 3.14
11 484 3.88 3.59 3.38 3.2 3.09 3.01

12 4.75 3.88 3.49 3.28 3.11 3 2.81
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83
14 4.8 3.14 3.34 3.11 3.96 2.85 2.76
15 4.54 3.88 3.29 3.08 2.9 2.79 2.71
VALORES CRÍTICOS DE LA DISTRIBUCIÓN F

NIVEL DE SIGNIFICANCIA DE 1% (0.01)
GRADOS DE LIBERTAD DEL MUNERADOR
G.L.
DEL 1 2 3 4 5 6 7
DENOM.
1 4 052 5 000 5 403 5 825 5 764 5 859 5 928
2 98.5 99 99.2 99.2 99.3 99.3 99.4
3 34.1 30.8 29.5 28.7 28.2 27.9 27.7
4 21.2 18 16.7 16 15.5 15.2 15
5 16.3 13.3 12.1 11.4 11 10.7 10.5
6 13.7 10.8 9.73 9.15 8.75 8.47 8.26
7 12.2 8.55 8.45 7.85 7.46 7.19 6.99
8 11.3 8.85 7.59 7.01 6.33 6.37 6.18
9 10.6 8.02 6.99 6.42 6.06 5.8 5.61
10 10 7058 6.55 5.99 5.64 5.38 5.2
11 9.85 7.21 6.22 5.87 5.32 5.07 4.89

12 9.33 6.93 5.95 5.41 5.06 4.82 4.84
13 9.07 6.7 5.74 5.21 4.66 4.62 4.44
14 8.86 6.51 5.56 5.04 4.7 4.46 4.28
15 8.86 6.38 5.42 4.89 4.56 4.32 4.14
DISTRIBUCIÓN T DE STUDENT
NIVEL DE SIGNIFICACIÓN PARA PRUEBAS DE UNA COLA
0.1 0.05 0.025 0.01 0.005 0.0005
G.L.
NIVEL DE SIGNIFICACIÓN PARA PRUEBAS DE DOS COLAS
0.,2 0,1 0,05 0,02 0,01 0,001
1 3.078 6.314 12.706 31.821 63.657 636.619
2 1.886 2.920 4.303 6.965 6.925 31.598
3 1.638 2.353 3.182 4.541 5.841 12.941
4 1.533 2.132 2.776 3.747 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.859
6 1.440 1.943 2.447 3.143 3.307 5.959
7 1.415 1.895 2.365 2.998 3.499 5.405
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.650 3.012 4.221
14 1.345 1.761 2.145 2.624 2.977 4.140
15 1341 1.753 2.131 2.602 2.947 4.073
GLOSARIO
ALFA ( α ). Probabilidad de un error de tipo I.
ANÁLISIS DE VARIANCIA (ANYA o - ANOVA). Técnica estadística con que se prueba la igualdad
de 3 ó más medias muéstrales y que, por tanto, permite hacer inferencias sobre si las muestras
provienen de poblaciones que tienen la misma media.
ANÁLISIS DE CORRELACIÓN. Técnica con que se determina el grado de relación

Lineal que hay entre, variables.
BETA ( β) Probabilidad de un error de tipo II.
COEFICIENTE DE CORRELACIÓN. Raíz cuadrada del coeficiente de determinación. Su signa

indica la dirección de la relación entre dos variables, directa o inversa.
COEFICIENTE DE DETERMINACIÓN. Medida de la proporción de variación de Y, la variable

independiente; que se explica con la línea de regresión; esto es, por la relación de las Y con la
variable independiente.
DISTRIBUCIÓN t DE STUDENT. Familia de distribuciones de probabilidad que se distinguen por
sus grados individuales de libertad, son de forma semejante a la distribución normal y se emplean
cuando la desviación estándar de la población no conoce y el tamaño de la muestra es
relativamente pequeña (n ¿ 30).
DISTRIBUCIÓN F. Familia de distribuciones diferenciadas por dos parámetros (g.1 del numerador
y que g.1 del denominador); se usan fundamentalmente para probar hipótesis referentes a las
variancias.
DIAGRAMA DE DISPERSIÓN. Gráfica de puntos sobre una rejilla, rectangular; las coordenadas X
e Y de cada punto corresponden a las dos mediciones hechas en algún elemento particular de la
muestra, y el patrón de puntos indica la relación existente entre las dos variables.
ECUACIÓN DE ESTIMACIÓN. Fórmula matemática que relaciona la variable desconocida con las
variables conocidas es el análisis de regresión.
ERROR ESTÁNDAR DE ESTIMACIÓN. Medida de la confiabilidad de la ecuación de estimación,

que indica la variabilidad de los puntos observados alrededor de la línea de regresión; es decir,
hasta qué punto los valores observados difieren de los predichos en la Iínea de regresión.
ERROR ESTÁNDAR DEL COEFICIENTE DE REGRESIÓN. Medida de la variabilidad de los

coeficientes de regresión de la muestra alrededor del verdadero coeficiente de regresión de la
población.
ERROR DE TIPO I. Rechazo de una hipótesis nula cuando es verdadera.
ERROR DE TIPO II. Aceptación de una hipótesis nula cuando es falsa.
ESTIMACIÓN. Valor específico observado de un estimador.
ESTIMACIÓN POR INTERVALO. Gama de valores que se usan para estimar el parámetro de una
población desconocida.
ESTIMACIÓN PUNTUAL." Número individual que sirve para estimar un parámetro de una
población desconocida.
ESTIMADOR. Estadístico muestral que se utiliza para estimar el parámetro de una

Población.
GRADOS DE LIBERTAD (G.L.) Número de valores de una muestra que podemos especificar
libremente, una vez que sepamos algo de ella.
HIPÓTESIS. Suposición, o conjetura, que hacemos sobre un parámetro de la población.
HIPÓTESIS ALTERNATIVA (Ha ó H1). Conclusión que aceptamos cuando los datos no apoyan la
hipótesis nula (Ho).
HIPÓTESIS NULA (Ho). Hipótesis o suposición, acerca de un parámetro de la población que

deseamos probar, generalmente una suposición del status que (situación actual)
INTERVALO DE CONFIANZA. Gama de valores que tienen alguna probabilidad especificada de

incluir el verdadero valor del parámetro de la población.
INTERSECCIÓN EN Y. Constante dé cualquier recta, cuyo valor representa el valor de la variable

Y cuando la variable X tiene un valor de cero (0).
LÍMITES DE CONFIANZA. Los límites superior e inferior de un intervalo de confianza.
LÍNEA DE REGRESIÓN.- Línea ajustada a un conjunto de puntos de datos para estimar la

relación entre dos variables.
NIVEL DE CÓNTIANZA.- Probabilidad que los estadísticos asocian a una estimación por intervalo
del parámetro de una población; indica la confianza de que la estimación por intervalo incluya el
parámetro de la población.
MÉTODO DE MÍNIMOS CUADRADOS. Técnica con que se ajusta una recta mediante un
conjunto de puntos, de manera que se minimice la suma de los cuadrados de las distancias
verticales entre n puntos y la línea.
NIVEL DE SIGNIFICANCIA. Valor que indica el porcentaje de los valores muéstrales que se haya
fuera de ciertos límites suponiendo que la hipótesis nula sea correcta, esto es, la probabilidad de
rechazarla cuando es verdadera.
PENDIENTE. Constante de cualquier recta, cuyo valor representa en qué medida el cambio de
cada unidad de la variable independiente modifica la variable dependiente.
PODER DE LA PRUEBA DE HIPÓTESIS. Probabilidad de rechazar la hipótesis nula cuando es

falsa; es decir, una medida de la eficacia con que funciona la prueba de hipótesis.
PRUEBA DE DOS EXTREMOS (COLAS). Prueba de hipótesis en la cual se rechaza la hipótesis
nula (Ho), sí el valor muestral es significativamente mayor o menor que el supuesto valor del
parámetro de la población; prueba que incluye dos regiones de rechazo.
RAZÓN F. Aquella que se utiliza en él análisis de variancía, entre otras pruebas, para comparar la
magnitud de dos estimaciones de la variancia de la población y determinar si ambas estimaciones
son aproximadamente iguales; en el análisis de variancía, se emplea la razón de la variancia entre
columnas con la variancia dentro de columnas.
REGRESIÓN. Proceso general de predecir una variable a partir de otra con medios estadísticos,
usando datos anteriores.
REGRESIÓN MÚLTIPLE. Procedimiento estadístico en virtud del cual algunas variables se usan
para predecir otra variable.
RELACIÓN CURVILÍNEA. Nexo de dos variables que es descrito por una línea curva.
RELACIÓN DIRECTA. Relación entre dos variables en la cual, al aumentar el valor de la variable
independiente, también aumenta el de la variable dependiente.
RELACIÓN INVERSA.- Relación entre dos variables en la cual, al aumentar la variable

independiente disminuye, la variable dependiente.
RELACIÓN LÍNEAL.- Tipo particular de asociación entre dos variables, que puede ser descrita
matemáticamente con una recta.
VARIABLE DEPENDIENTE (Y). Aquella que estamos tratando de predecir en el análisis de

regresión.
VARIABLE INDEPENDIENTE (X). La variable ó variables, conocidas en el análisis de regresión.

Regresión Lineal Simple

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión Lineal Simple

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL

TINGO MARIA – PERÚ

 Parte exacta: Y i = bo + bi Xi , i = 1,2,3,....,n

Si los errores (ei) se distribuyen normalmente» entonces los Yi también

1.4. ESTIMACIÓN DE LOS PARÁMETROS DE REGRESIÓN

El (-2) lo pasamos a dividir al segundo miembro y nos queda la ecuación número 2.

Luego las ecuaciones (1) y (2) son las ecuaciones normales.

De la ecuación (1) obtenemos:

S.P.XY: SUMA DEL PRODUCTO X e Y

S.C.X: SUMA DE CUADRADOS DE X

S.C.Y: SUMA DE CUADRADOS DE Y Ó SUMA DE CUADRADOS TOTAL

1.5. ECUACIÓN DE REGRESIÓN ESTIMADA

n=5 ∑ Xi=15 ∑ X 2=55 ∑ XiYi=37 ∑ Yi=10

2. PROBLEMA PARA EL ALUMNO

c) Grafique los 7 puntos y la recta de mínimos cuadrados.

S.C. TOTAL = S. C. REGRESIÓN + S.C. RESIDUAL

FTE. DE VARIACIÓN GDOS. DE LIBERTAD SUMA DE CUADRADOS CUAD. MEDIOS Fc.

2. S.C. REGRESIÓN i=1

 S.C.RESIDUAL =6−4 .9=1.1.

1.8. INTERVALOS DE CONFIANZA (I.C.)

I.C. (βo) = bo ± t(n-2) α /2 Sbo

Con los datos de nuestro problema:

t ( n−2 )α /2 =t( 3)0 . 05/2 =3 .182

I . C .( βo)=−0 .1±3 .182(0 . 635)

0 . 0906≤β 1 ≤1. 3094

I . C .( μ y . x . )=3. 05±3 .182(0 . 3947)=

1.10. PREDICCIÓN DE UN VALOR PARTICULAR DE Y PARA UN VALOR DADO DE X.

1.11. PRUEBAS DE HIPÓTESIS.

B) PARA β1 (COEFICIENTE DE REGRESIÓN)

1. Ho: β1 = 0 no hay regresión lineal entre x e y

H1: β1 ¿ 0 si hay regresión lineal entre x e y

1.12. PRUEBA DE HIPÓTESIS PARA  1   1o

Si tc≥t (n−2)α /2 ó tc≤−t(n−2)α /2 , entonces tc pertenece a la

1.13. PRUEBA DE HIPÓTESIS PARA μy.x

PARA NUESTRO PROBLEMA: Deseamos comprobar que el promedio de los

Y = - 0.1 + 0.7 (5) = 3.4

1.14. ANÁLISIS DE CORRELACIÓN

EL COEFICIENTE DE DETERMINACIÓN (p2)

El coeficiente de determinación muestral se calcula utilizando la siguiente

EL COEFICIENTE DE CORRELACIÓN (ρ)

El valor de r está comprendido entre -1 y 1 inclusive, es decir:

1.15. PRUEBA DE HIPÓTESIS PARA EL COEFICIENTE DE CORRELACIÓN

PARA NUESTRO PROBLEMA:

PROBLEMAS DE REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN SIMPLE

F(1,8) 0.01= 3.355 Y F(1,8) 0.05=2.306

e) Calcular el error estándar de estimación.

f) Calcule el intervalo de predicción, con 95% de nivel de confianza, para la variable

I . C . ( μ y . x )=3.26 ± 2.306 ( 0.7977 )=¿

INTERPRETACIÓN: Este intervalo de confianza nos indica que si los números de

g) Encontrar los intervalos de confianza para

I.C. (βo) = bo ± t(n-2) α /2 Sbo

I . C . ( βo )=−2.2769± 2.306 ( 0.442 )=¿

0 . 0906≤β 1 ≤1. 3094

I . C . ( μ y . x )=0.4921 ± 2.306 ( 0.6164 )=¿

INTERPRETACIÓN: Este intervalo de confianza nos indica que si los números de

i) Encontrar los intervalos de confianza para. Y p para un valor de X = 15, con 95 % de

2. En economía, la función demanda de un producto se estima a menudo calculando la regresión

4. Con los siguientes datos de una muestra:

a) Hallar la función que explique el fenómeno.

6. Se tiene interés en examinar la tasa de matrimonios y de divorcios por miles de habitantes en

AÑO 2002 2003 2004 2005 2006 2007 2008 2009

7. En el departamento de producción de una empresa se desea examinar la relación entre el