Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Lineal Simple
Regresión Lineal Simple
INTRODUCCIÓN
El análisis de regresión es una técnica estadística útil para investigar y modelar la relación entre
variables. Existen numerosas aplicaciones de regresión en casi cualquier campo, como por
ejemplo en ingeniería financiera, ciencias físicas y químicas, economía, administración, entre
otras. De hecho, puede ser que el análisis de regresión sea una de las más usadas técnicas
estadísticas.
En este capítulo y en los siguientes se estudiarán situaciones que involucran dos o más variables
numéricas como medios para observar las relaciones existentes entre ellas.
El modelo de regresión lineal simple, es un modelo con dos variables, por ejemplo X y Y en
donde X es el regresor, Y es la variable respuesta y la relación entre las variables se supone es
una línea recta. De esta forma se puede decir que la variable Y es una variable dependiente o
explicada y la variable X es la variable independiente o explicativa. También es usual hablar de
variable endógena y exógena, respectivamente.
Como ejemplo suponga que X es el precio de un determinado bien a lo largo del tiempo, y Y
es la cantidad demandada del mismo. Suponga que se dispone de n observaciones de la variable
Y correspondientes a n observaciones de X y que se desea estimar la relación existente entre
la cantidad demandada y su precio. Además suponga que la relación es lineal y que la cantidad
demandada sólo depende del precio, la ecuación que se pretende estimar se puede escribir
como:
Y 0 1 X (1.1)
Para el ejemplo descrito, por teoría económica se espera que la pendiente sea negativa. El
conocimiento de estos parámetros permite determinar en cuánto se reduce la demanda al
14 REGRESIÓN LINEAL SIMPLE
MES X Y MES X Y
En términos gráficos, la relación lineal que se supone existe entre ambas, y que se desea
estimar, se presenta en la siguiente figura
SUPUESTOS DEL MODELO CLÁSICO DE REGRESIÓN LINEAL 15
En resumen, el modelo planteado en la ecuación (1.1) parece bastante limitado. Una forma de
resolver esta limitación consiste en incorporar una variable aleatoria al modelo que recoja
variables omitidas, errores de medida, entre otras. De esta forma el modelo pasa a ser
estocástico y adquiere la forma:
Yi 0 1 X i i (1.2)
Para que la ecuación (1.2) sea válida, se supone, inicialmente, que los factores recogidos en i
no influyen sistemáticamente en Y sino que, su incidencia es simplemente aleatoria.
Los parámetros 0 y 1 se pueden estimar de manera formal para que la recta de regresión
tenga propiedades razonables. Un método de estimación de los parámetros es el método de
16 REGRESIÓN LINEAL SIMPLE
mínimos cuadrados que consiste en minimizar la suma de los cuadrados de los errores; pero no
siempre este es el método más adecuado, aunque en la literatura es uno de los más usados. Se
requiere entonces aceptar algunos supuestos que hagan que los estimadores de mínimos
cuadrados cumplan con algunas propiedades estadísticas deseables.
3) El valor medio de la perturbación estocástica es igual a cero. Es decir E i X xi 0
Obsérvese que,
E (Yi X xi ) E ( 0 1 X i εi X xi )
E ( 0 1 X i X xi ) E (εi X xi )
0 1 X i
Y
FRP: Yi 0 1 X i
Media
εi
ε i
X
X1 X2 X3 X4
ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS 17
Como se ha dicho los parámetros 0 y 1 son desconocidos, y se deben estimar con los datos
de la muestra. Suponga que se tienen n pares de datos muéstrales tomados de una distribución
normal, ( x1 , y1 ),( x2 , y2 ),...,( xn , yn ) , estos datos pueden obtenerse en un experimento
controlado, diseñado en forma específica para recolectarlos, o a partir de registros históricos
existentes (lo que se llama un estudio retrospectivo).
i2 Yi 0 1 X i
2
f ( 0 , 1 )
i 1 i 1
18 REGRESIÓN LINEAL SIMPLE
Para minimizar f se debe derivar parcialmente con respecto a 0 y 1 e igualar a cero las
derivadas.
f n
Derivando con respecto a 0 se obtiene
0
2 (Yi 0 1 X i )
i 1
e igualando a cero queda
n
2 (Y
i 1
i 0 1 X i ) 0
n n
Yi n0 1 X i
i 1 i 1
nY n 0 n1 X
y por lo tanto,
Y 0 1 X (1.3)
X iYi 0
i 1
X i 1 X i 2
i 1 i 1
n n
X Y n
i 1
i i 0 X 1 X i 2
i 1
(1.4)
Las ecuaciones (1.3) y (1.4) se llaman ecuaciones normales de mínimos cuadrados. Estas
ecuaciones se deben resolver simultáneamente para encontrar 0 y 1
X iYi X nY n1 X i 1 X i
2
i 1 i 1
n n
X Y nXY n X
i 1
i i 1
2
1 X
i 1
i
2
n
n
1 X i2 nX 2 X iYi nXY
i 1 i 1
ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS 19
X Y nXYi i
ˆ1 i 1
n
(1.5)
X
i 1
i
2
nX 2
y sustituyendo la ecuación (1.5) en la ecuación (1.3) se obtiene que ˆ0 Y ˆ1 X . Por lo
tanto, la ecuación de regresión estimada es
i 1 n i 1
X i X Yi Y
S xy
ˆ1 i 1
2
n S xx
Xi X
i 1
La expresión anterior se puede simplificar para facilitar las demostraciones que puedan
presentarse más adelante, a través del siguiente procedimiento:
n n n
( X i X )(Yi Y ) Y (X i i X ) Y (Xi X )
ˆ1 i 1
i 1 i 1
S xx S xx
20 REGRESIÓN LINEAL SIMPLE
n
ahora, como (X
i 1
i X ) 0 entonces
n
Y ( X i i X) n
(Xi X )
ˆ1 i 1
CiYi donde Ci
S xx i 1 S xx
Observaciones incluidas: 20
Estos valores tienen los siguientes significados. El valor ˆ1 = 0.094697 indica que por cada
aumento de mil pesos en el precio de televisores, se espera que la demanda de estos se reduzca
en 0.094697 unidades. Por su parte ̂0 11086.19 indica que hay una demanda de 11086
televisores, cuando el precio de estos es cero; es importante indicar que este valor no tiene
interpretación económica.
Los estimadores por mínimos cuadrados tienen las siguientes propiedades que son muy
importantes en el análisis de regresión lineal:
2
3) La varianza de ˆ1 se calcula con la expresión Var ( ˆ1 )
S xx
2 1 X2
2
X i
2
4) La varianza de ̂ 0 ˆ
se calcula como Var ( 0 )
i 1
n S xx nS xx
2 1 X 2
a) ˆ1 ~ N 1 , b) ˆ0 ~ N 0 , 2
S xx
S xx n
ESTIMACIÓN DE LA VARIANZA
En las expresiones que se obtuvieron para las varianzas y covarianzas de los estimadores
aparece el parámetro poblacional 2 , el cual es generalmente desconocido y por lo tanto se
debe estimar para obtener las varianzas y covarianzas de ̂ 0 y ˆ1 ; además de estimar los
parámetros 0 y 1 , se requiere un estimador de la varianza para hacer pruebas de hipótesis y
formar estimados de intervalos pertinentes al modelo de regresión. En el caso ideal este
estimado no debería depender de la ecuación del modelo ajustado.
TEOREMA
e 2
i
S yy ˆ12 S xx
S
2 i 1
n2 n2
Aquí 2 es la varianza poblacional y S 2 es la varianza muestral.
INTERVALOS DE CONFIANZA
Es común, en estadística, usar el error estándar para medir la confiabilidad de un estimador
puntual. Por lo cual, y para mayor seguridad en la estimación, se puede construir un intervalo
que contenga el estimador puntual. Si se desea encontrar qué tan cerca está ˆ1 de 1 , se deben
ESTIMACIÓN DE LA VARIANZA 23
P(ˆ1 1 ˆ1 ) 1
o de igual manera
S S
ˆ1 t( / 2,n2) 1 ˆ1 t( / 2, n2)
S xx S xx
S
lo cual se puede escribir de manera más compacta como ˆ1 t( / 2, n 2)
S xx
y se puede entonces escribir que
S S
P ˆ1 t( / 2,n 2) 1 ˆ1 t( / 2, n 2) 1
S xx S xx
Donde t( / 2,n 2) es un valor de la distribución t de student para un nivel de confianza de
1 100% con n 2 grados de libertad.
INTERVALO DE CONFIANZA PARA LA ORDENADA EN EL ORIGEN CON 2
DESCONOCIDA
Un intervalo de confianza de 1 100% para los valores del parámetro 0 en la línea de
regresión Yi 0 1 X i está dado por
ˆ 1 X2
o de manera más compacta 0 t( / 2,n 2) S
n S xx
y es equivalente a escribir
1 X2 1 X2
P ˆ0 t( / 2,n 2) S 0 ˆ0 t( / 2, n 2) S 1
n S n S xx
xx
Aquí también t( / 2,n 2) es un valor de la distribución t de student para un nivel para un nivel de
confianza de 1 100% con n 2 grados de libertad.
El interés ahora es determinar si es compatible o no una observación dada, con alguna hipótesis
planteada. La hipótesis planteada es llamada hipótesis nula y se denota como H 0 . Generalmente
la hipótesis nula se contrasta frente a otra hipótesis llamada hipótesis alternativa denotada
como H a . El objetivo es entonces, en estas pruebas, tener un método que permita decidir acerca
de la validez de una hipótesis dada.
Sea
1 un valor específico de 1 y además el estadístico de prueba T definido como
ˆ1 1
T
S ˆ
1
26 REGRESIÓN LINEAL SIMPLE
ii) Para contrastar la hipótesis nula H 0 : 1 1 frente a la alternativa H a : 1 1 la regla
de decisión es rechazar H 0 si T t ( ,n2)
iii) Para contrastar la hipótesis nula H 0 : 1 1 frente a la alternativa bilateral H a : 1 1 ,
la regla de decisión es rechazar H 0 si | T | t( / 2, n2)
1) Si se tiene
H 0 : 1 0
H a : 1 0
No rechazar la hipótesis nula significa que no hay una relación lineal entre la variable exógena y
la endógena.
2) Si se tiene
H 0 : 1 1
H a : 1 1
No rechazar la hipótesis nula, H 0 : 1 1 significa que hay una relación uno a uno entre las
variables. Es decir, cualquier incremento en la variable exógena genera el mismo incremento, en
la variable endógena. Rechazar H 0 , significa que no existe una relación uno a uno entre las
variables endógena y exógena.
INFERENCIA PARA LOS PARÁMETROS DEL MODELO 27
el estadístico de prueba.
ii) Para contrastar la hipótesis nula H 0 : 0 0 frente a la alternativa H a : 0 0 la regla de
decisión es rechazar H 0 si T t( , n2)
iii) Para contrastar la hipótesis nula H 0 : 0 0 frente a la alternativa bilateral H a : 0 0 la
regla de decisión es rechazar H 0 si | T | t( / 2, n2) , lo cual es equivalente a decir que H 0 se
rechaza si T t( / 2, n2) o T t( / 2, n2)
Si se tiene
ˆ
H 0 : 0 0
0 0 T 0
S ˆ
0
PREDICCIÓN
y como ˆ0 y ˆ1 son los mejores estimadores puntuales de 0 y 1 , respectivamente, entonces
Ŷ0 ˆ0 ˆ1 X 0
1 X0 X 1 X0 X
2 2
y como Ŷ0 ˆ0 ˆ1 X 0 , se puede expresar de manera más compacta como
1 X0 X
2
SSE S yy ˆ12 S xx
Donde S 2 o de igual manera S
n2 n2
ii) El intervalo de confianza del 1 100% para el valor verdadero de la variable explicada
Y0 está dado por
1 X0 X 1 X0 X
2 2
y como
Ŷ0 ˆ0 ˆ1 X 0
entonces
1 X0 X 1 X0 X
2 2
1 X0 X
2
Obsérvese que los intervalos de predicción del valor de Y son más amplios que los intervalos
de confianza de E (Y ) si ambos se determinan para un mismo valor X X 0
a) Suponiendo que existe una relación lineal entre las variables. Encuentre, por mínimos
cuadrados ordinarios, el modelo de regresión e interprete la pendiente.
c) Halle e interprete un intervalo de confianza del 90% para el rendimiento porcentual esperado
de las acciones cuando el rendimiento del índice bursátil es del 1%.
30 REGRESIÓN LINEAL SIMPLE
SOLUCIÓN
S xy X iYi n X Y S xx X i 2 n X 2
150.5 20 1.27 1.13 145.7 20 1.27
2
121.80 113.44
luego
S xy 121.80
ˆ1 1.074
S xx 113.44
Interpretación. ̂1 1.074 significa que por cada incremento del 1% de la tasa porcentual de
rendimiento de un índice bursátil, se espera que la tasa porcentual de rendimiento de las
acciones de una empresa aumente en 1.074%
b) Se plantea el contraste
H 0 : 1 0
H a : 1 0
El estadístico de prueba es
ˆ1 1
T
Sˆ
1
ˆ1
si 1 0 entonces T
Sˆ
1
y
S yy ˆ12 S xx 170.662 1.153 113.44
S2 2.215
n2 18
luego
S 1.49
Sˆ 0.14
1 S xx 10.65
ˆ1 1.074
y por lo tanto T 7.68
Sˆ 0.14
1
1 X0 X 1 X0 X
2 2
y al reemplazar se obtiene
0.6228 Y | X 1.0572
0
Interpretación. Si el rendimiento del índice bursátil es del 1% se espera, con una confianza del
90%, que el rendimiento de las acciones de una empresa esté entre el 0.6228% y el 1.0572%.
ANÁLISIS DE VARIANZA
Como hasta ahora solo se ha analizado el caso en que solo se tiene una variable regresora, la
prueba F debe mostrar la misma conclusión que la prueba t ; es decir, si la prueba t indica que
1 0 y por lo tanto hay una relación significativa, la prueba F también indicará una prueba
significativa. En capítulos posteriores, se mostrará que cuando hay más de una variable
regresora solo se puede usar la prueba F para analizar si hay una relación global significativa
entre las variables.
Yi : valor observado
Yˆi : valor estimado
ei Yi Yˆi : residuales del modelo.
Yˆi Y : Desviación de los valores estimados con respecto a la media; puntos que caen en la
recta.
Y Y Yˆ Y
2
2 Yˆi Y ei ei 2
2
i i
y por lo tanto,
Y Y Yˆ Y
n n n n
2 Yˆi Y ei ei 2
2 2
i i
i 1 i 1 i 1 i 1
Yˆ Y e
n
Por propiedades de los residuales i i 0 , luego
i 1
Y Y Yˆ Y Y Yˆ
n n 2 n 2
2
i i i
i 1 i 1 i 1
ANÁLISIS DE VARIANZA 33
i 1
n n
SSR Yˆi Y SSE Yi Yˆ
2 2
,
i 1 i 1
Con estas notaciones la identidad fundamental del análisis de varianza se puede reescribir como,
Cuando se rechaza la hipótesis nula se concluye que hay una cantidad significativa de la
variable dependiente que es explicada por el modelo planteado. Es decir, el modelo es
significativo y la variabilidad en la variable independiente ayuda a explicar la variabilidad en la
variable dependiente. Si no se rechaza la hipótesis nula, es decir F está en la región de
aceptación, se concluye que los datos no reflejan suficiente evidencia para apoyar el modelo
postulado.
SSR SSR
Los cálculos para encontrar el estadístico de prueba F 2 , se resumen en la
MSE S
siguiente tabla:
34 REGRESIÓN LINEAL SIMPLE
SSR
REGRESIÓN SSR 1 SSR F
S2
SSE
ERROR SSE n2 MSE S 2
n2
TOTAL SST n 1
COEFICIENTE DE DETERMINACIÓN
SSR ˆ12 S xx
R
2
o de igual forma se puede expresar como R
2
, 0 R2 1
SST S yy
La interpretación de este coeficiente está dada por: “la variabilidad de la variable endógena es
explicada en R 2 % por la variable exógena” (Estandarizar el nombre de las variables). Por
ejemplo, si se tienen definidas las variables de decisión Y : ingresos por ventas y X : gastos en
promoción, y se obtuvo que R 2 97.16 , esto significa que la variabilidad esperada en los
ingresos por ventas es explicada en un 97.16 % por la variabilidad en los gastos de promoción.
OBSERVACIONES
Yˆ Y Y Y
n 2 n
y por lo tanto Yˆ Yi y
2
ii) Si R 2 1 entonces SSR SST , es decir i i
i 1 i 1
esto significa que todos los puntos observados caen en la línea de regresión, por lo cual el
ajuste sería perfecto.
COEFICIENTE DE DETERMINACIÓN 35
Como SST SSR SSE , al dividir, a ambos lados, por la suma de los cuadrados totales se
obtiene
SSR SSE
1
SST SST
n
SSR SSE e i
2
Y Y
SST SST 2
i
i 1
2
n n
SSR
2
Yˆi Y ˆ0 ˆ1 X i Y
i 1 i 1
n 2 n 2
ˆ 2 1 X
i 1
i X ˆ12 S xx ˆ1ˆ1S xx
ˆ S 1 xy
El coeficiente de correlación muestral, denotado por r, es una medida de asociación lineal entre
las variables X y Y y se define como
ˆ1S xy
r R2
S yy
La expresión anterior muestra que hay una relación estrecha entre el coeficiente de correlación
muestral y la pendiente de la línea de regresión. Sin embargo proporcionan información distinta.
S xy
Si se tiene en cuenta que ˆ1 , y se reemplaza en la expresión anterior, resulta entonces
S xx
ˆ1S xy S xy S xx
r o también r ˆ1
S yy S xx S yy S yy
r es un estimador puntual del coeficiente de correlación poblacional . Es claro entonces que
r 0 si ̂1 0 y que r 0 si ̂1 0
cov( x, y)
, 1 1
x y
Lo cual entonces indica que los valores del coeficiente de correlación están entre 1 y 1 . A
continuación se muestran algunos posibles valores que puede tomar el coeficiente de correlación
muestral y el criterio que puede ser útil para su interpretación.
r 0.8 , indica que existe una relación lineal fuerte entre las variables X y Y
0.5 r 0.8 , indica que existe una relación lineal moderada entre las variables X y Y
0 r 0.5 , indica que existe una relación lineal débil entre las variables X y Y
a) Hallar el coeficiente de correlación muestral entre los rendimientos sobre el activo y los
préstamos sobre depósitos.
b) Contrastar a un nivel de significancia del 5% la hipótesis nula de que no hay una asociación
lineal entre los rendimientos sobre el activo y los préstamos sobre depósitos.
c) Encontrar S ˆ e interpretar.
1
SOLUCIÓN
a) r R2 0.72 0.85
Como 6.81 2.101, se rechaza la hipótesis nula, y por lo tanto si hay asociación lineal entre los
rendimientos sobre el activo y los préstamos sobre depósitos.
ˆ1 ˆ 0.47
c) Se sabe que T por lo tanto S ˆ 1
S ˆ 1 T 6.81
1
38 REGRESIÓN LINEAL SIMPLE
EJEMPLO . Una revista explica los tiempos de estudio de una empresa de transportes para
reducir el tiempo de entrega y para ello exige a los empleados que estudien los mapas de la
ciudad y aprendan el sistema de carreteras. Los tiempos de estudio y entrega se dividieron en
horas. Se supervisa a 15 horas en relación con el tiempo dedicado a estudiar el mapa y el
empleado en su única entrega. Los resultados son los siguientes:
X i 36.4 Y 22.6
i X i
2
90.04
Yi
2
41.78 X Y 51.37
i i n 15
Se pide:
a) Suponiendo que existe una relación lineal entre las variables; estimar los parámetros del
modelo e interpretar.
Con base en la información disponible, se encuentra que X 2.4266, Y 1.5066 y por lo tanto
S xy 3.6695
ˆ1 2.0108
S xx 1.4665
ˆ0 Y ˆ1 X 1.5066 ( 2.0108)(2.4266) 6.3854
̂1 2.0108 , es decir, por cada hora de estudio se espera que el tiempo promedio de entrega
se disminuya en 2.5 horas.
̂0 6.3854 , si los mapas no se estudian el tiempo promedio de entrega será 6.3854 horas.
n S xx nS xx
Se rechaza la Hipótesis nula, es decir, el tiempo dedicado a estudiar el mapa tiene una relación
lineal con el tiempo de entrega.
Con una confiabilidad del 95% se puede decir que por cada hora de estudio el tiempo promedio
de entrega se va a reducir entre 1.59 y 2.92 horas.
X* 2
1 X X
* 2
ˆ
0 ˆ1 X *
t( 2, n 2) S
n
S xx
2 2.4266
2
1
6.3854 2.0108(2) (2.160)(0.2524)
15 1.7142
Luego 2.1373 E Y 2.589 , es decir, con una confianza del 95% se puede afirmar que si se
dedican 2 horas de estudio al mapa, el tiempo promedio de entrega va a estar entre 2.13 y 2.58
horas.
EJERCICIOS PROPUESTOS 41
y significa que la variabilidad que existe en el tiempo de entrega es explicada en 89.32% por la
variabilidad en el tiempo dedicado a estudiar el mapa.
El coeficiente de correlación
ˆ1S xy
r R 2 0.9450
S yy
r 0.9450
La correlación que existe entre las variables es inversa pues entre mayor sea tiempo de estudio
menor es el tiempo de entrega y de igual manera, entre menor sea el tiempo de estudio mayor
será el tiempo de entrega.
Lo anterior indica entonces que existe una relación lineal fuerte entre el tiempo de entrega y el
tiempo de estudio.
EJEMPLO. Para una muestra aleatoria de ocho semanas el dueño de una licorera está
interesado en medir el efecto del precio de una botella de whiskey escocés sobre la cantidad
vendida. Sea Y las ventas por semanas (medidas en número de cajas) y X el precio (dado en
miles de pesos). Se dispone de la siguiente información:
X i 15.64 Y 162.3
i X i
2
30.72
Y i
2
3822.35 X Y 308.80
i i n8
S xy 8.4965
ˆ1 59.08553547
S xx 0.1438
Yˆ 135.7997218 59.08553547 X i
̂1 59.08553547 Por cada mil pesos que se aumente el precio del whiskey se espera que la
cantidad vendida de cajas de whiskey se disminuya en 59 cajas.
ˆ0 = 135.7997218. Si el precio del whiskey no aumenta se espera que la cantidad promedio de
cajas vendidas sea de 135 cajas.
b) Probar si el precio de una botella de whiskey ayuda a explicar la variabilidad que hay en las
ventas por semana y el precio.
La prueba se establece así
H 0 : 1 0
H a : 1 0
ˆ1 0
El estadístico de prueba que se utiliza en este caso es T
S S xx
S yy ˆ1S xy 529.68875 ( 59.08553541)( 8.4965)
S2
n2 6
S 4.611416
2
S S 2 2.1474
ˆ1 0 59.08553547
T 10.4339
S S xx 2.1474 0.1438
EJERCICIOS PROPUESTOS 43
Recuerde que se rechaza la hipótesis nula si T t 2,v , y como t 0.025,6 2.447 entonces
10.4339 2.447 y por lo tanto se rechaza la hipótesis nula, es decir, el precio si es significativo
para explicar la variabilidad de las ventas semanales.
c) Probar si existe una relación uno a uno entre las ventas por semana y el precio.
La prueba se establece como
H 0 : 1 1
H a : 1 1
ˆ1 1
El estadístico de prueba que se utiliza en este caso es T y con la información
S S xx
disponible se efectúan los siguientes cálculos
S S2
S 2.1474
Se rechaza la hipótesis nula puesto que t 0.025,6 2.447 y 10.612 2.447 , es decir, no existe
una relación uno a uno entre el precio y la cantidad vendida semanalmente
59.08553547
2.447 2.1474
0.1438
es decir
45.2285 1 13.8569
44 REGRESIÓN LINEAL SIMPLE
Lo anterior significa que con una confiabilidad del 95% se puede decir que por cada mil pesos
que aumente el precio del whiskey, el número de cajas vendidas se va a reducir entre 13.85 y
45.2285
ˆ1S xy
r R 2 0.973532028
S yy
r 0.973532028
Luego la correlación que existe entre las variables es inversa. Además existe una relación lineal
fuerte entre el precio y las cantidades vendidas
f) Si el precio de una botella es $2.100. Hallar e interpretar un intervalo de confianza del 95%
para la esperanza de Y
1 X X
* 2
ˆ ˆ X
0 1
*
t( 2,n 2) S
n
S xx
Al sustituir queda
2.1 1.955
2
1
1335.79997218 (59.08553547)(2.1) (2.4447)(2.1474)
15 0.1438
8.98409 E Y 14.45609
Con una confianza del 95% se afirma que si el precio de la botella de whiskey es de $2.100, la
cantidad de cajas vendidas va a estar entre 8.98409 y 14.45609 unidades.
EJERCICIOS PROPUESTOS 45
EJEMPLO. Considere las siguientes variables, valor total de las acciones de los bancos
colombianos que cotizan en bolsas (Y) y su valor contable (X), ambas en millones de pesos.
600000
500000
400000
300000
200000
100000
0
0 100000 300000 500000 700000
VALOR_CONTABLE
Analizando el gráfico anterior se deduce que existe una posible relación lineal entre el valor
total de las acciones con el valor contable.
b) Suponiendo que existe una relación lineal en X y Y , estimar por mínimos cuadrados la
ecuación de regresión e interpretar la pendiente.
Variable Dependiente: ACCIONES
Método: Mínimos Cuadrados
Observaciones incluidas: 20
Variable Coeficiente Error Estándar Estadístico t Prob.
PRECIO 1.219038 0.127035 9.596057 0.0000
C 29420.48 30847.96 0.953725 0.3529
R -cuadrado 0.836489 Media variable Dependiente 210521.8
R- cuadrado ajustado 0.827405 Desv. Est. variable dependiente 262672.7
Desv. Est. de la regresión 109126.2 Criterio de Akaike 26.13304
Suma residuos cuadrados 2.14E+11 Criterio Schwarz 26.23261
Log likelihood –259.3304 Estadístico F 92.08431
Estadístico Durbin-Watson 1.671826 Prob (estadístico F) 0.000000
46 REGRESIÓN LINEAL SIMPLE
Por cada millón de pesos que aumente el valor contable del banco, aumentará un 1.219 millones
de pesos el valor de sus acciones en bolsa.
El valor contable de las acciones ayuda a explicar la variabilidad que existe en el valor de las
acciones.
Coeficiente de correlación
r 0,8364
r 0, 9145
r 0,8
Existe una relación lineal fuerte entre el valor contable de las acciones y el valor total de las
acciones.
Cuando el valor contable de las acciones es 18315 millones de pesos se espera que el valor de
las acciones en la bolsa sea de 51747 millones de pesos.