Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRESIÓN
Práctica No. I LINEAL
SIMPLE
Aplicar, desarrollar y analizar las técnicas de
regresión lineal simple para hacer predicciones de
sucesos futuros en el ramo empresarial..
MANUAL DE PRÁCTICAS ESTADÍSTICA II
Práctica No. I
Objetivo:
Aplicar, desarrollar y analizar las técnicas de regresión lineal simple para hacer
predicciones de sucesos futuros en el ramo empresarial.
Introducción:
La regresión es una técnica estadística que se utiliza para resolver problemas comunes
en el ramo empresarial, la cual consiste en un método matemático que modela la
relación lineal entre dos variables, una llamada variable dependiente, la cual suponemos
se ve afectada por los cambios producidos por una variable independiente, y un término
aleatorio (comúnmente llamado error).
A menudo, se intenta determinar la relación que existe entre un par de variables, por
ejemplo: ¿Existe una relación entre el promedio obtenido por un alumno a nivel
preparatoria y el promedio obtenido a nivel profesional? , ¿Las ventas se ven afectadas
por los gastos de publicidad? etc.
En muchas situaciones, los valores de las variables no se determinan simultáneamente
en el tiempo; más bien, se ajusta una de las variables a un determinado valor, y éste por
su parte, afecta el valor de la segunda variable. Por ejemplo, el presupuesto dedicado a
mercadotecnia se suele decidir antes de que estén determinadas las cifras de ventas, y la
cantidad de catalizador empleado en un experimento se suele establecer antes de que se
pueda determinar el resultado del mismo. La variable cuyo valor se determina con
anterioridad recibe el nombre de variable de entrada, variable predictora o variable
independiente, mientras que a la otra se le conoce como variable de salida, variable
respuesta o dependiente.
Las observaciones las clasificamos en dos tipos de datos, x, y donde x es la variable
independiente y y la variable dependiente.
El tipo de relación más sencilla entre este par de variables es la relación que se establece
mediante una línea recta, o relación lineal, en la forma:
y= β 0 +β 1 x
Sin embargo, este modelo supone que (una vez que los parámetros
β 0 y β 1 estén
determinados) es posible predecir exactamente la respuesta a cualquier valor de la
variable de entrada. En la práctica, tal precisión casi nunca es alcanzable, de modo que
lo máximo que se puede esperar es que la anterior ecuación sea válida sujeta a un error
aleatorio.
Consideremos un par de variables, una de las cuales será denominada variable de
entrada y la otra, variable de respuesta. Supongamos que para un valor dado, x, de la
variable de entrada, la variable de respuesta, Y, se puede expresar en la forma:
y= β 0 +β 1 x +e i
Los elementos
β 0 y β 1 son parámetros. Se asume que la variable e, denominada
error aleatorio, es una variable aleatoria con media 0.
La relación entre la variable de respuesta, y, y la variable de entrada, x, especificadas
ambas en la anterior ecuación (nótese que es una ecuación de primer orden), se
denomina regresión lineal simple.
Los parámetros
β 0 y β 1 serán, por lo general, desconocidos y se deberán estimar
a partir de los datos muestrales.
De ahí que el modelo que encontremos quede definido como:
^y = β^ 0 + β^ 1 x
^ β^ 1 es la pendiente de la recta o lo que hace
En donde β 0 es la ordenada al origen y
cambiar x a y.
En primer lugar para determinar si existe una relación lineal entre x e y, podemos
hacerlo gráficamente para ello es necesario graficar la pareja de datos en un plano
cartesiano, relacionando la pareja (x,y).
El diagrama de dispersión es la representación mediante el eje cartesiano de estos datos.
En donde de forma visual podremos observar si hay alguna relación entre el par de
variables y de que tipo es.
^y = β^ 0 + β^ 1 x ^y = β^ 0 − β^ 1 x ^y = β^ 0
β 1 >0 β 1 <0
β 1=0
Cuando β 1 >0, implica que a medida que aumenta x, aumenta y de ahí que la
pendiente sea positiva.
Cuando β 1 <0, implica que a medida que aumenta x , disminuye y, de ahí que
la pendiente sea positiva
Ejemplo 1.1:
Se pidió a los alumnos de un curso de estadística II llenaran un formulario con los
siguientes datos.
74 85 71 78
96 95 80 81
96 95 100 95
96 95 77 75
80 78 84 86
70 74 80 78
87 90 83 84
85 76 90 86
75 77 90 92
Tabla 1.2 Valores de variables independiente y variable dependiente.
Uticemos MINITAB para construir el diagrama de dispersión
95
90
Calif Estad y
85
80
75
70
70 75 80 85 90 95 100
Calif Prob x
Interpretando el diagrama podemos suponer que existe una relación entre la calificación
obtenida en la asignatura Probabilidad y la calificación de la asignatura Estadística I de
tal forma que a mayor precio calificación en la asignatura Probabilidad la calificación
de la asignatura Estadística I aumenta, es decir la relación es fuerte positiva, y el modelo
lineal es el apropiado para esta colección de datos.
lineal simple
y= β 0 +β 1 x +e i primero debemos determinar los estimadores de β 0
^ β^ 1 fueran los
y β 1 , utilizando los valores muestrales entonces: si β 0 y
estimadores respectivos de
β 0 y β 1 , el estimador de la respuesta correspondiente a
la entrada
x i sería ^y = β^ 0 + β^ 1 x .
A la diferencia entre la respuesta observada y su valor estimado lo conocemos como el
valor de entrada
xi .
Donde:
e i≡ y i −( { β^ ¿ ¿ 0 + β^ 1 x )= y i− y^ i
¿
Para elegir como estimadores de α y β debemos encontrar a aquellos valores α
¿
y β que hagan que estos errores sean pequeños.
n
Los estimadores de
β 0 y β 1 resultantes de este procedimiento reciben el nombre
de estimadores de mínimos cuadrados.
n n
2
∑ e i2=∑ ( y i− β^ 0 + β^ 1 )
i =1 i =1
¿ ¿
denotarán por α y β , vienen dados por:
Fórmulas Conceptuales
n ¿ ¿
¿
∑ xy −n x y
i=1
β 1= n ¿
∑ x i2−n x 2
i=1
¿ ¿ ¿ ¿
β 0 = y −β 1 x
Donde
n n
¿
∑ xi ¿
∑Yi
i=1 i=1
x= y=
n y n
Sea:
n n
¿
S xy =∑ (x i −x )( y i −̄¿ ȳ )=∑ xi y i −
∑x∑ y ¿
i= i=1 n
n
n n ( ∑ x i )2
¿
i=1
S xx =∑ ( x i −x )2 =∑ xi2−
i= i=1 n
n
( ∑ y i )2
∑x∑ y n
¯ ȳ )2=∑ y i2−
n
i=1
∑ xy − n
S yy =∑ ( y i −¿
n
¿
i=1 i=1
Fórmulas simplificadas
Por tanto
¿ S xY
β 1=
S xx
¿ ¿ ¿ ¿
β 0 = y −β 1 x
Interpretación β 0
^
Interpretación β^ 1
De acuerdo a los datos obtenidos la ^
Debido a que β 1 b tiene un valor
ordenada al origen corta al eje Y en el
positivo, la pendiente de la recta es
punto (0, 26.5).
positiva. Por cada punto que aumenta la
calificación de probabilidad , la
calificación de estadística aumenta en
0.694
^ ^
Tabla 1.3 Interpretación para β 0 y β 1
Significancia de la regresión
95 yi ŷ
Variabilidad
Calificación obtenida en Estads
Debida al
90 Variabilidad eroralalalerro
Total rVariabilidad
Debida al
85 modelo
͞y
80
75
70
70 75 80 85 90 95 100
Calificación obtenida en Probab
i =1 i=1 i=1
Resumiendo la información en la siguiente tabla:
ANOVA
Fórmulas conceptuales
Fuente df SS MS F
n SS Modelo MS Modelo
Regresión k
∑ ( yi−¿¯ ȳ )2 ¿ k MS Error
i=1
n SSerror
Error n-k-1
residual ∑ ( yi−¿¯ yi )2 ¿ n−k −1
i=1
n
Total n-1
∑ ( yi−¿¯ ȳ )2 ¿
i=1
Tabla 1.4 Fórmulas conceptuales para la tabla ANOVA.
La hipótesis nula supone que ; β 1=0 , como β 1 es la razón de cambio esto sugiere
que no hay cambio alguno de la variable respuesta debido a la variable predictora.
La hipótesis nula será rechazada si la variabilidad del modelo es mayor a la variabilidad
del error, si esto ocurre, x (variable predictora) le es significativa a y (variable
respuesta) pues lo hace variar cuando ella varia.
H o ; β 1 =0
H o ; β 1 ≠0
ANOVA
Simplificada
Fuente df SS MS F
n
Regresión k ∑ x∑ y SS Modelo MS Modelo
β^ S xy = β^ ∑ x i y i−
i=1 n k MS Error
Error n-k-1 SS Totales −SS Modelo SSerror
residual n−k −1
n
Total n-1
n ( ∑ y i )2
i =1
∑ y 2i − n
i =1
Tabla 1.5 Fórmulas simplificada para la tabla ANOVA.
ANOVA
Fuente df SS MS F P
Regresión 1 1302.1 1302.1 95.63 0.000
Error
45 626.3 13.6
residual
Total 47 626.3
Tabla 1.6 ANOVA para el ejemplo. 1.1
Finalmente concluyamos e interpretemos
Conclusión Interpretación
Como Existe evidencia suficiente para
P vs α decir que la calificación obtenida
0.000 0.02 en probabilidad si predice la
Como P > α se rechaza
H 0 ; β 1=0 calificación que se obtiene en
estadística.
Tabla 1.7 Conclusión e Interpretación de ANOVA para el ejemplo. 1.1
Análisis de Correlación.
1302. 1
√ SSTotales
Conclusión
r
=
√ 1928 . 47916
=√0 . 675=.822
Interpretación
r = 0.822
El 82.2% de las variables (x,y) están relacionadas
r =82.2%
Tabla 1.10 Interpretación del coeficiente de correlación para el ejemplo. 1.1
Material y equipo:
Computadora
Excel
Metodología:
1. Abre un libro Excel y llámalo Práctica Regresión Simple, captura la tabla del
ejemplo en una hoja que llames Regresión.
Posiciónate al final de la(s) columnas que contienen la(s) variable(s) y escribe el signo
=, presiona fx selecciona la categoría Estadísticas y selecciona la función PROMEDIO
Fig. 1.7 Argumentos de la función PROMEDIO
xy X2
¿
∑ xy −n x y 338287−48(84 . 229 )( 83. 208 )
i=1
β 1= n
= =0 . 694214
¿
2 335036−48(83 . 208)2
∑ x i2−n x
i=1
¿ ¿ ¿ ¿
β 0 = y −β 1 x =84 .229−0 .694214 (83 .208 )=26 . 464778
Fórmulas simplificadas
¿ S xY 1875 .70833
β 1= = =0 . 694214
S xx 2701. 91667
¿ ¿ ¿ ¿
β 0= y −β 1 x =84 . 22916−0 .694214∗83 .20833=26. 46
Fórmulas simplificadas
¿ S xY 1875 .70833
β 1= = =0 . 694214
S xx 2701. 91667
¿ ¿ ¿ ¿
β 0= y −β 1 x =84 . 22916−0 .694214∗83 .20833=26. 46
Interpretación β 0
^
Interpretación β^ 1
De acuerdo a los datos obtenidos la ^
Debido a que β 1 b tiene un valor
ordenada al origen corta al eje Y en el
positivo, la pendiente de la recta es
punto (0, 26.5).
positiva. Por cada punto que aumenta la
calificación de probabilidad , la
calificación de estadística aumenta en
0.694
Selecciona la celda y aparecerá un signo más deslízalo hacia abajo y aparecerán los
valores ajustados para cada valor de x.
Realice la misma operación que en la celda F para encontrar todos los valores y al final
obtén la suma. En la celda G50 =SUMA (G2:G49)
2
11. Para encontrar la celda ( y i y i ) En la celda H2 escriba =(B2-F2)*(B2-F2)
Realice la misma operación que en la celda G para encontrar todos los valores y al
final obtén la suma H50= SUMA (H2:H49)
12. Para encontrar la celda Posiciónate en la celda I2= (F2-$B$50)*(F2-$B$50)
el signo de pesos es para dejar fija la casilla $B$50 que es donde se encuentra ȳ .
H o ; β 1 =0
H o ; β 1 ≠0
ANOVA
Fórmulas conceptuales
Véase ecuaciones 1.12, 1.13, 1.14
Fuente df SS MS F
1302. 090677 1302. 0906
Regresión 1 1302.090677 =1302. 09677 =95 . 629
1 13 .6160
Error 626 .3363
48-2= 46 626.3363934 =13 . 6160
residual 46
Total 48-1 =47 1928.47916
Tabla 1.12 ANOVA para el ejemplo. 1.1obtenida con fórmulas conceptuales
.
Gráfica de distribución
F, df1=1, df2=46
0.7
0.6
0.5
Densidad
0.4
0.3
0.2
0.1
0.04
0.0
0 4.467
X
Conclusión Interpretación
Como Existe evidencia suficiente para decir que
F α=.04, 1, 46 vs F α= , 1, 46 la calificación obtenida en probabilidad si
4.467 < 95.629 predice la calificación que se obtiene en
Se rechaza H0 estadística.
Tabla 1.13 Conclusión e interpretación para ANOVA en el ejemplo. 1.1
.
14. Para encontrar SS TOTALES, debemos incluir en nuestra hoja de trabajo la columna E
con los valores de
2
yi
En la celda E2 escriba=B2*B2
Realice la misma operación que en la celda H para encontrar todos los valores y al final
obtén la suma. E50= SUMA(E2:E49).
15. Obtén la SS TOTALES posiciónate en la celda O71 =E50-((B52*B52)/48)
H o ; β 1 =0
H o ; β 1 ≠0
ANOVA
Simplificada
Gráfica de distribución
F, df1=1, df2=46
1.4
1.2
1.0
Densidad
0.8
0.6
0.4
0.2
8.2578E-13
0.0
0 f= 95.619
.
Fig. 1.21 Cálculo P para ANOVA.
Conclusión Interpretación
Enfrentemos Existe evidencia suficiente para decir que la
P vs α calificación obtenida en probabilidad si
8.26E-13 < 0.05 predice la calificación que se obtiene en
Se rechaza H0 estadística.
Tabla 1.15 Conclusión e interpretación para ANOVA en el ejemplo. 1.1
.
Conclusión Interpretación
2
r =0.675 El 67.5% de la variabilidad total se ve explicada por el
2
r =67.5% modelo
Tabla 1.16 Conclusión e interpretación para coeficiente de determinación en el
ejemplo. 1.1
Sugerencias didácticas:
Bibliografía: