Está en la página 1de 27

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Facultad de Economía y Planificación


Departamento Académico de Estadística e Informática

MÉTODOS ESTADÍSTICOS PARA


LA INVESTIGACIÓN I

Análisis de Regresión Lineal Simple

Profesores del curso

2021-I
OBJETIVOS

Formular modelos de regresión lineal simple. Usando variables dentro del


contexto de su especialidad.

Identificar los supuestos del modelo de regresión lineal simple.

Aplicar criterios para seleccionar y validar el mejor modelo de regresión


lineal simple.

Realizar estimaciones adecuadas de la variable de interés del campo de su


especialidad en base a resultados obtenidos del análisis de regresión.

Métodos Estadísticos para la Investigación I 2021-I


Sabías que…
Se efectuó un experimento para evaluar el efecto del zinc en el peso de
cacatúas. En el experimento, a 7 grupos de cacatúas adultas se les dio
diferentes dosis de zinc y sus pérdidas de peso tras la primera semana fueron
registradas. Los datos de los pesos medios por grupo al final de la semana
están expresados como porcentajes sobre los pesos iniciales.
Ingesta de zinc 0 2 4 8 12 16 30
Peso medio (en %) 100 92 95 90 98 85 67

Donde: Peso medio (en %) = Peso medio al final de la semana/Peso medio al iniciar la
semana
a) Estime la línea de regresión lineal simple.
b) Interprete los coeficientes de regresión.
c) Efectúe el análisis de varianza y realice la prueba de hipótesis más adecuada.
d) Calcule e interprete el coeficiente de determinación.

Métodos Estadísticos para la Investigación I 2021-I


Logro de la sesión:
Al final de la sesión el estudiante analiza y resuelve
problemas de una variable dependiente y una independiente
en situaciones reales aplicadas a su especialidad, haciendo
uso de la regresión lineal simple, prueba de hipótesis
estimación y predicción.
LA REGRESIÓN LINEAL SIMPLE
 Tiene como propósito predecir o estimar una variable dependiente (Y) a
partir de otra variable llamada independiente (X) a través de un modelo
matemático.
 El modelo poblacional de la regresión lineal simple es el siguiente:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
 Los parámetros del modelo β0 y β1 son estimados por el método de
mínimos cuadrados ordinarios (MCO), buscando minimizar la siguiente
expresión: n n 2

  2i   Yi  0  1 X i 
i 1 i 1

 El modelo de regresión estimado es:


𝑌෠𝑖 = 𝑏0 + 𝑏1 𝑋𝑖

Métodos Estadísticos para la Investigación I 2021-I


LA REGRESIÓN LINEAL SIMPLE
1) Se asume que la variable independiente X es fija
(no aleatoria).
2) La variable dependiente Y es aleatoria.
3) Para cada valor de X existe una distribución normal
de la variable Y:
SUPUESTOS

Yi ~ N Y | Xi , 
2

4) El error tiene distribución normal con media 0 y
varianza constante  2 el cual se puede expresar de
la siguiente forma:
 i ~ N  0,  2 
5) Esta expresión indica que no hay dependencia entre
las observaciones y tampoco entre los valores de ɛi
con los valores de Xi

Métodos Estadísticos para la Investigación I 2021-I


Ejemplo de Aplicación 1
Conforme los quesos maduran, ocurren varios procesos
químicos que determinan el sabor del producto final. En un
estudio en queso cheddar, 10 muestras de queso fueron
analizadas en su composición química. Además, una medida
subjetiva del sabor fue obtenida combinando los puntajes
asignados por varios sujetos que probaron el queso. Los datos se
dan a continuación:

Muestra 1 2 3 4 5 6 7 8 9 10
Sabor (Y) 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA (X) 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328

Métodos Estadísticos para la Investigación I 2021-I


Ejemplo de Aplicación 1
Las variables son:
Sabor: puntaje subjetivo del sabor, obtenido combinando los
puntajes de varios sujetos.
AA : logaritmo natural de la concentración de ácido
acético. ( AA= ln(ConcentÁcido Acético))
El objetivo de este estudio es evaluar el efecto de la variable AA
(variable independiente o predictora) en el sabor del queso
(variable dependiente o respuesta).
Se pide, elaborar el gráfico de dispersión entre las variables
Sabor y AA.

Métodos Estadísticos para la Investigación I 2021-I


Ejemplo de Aplicación 1

En este caso la variable respuesta “Y” sería el sabor y la variable predictora “X” es el
logaritmo de la concentración del ácido acético. El gráfico muestra una aparente relación
de dependencia entre ambas variables en el sentido de que a mayor concentración de ácido
acético, mayor será la calificación del sabor.

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN
 a) Determine la ecuación de regresión lineal estimada
Muestra Sabor (Y) AA (X) Y2 X2 XY
1 12.3 4.54 151.29 20.64 55.88
2 47.9 5.76 2294.41 33.17 275.86
3 37.3 5.89 1391.29 34.72 219.77
4 21 5.24 441.00 27.48 110.08
5 0.7 4.48 0.49 20.04 3.13
6 40.9 6.37 1672.81 40.51 260.33
7 18 5.25 324.00 27.53 94.45
8 15.2 5.30 231.04 28.07 80.53
9 16.8 5.37 282.24 28.79 90.15
10 0.7 5.33 0.49 28.39 3.73
Total 210.8 53.52 6789.06 289.34 1193.91
Métodos Estadísticos para la Investigación I 2021-I
APLICACIÓN
 Donde calculamos:
෍ 𝑋𝑖 2 = 289.34
𝑌 = 21.08
෍ 𝑌𝑖 2 = 6789.06

𝑋 = 5.3517 ෍ 𝑋𝑖 𝑌𝑖 = 1193.91

𝑆𝑃(𝑋𝑌ሻ σ𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛𝑋𝑌 1193.91 − 10 ∗ (21.08ሻ ∗ (5.3517ሻ


𝑏1 = = 2 = 2 = 22.44
𝑆𝐶(𝑋ሻ 𝑛 2
σ 𝑋 − 𝑛𝑋 289.34 − 10 ∗ 5.3517
𝑖=1 𝑖

𝑏0 = 𝑌 − 𝑏1 𝑋 = 21.08 − 22.44 ∗ (5.3517ሻ = −99.03

El modelo de regresión estimado es:


̰ = −99.03 + 22.44𝑋
𝑌

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN
 b) Analice el siguiente gráfico e interprete.
Gráfica de línea ajustada
Sabor(Y) = - 99.03 + 22.44 AA (X)
50 S 1 0.4246
R-cuad. 62.9%
R-cuad.(ajustado) 58.3%

40

30
Sabor(Y)

20

10

0
4.5 5.0 5.5 6.0 6.5
AA (X)

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN
El intercepto
En este caso el intercepto, -99.03, correspondería al puntaje
estimado del sabor de un queso cuando el logaritmo natural de
la concentración de ácido acético es igual a cero. Dado que en la
estimación de este modelo se utilizaron valores AA de 4.477
hasta 6.365, esta interpretación no tiene validez.

El coeficiente de regresión
El coeficiente de regresión, 22.44 es siempre interpretable y en
este caso indica que por cada incremento unitario en el
logaritmo natural de la concentración de ácido acético, se estima
un incremento en el puntaje del sabor de 22.44 puntos.
Métodos Estadísticos para la Investigación I 2021-I
EL ANÁLISIS DE VARIANZA

Cuando se obtiene la ecuación de regresión, todavía no se puede


afirmar estadísticamente que exista una dependencia lineal de la
variable Y respecto a la variable X. Por lo tanto, es necesario proceder
con una prueba hipótesis de la pendiente de la ecuación de
regresión y esto se logra utilizando un procedimiento matemático
conocido como el Análisis de Varianza (ANVA). El ANVA permite
evaluar si existe dependencia lineal o no de la variable dependiente (Y)
respecto a la variable independiente (X).

Métodos Estadísticos para la Investigación I 2021-I


EL ANÁLISIS DE VARIANZA
Fuentes de Gl SC CM Fc
variación
Regresión 1 b1 SP(XY)

Error n–2 SC(Y) – b SP(XY)

Total n-1 SC(Y) =SC(Total)


𝑛
(σ 𝑋𝑖 ሻ( σ𝑌𝑖 ሻ
𝑆𝑃(𝑋𝑌ሻ = ෎ 𝑋𝑖 𝑌𝑖 −
𝑛
𝑖=1
SC(Reg) = b1 SP(XY)
𝑛
2
(σ 𝑌𝑖 ሻ
𝑆𝐶(𝑌ሻ = ෎ 𝑌 𝑖 −
𝑛
2
SC(Error) = SC(Y) – b1 SP(XY)
𝑖=1
𝑛
2 SC(Total) = SC(Y)
2
(σ 𝑋𝑖 ሻ
𝑆𝐶(𝑋ሻ = ෎ 𝑋 𝑖 −
𝑛
𝑖=1
𝑆𝑃 𝑋𝑌
𝑏1 = 𝛽መ1 =
𝑆𝑃 𝑋
Métodos Estadísticos para la Investigación I 2021-I
Análisis de Variancia – Prueba de hipótesis
El procedimento es:
P1) H 0 : 1  0  No existe dependencia lineal de Y respecto a X 
H1 : 1  0  Existe dependencia lineal de Y respecto a X 

P2) Nivel de significancia: 


P3) Estadístico de Prueba:

P4) Regla de decisión: Rechazar Ho si: Fc > F (1-α,GLReg,GLError)

Graficar
Decisión: Rechazar H0 o no rechazar H0.
P6) Conclusión
COEFICIENTE DE DETERMINACIÓN
Mide el porcentaje de la variabilidad de la respuesta que es
explicado por la variable predictora. Su valor va de 0 a 1 y se
calcula mediante la siguiente expresión:

SC ( Reg )
r² =
SC (Total )

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN
 Valide el modelo de regresión estimado en el ejemplo 3, siendo las
variables Y = sabor y X = AA a un nivel de significación del 5%
Solución:

𝑛
2 2
2
𝑆𝐶 (Totalሻ = 𝑆𝐶(𝑌ሻ = ෍ 𝑌𝑖 − 𝑛𝑌 = 6789.06 − 10 21.08 = 2345.40
𝑖=1

𝑆𝐶 (Regresionሻ = 𝑏1 𝑆𝑃(𝑋𝑌ሻ = 22.44 1193.91 − 10 ∗ (21.08ሻ ∗ (5.3517ሻ = 1475.92

𝑆𝐶 (Errorሻ = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙ሻ − 𝑆𝐶(𝑅𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛ሻ = 2345.40 − 1475.92 = 869.48

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN
Fuentes de Variación GL SC CM 𝐹𝑐
Regresión 1 1475.92 1475.92 13.58
Error 8 869.48 108.685
Total 9 2345.40

Prueba de Hipótesis
P1) 𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
P2) 𝛼 = 0.05
P3) 𝐹𝑐 = 13.58 ∼ 𝐹 1,8
P4) 𝐶𝑜𝑚𝑜 𝐹𝑐 = 13.58 > 𝐹tab = 𝐹 0.95,1.8 = 5.318, se rechaza la H0
P5) Conclusión: A un nivel de significación del 5% se rechaza H0. Luego se
puede afirmar que el sabor del queso depende linealmente del logaritmo
natural de la concentración de ácido acético.

Métodos Estadísticos para la Investigación I 2021-I


APLICACIÓN
Para el ejemplo tratado en esta sección el coeficiente de determinación es:

𝑆𝐶(𝑅𝑒𝑔ሻ 1475.92
𝑟 2 = 𝑆𝐶(𝑇𝑜𝑡𝑎𝑙ሻ = 𝑟 2 = = 0.63 ó 63%
2345.40

El 63% de la variabilidad del sabor es explicado por el


logaritmo natural de la concentración de ácido acético.

Métodos Estadísticos para la Investigación I 2021-I


ESTIMACIÓN Y PREDICCIÓN
 Estimación puntual:
Interpretación como predicción de
Yˆi  b0  b1 X i un valor individual o como
estimación de valor medio

 Estimación por intervalo:

INTERVALO DE  1 ( x  X ) 2

IP(Y / X  x0 )  Yˆ  t  * CME 1   0

PREDICCIÓN (1 , n  2)
2  n SC ( X ) 

 1 ( x0  X )2  INTERVALO DE
IC (Y / X  x0 )  Yˆ  t  * CME   
(1 , n  2)
2  n SC ( X )  CONFIANZA

Métodos Estadísticos para la Investigación I 2021-I


Ejemplo:
 Encontrar un intervalo de predicción de un valor individual y un intervalo
de confianza para el valor medio a un 95% para evaluar el sabor del queso
cuando el logaritmo de ácido acético es 5.2.

𝑥0 = 5.2 ̰ = −99.03 + 22.44𝑋


𝑌 𝐶𝑀𝐸 = 108.685 𝑛 = 10

𝑛
2
𝑆𝐶(𝑋ሻ = ෍ 𝑋𝑖 2 − 𝑛𝑋 = 289.34 − 10 ∗ 5.3517 2 = 2.933
𝑖=1

𝑡 𝛼
1− ,𝑛−2
=𝑡 0.05 =𝑡 0.975,8 = 2.306
2 1− ,10−2
2

Métodos Estadísticos para la Investigación I 2021-I


Ejemplo:
Intervalo de predicción de un valor individual a un 95%

1 5.2−5.3517 2
𝐼𝑃(𝑌 Τ𝑋 = 5.2ሻ = 17.658 ± (2.306ሻ 108.685 1 + + = (−7.65,42.96)
10 2.933

Como los puntajes son positivos el intervalo de predicción sería:


IP(Y/X=5.2)=[0, 42.96]
Interpretación
Con un nivel de predicción del 95%, se puede decir que el sabor
del queso, cuando el logaritmo natural de la concentración de
ácido acético es de 5.2, está entre 0 y 42.96 unidades.

Métodos Estadísticos para la Investigación I 2021-I


Ejemplo:
Intervalo de confianza del valor medio a un 95%

1 5.2−5.3517 2
𝐼𝐶(𝑌 Τ𝑋 = 5.2ሻ = 17.658 ± (2.306ሻ 108.685 + = (5.94,29.38)
10 2.933

Interpretación
Con un nivel de confianza del 95%, se puede decir que el sabor
medio del queso, cuando el logaritmo natural de la
concentración de ácido acético es de 5.2, está contenido entre
5.94 y 29.38 unidades.

Métodos Estadísticos para la Investigación I 2021-I


Aplicación
Se efectuó un experimento para evaluar el efecto del zinc en el peso de
cacatúas. En el experimento, a 7 grupos de cacatúas adultas se les dio
diferentes dosis de zinc y sus pérdidas de peso tras la primera semana fueron
registradas. Los datos de los pesos medios por grupo al final de la semana
están expresados como porcentajes sobre los pesos iniciales.
Ingesta de zinc 0 2 4 8 12 16 30
Peso medio (en %) 100 92 95 90 98 85 67

Donde: Peso medio (en %) = Peso medio al final de la semana/Peso medio al iniciar la
semana

Métodos Estadísticos para la Investigación I 2021-I


a) Estime la línea de regresión lineal simple.
b) Interprete los coeficientes de regresión.
c) Efectúe el análisis de varianza y realice la prueba de hipótesis
más adecuada. Use un nivel de significancia de 0.01
d) Calcule e interprete el coeficiente de determinación.

Métodos Estadísticos para la Investigación I 2021-I


REPORTE MINITAB
Regression Analysis: y versus x
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 595.8 595.77 19.87 0.007
x 1 595.8 595.77 19.87 0.007
Error 5 149.9 29.99
Total 6 745.7

Model Summary
S R-sq R-sq(adj) R-sq(pred)
5.47614 79.89% 75.87% 45.87%

Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 99.47 3.04 32.77 0.000
x -0.962 0.216 -4.46 0.007 1.00

Regression Equation
y = 99.47 - 0.962 x

Métodos Estadísticos para la Investigación I 2021-I

También podría gustarte