Está en la página 1de 26

UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN

Dpto. de Matemática y Estadística

Capítulo XI

Análisis de Regresión Lineal


Simple

Estadística y Probabilidad Docente: Ing. César Meléndez


Objetivo

Al finalizar este capítulo el estudiante


debe conocer los supuestos y
estimación de parámetros en el análisis
de regresión lineal simple, probar si
existe relación lineal entre dos
variables, calcular el coeficiente de
determinación y el coeficiente de
correlación.

2
¿ ?
¿Cómo influye el gasto semanal en
publicidad sobre las ventas semanales?.

¿Cómo influye el número de horas de


estudio que dedica el alumno al curso de
estadística general sobre la nota que
obtiene en las evaluaciones?
Contenido
Correlación y coeficiente de correlación.

Modelo y supuestos del análisis de regresión lineal


simple

Estimaciones de parámetros en el modelo de RLS

Recta de regresión estimada

Análisis de varianza

Coeficiente de determinación

Evaluación
Correlación

Una correlación existe


entre dos variables
cuando una de ellas
está relacionada con la
otra de alguna manera.

5
Diagrama de dispersión
Delitos vs población Peso vs velocidad
12000
100
10000 80

velocidad
8000 60
Delitos

6000 40
20
4000
0
2000
0 2 4 6 8
0 Fuente: Elaboracion
Peso
0 2 4 6 8
Fuente: Elaboracion propia Población

Correlación lineal positiva Correlación lineal negativa

100 Precio vs demanda


80
Demanda 60
40
20
0
0 20 40 60 80 100
Precio

Ninguna correlación lineal


6
Coeficiente de correlación lineal
◼ El coeficiente de correlación (r) mide la fuerza
de la relación lineal entre valores cuantitativos
de dos variables.

◼ También se le conoce como coeficiente de


correlación de Pearson, en honor a karl
Pearson quien lo desarrolló originalmente.
𝑛 σ 𝑥𝑦 − (σ 𝑥)(σ 𝑦)
𝑟=
𝑛(σ 𝑥 2 ) − (σ 𝑥)2 𝑛 σ 𝑦 2 − (σ 𝑦)2

1≤ r ≤ 1
7
Valores de r
o Si r > 0, la correlación lineal es positiva
Ejemplo: altura y peso

o Si r < 0, la correlación lineal es negativa


Ejemplo: peso y velocidad

o Si r = 0, no existe correlación lineal


entre las variables, pero podría existir
otro tipo de correlación.
8
Ejemplo 1 (Pág. 215)
Distribución del números de delitos por
departamento en el 2007
Departamento Población N° Delitos vs población
delitos 12000

Amazonas 376.0 811 10000

Ica 711.9 2548 8000

Delitos
La Libertad 1617.1 9763 6000

4000
Piura 1676.3 5518
2000
Arequipa 1152.3 9188
0
Ucayali 432.2 2856 0 2 4 6 8
Fuente: Elaboracion propia
Población

Correlación lineal positiva


r = 0.659
9
Análisis de regresión lineal simple
Definición

El análisis de regresión lineal simple, es


una técnica estadística que permite
estudiar la relación funcional entre dos
variables, una de ellas es la variable
dependiente Y (o respuesta) y la otra la
variable independiente X (explicativa o
predictora)
10
El Modelo de Regresión Lineal Simple
El modelo de regresión lineal simple es definido por:

( 1 )
Donde:

• Y es la variable dependiente o variable respuesta.


• X es la variable independiente, explicativa o de predicción.
• 𝛽0 es el coeficiente de intersección paramétrico. Es el valor
de Y cuando X=0.
• 𝛽1 es el coeficiente de regresión paramétrico. Es la
pendiente del modelo de regresión.
• 𝜀𝑖 es el error o residual.

11
Supuestos del análisis de regresión
lineal simple
• La variable independiente X es fija (no aleatoria).
• La variable dependiente Y es aleatoria.
• Para cada valor de X existe una distribución normal de Y.
• 𝜀𝑖 ~ N ( 0 , 𝜎 2 ) para i = 1,2,3,...,n. Además:
𝜀𝑖 es independi𝑒𝑛𝑡𝑒 𝑑𝑒 𝜀𝑗 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗
𝜀𝑖 es independiente de X

En consecuencia:

Notar que 𝛽1 mide el cambio en el promedio 𝜇𝑌.𝑋 ante el cambio


en una unidad de X. 12
Estimación de parámetros por el método de
mínimos cuadrados.
El método de mínimos cuadrados consiste en
minimizar la suma de cuadrados del error.
Del modelo de regresión lineal simple (1) se
obtiene:  i = Yi −  0 −  1 X i ,
por lo tanto:

Los estimadores mínimos cuadráticos de los


parámetros 𝛽0 𝑦 𝛽1 , denotamos como b0 y
b1 .
13
b1 y b0 se calcula:

Suma de cuadrados de X:

Suma de productos X e Y:

Interpretación de los coeficientes de regresión:


bo= Mide el valor promedio de Y, cuando X es igual a cero.
b1=Mide el cambio (aumento, si es positivo o disminución,
si es negativo) de Y, cuando X se incrementa en una
unidad.

14
Recta de regresión estimada

La ecuación de la recta Yˆi = b0 + b1 X i estima a Y . X =  0 + 1 X i

El error estimado es:

15
Análisis de la variancia
Fuente de Grados de Suma de Cuadrado F
variación Libertad Cuadrados Medio calculado
(GL) (SC) (CM)
Regresión 1 SCR CMR Fc =CMR/CME

Error n-2 SCE CME


Total n-1 SCT

Donde:

(
SCR =  Yˆi − y )
2
(
= b12  xi − x )
2
=b1SP ( XY ) = b12 SC ( X )
( yi ) 2
SCT = SC (Y ) =  y − =  yi −n y
2 2 2
i
n

SCE = SCT − SCR

16
¿Hay relación lineal entre X e Y?
Prueba de hipótesis

H p : 1 = 0 ( No hay relación lineal entre X e Y )


H a : 1  0 ( Si hay relación lineal entre X e Y )

Nivel de significación: α = 0.05


Estadístico de prueba
Fc= CMR / CME

Decisión estadística
De acuerdo a la hipótesis alternativa la prueba es unilateral a la derecha por
lo tanto:

Si Fc es mayor que Ftab se rechaza la Hp.


Si Fc es menor o igual que Ftab no se rechaza la Hp.

17
Coeficiente de determinación y de no determinación
El coeficiente de determinación (r2) mide la
proporción o porcentaje de la variación total de
Y que es explicada por el modelo de regresión y
el coeficiente de no determinación (1 - r2) mide
la proporción o porcentaje de la variación total
de Y que no es explicada por el modelo de
regresión.

18
Ejemplo 2 (Pag. 220)
En cierto país se estudió la captura de anchoas, en
millones de toneladas métricas, (X), y los precios de
harina de pescado, en dólares por tonelada, (Y) para los
últimos 13 años.
Y 190 160 134 129 172 197 167 239 542 372 245 376 454

X 7.23 8.53 9.82 10.26 8.96 12.27 10.28 4.45 1.78 4.00 3.30 4.30 0.80

a) Halle la línea de regresión estimada. Interprete el coeficiente


estimado de intersección y el coeficiente estimado de
regresión.

19
Cálculos previos

20
La línea de regresión estimada: Yˆi = 461 .0062 − 30 .4266 X i

El coeficiente de intersección estimado, , representa el


precio promedio de harina de pescado cuando no hay captura de
anchoas.

El coeficiente de regresión estimado, , indica que el precio


promedio de harina de pescado disminuye en 30.4266 dólares por
tonelada, cuando se incrementa en un millón de toneladas
métricas la captura de anchoas. 21
b) ¿Hay relación lineal entre X e Y?
Use α = 0.01

Fuente de G. L. S. C. C. M. F calculado
variación
Regresión 1 151438.0750 151438.075 27.45
Error 11 60686.2327 5516.9302
Total 12 212124.3077

Prueba de hipótesis Como ,


entonces se rechaza la hipótesis
H p : 1 = 0 ( No hay relación lineal entre X e Y ) planteada por lo tanto hay
evidencias estadísticas para
H a : 1  0 ( Si hay relación lineal entre X e Y ) concluir que existe relación lineal
entre X e Y. 22
c) Estime el precio promedio de harina de pescado (en
dólares por tonelada) para una captura de 5 millones de
toneladas métricas de anchoas.
Como la línea estimada es:

Y como Xi=5, se tiene:

El precio promedio de harina de pescado es de $ 308.9 para una


captura de 5 millones de toneladas métricas de anchoas.

d) Calcule e interprete el coeficiente de determinación y el


coeficiente de correlación.
Coeficiente de determinación
SC ( R ) ( SP ( XY ) )
2
Indica que el 71.39% de la
r =
2
= = 0.7139 ( 71.39% ) variación de los precios es
SC (Y ) SC ( X ) SC (Y )
explicada por la regresión.
23
Coeficiente de correlación

Se puede afirmar que hay una alta


asociación negativa entre X e Y en
otras palabras cuando aumenta una
de ellas disminuye la otra.

24
Ejercicio 1 (Pag. 223)
Se estudia la tasa de flujo Y (en ) de un dispositivo empleado
para medir la calidad del aire y la caída de presión X (en mm
de agua) a través del filtro del dispositivo. Se tomó una
muestra de 10 mediciones encontrándose los siguientes
datos:
Y 0.6 0.7 0.8 1.0 1.1 1.2 1.4 1.8 2.2 2.6
X 127 178 229 254 330 381 406 432 457 507

Asumiendo que se cumplen los supuestos respectivos


a. Estime la línea de regresión. Interprete los coeficientes.
b. ¿Hay relación lineal entre estas variables? Use α = 0.05
c. Calcule e interprete el coeficiente de determinación.
d. Estime la tasa de flujo promedio para una caída de presión
de 400 mm de agua.
e. Halle e interprete el coeficiente de correlación.
25
EVALUACIÓN

Complete con verdadero (V) o falso (F)

◼ El objetivo del análisis de regresión lineal simple es la


predicción. ( )
◼ El coeficiente de determinación mide la relación o
asociación entre dos variables cuantitativas ( )
◼ La variable dependiente Y es aleatoria ( )
◼ β1 es el coeficiente de intersección paramétrico ( )

26

También podría gustarte