Está en la página 1de 39

Unidad Académica de

Estudios Generales

Estadística Básica

Profesores: Equipo docente de Estadística


Unidad IV
Semana 14

Regresión Lineal Simple


Sesión 12: Regresión Lineal Simple
ASU: HCD300 - Bioestatistics. Unit 2: Homework 4 Lecture:
Correlation (2.2)

1. Gráfico de dispersión
2. Modelo de regresión lineal simple
3. Bondad de ajuste del modelo
4. Predicción de valores de la variable dependiente
LOGRO DE LA SESIÓN

Al finalizar la sesión, el estudiante explica la existencia de


relación entre una variable dependiente con una variable
independiente en una muestra de datos y determina el
mejor modelo de regresión que permita predecir el
efecto de una variable en función de la otra, haciendo
uso de SPSS.
¿Qué variables pueden explicar el peso de una persona?
• La edad
• La talla de la persona
• El nivel de actividad física
REGRESIÓN LINEAL SIMPLE
Analiza la relación de dos variables cuantitativas con el objetivo de determinar
una función Y= f(x), llamado modelo de regresión o ecuación de regresión el
cual se usará para predecir (o estimar) el efecto de la variable X en función de la
variable Y.

X Y
Variable independiente Variable dependiente

Explica a Y Depende X

Valor conocido FUNCION: f(x) Predecir


Ejemplos:

✓Estimar el peso de una persona a partir de su estatura.


✓Estimar el gasto en una familia en función de sus ingresos.
✓Estimar el precio de una PC en función de la velocidad del
procesador.
✓Predecir la calificación de una asignatura según el número de
horas de estudio a la semana.
✓Estimar el precio de una vivienda en función de su superficie
GRÁFICO DE DISPERSIÓN
Es la representación de pares de valores observados en el plano cartesiano,
describe la relación existente entre las variables a partir de datos observados en la
muestra o población:
a b
Datos:

Xi Yi
x1 y1

x2 y2 c d

: :
xn yn
EJEMPLO 1
En un Centro de Salud se hizo el seguimiento del peso a un grupo de pacientes
adultos de 30 a 40 años, se quiere determinar un modelo lineal para predecir el
peso en función de la talla con los siguientes datos y se pide responder las
siguientes preguntas:

Talla en Peso en
cm Kg
a. Elabore el gráfico de dispersión y explique la
162 61 tendencia de los datos.
154 60 b. Estime el mejor modelo de regresión e interprete el
180 78 coeficiente de regresión.
158 62
c. Evalúe el modelo: coeficiente de correlación y
171 66
169 60
coeficiente de determinación.
166 54 d. Estime el peso de las personas que tengan una talla
176 84 de 165 cm.
163 68
160 58
EJEMPLO 1
En un Centro de Salud se hizo el seguimiento del peso a un grupo de pacientes adultos de 30 a 40 años, se quiere
determinar un modelo lineal para predecir el peso en función de la talla con los siguientes datos y se pide
responder las siguientes preguntas:

Talla en cm Peso en Kg a. Gráfico de dispersión


162 61
90
154 60
180 78
85
¿Cuál es la
mejor recta
80
158 62
171 66 75

Peso en Kg
169 60 70 de regresión
166
176
54
84
65
a partir de
163 68
60

55
los datos?
160 58
50
150 155 160 165 170 175 180 185
Variable independiente: Talla Talla en cm

Variable dependiente: Peso En el gráfico se observa que la tendencia de los datos describen una relación lineal positiva,
significa que ante un aumento en la talla en la misma proporción aumenta el peso.
MODELO DE REGRESIÓN LINEAL SIMPLE
El modelo de regresión lineal simple se define:

Yi = 0 + 1xi + eij
Donde:
Yi: valor de la variable dependiente para la i-ésima observación
Xi: valor de la variable independiente para la i-ésima observación
eij: error aleatorio para la i-ésima observación que se asume normal
βo : intercepto con el eje Y
β1 : mide el cambio de Y cuando varía X en 1 unidad, llamado pendiente
Los parámetros βo y β1 deben ser estimados:
MÉTODO DE ESTIMACIÓN

Para estimar los parámetros del modelo de regresión utilizaremos el método de


mínimos cuadrados:
 y = n +   x
0 1

 xy =   x +   x
0 1
2

Obtenemos los coeficientes Bo y B1

n XY −  X  Y
 0 = y − 1 x 1 =
n X 2 − ( X ) 2

La ecuación de regresión estimada es:

ˆ0 + 
ŷ =  ˆ 1x
Interpretación de los coeficientes de regresión lineal
La ecuación estimada:

Ŷ= 0 + 1 X o también Ŷ= a + bX

• El coeficiente 1 indica el cambio promedio en la variable respuesta (y), cuando la


variable predictora (x) aumenta en una unidad adicional.
• El intercepto 0 indica el valor promedio de la variable respuesta (y), cuando la
variable predictora (x) es igual a cero. Sin embargo carece de interpretación
práctica si dicho valor está fuera del rango del conjunto de valores X.
REPRESENTACIÓN GRÁFICA DE LA RECTA DE REGRESIÓN

• Una recta tiene una ecuación muy simple:

Ŷ= β0 + β1 X
β1
Calcularemos los
coeficientes β0, β1.

β0

β0 es el intercepto=donde la recta corta el eje vertical

β1 es la pendiente de la recta
EJEMPLO 1

Variable independiente (X): Talla


Variable dependiente (Y): Peso
90
¿Cuál es el mejor modelo de
85 regresión a partir de los datos?
80

75

Ecuación de regresión lineal estimada


Peso en Kg

70

65

60

55
yˆ = ˆ0 + ˆ1 x
50
150 155 160 165 170 175 180 185
Talla en cm
EJEMPLO 1
90

b. El mejor modelo de regresión de 85

los datos es la ecuación: 80


y = 0.827x - 72.047
75

Peso en Kg
Yˆ = −72.047 + 0.827 X
70

65

60

55

50
150 155 160 165 170 175 180 185
Talla en cm
Interpretación de los coeficientes de regresión

βo = -72.047 Es la intersección de la recta con el eje Y cuando X = 0


β1 = 0.827 Por cada cm que aumenta en su talla el peso aumenta en 0.827 kg
BONDAD DE AJUSTE DEL MODELO DE REGRESIÓN
1. Coeficiente de correlación
Mide el grado de relación entre variables cuantitativas.
El estadístico de correlación es el coeficiente de correlación de Pearson (R)
cuyo valor está en el intervalo [-1,1], dado por la fórmula:

n  XY −  X  Y
R=
n X 2 − ( X ) 2 n Y 2 − ( Y ) 2

Donde:

-1  R  1
n = Tamaño muestral
x = Valores de las x’s
y = Valores de las y’s
Interpretación del coeficiente de correlación R de Pearson

El Coeficiente de Correlación R de Pearson mide la fuerza y dirección de relación entre dos variables
cuantitativas en una escala que varía entre -1 a +1. Cuanto mas se aleja del 0 el valor del coeficiente
muestra una relación mas fuerte. El signo de R nos indica si la relación es positiva o negativa.

Correlación Correlación Correlación Correlación Correlación Correlación Correlación Correlación Correlación Correlación
negativa negativa negativa negativa negativa positiva positiva positiva positiva positiva
Muy alta Alta Moderada Baja Muy baja Muy baja Baja Moderada Alta Muy alta

-1 -0.8 -0.6 -0.4 -0.2 0 +0.2 +0.4 +0.6 +0.8 +1

NEGATIVA POSITIVA

Hernández, Fernández & Baptista, 2016, 304-305


2. Coeficiente de Determinación
Mide el porcentaje de variabilidad en Y que explica a través del conocimiento de la variable
independiente X para evaluar capacidad de predicción. Se calcula con fórmula:

R2 =
[ n  XY −  X  Y ] 2

0  R2 1
(n X 2 − ( X ) 2 )(n Y 2 − ( Y ) 2 )

R2 Ajuste del modelo


0.00 < R2 ≤ 0.20 No tiene buen ajuste
0.20 < R2 ≤ 0.40 No tiene buen ajuste
0.40 < R2≤ 0.60 Ajuste moderado
0.60 < R2≤ 0.80 Buen ajuste
0.80 < R2≤ 1.00 Buen ajuste
c) Bondad de ajuste del modelo de regresión
1. Coeficiente de correlación: r = 0.722
Con un coeficiente de correlación de Pearson r = 0.722 nos indica que existe alta
correlación positiva entre talla y peso
2. Coeficiente de determinación: r2 = (0.722)2 = 0.521
El 52.1% de las variaciones de los pesos es explicado por las tallas de las personas.
Existe además un (100-52.1)% = 47.9% lo explican otras variables

d) Predicción para X=165 y = 0.827x - 72.047

yˆ = ˆ0 + ˆ1 x = −72.047 + 0.827(165) = 64.36

El peso estimado de una persona con 165 cm es de 64.36 kg.


EJEMPLO 2:
El director de una empresa realiza un estudio para determinar una función entre el gasto en publicidad y
las ventas (en millones de soles) de una empresa. Los datos son y se pide:

Publicidad Ventas 1. Elabore el gráfico de dispersión y explique


Año XY X2 Y2
(X) (Y)
la tendencia de los datos.
2008 3 20
2009 5 40 2. Estime el mejor modelo de regresión e
2010 5 80 interprete el coeficiente de regresión.
2011 6 120 3. Evalúe el modelo: coeficiente de correlación
2012 6 90
de Pearson y coeficiente de determinación.
2013 7 125
2014 4 35 4. Estimar las ventas de la empresa cuando
2015 8 135 se invierte10 millones.
Total 44 645
∑X ∑Y ∑XY ∑ X2 ∑ Y2
SOLUCIÓN
Publicidad Diagrama de Dispersión
N° Ventas (Y) XY X2 Y2
(X) 160

2008 3 20 60 9 400 140


2009 5 40 200 25 1600

Ventas en Millones
120
2010 5 80 400 25 6400 100
2011 6 120 720 36 14400 80
2012 6 90 540 36 8100 60
2013 7 125 875 49 15625
40
2014 4 35 140 16 1225
20
2015 8 135 1080 64 18225
0
Total 44 645 4015 260 65975 0 2 4 6 8 10
∑X ∑Y ∑XY ∑ X2 ∑ Y2 Gastos en Publicidad (Millones)

El mejor ajuste de los datos es la ecuación: Y= - 62.221+ 25.972 X


Interpretación de los coeficientes de regresión:
βo = - 62.221 Es la intersección de la recta con el eje Y cuando X = 0.
β1 = 25.972 Por cada millón que aumenta en sus gastos las ventas aumentan en 25.972 millones.
2.1 Ecuación de regresión
ˆ0 + 
ŷ =  ˆ 1x

La ecuación de regresión estimada es:

ŷ =

Interpretación de los coeficientes de regresión:

o =

1 =
3) Bondad de ajuste del modelo de regresión
1. Coeficiente de correlación: r =

2. Coeficiente de determinación: r2 =

4) Predicción para X=10


yˆ = ˆ0 + ˆ1 x =
Ejemplo 3
Una empresa tiene 7 vendedores, y se quiere analizar las ventas mensuales (en miles de
soles) frente a los años de experiencia. Los datos están en la siguiente tabla.

N° Experiencia (X) Ventas(miles)


1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38

a) ¿Qué tipo de relación presentan los datos? (analizar el diagrama de dispersión)


b) Si es una ecuación lineal hallar la ecuación de regresión, interpreta los coeficientes.
c) ¿El modelo estimado tiene buen ajuste a los datos?
d) Predecir la venta de un empleado con 40 años de experiencia (Estimar Y para un valor X=40)
Solución:
a) Diagrama de dispersión
N° Experiencia (X) Ventas(miles)
1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38

En el diagrama de dispersión
se observa una existe una
relación lineal directa.
b) Hallando los coeficientes de regresión
Experienci Ventas(miles)
N° XY X2 Y2
a (X) (Y)
1 13 26 338 169 676
𝒏=𝟕
2 16 33 528 256 1089
3 30 36 1080 900 1296 σ 𝒙 𝟏𝟎𝟔
𝒙= = = 𝟏𝟓. 𝟏𝟒
4 2 16 32 4 256 𝒏
n =7 ; x =
𝟕x 106
= = 15.14 ; y=
194
= 27.71
5 8 26 208 64 676
σ 𝒚 𝟏𝟗𝟒n 7 7
6 6 19 114 36 361
𝒚= = = 𝟐𝟕. 𝟕𝟏
7 31 38 1178 961 1444 n 𝒏 𝟕
 x = 106 = 15.14 ; y2 = 194 = 27.712  xi yi − nxy
= 7 106;
n∑X= =
x ∑Y=194 ∑XY=3478 ∑ X =2390 ∑ Y =5798 i =1 3478 − 7(15.14)(27.71)
n 7 7 b = = = 0.688
2390 − 7(15.14)
1 n 2

n
 xi2 − nx 2
i =1
 xi yi − nxy
i =1 3478 − 7(15.14)(27.71)
b= = = 0.688
b0 = y − b1 x = 27.71 − ( 0.688 )15.14 = 17.29
2390 − 7(15.14) 2
1 n

x 2
i
− nx 2

i =1

b0 = y − b1 x = 27.71 − ( 0.688 )15.14 = 17.29


b.1 Ecuación de regresión
ˆ0 + 
ŷ =  ˆ 1x

La ecuación de regresión estimada es:

ˆ = 17.29 + 0.668x
y

Interpretación de los coeficientes de regresión:

o = 17.29 Es el promedio de la ventas cuando un vendedor no tiene años de


experiencia (X =0) es de 17290 soles.

1 = 0.668 El promedio de ventas aumenta en 668 soles por cada año de experiencia
que adquiera un vendedor (es el incremento en 0.668 de las ventas cuando x
aumenta en una unidad).
c) Bondad de ajuste del modelo de regresión
1. Coeficiente de correlación: r = 0.939
Con un coeficiente de correlación de Pearson r = 0.939 nos indica que existe alta
correlación directa entre los años de experiencia y las ventas
2. Coeficiente de determinación: r2 = (0.93.9)2 = 0.883
El 88.3% de las variaciones de las ventas son explicadas por los años de experiencia.
Existe además un (100-88.3)% = 11.7% lo explican otras variables

d) Predicción para X=40

yˆ = ˆ0 + ˆ1x = 17.29 + 0.668(40) = 44.826

Las ventas estimadas de un empleado con 40 años de experiencia en ventas es de


S/. 44826.
Ejemplo 4: Regresión con SPSS
Una empresa vende fotocopiadoras a negocios de todo Lima Metropolitana. Selecciona una muestra
aleatoria de 10 representantes de ventas y determina el número de llamadas de venta (X) que hicieron el
mes pasado y el número de fotocopiadoras que vendieron (Y). La información obtenida se muestra en la
tabla siguiente.

Agente-Ventas X Y
1 20 30 X: Nº de llamadas
2 40 60 Y: Nº de fotocopiadoras vendidas
3 20 40
4 30 60
5 10 30
6 10 40
7 20 40
8 20 50
9 20 30
10 30 70
Ejemplo 1 aplicativo de ASU
Ingresos Años de Ingresos Años de
El estudio tiene como objetivo estimar una función lineal que anuales educación anuales educación
relacione el número de años de educación y el ingreso anual. N° N°
1 36577 11 11 64543 12
Los datos corresponden a una encuesta realizada a 20
2 54365 12 12 43433 14
trabajadores que se encuentra en el archivo:
3 33542 10 13 34644 12
S14 ASU 02-4Data_examples_additional_correlations.xlsx. 4 65654 12 14 33213 10
Predecir el ingreso anual de un trabajador con 20 años de 5 45765 11 15 55654 15
educación. 6 24354 7 16 76545 14
7 43233 12 17 21324 11
8 44321 13 18 17645 12
9 23216 9 19 23432 11
10 43454 12 20 44543 15

Tomado de: Arizona State University (Enero, 2023). HCD300: Bioestatistics. Estadística para los negocios.
https://canvas.asu.edu/courses/49003/modules 5.
Regresión con SPSS
Análisis de Regresión:

Analizar ➢ Regresión ➢ Lineales:


Dependientes: Nº de fotocopiadoras
Independientes: Nº de llamadas
➢Estadísticos:
✓ Estimaciones
✓ Ajuste del modelo
Aceptar
En el SPSS se debe seguir la siguiente secuencia:
ANALIZAR --> REGRESIÓN --> LINEALES
DEPENDIENTES: Y = Número de llamadas
INDEPENDIENTE: X = Número de fotocopiadoras
CONTINUAR
ACEPTAR
Modelo de Regresión Lineal Simple
R = 57,6%
2

b0

b1
yˆ = 18,947 + 1,184 x Interpretación de b1 : 1,18 es el cambio promedio en el
número de fotocopiadoras vendidas por cambio unitario
en el número de llamadas.
TRABAJO EN SALA

Resolver en equipos
colaborativos problema 1 y 3
de la semana 14.
CONCLUSIONES

1. El gráfico de dispersión muestra la tendencia de los


datos.
2. La regresión lineal busca modelar una función lineal
entre la variable independiente con la dependiente.
3. La ecuación de regresión lineal se utiliza para predecir
la variable dependiente en función de la independiente.
BIBLIOGRAFÍA

1. Webster, A. (2006). Estadística aplicada a los Negocios y la Economía. (3° ed.)


Colombia; McGraw Hill.

2. Véliz Capuñay, Carlos, 2011, México. Estadística para la administración y los


negocios, Primera Edición, 2011, Prentice Hall. Pearson.

3. http://www.fisterra.com/mbe/investiga/var_cuantitativas/var_cuantitativas2.pdf
Correlation en Wikipedia (inglés).

También podría gustarte