Está en la página 1de 6

REGRESIÓN LINEAL SIMPLE

En este tema trabajaremos con muestras bivariantes cuantitativas, es decir, donde cada unidad estadística
presenta dos características cuantitativas y medibles X e Y.
Por Ej. Peso y Talla, trata de estudiar la asociación entre dos variables conocidas.
Existen 2 formas de estudio de asociación entre las variables X e Y.
1º La Regresión.- Consiste en determinar la relación funcional X e Y; con la finalidad de predecir el valor
de una variable en base a otra. Donde:
La variable que se va a predecir  Variable Dependiente.
La variable que es la base de la predicción  Variable Independiente.
2º La Correlación.- Que consiste en determinar la variación conjunta de las dos variables, su grado de
relación y su sentido (+ ó -); al grado de relación se denomina Coeficiente de Correlación o Índice de
Correlación.
DIAGRAMA DE DISPERSIÓN
Esta dado por n pares de valores (X1; Y1), (X2; Y2),.... (Xn; Yn); de una variable bidimensional.
Se denomina diagrama de dispersión o nube de puntos a la gráfica de valores (X i; Yi) de la variable X e Y en
el sistema cartesiano. Que al graficar se puede observar:

Lineal Positiva Lineal Negativa No Lineal Ninguna


Regresión
COVARIANZA
Es una medida estadística, que mide el grado de dispersión conjunta de dos variables X e Y.
La covarianza de n valores (X1; Y1), (X2; Y2),.... (Xn; Yn) de una variable bidimensional (X,Y)
lo denotaremos por Cov(X,Y) o por S xy . Se define como la media aritmética de los productos de la
diferencia de los datos con respecto a sus correspondientes medias, esto es:

S XY 
 (X  X)(Y  Y)   XY  XY
n n

COEFICIENTE O ÍNDICE DE CORRELACIÓN


El coeficiente de correlación lineal de Pearson de n pares de valores (X 1; Y1), (X2; Y2),.... (Xn; Yn) de una
variable bidimensional (X,Y) es el número abstracto r que se calcula por
SXY n  XY   X  Y
r  
SX SY 
n X2 -  X  2
  
n Y 2 -  Y  2
  -1    +1

REGRESIÓN LINEAL SIMPLE


Dados n pares de valores (x 1; y1), (x2; y2),.... (xn; yn) de una variable bidimensional (X,Y). La regresión
lineal simple de Y con respecto a X, consiste en determinar la ecuación de la recta: Y = a + bX
que mejor se ajuste a los valores de la muestra, con el fin de poder predecir o estimar Y (variable
dependiente) a partir de X (variable independiente).
El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene los valores de a y b.

Ŷ  a  bX
n  X´Y´   X´  Y´
b 
n  X´    X ´
2 2
i i

Luego, la ecuación de regresión muestral estimada es Y = a + bX


El coeficiente b es la pendiente o el coeficiente de regresión lineal. La constante a es la ordenada en el
origen.

INTERPRETACIÓN DEL COEFICIENTE DE REGRESIÓN b


Si b>0  la tendencia lineal es creciente, es decir a mayores valores de X corresponde a mayores valores
de Y; también a menores valores de X corresponden menores valores de Y.
Si b<0  la tendencia lineal es decreciente, es decir a mayores valores de X corresponde a menores valores
de Y; también a menores valores de X corresponden mayores valores de Y.
Si b=0  Y = a ; luego permanece estacionario para cualquier valor de X; es decir no hay regresión.
EJEMPLO: En un estudio de la relación entre la publicidad por televisión y las ventas de un producto,
durante 10 semanas se han recopilado los tiempos de duración en minutos de la publicidad por semana (X),
y el número de artículos vendidos (Y), resultando:

Publicidad Ventas XY X2 Y2
Semana X Y
1 20 50 1000 400 2500 50
2 30 73 2190 900 5329 70
3 30 69 2070 900 4761 70
4 40 87 3480 1600 7569 90
5 50 108 5400 2500 11664 110
6 60 128 7680 3600 16184 130
7 60 135 8100 3600 18225 130
8 60 132 7920 3600 17424 130
9 70 148 10360 4900 21904 150
10 80 170 13600 6400 28900 170
TOTAL 500 1100 61800 28400 134660

a) Trazar el diagrama de dispersión


b) Encontrar la regresión lineal
c) Calcular el coeficiente de correlación
d) Si en la novena semana se incrementara la publicidad en 5 minutos, determinar en cuanto se estima se
incrementen las ventas.
Solución: a)
n  X´Y´   X´  Y´
b 
n  X´    X ´
2 2
i i

b) La regresión lineal
n = 10 x = 500 y = 500 xy = 61800 x2 = 28400 y2 = 134660
x = 500/10 = 50 y = 1100/10 = 110
b = 61800/34000 = 2 a = 110 – 2(50) = 10

La recta de regresión lineal : Y = 10 + 2X


c) el Coeficiente de Correlación: r = 680 / (18.44 x 36.96) = 0.99780139  es altamente positivo.
d) Si en la novena semana se incrementara el tiempo de propaganda en 5 minutos, la venta estimada sería
160 y el incremento en las ventas sería igual a 160 -150 = 10

Ejemplo: ^

Los datos de la siguiente tabla representan las horas de trabajo(X) y la longitud en metros de una zanja (Y).
Se tomó una muestra de personas que hicieron ese trabajo y se obtuvieron los siguientes datos:
X 8 7 5 4 2 3 5 6 8 9
Y 20 20 25 30 40 40 35 35 35 30
Diagrama de dispersión y estimaciones

Solución

Ord X Y X2 Y2 XY Y*
1 8 20 64 400 160 26.84
2 7 20 49 400 140 28.65
3 5 25 25 625 125 32.27
4 4 30 16 900 120 34.08
5 2 40 4 1600 80 37.69
6 3 40 9 1600 120 35.88
7 5 35 25 1225 175 32.27
8 6 35 36 1225 210 30.46
9 8 35 64 1225 280 26.84
10 9 30 81 900 270 25.03
∑ 57 310 373 10100 1680 26.84

b
 XY  n X Y 
1680  10 x5.7 x31

 87
 1.8087
 X  nX
2 2
373  10(5.7) 2 48.1
a  Y  b X  31  ( 1.8087)(5.7)  41.31

Y = a + bX = 41.31 -1.8087X
r
 XY    X  Y
n
 n X     X   n  Y     X 
 
2 2 2 2
  

10 x1680  57 x310 870


r   0.567
10 x373   57 10x10100   310 
2 2 1535.22

r = -0.567 ; la relación es decreciente

Ejemplo:
En una fábrica de telas, se ha trabajado con lotes de algodón en toneladas, y las horas trabajadas.
Realizar el diagrama de dispersión y la fórmula para la regresión lineal, además realizar
pronósticos, para los datos siguientes:

Tamaño del lote 7 6 9 4 9 3 6 8 5 4 7 9 6 7 7 5


Horas trabajadas 20 16 34 8 27 5 18 22 14 9 22 30 15 20 19 11

Solución:

Tamaño de Horas
lote trabajadas
Ord X Y X Y XY Y*
1 20 30 400 900 600 5.14
2 20 55 400 3025 1100 5.14
3 30 73 900 5329 2190 -12.95
4 30 67 900 4489 2010 -12.95
5 40 87 1600 7569 3480 -31.04
6 40 95 1600 9025 3800 -31.04
7 50 108 2500 11664 5400 -49.13
8 50 112 2500 12544 5600 -49.13
9 60 128 3600 16384 7680 -67.21
10 60 135 3600 18225 8100 -67.21
11 70 148 4900 21904 10360 -85.30
12 70 160 4900 25600 11200 -85.30
13 80 170 6400 28900 13600 -103.39
14 80 162 6400 26244 12960 -103.39
∑ 700 1530 40600 191802 88080
50 109.2857
b
 XY  n X Y 
88080  14 x50 x109.2857

 14905920
 2.18581
 X  nX
2 2
40600  14(20) 2  6819400

a  Y  b X  109.2857  2.1858x50  0.004839  0.005

Y = -0.005 + 2.1858X

14 x88080  700 x1530 162120


r   0.9867
14 x40600   700 14 x191802  1530 
2 2 164302.51

r = 0.9867 ; la relación es creciente y tiende a uno

DESARROLLAR LOS SIGUIENTES PROBLEMAS

1. Se quiere analizar la relación entre la edad (X) y el tiempo efectivo de servicio (Y) de los
trabajadores, obteniéndose los siguientes resultados. Determinar: (a) El diagrama de
dispersión (b) Regresión Lineal (c) Coeficiente de correlación y su interpretación
X 30 25 39 46 48 40 46 32 28 32 42
Y 3 3 18 20 23 16 18 7 4 8 17

2. Los datos de la siguiente tabla representan las alturas(X) y los pesos (Y) de varios hombres
para adecuar a un sistema puente aéreo a través de carril entre Kuélap y una de las
comunidades rurales cercanas. Se tomó una muestra de personas que hicieron ese recorrido y
se obtuvieron los siguientes datos:
X 1.650 1.655 1.550 1.560 1.680 1.672 1.580 1.840 1.830 1.780 1.630
Y 63.500 65.550 29.759 63.250 75.750 67.350 58.650 81.600 82.575 78.850 63.250
a. Diagrama de dispersión y estimaciones
b. Cual es el modelo matemático y realizar las estimaciones.
c. El coeficiente de: correlación y de determinación, explique

3. Se quiere analizar la relación entre la edad (X) y el tiempo efectivo de servicio (Y) de los trabajadores,
para el efecto se tomó una muestra, obteniéndose los siguientes resultados. Determinar:
a) El diagrama de dispersión b) Regresión Lineal
c) Coeficiente de correlación y su interpretación
X 30 25 38 32 27 30 27 41 36 28 36 30 32 29 25 21 19 36 34 24 40
Y 5 4 12 8 7 5 7 9 11 4 12 12 6 4 3 1 1 12 14 6 14

4. Sean los ingresos en miles de soles (X) y consumo en alimentos básicos en miles de soles (Y)
a. Realizar el diagrama de dispersión
X 1.624 2.15 1.186 2.855 1.28 1.08 3.15 1.282
Y 1.58 2.095 0.98 3.41 0.982 0.888 5.20 0.98

5. Sean los ingresos


en miles de X 0.985 2.482 1.186 2.484 1.685 1.885 3.150 1.282 2.850 1.285 1.580
soles (X) y Y 1.115 2.095 0.980 1.585 1.250 1.335 2.400 0.980 1.815 1.068 1.240
consumo en alimentos básicos en miles de soles (Y)
a. Realizar el diagrama de dispersión

6. La información estadística obtenida sobre la relación existente entre la inversión realizada y el


rendimiento obtenido en cientos de miles de dólares para explotaciones agrícolas, Determinar:
(a) El diagrama de dispersión (b) Regresión Lineal (c) Coeficiente de correlación y su
interpretación (d) Error Estándar.
Inversión (X) 5 17 15 9 16 20 13 8 19 2 11 22 14 12 8
Rendimiento
(Y) 3 7 6 3 7 7 5 3 7 2 5 8 6 5 3

7. Se tiene Las notas de cierta asignatura en el segundo examen y el número de horas semanales dedicadas
al estudio. Calcular:
(a) Definir las variables (b) La Regresión Lineal (c) Coeficiente de determinación y su
interpretación (d) Error Estándar (e) Calcular el coeficiente de variación para ambas variables y
analizarlas.
Notas 7 6 9 4 9 3 6 8 5 4 7 9 6 7 7 5
Número de horas 20 16 34 8 27 5 18 22 14 9 22 30 15 20 19 11

8. Se quiere analizar la relación entre la edad (X) y el tiempo efectivo de servicio (Y) de los trabajadores,
para el efecto se tomó una muestra, obteniéndose los siguientes resultados. Determinar: a) El diagrama
de dispersión b) Regresión Lineal c) Coeficiente de correlación y su interpretación

X 30 25 38 32 27 30 27 41 36 28 36 30 35 29 25 21 19 36 34 24 40
Y 5 4 12 8 7 5 7 14 11 4 12 8 10 6 3 1 1 12 12 4 14

9. Dada la recta de regresión de mínimos cuadrados Y = a + bX, si se produce un incremento igual a 6


en uno de los valores de X. ¿Cuánto es el incremento respectivo que se produce en Y?

10. Dada la recta de regresión de mínimos cuadrados Y = a + bX, si el tiempo efectivo de servicio del
trabajador es de 20. ¿Cuál seria la edad del trabajador?