Está en la página 1de 38

Instituto de Matemática, Física y Estadística

Regresión Lineal

EIN601 - Métodos estadísticos aplicados a la Ingeniería


Índice

1 Resultado de aprendizaje.
2 Introducción
3 Diagrama de dispersión.
4 Covarianza.
5 Correlación.
6 Coeficientes de correlación.
7 Interpretación del coeficiente de correlación.
8 Principio de los mínimos cuadrados.
9 Regresión lineal (elementos).
10 Ecuación de la recta de regresión lineal.

2/38 IMFE Universidad de las Américas


Resultado de aprendizaje

Al finalizar esta unidad usted será capaz de:

Determinar el modelo de regresión adecuado en función del


tipo de variable dependiente para la resolución de un proble-
ma del área de la ingeniería.

3/38 IMFE Universidad de las Américas


Introducción Regresión Lineal

Introducción
• Lo habitual es que tendamos a considerar un conjunto
amplio de características para describir a cada individuo
de una población, y que características puedan presentar
relación entre ellas.
• En la vida cotidiana existen diversas situaciones en las que
interesa observar si dos variables (características) están
relacionadas, y en ese caso, en que medida.
• En estadística, la relación entre variables, es uno de los
aspectos mas relevantes a estudiar, ya que resulta de
interés conocer el efecto que una o varias variables pueden
causar sobre otra, e incluso predecir valores de una
variable a partir de otra.

4/38 IMFE Universidad de las Américas


Introducción Regresión Lineal

Introducción
• El análisis de regresión lineal es una técnica estadística
utilizada para estudiar la relación entre variables. Permite
explorar y cuantificar la relación entre una variable
llamada dependiente y una o más variables llamadas
independientes, y así desarrollar un modelo (ecuación)
adecuado con él fin de poder predecir valores futuros.
• Al estudiar la relación entre dos variables de una misma
población, debemos ser capaces de responder si ellas están
relacionadas y en que grado. Esto se puede responder a
través de una representación grafica, como el Diagrama de
Dispersión y utilizando las medidas estadísticas de
asociación entre variables como la Covarianza y
Coeficiente de Correlación.
5/38 IMFE Universidad de las Américas
Diagrama de dispersión

Diagrama de dispersión

Es un gráfico útil para visualizar el comportamiento conjunto


de dos variables.

Figura: Diagramas de dispersión.

Para interpretar el grafico de dispersión debe mirarse el patrón


general (tendencia) que siguen los puntos, este patrón revela
dirección, forma y fuerza de la relación.
6/38 IMFE Universidad de las Américas
Covarianza

Covarianza
Es un valor que indica el grado de variación conjunta de dos
variables aleatorias respecto a sus medias.
Pn n
i=1 (xi − x)(yi − y) 1 X
Cov(X,Y ) = = x i yi − x · y
n n
i=1

El signo de la covarianza nos dice si el aspecto de la nube de


puntos es creciente o decreciente, pero no nos da mayor infor-
mación con respecto al grado de la relación.

7/38 IMFE Universidad de las Américas


Covarianza

Covarianza
Por lo que:
• Si Sxy > 0; La relación entre la variable X e Y es directa o
creciente, es decir, si una de las variables aumenta la otra
también aumenta.
• Si Sxy < 0; La relación entre la variable X e Y es inversa o
decreciente, es decir, si una de las variables aumenta la
otra disminuye y viceversa.
• Si Sxy = 0; No hay relación entre la variable X e Y.

8/38 IMFE Universidad de las Américas


Correlación

Correlación
Es la relación lineal (no siempre) entre dos variables. La
correlación entre dos variables no implica necesariamente
causalidad.

Sobre el coeficiente de correlación y el análisis de


regresión
• El coeficiente de correlación es un parámetro que resume
el grado de asociación o relación entre dos variables, es un
valor numérico que está entre [−1, 1].
• El análisis de regresión da lugar a una ecuación que
explica la dependencia de la variable independiente o
predictora sobre la variable dependiente o respuesta.

9/38 IMFE Universidad de las Américas


Coeficientes de correlación

Algunos coeficientes de correlación


Existen diferentes tipos, de entre los que se destacan:
• Coeficiente de correlación de Pearson.
• Coeficiente de correlación de Spearman.
• Coeficiente de correlación Tau de Kendall.
• Coeficiente de correlación V. de Crammer.

10/38 IMFE Universidad de las Américas


Coeficientes de correlación

¿Qué tipo de coeficiente usar?

Variable X Variable Y Coeficiente


Intervalar o de razón Intervalar o de razón Pearson
Intervalar u ordinal Intervalar u ordinal Spearman
Ordinal Ordinal Tau de Kendall
Nominal Nominal V. de Cramer

En esta oportunidad sólo nos enfocaremos en el Coeficiente de


correlación de Pearson y de Spearman.

11/38 IMFE Universidad de las Américas


Coeficientes de correlación

Coeficiente de correlación de Pearson (ρ(X,Y ) )

Cov(X,Y )
ρ(X,Y ) = ,
SX · SY
donde: Cov(X,Y ) es la covarianza, SX es la desviación estándar
de X y SY es la desviación estándar de Y.

Ó
Pn
− x)(yi − y)
i=1 (xi
ρ(X,Y ) = pPn pPn .
2 2
i=1 (xi − x) i=1 (yi − y)

12/38 IMFE Universidad de las Américas


Coeficientes de correlación

Coeficiente de correlación de Spearman


(ρ(X,Y ) (spearman))

Pn
6 i=1 d2i
ρ(X,Y ) (spearman) = 1 − 2
,
n(n − 1)

donde di es la diferencia entre los estadísticos de orden de xi y


yi , (xi − yi ).

13/38 IMFE Universidad de las Américas


Interpretación del coef. de correlación

Figura: Coeficiente de correlación.

14/38 IMFE Universidad de las Américas


Interpretación del coef. de correlación

• 0.8 a 1.0 Correlación muy fuerte y directa.


• 0.6 a 0.79 Correlación fuerte y directa.
• 0.4 a 0.59 Correlación moderada y directa.
• 0.2 a 0.39 Correlación débil y directa.
• 0.0 a 0.19 Correlación muy débil o inexistente.
• -0.8 a -1.0 Correlación muy fuerte e inversa.
• -0.6 a -0.79 Correlación fuerte e inversa.
• -0.4 a -0.59 Correlación moderada e inversa.
• -0.2 a -0.39 Correlación débil e inversa.
• -0.0 a -0.19 Correlación muy débil o inexistente.

15/38 IMFE Universidad de las Américas


Ejemplo 1 (Coef. de correl. de Pearson)

El Gerente de RRHH de una Empresa Constructora de la región


está haciendo un estudio para determinar si existe relación entre
la edad del obrero (X) y el número de días sin trabajar al año (Y).
Se obtienen los siguientes datos:

Edad (X) 25 28 35 43 23 30
N° de días (Y) 5 3 2 1 4 2

Determinar el coeficiente de correlación de Pearson

16/38 IMFE Universidad de las Américas


Desarrollo Ejemplo 1
El coeficiente de correlación viene dado por:
Cov(X,Y )
ρ(X,Y ) = ,
SX · SY
Calcularemos
Pn
primero la covarianza, con
i=1 xi 25+28+35+43+23+30
x= n = 6 = 30, 67 y
Pn
yi 5+3+2+1+4+2
y= i=1
n = 6 = 2, 83

Pn
i=1 xi yi
Cov(X,Y ) = −x·y
n
25 · 5 + 28 · 3 + 35 · 2 + 43 · 1 + 23 · 4 + 30 · 2
= − 30, 67 · 2, 83
6
474
= − 86, 7961 = −7, 7961
6
17/38 IMFE Universidad de las Américas
Desarrollo Ejemplo 1

Calculamos Sx y Sy .

rP
n
i=1 (xi − x)2
Sx =
r n
(25 − 30, 67)2 + (28 − 30, 67)2 + · · · + (30 − 30, 67)2
= = 6, 6999
6

rP
n
i=1 (yi − y)2
Sy =
r n
(5 − 2, 83)2 + (3 − 2, 83)2 + · · · + (2 − 2, 83)2
= = 1, 3437
6

18/38 IMFE Universidad de las Américas


Desarrollo Ejemplo 1

Entonces el coeficiente de correlación es:

Cov(X,Y ) −7, 7961


ρ(X,Y ) = = = −0, 866
SX · SY 6, 6999 · 1, 3437

Interpretación Se tiene un coeficiente de correlación de -0.866,


lo que inidca una correlación muy fuerte y directa entre las va-
riables edad y número de días sin trabajar al año

19/38 IMFE Universidad de las Américas


Ejemplo 2 (Coef. de correl. de Spearman)

Analicemos la relación entre talla y peso de un grupo de perso-


nas:
Talla Peso
1.68 68
1.89 70
1.75 80
1.56 45
1.48 48

Determinar el coeficiente de correlación de Spearman

20/38 IMFE Universidad de las Américas


Desarrollo Ejemplo 2

El coeficiente de correlación de Spearman viene dado por:


Pn
6 i=1 d2i
ρ(X,Y ) (spearman) = 1 − 2
,
n(n − 1)

Convertimos a escala ordinal:


Talla Talla (orden) Peso Peso (orden)
1.68 3 68 3
1.89 5 70 4
1.75 4 80 5
1.56 2 45 1
1.48 1 48 2

21/38 IMFE Universidad de las Américas


Desarrollo Ejemplo 2

Calculamos d2i :

Talla Talla (orden) Peso Peso (orden) di d2i


1.68 3 68 3 3−3=0 0
1.89 5 70 4 5−4=1 1
1.75 4 80 5 4 − 5 = −1 1
1.56 2 45 1 2−1=1 1
1.48 1 48 2 1 − 2 = −1 1

22/38 IMFE Universidad de las Américas


Desarrollo Ejemplo 2

Calculamos ρX,Y (spearman), con n = 5


Primero:

n
X
d2i = 0 + 1 + 1 + 1 + 1 = 4
i=1

Posteriormente:

6×4
ρX,Y (spearman) = 1 − 2
= 0, 8
5(5 − 1)

Interpretación: Existe una correlación muy fuerte y directa entre


el peso y la talla.

23/38 IMFE Universidad de las Américas


Regresión Lineal

Regresión Lineal

24/38 IMFE Universidad de las Américas


Modelo de Regresión Lineal

Modelo de Regresión Lineal


El tipo de relación más sencilla que se establece entre un par de
variables es la relación lineal, que se puede escribir como:

Y =a+b·X

Este modelo supone que una vez determinados los valores de


los parámetros a y b es posible predecir exactamente la
respuesta, dado cualquier valor de la variable de predicción.
En la práctica tal precisión casi nunca es alcanzable, por lo que
se puede esperar es que la ecuación anterior sea valida sujeta a
un error aleatorio, es decir, la relación entre la variable
dependiente y la variable de predicción es mediante una recta
de regresión.
25/38 IMFE Universidad de las Américas
Modelo de Regresión Lineal

Modelo de Regresión Lineal


Se tiene el modelo de regresion lineal:

Y = a + b · X + εi

Donde,
a: Intercepto, parámetro constante que representa a la ordenada
en el origen
b: Pendiente de la recta, indica como cambia la variable
respuesta al cambiar la variable de predicción en una unidad.
εi : Error o perturbación aleatoria, representa a un conjunto de
factores no controlados, que provoca que la relación entre las
variables no sea perfecta.

26/38 IMFE Universidad de las Américas


Modelo de Regresión Lineal

Principio de los Mínimos Cuadrados


Una vez que se ha seleccionado el modelo, la siguiente tarea es
la de obtener estimaciones para los parámetros que intervienen
en el mismo.

Es un método que permite determinar la ecuación de regresión


al minimizar la suma de los cuadrados de las distancias
verticales entre los valores reales de Y y los valores
pronosticados de Y.

27/38 IMFE Universidad de las Américas


Regresión Lineal

Figura: Recta del cuadro 1 elaborada con el Principio de los Mínimos


Cuadrados.

28/38 IMFE Universidad de las Américas


Regresión Lineal

Ecuación de la Recta de Regresión


Consideraremos el modelo lineal simple de la forma:

Y = a + bX + εi

El método de mínimos cuadrados considera las desviación de


las observación Yi de su valor medio y determina los valores de
a y b que minimizan la suma de los cuadrados de estas
desviaciones.

La i-ésima desviación o error es:

εi = Yi − a − b · Xi

29/38 IMFE Universidad de las Américas


Regresión Lineal

Ecuación de la Recta de Regresión


Y la suma de los cuadrados de los errores es:

n
X n
X
ε2i = (Yi − a − b · Xi )2
i=1 i=1

Los estimadores de mínimos cuadrados de a y b se obtienen


derivando con respecto a a y b e igualando cada derivada con
respecto a cero.

30/38 IMFE Universidad de las Américas


Regresión Lineal

Ecuación de la Recta de Regresión


Se obtiene los estimadores de a y b;
Pn Pn Pn
bb = ρ(X,Y ) · SY = n i=1 xi yi − i=1 xi i=1 yi
Pn Pn 2 ,
SX 2
n i=1 xi − ( i=1 xi )

donde ρ(X,Y ) es el coeficiente de correlación de Pearson, SY la


desviación estándar de Y y SX la desviación estándar de X.

a = Y − bX,
b

donde Y es el promedio de Y y X es el promedio de X.

31/38 IMFE Universidad de las Américas


Regresión Lineal

Ecuación de la Recta de Regresión


Dados los estimadores de mínimos cuadrados b a y bb para la
intersección y pendiente, respectivamente, la recta de regresión
estimada para el modelo lineal es:

a + bb · X
Yb = b

Donde Ybi es el estimador para la media de la observación Yi , la


cual corresponde al valor Xi de la variable de predicción.

32/38 IMFE Universidad de las Américas


Ejemplo 3 (Regresión lineal)
La siguiente información ilustra el resultado del número de ho-
ras trabajadas mensualmente (X) y el sueldo mensual en miles
de pesos(Y) de un grupo de 20 trabajadores:

Trabajador 1 2 3 4 5 6 7 8 9 10
Horas
180 225 200 200 224 222 180 225 200 200
trabajadas
Sueldo, en
800 900 750 650 900 900 800 900 900 850
miles de $

Trabajador 11 12 13 14 15 16 17 18 19 20
Horas
200 225 200 200 224 222 224 222 200 195
trabajadas
Sueldo, en
650 950 750 650 900 900 910 900 750 900
miles de $

33/38 IMFE Universidad de las Américas


Ejemplo 3 (Regresión lineal)

Determinar la recta de regresión lineal por el método de Míni-


mos Cuadrados que se ajuste a los datos.

Desarrollo:
Obtendremos los estimadores de a y b, para calcualr la recta de
regresión.

a = Y − bX,
b

Pn Pn Pn
bb = n i=1 xi yi − i=1 xi i=1 yi
Pn Pn 2 ,
2
n i=1 xi − ( i=1 xi )

34/38 IMFE Universidad de las Américas


Desarrollo Ejemplo 3
Obtendremos primero bb, por lo que calcularemos

n
X
xi yi = 180 · 800 + 225 · 900 + · · · + 200 · 750 + 195 · 900 = 3478690
i=1

n
X
xi = 180 + 225 + 200 + 200 + · · · + 222 + 200 + 195 = 4168
i=1

n
X
yi = 800 + 900 + 750 + 650 + · · · + 910 + 900 + 750 + 900 = 16610
i=1

n
X
x2i = 1802 + 2252 + 2002 + 2002 + · · · + 2222 + 2002 + 1952 = 873080
i=1

35/38 IMFE Universidad de las Américas


Desarrollo Ejemplo 3
Se tiene el estimador para b,
Pn Pn Pn
bb = n i=1 xi yi − i=1 xi i=1 yi 20 · 3478690 − 4168 · 16610
2 =
20 · 873080 − (4168)2
Pn 2
Pn
n i=1 xi − ( i=1 xi )
bb =3,8413

Obtengamos el estimador para el parámetro a, para ello necesi-


tamos calcular las medias de ambas variables.

Pn
i=1 xi 180 + 225 + 200 + 200 + · · · + 222 + 200 + 195
X= = = 208, 4
n 20

Pn
i=1 yi 800 + 900 + 750 + 650 + · · · + 900 + 750 + 900
Y = = = 830, 5
n 20

36/38 IMFE Universidad de las Américas


Desarrollo Ejemplo 3

Se tiene el estimador para a,

a =Y − bb · X = 830, 5 − 3, 8413 · 208, 4


b
a =29, 973
b

Luego la Ecuación de la recta de regresión queda

Ŷ = 29, 973 + 3, 8413X

37/38 IMFE Universidad de las Américas


Bibliografía

• Estadística Aplicada a los Negocios y a la Economía (15


Edición, Douglas A. Lind, William G. Marchal y Samuel
A.Wathen).
• https://es.wikipedia.org/wiki/Correlacion
• https://explorable.com/es/la-correlacion-estadistica
• https://personal.us.es/vararey/adatos2/correlacion.pdf
• https://es.wikipedia.org/wiki/Coeficiente_de_corr
• http://scielo.sld.cu/scielo.php?script=sci_arttext
• https://es.wikipedia.org/wiki/Covarianza

38/38 IMFE Universidad de las Américas

También podría gustarte