Está en la página 1de 38

ESTADÍSTICA II

Covarianza y Regresión Lineal Simple

Jorge Alberto Barón Cárdenas

Departamento de Matemáticas y Estadı́sticas


Universidad de Córdoba

17 de septiembre de 2020

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 1 / 38


Tabla de Contenido

1 Regresión lineal simple y correlación


Introducción
Covarianza y Correlación
Modelo de regresión lineal simple
Recta de regresión ajustada
Método de mı́nimos cuadrados
Referencias

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 2 / 38


Regresión lineal simple y correlación Introducción

Introducción

En las investigaciones cuantitativas, en muchas ocasiones interesa


estudiar el comportamiento de más de una caracterı́stica (variables)
de los individuos de una población de estudio, y aunque siempre
es posible analizar cada variable de forma independiente, en algu-
nos casos el comportamiento natural de una variable depende de
otra, por lo cual es necesario analizarlas de manera conjunta, con
el propósito de dilucidar las relaciones existentes entre tales ca-
racterı́sticas, para ello se recurre por lo general a la utilización de
técnicas multivariadas que facilitan la identificación de las relacio-
nes lineales más significativas.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 3 / 38


Regresión lineal simple y correlación Introducción

Introducción

En la práctica a menudo se requiere resolver problemas que impli-


can conjuntos de variables de las cuales se sabe que tienen alguna
relación inherente entre sı́. Por ejemplo, en una situación industrial
quizá se sepa que el contenido de alquitrán en el flujo de salida
de un proceso quı́mico está relacionado con la temperatura en la
entrada. Podrı́a ser de interés desarrollar un método de pronóstico,
es decir, un procedimiento que permita estimar el contenido de al-
quitrán para varios niveles de temperatura de entrada a partir de
información experimental. Desde luego, es muy probable que para
muchos ejemplos concretos en los que la temperatura de entrada sea
la misma, por ejemplo 130◦ C, el contenido de alquitrán de salida
no sea el mismo.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 4 / 38


Regresión lineal simple y correlación Introducción

Introducción

Esto es muy similar a lo que ocurre cuando se estudian varios au-


tomóviles con un motor del mismo volumen; no todos tienen el
mismo rendimiento de combustible. No todas las casas ubicadas en
la misma zona del paı́s, con la misma superficie de construcción, se
venden al mismo precio. El contenido de alquitrán, el rendimiento
del combustible (en millas por galón) y el precio de las casas (en
miles de dólares) son variables dependientes naturales o variables
respuestas. Una forma razonable de relación entre la respuesta Y y
el regresor x es la relación lineal,

Y = β0 + β1 x

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 5 / 38


Regresión lineal simple y correlación Introducción

Introducción

β0 : es el intercepto.
β1 : es la pendiente.
Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 6 / 38
Regresión lineal simple y correlación Covarianza y Correlación

Covarianza
La covarianza es una medida que indica el grado de variación
conjunta de dos variables aleatorias respecto a sus medias. Es la
medida básica para determinar si existe una dependencia lineal
entre dos variables.

Para dos caracterı́sticas X y Y , medidas a un número determinado


de individuo, la covarianza está dada por:
n
X
(xi − x̄) (yi − ȳ)
i=1
Cov (X, Y ) =
n−1
n
X
xi yi − nx̄ȳ
i=1
=
n−1
Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 7 / 38
Regresión lineal simple y correlación Covarianza y Correlación

Correlación

El coeficiente de correlación lineal (de Pearson) es un indicador que


nos permite establecer el grado y el sentido de asociación lineal entre
dos variables cuantitativas y está definido de la siguiente manera:
Cov (X, Y )
Cor (X, Y ) = ρxy = p p
V (X) V (Y )
Donde:

−1 ≤ ρxy ≤ 1

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 8 / 38


Regresión lineal simple y correlación Covarianza y Correlación

Interpretación del coeficiente de correlación

Si ρxy < 0, hay correlación negativa: significa que existe


una relación o asociación lineal inversa entre las variables X e
Y , cuánto más cerca este a -1, más potente sera la asociación.
Si ρxy = −1, existe una correlación negativa perfecta.
Si ρxy = 0, se dice que las variables están incorrelacionadas
linealmente. Esto no indica necesariamente independencia
entre las variables.
Si ρxy > 0, hay correlación positiva: significa que existe
una relación o asociación lineal directa entre las variables X e
Y , cuánto más cerca este a 1, más potente sera la asociación.
Si ρxy = 1, existe una correlación positiva perfecta.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 9 / 38


Regresión lineal simple y correlación Covarianza y Correlación

Interpretación del coeficiente de correlación

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 10 / 38


Regresión lineal simple y correlación Covarianza y Correlación

Coeficiente de correlación

Ejercicio 1:

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 11 / 38


Regresión lineal simple y correlación Covarianza y Correlación

Ejercicio 1
Definamos:
x: Millones gastados en ID. (Variable independiente)
y: Ganancia Anual (en millones). (Variable dependiente)

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 12 / 38


Regresión lineal simple y correlación Covarianza y Correlación

Ejercicio 1
n
Tenemos que: X
yi
x y x2 y2 xy i=1 180
2 20 4 400 40 ȳ = = = 30
n 6
3 25 9 625 75
5 34 25 1156 170 n
4 30 16 900 120
X
xi yi − nx̄ȳ
11 40 121 1600 440 i=1
5 31 25 961 155 Cov (x, y) =
n−1
30 180 200 5642 1000 1000 − (6) (5) (30)
=
Ası́: 6−1
n
X = 20
xi
i=1 30
x̄ = = =5
n 6
Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 13 / 38
Regresión lineal simple y correlación Covarianza y Correlación

Ejercicio 1
Coeficiente de correlación de Pearson:
Cov (X, Y )
n
ρxy = p p
X V (X) V (Y )
x2i − nx̄2 20
i=1 =√ √ = 0.9091
V (X) = 10 48.4
n−1
200 − (6) (52 )
= = 10
6−1
Xn
yi2 − nȳ 2
i=1
V (Y ) =
n−1
5642 − (6) (302 )
= = 48.4
6−1
Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 14 / 38
Regresión lineal simple y correlación Covarianza y Correlación

Ejercicio 1

Interpretación:

Como el coeficiente de correlación de Pearson (ρxy = 0.9091) está


cercano a 1, implica que existe una correlación lineal fuerte y directa
entre los gastos en ID y la ganancia anual.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 15 / 38


Regresión lineal simple y correlación Modelo de regresión lineal simple

Modelo de regresión lineal simple


Un análisis de la relación entre X y Y requiere el planteamien-
to de un modelo estadı́stico, el cual representa una situación
ideal que, en esencia, define cómo percibimos que el sistema en
cuestión generó los datos. El modelo debe incluir al conjunto
{(xi , yi ) ; i = 1, 2, . . . , n} de datos que implica n pares de valores
(x, y). A continuación se presenta el modelo estadı́stico para la re-
gresión lineal simple. La respuesta Y se relaciona con la variable
independiente x a través de la ecuación:

y = β0 + β1 x + 

β0 : es el intercepto.
β1 : es la pendiente.
: es una variable aleatoria que representa el error.
Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 16 / 38
Regresión lineal simple y correlación Modelo de regresión lineal simple

Modelo de regresión lineal simple

La variable aleatoria  se supone está distribuida con:


E () = 0
V () = σ 2
Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 17 / 38
Regresión lineal simple y correlación Recta de regresión ajustada

Modelo de regresión lineal simple

Un aspecto importante del análisis de regresión es, en términos sen-


cillos, estimar los parámetros β0 y β1 , es decir, estimar los llamados
coeficientes de regresión. Entonces, la recta de regresión ajustada,
o estimada, es dada por:

ŷ = β̂0 + β̂1 x

donde ŷ es el valor pronosticado o ajustado. Es evidente que la


recta ajustada es un estimado de la verdadera recta de regresión.
Se espera que la recta ajustada esté más cerca de la verdadera lı́nea
de regresión cuando se dispone de una gran cantidad de datos.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 18 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Método de mı́nimos cuadrados

Debemos calcular β̂0 y β̂1 , de manera que la suma de los cuadrados


de los residuales sea mı́nima. La suma residual de los cuadrados con
frecuencia se denomina suma de los cuadrados del error respecto de
la recta de regresión y se denota como SCE. Este procedimiento
de minimización para estimar los parámetros se denomina método
de mı́nimos cuadrados. Por lo tanto, debemos calcular β̂0 y β̂1 para
minimizar SCE.
X n Xn n 
X 2
SCE = e2i = (yi − ŷi )2 = yi − β̂0 − β̂1 xi
i=1 i=1 i=1

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 19 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Método de mı́nimos cuadrados


Al diferenciar la SCE con respecto a β̂0 y β̂1 se obtiene:
n 
∂ (SCE) X 
= −2 yi − β̂0 − β̂1 xi
∂ β̂0 i=1

n 
∂ (SCE) X 
= −2 yi − β̂0 − β̂1 xi xi
∂ β̂1 i=1

Al igualar a cero las derivadas parciales y reacomodar los términos,


obtenemos las ecuaciones siguientes:
n
X Xn
nβ̂0 + β̂1 xi = yi ⇐⇒ nβ̂0 + β̂1 nx̄ = nȳ
i=1 i=1
n
X n
X n
X n
X n
X
β̂0 xi + β̂1 x2i = xi yi ⇐⇒ β̂0 x̄ + β̂1 x2i = xi y i
i=1 i=1 i=1 i=1 i=1
Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 20 / 38
Regresión lineal simple y correlación Método de mı́nimos cuadrados

Método de mı́nimos cuadrados

Dada la muestra {(xi , yi ) ; i = 1, 2, . . . , n}, los estimados β̂0 y β̂1 de


los mı́nimos cuadrados de los coeficientes de regresión, se calculan
mediante las fórmulas:
n
X
xi yi − nx̄ȳ
i=1 Cov (X, Y )
β̂1 = n =
X V (X)
x2i − nx̄2
i=1

β̂0 = ȳ − β̂1 x̄

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 21 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2:

Considere los datos experimentales que se obtuvieron de 33 mues-


tras de desechos tratados quı́micamente en un estudio realizado en
Virginia Tech. Se registraron los valores de x, la reducción porcen-
tual de los sólidos totales, y de y, el porcentaje de disminución de
la demanda de oxı́geno quı́mico, la información se muestra en la
siguiente tabla:

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 22 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 23 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 24 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Observaciones:

Del diagrama de dispersión se puede observar un comportamiento


lineal de la variable reducción de oxı́geno quı́mico, en función de
la variable reducción de sólidos, indicando una posible asociación
lineal entre tales variables. En donde dicha relación es positiva o
directa, es decir, a medida que aumenta la reducción de sólidos, la
reducción de oxigeno quı́mico también aumenta.
Miremos a través del coeficiente de correlación de Pearson que tan
fuerte es la asociación entre las variables mencionadas y ajustemos
el modelo regresión lineal estimado.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 25 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2
Tenemos que:
Xn n
X n
X
xi = 1104; yi = 1124; xi yi = 41355;
i=1 i=1 i=1
n
X Xn
x2i = 41086; yi2 = 41998
i=1 i=1

Luego:
Xn
xi
i=1 1104
x̄ = n
= = 33.4545;
33
n
X
yi
i=1 1124
ȳ = n
= = 34.0606
33
Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 26 / 38
Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2
Las varianzas:
n
X
x2i − nx̄2
i=1 41086 − (33) (33.45452 )
V (X) = = = 129.76
n−1 33 − 1
n
X
yi2 − nȳ 2
i=1 41998 − (33) (34.06062 )
V (Y ) = = = 116.06
n−1 33 − 1
La covarianza entre X y Y :
n
X
xi yi − nx̄ȳ
i=1 41355 − (33) (33.4545) (34.0606)
Cov (X, Y ) = = = 117.25
n−1 33 − 1

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 27 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

El coeficiente de correlación de Pearson:

Cov (X, Y ) 117.25


ρxy = p p =√ √ = 0.9554
V (X) V (y) 129.76 116.06
Implica que existe una relación lineal fuerte y directa entre el
porcentaje de reducción de sólidos y el porcentaje de reducción de
la demanda de oxigeno.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 28 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Estimación de los coeficientes del modelo:


Para la pendiente:

Cov (X, Y ) 117.25


βˆ1 = = = 0.9037
V (X) 129.75
Para el intercepto:

βˆ0 = ȳ − βˆ1 x̄ = 34.0606 − (0.9037) (33.4545) = 3.8278

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 29 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2
ŷ = 3.8277 + 0.9037x

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 30 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Modelo ajustado:

ŷ = 3.8277 + 0.9037x

Interpretaciones del modelo:

β̂1 = 0.9037 : se estima que por cada unidad que se aumente en la


reducción de sólidos, aumenta la reducción de demanda de oxigeno
aproximadamente en un 0.9 %

β̂0 = 3.8277 : se estima que si no hay reducción de sólidos la reduc-


ción en la demanda de oxigeno es de aproximadamente 3.83 %

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 31 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Estimación a través del modelo:

Si la reducción de sólidos es del 30 %. Estime la reducción media


de la demanda de oxigeno.

ŷ = 3.8277 + (0.9037) (30) = 30.9387

Si la reducción de sólidos es del 30 % se estima que la reducción


media de la demanda de oxigeno es de aproximadamente un 31 %.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 32 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 3

Para la situación propuesta en el ejercicio 1, ajustar un modelo de


regresión lineal simple, para estimar la ganancia anual, en función
de la cantidad de millones invertidos en ID.

Solución:

Definamos:
x: Millones gastados en ID. (Variable independiente)
y: Ganancia anual (en millones). (Variable dependiente)

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 33 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 3

Del ejercicio 1, tenemos que:

x̄ = 5, ȳ = 30, Cov (x, y) = 20, V (X) = 10

Estimación de los coeficientes del modelo:


Para la pendiente:

Cov (X, Y ) 20
βˆ1 = = =2
V (X) 10
Para el intercepto:

βˆ0 = ȳ − βˆ1 x̄ = 30 − (2) (5) = 20

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 34 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 3
ŷ = 20 + 2x

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 35 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 3

Modelo ajustado:

ŷ = 20 + 2x
Interpretaciones del modelo:

β̂1 = 2 : se estima que por cada millón que se aumente en la


inversión de ID, la ganancia anual aumenta en 2 millones.

β̂0 = 20 : se estima que si no hay inversión de ID, la ganancia anual


es de 20 millones.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 36 / 38


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 3

Estimación a través del modelo:

Si la inversión en ID es de 10 millones, estime la ganancia anual.

ŷ = 20 + (2) (10) = 40

Si la inversión en ID es de 10 millones, estima que la ganancia anual


es de 40 millones.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 37 / 38


Bibliografı́a

Referencias I

Montgómery, D. (2003). Probabilidad y Estadı́stica aplicadas a la


Ingenierı́a. EDITORIAL LIMUSA.
RONALD E. WALPOLE, R. (Novena edición, 2012). Probabilidad y
estadı́stica para ingenierı́a y ciencias. PEARSON EDUCACIÓN,
México.
Webster, A. (2000). Estadı́stica aplicada a los negocios y la eco-
nomı́a. Bradley University.

Jorge A. Barón (Unicórdoba) ESTADÍSTICA II 38 / 38

También podría gustarte