Está en la página 1de 39

FUNDAMENTOS DE BIOESTADÍSTICA

Covarianza y Regresión Lineal Simple

Jorge Alberto Barón Cárdenas

Departamento de Matemáticas y Estadı́sticas


Universidad de Córdoba

14 de noviembre de 2022

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 1 / 39


Tabla de Contenido

1 Regresión lineal simple y correlación


Introducción
Covarianza y Correlación
Modelo de regresión lineal simple
Recta de regresión ajustada
Método de mı́nimos cuadrados
Medida de la calidad del ajuste
Referencias

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 2 / 39


Regresión lineal simple y correlación Introducción

Introducción

En las investigaciones cuantitativas, en muchas ocasiones interesa


estudiar el comportamiento de más de una caracterı́stica (variables)
de los individuos de una población de estudio, y aunque siempre
es posible analizar cada variable de forma independiente, en algu-
nos casos el comportamiento natural de una variable depende de
otra, por lo cual es necesario analizarlas de manera conjunta, con
el propósito de dilucidar las relaciones existentes entre tales ca-
racterı́sticas, para ello se recurre por lo general a la utilización de
técnicas multivariadas que facilitan la identificación de las relacio-
nes lineales más significativas.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 3 / 39


Regresión lineal simple y correlación Introducción

Introducción

En la práctica a menudo se requiere resolver problemas que impli-


can conjuntos de variables de las cuales se sabe que tienen alguna
relación inherente entre sı́. Por ejemplo, en una situación industrial
quizá se sepa que el contenido de alquitrán en el flujo de salida
de un proceso quı́mico está relacionado con la temperatura en la
entrada. Podrı́a ser de interés desarrollar un método de pronóstico,
es decir, un procedimiento que permita estimar el contenido de al-
quitrán para varios niveles de temperatura de entrada a partir de
información experimental. Desde luego, es muy probable que para
muchos ejemplos concretos en los que la temperatura de entrada
sea la misma, por ejemplo 130°C, el contenido de alquitrán de sa-
lida no sea el mismo.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 4 / 39


Regresión lineal simple y correlación Introducción

Introducción

Esto es muy similar a lo que ocurre cuando se estudian varios au-


tomóviles con un motor del mismo volumen; no todos tienen el
mismo rendimiento de combustible. No todas las casas ubicadas en
la misma zona del paı́s, con la misma superficie de construcción, se
venden al mismo precio. El contenido de alquitrán, el rendimiento
del combustible (en millas por galón) y el precio de las casas (en
miles de dólares) son variables dependientes naturales o variables
respuestas. Una forma razonable de relación entre la respuesta Y y
el regresor x es la relación lineal,

Y = β0 + β1 x

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 5 / 39


Regresión lineal simple y correlación Introducción

Introducción

β0 : es el intercepto.
β1 : es la pendiente.
Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 6 / 39
Regresión lineal simple y correlación Covarianza y Correlación

Covarianza
La covarianza es una medida que indica el grado de variación
conjunta de dos variables aleatorias respecto a sus medias. Es la
medida básica para determinar si existe una dependencia lineal
entre dos variables.

Para dos caracterı́sticas X y Y , medidas a un número determinado


de individuo, la covarianza está dada por:
n
X
(xi − x̄) (yi − ȳ)
i=1
Cov (X, Y ) =
n−1
n
X
xi yi − nx̄ȳ
i=1
=
n−1
Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 7 / 39
Regresión lineal simple y correlación Covarianza y Correlación

Correlación

El coeficiente de correlación lineal (de Pearson) es un indicador que


nos permite establecer el grado y el sentido de asociación lineal entre
dos variables cuantitativas y está definido de la siguiente manera:
Cov (X, Y )
Cor (X, Y ) = ρxy = p p
V (X) V (Y )
Donde:

−1 ≤ ρxy ≤ 1

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 8 / 39


Regresión lineal simple y correlación Covarianza y Correlación

Interpretación del coeficiente de correlación

Si ρxy < 0, hay correlación negativa: significa que existe


una relación o asociación lineal inversa entre las variables X e
Y , cuánto más cerca este a -1, más potente sera la asociación.
Si ρxy = −1, existe una correlación negativa perfecta.
Si ρxy = 0, se dice que las variables están incorrelacionadas
linealmente. Esto no indica necesariamente independencia
entre las variables.
Si ρxy > 0, hay correlación positiva: significa que existe
una relación o asociación lineal directa entre las variables X e
Y , cuánto más cerca este a 1, más potente sera la asociación.
Si ρxy = 1, existe una correlación positiva perfecta.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 9 / 39


Regresión lineal simple y correlación Covarianza y Correlación

Interpretación del coeficiente de correlación

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 10 / 39


Regresión lineal simple y correlación Covarianza y Correlación

Coeficiente de correlación

Ejercicio 1:

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 11 / 39


Regresión lineal simple y correlación Covarianza y Correlación

Ejercicio 1
Definamos:
x: Millones gastados en ID. (Variable independiente)
y: Ganancia Anual (en millones). (Variable dependiente)
Diagrama de Dispersión
40

35
Ganancia Anual

30

25

20
3 6 9
Millones gastados en ID
Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 12 / 39
Regresión lineal simple y correlación Covarianza y Correlación

Ejercicio 1
n
Tenemos que: X
yi
x y x2 y2 xy i=1 180
2 20 4 400 40 ȳ = = = 30
n 6
3 25 9 625 75
5 34 25 1156 170 n
4 30 16 900 120
X
xi yi − nx̄ȳ
11 40 121 1600 440 i=1
5 31 25 961 155 Cov (x, y) =
n−1
30 180 200 5642 1000 1000 − (6) (5) (30)
=
Ası́: 6−1
n
X = 20
xi
i=1 30
x̄ = = =5
n 6
Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 13 / 39
Regresión lineal simple y correlación Covarianza y Correlación

Ejercicio 1
Coeficiente de correlación de Pearson:
Cov (X, Y )
n
ρxy = p p
X V (X) V (Y )
x2i − nx̄2 20
i=1 =√ √ = 0.9091
V (X) = 10 48.4
n−1
200 − (6) (52 )
= = 10
6−1
Xn
yi2 − nȳ 2
i=1
V (Y ) =
n−1
5642 − (6) (302 )
= = 48.4
6−1
Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 14 / 39
Regresión lineal simple y correlación Covarianza y Correlación

Ejercicio 1

Interpretación:

Como el coeficiente de correlación de Pearson (ρxy = 0.9091) está


cercano a 1, implica que existe una correlación lineal fuerte y directa
entre los gastos en ID y la ganancia anual.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 15 / 39


Regresión lineal simple y correlación Modelo de regresión lineal simple

Modelo de regresión lineal simple


Un análisis de la relación entre X y Y requiere el planteamien-
to de un modelo estadı́stico, el cual representa una situación
ideal que, en esencia, define cómo percibimos que el sistema en
cuestión generó los datos. El modelo debe incluir al conjunto
{(xi , yi ) ; i = 1, 2, . . . , n} de datos que implica n pares de valores
(x, y). A continuación se presenta el modelo estadı́stico para la re-
gresión lineal simple. La respuesta Y se relaciona con la variable
independiente x a través de la ecuación:

y = β0 + β1 x + ϵ

β0 : es el intercepto.
β1 : es la pendiente.
ϵ: es una variable aleatoria que representa el error.
Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 16 / 39
Regresión lineal simple y correlación Modelo de regresión lineal simple

Modelo de regresión lineal simple

La variable aleatoria ϵ se supone está distribuida con:


E (ϵ) = 0
V (ϵ) = σ 2
Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 17 / 39
Regresión lineal simple y correlación Recta de regresión ajustada

Modelo de regresión lineal simple

Un aspecto importante del análisis de regresión es, en términos sen-


cillos, estimar los parámetros β0 y β1 , es decir, estimar los llamados
coeficientes de regresión. Entonces, la recta de regresión ajustada,
o estimada, es dada por:

ŷ = β̂0 + β̂1 x

donde ŷ es el valor pronosticado o ajustado. Es evidente que la


recta ajustada es un estimado de la verdadera recta de regresión.
Se espera que la recta ajustada esté más cerca de la verdadera lı́nea
de regresión cuando se dispone de una gran cantidad de datos.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 18 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Método de mı́nimos cuadrados

Debemos calcular β̂0 y β̂1 , de manera que la suma de los cuadrados


de los residuales sea mı́nima. La suma residual de los cuadrados con
frecuencia se denomina suma de los cuadrados del error respecto de
la recta de regresión y se denota como SCE. Este procedimiento
de minimización para estimar los parámetros se denomina método
de mı́nimos cuadrados. Por lo tanto, debemos calcular β̂0 y β̂1 para
minimizar SCE.
X n Xn n 
X 2
SCE = e2i = (yi − ŷi )2 = yi − β̂0 − β̂1 xi
i=1 i=1 i=1

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 19 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Método de mı́nimos cuadrados


Al diferenciar la SCE con respecto a β̂0 y β̂1 se obtiene:
n 
∂ (SCE) X 
= −2 yi − β̂0 − β̂1 xi
∂ β̂0 i=1

n 
∂ (SCE) X 
= −2 yi − β̂0 − β̂1 xi xi
∂ β̂1 i=1

Al igualar a cero las derivadas parciales y reacomodar los términos,


obtenemos las ecuaciones siguientes:
n
X Xn
nβ̂0 + β̂1 xi = yi ⇐⇒ nβ̂0 + β̂1 nx̄ = nȳ
i=1 i=1
n
X n
X n
X n
X n
X
β̂0 xi + β̂1 x2i = xi yi ⇐⇒ β̂0 x̄ + β̂1 x2i = xi y i
i=1 i=1 i=1 i=1 i=1
Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 20 / 39
Regresión lineal simple y correlación Método de mı́nimos cuadrados

Método de mı́nimos cuadrados

Dada la muestra {(xi , yi ) ; i = 1, 2, . . . , n}, los estimados β̂0 y β̂1 de


los mı́nimos cuadrados de los coeficientes de regresión, se calculan
mediante las fórmulas:
n
X
xi yi − nx̄ȳ
i=1 Cov (X, Y )
β̂1 = n =
X V (X)
x2i − nx̄2
i=1

β̂0 = ȳ − β̂1 x̄

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 21 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2:

Considere los datos experimentales que se obtuvieron de 33 mues-


tras de desechos tratados quı́micamente en un estudio realizado en
Virginia Tech. Se registraron los valores de x, la reducción porcen-
tual de los sólidos totales, y de y, el porcentaje de disminución de
la demanda de oxı́geno quı́mico, la información se muestra en la
siguiente tabla:

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 22 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 23 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Diagrama de Dispersión
50
Reducción de Oxógeno Químico

40

30

20

10

10 20 30 40 50
Reducción de Sólidos

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 24 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Observaciones:

Del diagrama de dispersión se puede observar un comportamiento


lineal de la variable reducción de oxı́geno quı́mico, en función de
la variable reducción de sólidos, indicando una posible asociación
lineal entre tales variables. En donde dicha relación es positiva o
directa, es decir, a medida que aumenta la reducción de sólidos, la
reducción de oxigeno quı́mico también aumenta.
Miremos a través del coeficiente de correlación de Pearson que tan
fuerte es la asociación entre las variables mencionadas y ajustemos
el modelo regresión lineal estimado.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 25 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2
Tenemos que:
Xn n
X n
X
xi = 1104; yi = 1124; xi yi = 41355;
i=1 i=1 i=1
n
X Xn
x2i = 41086; yi2 = 41998
i=1 i=1

Luego:
Xn
xi
i=1 1104
x̄ = n
= = 33.4545;
33
n
X
yi
i=1 1124
ȳ = n
= = 34.0606
33
Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 26 / 39
Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2
Las varianzas:
n
X
x2i − nx̄2
i=1 41086 − (33) (33.45452 )
V (X) = = = 129.76
n−1 33 − 1
n
X
yi2 − nȳ 2
i=1 41998 − (33) (34.06062 )
V (Y ) = = = 116.06
n−1 33 − 1
La covarianza entre X y Y :
n
X
xi yi − nx̄ȳ
i=1 41355 − (33) (33.4545) (34.0606)
Cov (X, Y ) = = = 117.25
n−1 33 − 1

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 27 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

El coeficiente de correlación de Pearson:

Cov (X, Y ) 117.25


ρxy = p p =√ √ = 0.9554
V (X) V (y) 129.76 116.06
Implica que existe una relación lineal fuerte y directa entre el
porcentaje de reducción de sólidos y el porcentaje de reducción de
la demanda de oxigeno.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 28 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Estimación de los coeficientes del modelo:


Para la pendiente:

Cov (X, Y ) 117.25


βˆ1 = = = 0.9037
V (X) 129.75
Para el intercepto:

βˆ0 = ȳ − βˆ1 x̄ = 34.0606 − (0.9037) (33.4545) = 3.8278

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 29 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2
ŷ = 3.8277 + 0.9037x

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 30 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Modelo ajustado:

ŷ = 3.8277 + 0.9037x

Interpretaciones del modelo:

β̂1 = 0.9037 : se estima que por cada unidad que se aumente en la


reducción de sólidos, aumenta la reducción de demanda de oxigeno
aproximadamente en un 0.9 %

β̂0 = 3.8277 : se estima que si no hay reducción de sólidos la reduc-


ción en la demanda de oxigeno es de aproximadamente 3.83 %

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 31 / 39


Regresión lineal simple y correlación Método de mı́nimos cuadrados

Ejercicio 2

Estimación a través del modelo:

Si la reducción de sólidos es del 30 %. Estime la reducción media


de la demanda de oxigeno.

ŷ = 3.8277 + (0.9037) (30) = 30.9387

Si la reducción de sólidos es del 30 % se estima que la reducción


media de la demanda de oxigeno es de aproximadamente un 31 %.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 32 / 39


Regresión lineal simple y correlación Medida de la calidad del ajuste

Medida de la calidad del ajuste


El coeficiente de determinación: (R2 )

El coeficiente de determinación es una medida de la proporción de


la variabilidad explicada por el modelo ajustado.
2
Sxy
R2 = = ρ2xy
Sxx Syy

Para el modelo ajustado en ejemplo de las muestras de desechos


quı́micos, tenemos que:

R2 = ρ2xy = 0.95547942 = 0.9129

Implica que el modelo ajustado está explicando un 91.29 % de la


variabilidad total.
Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 33 / 39
Regresión lineal simple y correlación Medida de la calidad del ajuste

Ejercicio 3

Para la situación propuesta en el ejercicio 1, ajustar un modelo de


regresión lineal simple, para estimar la ganancia anual, en función
de la cantidad de millones invertidos en ID.

Solución:

Definamos:
x: Millones gastados en ID. (Variable independiente)
y: Ganancia anual (en millones). (Variable dependiente)

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 34 / 39


Regresión lineal simple y correlación Medida de la calidad del ajuste

Ejercicio 3

Del ejercicio 1, tenemos que:

x̄ = 5, ȳ = 30, Cov (x, y) = 20, V (X) = 10

Estimación de los coeficientes del modelo:


Para la pendiente:

Cov (X, Y ) 20
βˆ1 = = =2
V (X) 10
Para el intercepto:

βˆ0 = ȳ − βˆ1 x̄ = 30 − (2) (5) = 20

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 35 / 39


Regresión lineal simple y correlación Medida de la calidad del ajuste

Ejercicio 3
ŷ = 20 + 2x

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 36 / 39


Regresión lineal simple y correlación Medida de la calidad del ajuste

Ejercicio 3

Modelo ajustado:

ŷ = 20 + 2x
Interpretaciones del modelo:

β̂1 = 2 : se estima que por cada millón que se aumente en la


inversión de ID, la ganancia anual aumenta en 2 millones.

β̂0 = 20 : se estima que si no hay inversión de ID, la ganancia anual


es de 20 millones.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 37 / 39


Regresión lineal simple y correlación Medida de la calidad del ajuste

Ejercicio 3

Estimación a través del modelo:

Si la inversión en ID es de 10 millones, estime la ganancia anual.

ŷ = 20 + (2) (10) = 40

Si la inversión en ID es de 10 millones, estima que la ganancia anual


es de 40 millones.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 38 / 39


Bibliografı́a

Referencias I

Montgómery, D. (2003). Probabilidad y Estadı́stica aplicadas a la


Ingenierı́a. EDITORIAL LIMUSA.
RONALD E. WALPOLE, R. (Novena edición, 2012). Probabilidad y
estadı́stica para ingenierı́a y ciencias. PEARSON EDUCACIÓN,
México.
Webster, A. (2000). Estadı́stica aplicada a los negocios y la eco-
nomı́a. Bradley University.

Jorge A. Barón (Unicórdoba) FUNDAMENTOS DE BIOESTADÍSTICA 39 / 39

También podría gustarte