Está en la página 1de 36

Correlación y Regresión Lineal

Simple

Mg. Yuri Juan Balcona Mamani


0009-0003-5314-7217

Universidad Católica San Pablo

Arequipa, 2023

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Objetivos
Usar la regresión lineal simple para construir modelos empı́ricos para
datos cientı́ficos y de ingenierı́a.
Analizar los residuos para determinar si el modelo de regresión se
ajusta adecuadamente a los datos o si se viola alguna de las
suposiciones subyacentes.
Usar el modelo de regresión para predecir una observación futura y
construir un intervalo de predicción apropiado en la observación futura

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Correlación Lineal Simple

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Coeficiente de correlación poblacional de Pearson

σxy Cov(x, y)
ρ= = p p
σx σy Var(x) Var(y)

Coeficiente de correlación muestral de Pearson


n
! n
! n !
X X X
n xi yi − xi yi
i=1 i=1 i=1
r= v ! !2 v ! !2
u
u n
X n
X
u
u n
X n
X
tn x2i − xi t n 2
yi − yi
i=1 i=1 i=1 i=1

n
X
yi (xi − x̄)
i=1
r= " #1
n
X n
X 2

(xi − x̄)2 (yi − ȳ)2


i=1 i=1

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Propiedades del coeficiente de correlación lineal r
El valor de r siempre está entre −1 y 1 inclusive. Es decir, −1 ≤ r ≤ 1.
Si todos los valores de cualquiera de las variables se convierten a una
escala diferente, el valor de r no cambia.
El valor de r no se ve afectado por la elección de x o y. Si se
intercambian todos los valores de x y y, y el valor de r no cambiará.
r mide la fuerza de una relación lineal.
r es muy sensible a los valores atı́picos en el sentido de que un único
valor de este tipo podrı́a afectar dramáticamente su valor.

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Requisitos
La muestra de datos pareados (x, y) es una muestra aleatoria simple de
datos cuantitativos.
Normalidad

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Planteamiento de hipótesis

H0 : ρ = 0 H0 : ρ ≤ 0 H0 : ρ ≥ 0
H1 : ρ ̸= 0 H1 : ρ > 0 H1 : ρ < 0
donde, ρ es el coeficiente de correlación poblacional de Pearson.

Estadı́stico de prueba
r
t= q
1−r 2
n−2

con df = n − 2 grados de libertad.

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Intervalo de confianza a un nivel de confianza del (1 − α)100 %
e2WI − 1 e2WD − 1
< ρ <
e2WI + 1 e2WD + 1
donde: 
1 1+r 1
WI = ln − z α2 · √
2 1−r n−3
 
1 1+r 1
WD = ln + z α2 · √
2 1−r n−3

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Ejemplo
El ingeniero de control de calidad de una empresa desea estimar la
resistencia a la tensión mecánica de un alambre de acero, en función de su
diámetro exterior. Para hacer un experimento seleccionó 6 trozos de
alambre. A continuación midió su diámetro exterior y la resistencia a la
tensión de cada trozo. Los resultados fueron:

Diámetro exterior (mm) 0.3 0.2 0.4 0.3 0.5 0.7


Resistencia a la tensión (lb/pulg 2 ) 11 9 16 12 18 25

¿Existe una correlación lineal entre el diámetro exterior y la resistencia a la


tensión?

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


1 Parámetros: ρ (Coeficiente de 7 Valor del estadı́stico de prueba:
correlación poblacional de
0.9946197
Pearson entre el diámetro t= q ≈ 19.202
1−0.99461972
exterior y la resistencia a la 4−2
tensión)
2 H0 : ρ = 0
3 H1 : ρ ̸= 0
4 Nivel de significancia: α = 0.05
5 Estadı́stico de prueba:
8 Región crı́tica
r
t= q
1−r 2 RC = ⟨−∞, −2.7764]∪[2.7764, ∞⟩
n−2

t = 19.202 ∈ RC. Por lo tanto,


con n − 2 grados de libertad.
se rechaza H0 .
6 Verificar los supuestos: 9 Conclusión: Existe suficiente
La muestra de datos pareados
evidencia muestral para concluir
(x, y) es una muestra
aleatoria simple de datos que existe una correlación lineal
cuantitativos. entre el diámetro exterior y la
Normalidad resistencia a la tensión.

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


RStudio

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Ejercicio 1
Un artı́culo en el Journal of Applied Polymer Science (1995, Vol. 56, pp.
471–476) informó sobre un estudio del efecto de la relación molar del ácido
sebácico sobre la viscosidad intrı́nseca de los copoliésteres. Los datos son los
siguientes:
Relación molar x 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3
Viscosidad y 0.45 0.20 0.34 0.58 0.70 0.57 0.55 0.44
¿Existe una correlación lineal entre la relación molar y la viscosidad? Use
α = 0.01.

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Ejercicio 2
[Triola, 2018](p. 486). A continuación se listan las calificaciones combinadas
de ahorro de combustible en la ciudad y en carretera (en mi/gal) para
diferentes automóviles. Las calificaciones antiguas se basan en pruebas
utilizadas antes de 2008 y las calificaciones nuevas se basan en pruebas que
entraron en vigencia en 2008. ¿Existe evidencia suficiente para concluir que
existe una correlación lineal entre las calificaciones antiguas y las nuevas?
¿Qué sugieren los datos sobre las calificaciones antiguas?
Antiguas 16 27 17 33 28 24 18 22 20 29 21
Nuevas 15 24 15 29 25 22 16 20 18 26 19

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Regresión Lineal Simple

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


El modelo de regresión lineal simple es de la forma:

y = β0 + β1 x + ϵ (0.1)

⋆ y: Es la variable de respuesta o variable dependiente.


⋆ x: Es la variable de regresión, independiente o predictor
⋆ ϵ: Es un error aleatorio con media cero y varianza σ 2

Estadı́stico muestral Parámetro poblacional


Intersección β̂0 β0
Pendiente β̂1 β1
Ecuación ŷ = β̂0 + β̂1 x y = β0 + β1 x

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Estimación de los parámetros β0 y β1 por mı́nimos cuadrados
El cientı́fico aleman Karl Gauss (1777-1855) propuso estimar los parámetros
β0 y β1 a fin de minimizar la suma de los cuadrados de las desviaciones
verticales. A este criterio para estimar los coeficientes de regresión se le
llama el método de mı́nimos cuadrados.
Sean (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) puntos en R2 (n observaciones), los cuales
reemplazando en el Modelo Lineal 0.1, se obtiene:

yi = β0 + β1 xi + ϵi , i = 1, 2, ..., n (0.2)

Escribiendo de forma matricial, se obtiene


     
y1 1 x1 ϵ1
 y2   1 x2     ϵ2
β

0
 . = . ..  · β + . (0.3)
     
 ..   ..  ..

.  1 
yn 1 xn ϵn

Luego, ϵi = yi − β0 − β1 xi , para i = 1, 2, ..., n. A partir de esta última


ecuación, podemos definir la siguiente función:
n
X n
X
L(β0 , β1 ) = ϵ2i = (yi − β0 − β1 xi )2 (0.4)
i=1 i=1

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Teorema

(Condiciones suficientes para la existencia de extremos locales).


Sea f : U ⊆ Rn → R una función definida en el conjunto abierto U de Rn
que tiene en x̃ ∈ U un punto crı́tico. Supongamos que en una bola B de Rn
con centro en x̃ las derivadas parciales de f de segundo orden son
continuas. Sea H(x̃) la matriz hessiana de f en x̃. Entonces
a. Si la forma cuadrática Q(x) = xH(x̃)xt es definida positiva, entonces f
tiene un mı́nimo local en x̃.
b. Si la forma cuadrática Q(x) = xH(x̃)xt es definida negativa, entonces
f tiene un máximo local en x̃.

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Teorema

(Criterios de la segunda derivada para la determinación de


extremos locales para funciones de dos variables). Sea
f : U ⊆ R2 → R una función definida en el conjunto abierto U de R2 tal
que en una bola B con centro en el punto crı́tico (x0 , y0 ) ∈ U sus derivadas
parciales son continuas. Sea

∂2f ∂2f ∂2f


A= (x0 , y0 ), B= (x0 , y0 ), C= (x0 , y0 )
∂x2 ∂x∂y ∂y 2

a. Si B 2 − AC < 0 y A > 0, entonces la función f tiene un mı́nimo


relativo en (x0 , y0 ).
b. Si B 2 − AC < 0 y A < 0, entonces la función f tiene un máximo
relativo en (x0 , y0 ).
c. Si B 2 − AC > 0, entonces la función f tiene un punto de ensilladura
en (x0 , y0 ).
d. Si B 2 − AC = 0, no se puede afirmar nada acerca de la naturaleza del
punto crı́tico (x0 , y0 ).

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


La función L satisface las condiciones del Teorema (Condiciones
suficientes
 para
 la existencia de extremos locales). Además, el punto
crı́tico β̂0 , β̂1 de la función L definida en (0.4) se obtiene al revolver el
siguiente sistema de ecuaciones

n 
X  
∂L
= −2 yi − β̂0 − β̂1 xi =0 


∂β0
β̂0 ,β̂1

i=1
n h
X  i
∂L

∂β1
= −2 yi − β̂0 − β̂1 xi xi = 0 


β̂0 ,β̂1
i=1

Luego, las ecuaciones normales de mı́nimos cuadrados son:

n
X n
X
 n
X n
X

yi − nβ̂0 − β̂1 xi = 0 nβ̂0 + β̂1 xi = yi 
 


 
 
i=1 i=1 i=1 i=1
n n n
⇐⇒ n n n
X X X  X X X 
yi xi − β̂0 xi − β̂1 x2i = 0 x2i =
 

 β̂0 xi + β̂1 yi xi 


i=1 i=1 i=1 i=1 i=1 i=1
(0.5)

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Resolviendo el sistema de ecuaciones (0.5) se obtiene:

n
! n
!
X X
n n n
yi xi
X X X i=1 i=1
yi xi yi xi −
i=1 i=1 i=1
n
β̂0 = − β̂1 y β̂1 = !2
n n n
X
n
xi
X i=1
x2i −
i=1
n

Por lo tanto, la recta de regresión estimada o ajustada es

ŷ = β̂0 + β̂1 x (0.6)


Obsérve que, cada par de de las n observaciones satisface la siguiente
ecuación
yi = β̂0 + β̂1 xi + ei , i = 1, 2, ..., n (0.7)

donde, ei = yi − ŷi , recibe el nombre de residuo o residual.

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II
Usaremos de ahora en adelante la siguiente notación:

n
!2
X
n n
xi
X X i=1
Sxx = (xi − x̄)2 = x2i −
i=1 i=1
n
n
! n
!
X X
n n
yi xi
X X i=1 i=1
Sxy = (yi − ȳ) (xi − x̄) = yi xi −
i=1 i=1
n

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Propiedades de los estimadores de mı́nimos cuadrados
Sea V ar(ϵi ) = σ 2 , se sigue que V ar(yi ) = σ 2 , y puede demostrarse que:
   
E β̂0 = β0 y E β̂1 = β1 (Estimadores insesgados)
  h 2
i   2
V ar β̂0 = σ 2 n1 + Sx̄xx y V ar β̂1 = Sσxx
 
Cov β̂0 , β̂1 = −σ 2 Sx̄xx

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Se usan los residuales, ei = yi − ŷi para calcular la estimación de σ 2 . La
suma de los residuales, o suma de los cuadrados de los errores es
n
X n
X
SSE = e2i = (yi − ŷi )2
i=1 i=1

Puede demostrarse que el valor esperado de la suma de los cuadrados de los


errores SSE es
E(SSE ) = (n − 2)σ 2
Por lo tanto,
SSE
σ̂ 2 =
n−2
es un estimador insesgado de σ 2 . [Montgomery and Runger, 2003] (p. 445)

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


n
X
SSE = (yi − ŷi )2
i=1
Xn  2
= yi − (β̂0 + β̂1 xi )
i=1
n
X (0.8)
= yi2 − nȳ 2 − β̂1 Sxy
i=1
n
X
= (yi − ȳ)2 − β̂1 Sxy
i=1

=SST − β̂1 Sxy

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Error estándar estimado de la pendiente
En una regresión lineal simple, el error estándar estimado de la
pendiente es
  r σ̂ 2
se β̂1 =
Sxx

Error estándar estimado de la ordenada al origen


En una regresión lineal simple, el error estándar estimado de la
ordenada al origen es
s  
  1 x̄2
se β̂0 = σ̂ 2 +
n Sxx

[Montgomery and Runger, 2003] (p. 446)

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Intervalo de confianza a un nivel de confianza del (1 − α)100 %
r r
σ̂ 2 σ̂ 2
β̂1 − T α2 , n−2 · < β1 < β̂1 + T α2 , n−2 ·
Sxx Sxx

s   s  
1 x̄2 1 x̄2
β̂0 − T α2 , n−2 · σ̂ 2 + < β0 < β̂0 + T α2 , n−2 · σ̂ 2 +
n Sxx n Sxx

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Prueba de hipótesis en la regresión lineal simple

H0 : β1 = 0 H0 : β0 = 0
H1 : β1 ̸= 0 H1 : β0 ̸= 0

β̂ β̂
T = 1  ∨ T = 0 
se β̂1 se β̂0

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Ejercicio 1
Un artı́culo en Wear (1992, V ol.152, pp.171–181) presenta datos sobre el
desgaste por fricció n del acero dulce y la viscosidad del aceite. Los datos
representativos siguen con x = viscosidad del aceite e y = volumen de
desgaste (10−4 milı́metros cúbicos).

y 240 181 193 155 172 110 113 75 94


x 1.6 9.4 15.5 20.0 22.0 35.5 43.0 40.5 33.0

(a) Ajuste el modelo de regresión lineal simple usando mı́nimos cuadrados.


(b) Prediga el desgaste por rozamiento cuando la viscosidad es x = 30.
(c) Obtenga el valor ajustado de y cuando x = 22.0 y calcule el residual
correspondiente.
(d) Realice las pruebas de hipótesis en la regresión lineal simple.

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Ejercicio 2
Los datos que se presentan en la siguiente tabla corresponden al
rendimiento de gasolina en carretera y la cilindrada del motor de una
muestra de 20 automóviles.
(a) Ajuste un modelo lineal simple.
(b) Encuentre una estimación del rendimiento en millas promedio en
carretera para un autom6vil con un motor de 150 pulg3 de cilindrada.
(c) Obtenga el valor ajustado de y y el residual correspondiente para un
automóvil, el Ford Escort, con un motor de 114 pulg3 de cilindrada.
(d) Determine los intervalos de confianza para los parámetros β0 y β1 .
(e) Realice las pruebas de hipótesis en la regresión lineal simple.

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Millas por galón Cilindraje del motor
Marca Modelo (en carretera) (pulgadas3 )
Acura Legend 30 97
BMW 735i 19 209
Buick Regal 29 173
Chevrolet Cavalier 32 121
Chevrolet Celebrity 30 151
Chrysler Conquest 24 156
Dodge Aries 30 135
Dodge Dynasty 28 181
Ford Escort 31 114
Ford Mustang 25 302
Ford Taurus 27 153
Ford Tempo 33 90
Honda Accord 30 119
Mazda RX-7 23 80
Mercedes 260E 24 159
Mercury Tracer 29 97
Nissan· Maxima 26 181
Oldsmobile Cutlass 29 173
Plymouth Laser 37 122
Pontiac Grand Prix 29 173
Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II
Ejercicio 3
En un artı́culo de Journal of Environmental Engineering (Vol. 115, pp.
608-619) se reportan los resultados de un estudio sobre la presencia de sodio
y cloruros en corrientes superficiales de la parte central de Rhode Island.
Los datos que se presentan a continuación corresponden a la concentración
de cloruros y (en mg/l) y al área de carretera de la vertiente (en %).

y 4.4 6.6 9.7 10.6 10.8 10.9 11.8 12.1 14.3


x 0.19 0.15 0.57 0.70 0.67 0.63 0.47 0.70 0.60

y 14.7 15.0 17.3 19.2 23.1 27.4 27.7 31.8 39.5


x 0.78 0.81 0.78 0.69 1.30 1.05 1.06 1.74 1.62

(a) Ajuste el modelo de regresión lineal simple usando mı́nimos cuadrados.


(b) Estime la concentración de cloruro para un área de carretera del 1 %.
(c) Obtenga el valor ajustado de y cuando x = 0.47 y calcule el residual
correspondiente.
(d) Determine los intervalos de confianza para los parámetros β0 y β1 .
(e) Realice las pruebas de hipótesis en la regresión lineal simple.

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Análisis de varianza para probar
la significación de una regresión

[Montgomery and Runger, 2014](p. 444)

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Ejercicio 1
Un artı́culo en The Journal of Clinical Endocrinology and Metabolism
[“Mediciones simultáneas y continuas de leptina en plasma y lı́quido
cefalorraquı́deo durante 24 horas: Disociación de concentraciones en
compartimentos centrales y periféricos” (2004, Vol. 89, págs. 258–265)]
informó sobre un estudio de la demografı́a de mediciones simultáneas y
continuas de leptina en plasma y lı́quido cefalorraquı́deo durante 24 horas.
Los datos siguen: (y = BM I(kg/m2 ) y x = Age(yr))

y 19.92 20.59 29.02 20.78 25.97 20.39 23.29 17.27 35.24


x 45.5 34.6 40.6 32.9 28.2 30.1 52.1 33.3 47.0

Pruebe la significancia de la regresión usando α = 0.05. Encuentre el valor


P para esta prueba. ¿Puede concluir que el modelo especifica una relación
lineal útil entre estas dos variables?

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


Bibliografı́a

[Montgomery and Runger, 2003] Montgomery, D. C. and Runger, G. C.


(2003).
Probabilidad y Estadı́stica aplicada a la Ingenierı́a.
LIMUSA, S.A.
[Montgomery and Runger, 2014] Montgomery, D. C. and Runger, G. C.
(2014).
Applied statistics and probability for engineers.
John wiley & sons.
[Triola, 2018] Triola, M. F. (2018).
Estadı́stica.
Pearson educación de México, S.A.

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II


GRACIAS

Mg. Yuri Juan Balcona Mamani 0009-0003-5314-7217 Estadı́stica II

También podría gustarte