Está en la página 1de 17

Regresión lineal simple y correlación

REGRESIÓN LINEAL
En muchas áreas de la ciencia se necesita modelar la relación entre las diversas variables involucradas, por
ejemplo, a un ingeniero le interesaría modelar la demanda de energía de una planta generadora de
electricidad.
Dicha demanda dependerá de muchos
factores tales como la temperatura del día,
ubicación geográfica, temporada anual, etc.
Sin embargo, aún si se conocieran todos
los factores involucrados y se incluyeran
en un modelo, no se podría predecir la
demanda de energía de manera exacta
pues existirá alguna variación debida a
fenómenos aleatorios que no se pueden
modelar ni explicar.

La relación lineal es el modelo más sencillo para medir una variable de respuesta que depende de un
conjunto de valores de variables de entrada
Constantes

Variable dependiente 𝑌 = 𝐴 1 𝑋 1 + 𝐴 2 𝑋 2 + 𝐴 3 𝑋 3 +…+ 𝐴 𝑛 𝑋 𝑛 + 𝐵

Variables independientes
REGRESIÓN LINEAL SIMPLE
Como mencionamos antes, en la práctica casi nunca se alcanza la exactitud en los resultados del modelo
con respecto a la realidad, por lo que debe considerarse también un error aleatorio:
error aleatorio
𝑌 = 𝐴 1 𝑋 1 + 𝐴 2 𝑋 2 + 𝐴 3 𝑋 3 +…+ 𝐴 𝑛 𝑋 𝑛 + 𝐵+𝜀

Este es un modelo probabilístico. A esta ecuación se le llama modelo de regresión lineal (múltiple).

Cuando solamente se considera una variable independiente, la ecuación se simplifica:


Variable dependiente error aleatorio
𝑌 = 𝐴𝑋 + 𝐵+ 𝜀
Variable independiente constantes
A esta ecuación se le llama modelo de regresión lineal simple.
En este modelo, la recta de regresión es:
𝑦 = 𝐴𝑥+ 𝐵

Este es el modelo que abordaremos en nuestro curso.


Es importante diferenciar un modelo probabilístico de un modelo determinista.
REGRESIÓN LINEAL SIMPLE
En un modelo determinista, los resultados son exactos, no hay margen de error. En cambio, en un modelo
probabilístico, el error incluido permite que los resultados varíen respecto al modelo determinista.
Modelo Determinista: 𝑦 =5 𝑥 Modelo Probabilístico 𝑦 =5 𝑥+ 𝜀 ión
regre5s𝑥
a de = 𝑦
Rect
resultados (y)

resultados (y)

Diagrama de dispersión
datos (x) datos (x)
datos () resultados () datos () resultados ()
2 10 2 9.81
3 15 3 16.23
5 25 5 24.06
9 45 9 43.01
REGRESIÓN LINEAL SIMPLE
Dado un conjunto de datos, adoptaremos el modelo probabilístico de regresión lineal simple y
procederemos a hallar la recta de regresión:
𝑦 = 𝐴𝑥+ 𝐵
Se utilizará el Método de Mínimos Cuadrados, que consiste en encontrar los valores de las variables
y que minimicen la suma de los errores cuadrados entre los valores de la recta de regresión () y los
resultados de los datos ().
𝑛 𝑛
𝑓 ( 𝐴, 𝐵 )=∑ ( 𝑦 𝑖 − ^𝑦 𝑖 ) 2 ¿ ∑ ( 𝑦 𝑖 −( 𝐴𝑥 𝑖 + 𝐵) )
2

𝑖=1 𝑖=1

Datos Resultados (reales) Resultados de la recta (aproximaciones)

2 9.81 10
3 16.23 15
5 24.06 25
REGRESIÓN LINEAL SIMPLE
Al aplicar las técnicas del Cálculo Vectorial se obtienen las soluciones para y que minimizan dicho error.

Si se tiene un conjunto de datos , la recta de regresión del modelo de regresión lineal simple es:

donde
𝑆 2𝑋𝑌
𝐴= 2 y 𝐵=𝑌 − 𝐴 𝑋
Y estos
𝑆
estimadores 𝑋están dados en términos de los datos:

( ) ∑ ( 𝑥 − 𝑋 )( 𝑦 −𝑌 )
𝑛 𝑛 𝑛

2 1 ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑆 =
𝑋𝑌 𝑖 𝑖
𝑋=
𝑖=1 𝑌=
𝑖=1

𝑛
𝑛 𝑖=1
𝑛

𝑆 =( ) ∑ ( 𝑥 − 𝑋 )
𝑛
2 1 2
𝑋 𝑖
𝑛 𝑖=1

La recta de regresión puede utilizarse para hacer predicciones sólo si existe una correlación lineal entre
los datos , tema que veremos más adelante.
REGRESIÓN LINEAL SIMPLE
Ejemplo: Supongamos que el rendimiento porcentual () de un experimento de laboratorio depende de la
temperatura () a la que se realizó dicho experimento. Los resultados se expresan en la tabla:
100 110 120 130 140 150 160 170 180 190
45 52 54 63 62 68 75 76 92 98
Hallar la recta de regresión y graficar el diagrama de dispersión.

Al hacer las cuentas obtenemos y . Además:

() ( ) ∑ ( 𝑥 − 145)( 𝑦 − 68.5)=454.5
𝑛 𝑛
1 1
𝑆 2
𝑋𝑌 =
𝑛
∑ 𝑖 ( 𝑥 − 𝑋 )( 𝑦 𝑖 −𝑌 ) =
10 𝑖 𝑖
𝑖=1 𝑖=1

𝑆 =( ) ∑ ( 𝑥 − 𝑋 ) =( )∑ ( 𝑥 −145 ) =825
𝑛 𝑛
1
2 1 2 2
𝑋 𝑖 𝑖
𝑛 𝑖=1 10 𝑖=1
𝑆 2𝑋𝑌
La recta de regresión es , donde 𝐴= 2
=0.5509
y 𝐵=𝑌 − 𝐴 𝑋 =−11.3818
𝑆 𝑋

Por tanto, la recta de regresión es


REGRESIÓN LINEAL SIMPLE

El diagrama de dispersión queda: Recta de regresión

Dato Resultado Resultado aproximado


real con la recta

100 45 43.7082
110 52 49.2172
120 54 54.7262
130 63 60.2352
140 62 65.7442
150 68 71.2532
160 75 76.7622
170 76 82.2712
180 92 87.7802
190 98 93.2892
ERRORES DE ESTIMACIÓN
Como ya se mencionó, la expresión representa la diferencia entre el valor real (valor observado) y el
resultado de la recta de regresión (valor estimado). A esta diferencia se le llama error de estimación.
Dato Resultado real Resultado de la recta de regresión Error de estimación
(valor observado) (valor estimado)

50 8.23 8.34 -0.11


51 10.56 10.61 -0.05
52 13.41 13.12 0.29

La varianza de la estimación es una medida del error global de los valores estimados con respecto a
los valores observados, y se define: 𝑛

∑ ( 𝑦𝑖 − ^
𝑦𝑖)
2

𝑆2
𝑖 =1
𝑦 ∨𝑥 =
𝑛 −2

La desviación estándar de la estimación (también llamada error estándar de la estimación) es


también una medida del error global de los valores estimados con respecto a los valores observados, y
se define:
𝑆 𝑦∨𝑥= √ 𝑆 𝑦∨𝑥
2
ERRORES DE ESTIMACIÓN
Ejemplo: En el ejemplo anterior teníamos que el rendimiento porcentual () de un experimento de
laboratorio dependía de la temperatura () a la que se realizó dicho experimento.
100 110 120 130 140 150 160 170 180 190
45 52 54 63 62 68 75 76 92 98

Obtuvimos la recta de regresión:


Dato Valor observado Valor estimado Error de estimación Varianza de la estimación:
𝑛

∑ ( 𝑦𝑖 − ^
𝑦 𝑖 )2
124.6181
100 45 43.7082 1.2918 1.66874724 𝑆2
𝑦 ∨𝑥 =
𝑖 =1
=
𝑛 −2 8
110 52 49.2172 2.7828 7.74397584
120 54 54.7262 -0.7262 0.52736644
¿ 15.5772749
130 63 60.2352 2.7648 7.64411904
140 62 65.7442 -3.7442 14.0190336
150 68 71.2532 -3.2532 10.5833102
Error estándar de la estimación:

𝑆 𝑦 ∨𝑥= √ 𝑆 𝑦 ∨𝑥= √15.5772749


160 75 76.7622 -1.7622 3.10534884 2
170 76 82.2712 -6.2712 39.3279494
180 92 87.7802 4.2198 17.806712 ¿ 3.94680566
190 98 93.2892 4.7108 22.1916366
124.618199
CORRELACIÓN
COEFICIENTE DE CORRELACIÓN
Cuando se tiene un conjunto de datos , muchas veces es conveniente saber qué tan relacionados están
relacionados los datos de la variable , con los datos de la variable .

Para saberlo se define el coeficiente de correlación (lineal), que será una media numérica del grado de
asociación o relación que hay entre las variables.

Si se tiene un conjunto de datos , el coeficiente de correlación es:


𝑆2𝑋𝑌
𝑟=
𝑆 𝑋 𝑆𝑌
donde

( ) ∑ ( 𝑥 − 𝑋 )( 𝑦 −𝑌 )
𝑛
2 1
𝑆 =
𝑋𝑌 𝑖 𝑖
𝑛 𝑖=1

(√ )∑ ( 𝑥 − 𝑋 ) (√ )∑ ( 𝑦 −𝑌 )
𝑛 𝑛
1 1
𝑆 𝑋 =√ 𝑆 = 𝑆 𝑌 =√ 𝑆 =
2 2 2 2
𝑋 𝑖 𝑌 𝑖
𝑛 𝑖=1 𝑛 𝑖=1

Cuando el coeficiente de correlación se calcula sobre toda la población, se denota con la letra griega
COEFICIENTE DE CORRELACIÓN
El coeficiente de correlación satisface la siguiente desigualdad:

Si el valor del coeficiente de correlación se aproxima a cero, indica que la relación entre las variables y es
poca o débil.
Si el valor del coeficiente de correlación se aleja de cero (aproximándose a 1 o -1), indica que la relación
entre las variables y es mucha o fuerte.

cerca de 1 muy cerca de 1 muy cerca de -1 muy cerca de 0


Poca correlación positiva Mucha correlación positiva Mucha correlación negativa No hay correlación
COEFICIENTE DE CORRELACIÓN
Algunos valores para la relación entre y comunes en la literatura, correspondientes a los valores del
coeficiente de correlación son:
Valores del coeficiente de Relación entre y
correlación
1 Perfecta
0.90 a 0.99 Muy fuerte
0.75 a 0.89 Fuerte
0.60 a 0.74 Moderada fuerte
0.45 a 0.59 Moderada
0.30 a 0.44 Moderada débil
0.15 a 0.29 Débil
COEFICIENTE DE CORRELACIÓN
Ejemplo: Los pesos (en Kg) de diversos automóviles elegidos al azar se comparan con su rendimiento de gasolina en
carretera (en Km/L).
Ford Mitsubishi Honda Chrysler Volkswagen Chevrolet Nissan
Focus Lancer Civic Town & Country Sedán Aveo Tsuru

Peso (Kg) 1440 1565 1463 1808 1107 1134 1040

Rendimiento (Km/L) 11 12 11 10 16 14 16

¿Existe una correlación lineal entre el peso y el rendimiento en carretera?


Hallar la recta de regresión y graficar el diagrama de dispersión.

( ) ∑ ( 𝑥 − 𝑋 )( 𝑦 −𝑌 )=−550.6734
𝑛
1
Hacemos los cálculos: 𝑆 2𝑋𝑌 = 𝑖 𝑖
𝑛 𝑖=1

(√ )∑ ( 𝑥 − 𝑋 ) =261.0493 (√ )∑ ( 𝑦 −𝑌 ) =2.2946
𝑛 𝑛
1 1
𝑆 𝑋 =√ 𝑆 = 𝑆 𝑌 =√ 𝑆 =
2 2 2 2
𝑋 𝑖 𝑌 𝑖
𝑛 𝑖=1 𝑛 𝑖=1

𝑆2𝑋𝑌 Existe una relación lineal muy fuerte


El coeficiente de correlación es 𝑟 = =− 0.9193
𝑆 𝑋 𝑆𝑌 (negativa) entre las dos variables: A mayor
peso, menor rendimiento.
COEFICIENTE DE CORRELACIÓN
𝑆 2𝑋𝑌
La recta de regresión es , donde 𝐴= 2
=− 0.008
y 𝐵=𝑌 − 𝐴 𝑋 =23.8896
𝑆 𝑋
El diagrama de dispersión queda:
Recta de regresión
Rendimiento (Km/L)

Misma escala
(sólo para ver que la relación es muy fuerte)

Diferente escala Peso (Kg)


COEFICIENTE DE DETERMINACIÓN

Cuando se tiene un conjunto de datos , sabemos que


2
el coeficiente de correlación es:
𝑆 𝑋𝑌
𝑟=
𝑆 𝑋 𝑆𝑌
Entonces el coeficiente de determinación se define como y expresa la proporción de la variación total de
la variable que es ocasionada por una relación lineal con los valores de .

Ejemplo: En el ejemplo anterior de los automóviles obtuvimos que el coeficiente de correlación es:

lo cual indicó una relación muy fuerte (negativa) entre las variables Peso () y Rendimiento ().
En este ejemplo, el coeficiente de determinación es:

Esto indica que el 84.51% de la variación de la variable Rendimiento () es ocasionada por una relación lineal
con la variable Peso ().

También podría gustarte