Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRESIÓN LINEAL
En muchas áreas de la ciencia se necesita modelar la relación entre las diversas variables involucradas, por
ejemplo, a un ingeniero le interesaría modelar la demanda de energía de una planta generadora de
electricidad.
Dicha demanda dependerá de muchos
factores tales como la temperatura del día,
ubicación geográfica, temporada anual, etc.
Sin embargo, aún si se conocieran todos
los factores involucrados y se incluyeran
en un modelo, no se podría predecir la
demanda de energía de manera exacta
pues existirá alguna variación debida a
fenómenos aleatorios que no se pueden
modelar ni explicar.
La relación lineal es el modelo más sencillo para medir una variable de respuesta que depende de un
conjunto de valores de variables de entrada
Constantes
Variables independientes
REGRESIÓN LINEAL SIMPLE
Como mencionamos antes, en la práctica casi nunca se alcanza la exactitud en los resultados del modelo
con respecto a la realidad, por lo que debe considerarse también un error aleatorio:
error aleatorio
𝑌 = 𝐴 1 𝑋 1 + 𝐴 2 𝑋 2 + 𝐴 3 𝑋 3 +…+ 𝐴 𝑛 𝑋 𝑛 + 𝐵+𝜀
Este es un modelo probabilístico. A esta ecuación se le llama modelo de regresión lineal (múltiple).
resultados (y)
Diagrama de dispersión
datos (x) datos (x)
datos () resultados () datos () resultados ()
2 10 2 9.81
3 15 3 16.23
5 25 5 24.06
9 45 9 43.01
REGRESIÓN LINEAL SIMPLE
Dado un conjunto de datos, adoptaremos el modelo probabilístico de regresión lineal simple y
procederemos a hallar la recta de regresión:
𝑦 = 𝐴𝑥+ 𝐵
Se utilizará el Método de Mínimos Cuadrados, que consiste en encontrar los valores de las variables
y que minimicen la suma de los errores cuadrados entre los valores de la recta de regresión () y los
resultados de los datos ().
𝑛 𝑛
𝑓 ( 𝐴, 𝐵 )=∑ ( 𝑦 𝑖 − ^𝑦 𝑖 ) 2 ¿ ∑ ( 𝑦 𝑖 −( 𝐴𝑥 𝑖 + 𝐵) )
2
𝑖=1 𝑖=1
2 9.81 10
3 16.23 15
5 24.06 25
REGRESIÓN LINEAL SIMPLE
Al aplicar las técnicas del Cálculo Vectorial se obtienen las soluciones para y que minimizan dicho error.
Si se tiene un conjunto de datos , la recta de regresión del modelo de regresión lineal simple es:
donde
𝑆 2𝑋𝑌
𝐴= 2 y 𝐵=𝑌 − 𝐴 𝑋
Y estos
𝑆
estimadores 𝑋están dados en términos de los datos:
( ) ∑ ( 𝑥 − 𝑋 )( 𝑦 −𝑌 )
𝑛 𝑛 𝑛
2 1 ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑆 =
𝑋𝑌 𝑖 𝑖
𝑋=
𝑖=1 𝑌=
𝑖=1
𝑛
𝑛 𝑖=1
𝑛
𝑆 =( ) ∑ ( 𝑥 − 𝑋 )
𝑛
2 1 2
𝑋 𝑖
𝑛 𝑖=1
La recta de regresión puede utilizarse para hacer predicciones sólo si existe una correlación lineal entre
los datos , tema que veremos más adelante.
REGRESIÓN LINEAL SIMPLE
Ejemplo: Supongamos que el rendimiento porcentual () de un experimento de laboratorio depende de la
temperatura () a la que se realizó dicho experimento. Los resultados se expresan en la tabla:
100 110 120 130 140 150 160 170 180 190
45 52 54 63 62 68 75 76 92 98
Hallar la recta de regresión y graficar el diagrama de dispersión.
() ( ) ∑ ( 𝑥 − 145)( 𝑦 − 68.5)=454.5
𝑛 𝑛
1 1
𝑆 2
𝑋𝑌 =
𝑛
∑ 𝑖 ( 𝑥 − 𝑋 )( 𝑦 𝑖 −𝑌 ) =
10 𝑖 𝑖
𝑖=1 𝑖=1
𝑆 =( ) ∑ ( 𝑥 − 𝑋 ) =( )∑ ( 𝑥 −145 ) =825
𝑛 𝑛
1
2 1 2 2
𝑋 𝑖 𝑖
𝑛 𝑖=1 10 𝑖=1
𝑆 2𝑋𝑌
La recta de regresión es , donde 𝐴= 2
=0.5509
y 𝐵=𝑌 − 𝐴 𝑋 =−11.3818
𝑆 𝑋
100 45 43.7082
110 52 49.2172
120 54 54.7262
130 63 60.2352
140 62 65.7442
150 68 71.2532
160 75 76.7622
170 76 82.2712
180 92 87.7802
190 98 93.2892
ERRORES DE ESTIMACIÓN
Como ya se mencionó, la expresión representa la diferencia entre el valor real (valor observado) y el
resultado de la recta de regresión (valor estimado). A esta diferencia se le llama error de estimación.
Dato Resultado real Resultado de la recta de regresión Error de estimación
(valor observado) (valor estimado)
La varianza de la estimación es una medida del error global de los valores estimados con respecto a
los valores observados, y se define: 𝑛
∑ ( 𝑦𝑖 − ^
𝑦𝑖)
2
𝑆2
𝑖 =1
𝑦 ∨𝑥 =
𝑛 −2
∑ ( 𝑦𝑖 − ^
𝑦 𝑖 )2
124.6181
100 45 43.7082 1.2918 1.66874724 𝑆2
𝑦 ∨𝑥 =
𝑖 =1
=
𝑛 −2 8
110 52 49.2172 2.7828 7.74397584
120 54 54.7262 -0.7262 0.52736644
¿ 15.5772749
130 63 60.2352 2.7648 7.64411904
140 62 65.7442 -3.7442 14.0190336
150 68 71.2532 -3.2532 10.5833102
Error estándar de la estimación:
Para saberlo se define el coeficiente de correlación (lineal), que será una media numérica del grado de
asociación o relación que hay entre las variables.
( ) ∑ ( 𝑥 − 𝑋 )( 𝑦 −𝑌 )
𝑛
2 1
𝑆 =
𝑋𝑌 𝑖 𝑖
𝑛 𝑖=1
(√ )∑ ( 𝑥 − 𝑋 ) (√ )∑ ( 𝑦 −𝑌 )
𝑛 𝑛
1 1
𝑆 𝑋 =√ 𝑆 = 𝑆 𝑌 =√ 𝑆 =
2 2 2 2
𝑋 𝑖 𝑌 𝑖
𝑛 𝑖=1 𝑛 𝑖=1
Cuando el coeficiente de correlación se calcula sobre toda la población, se denota con la letra griega
COEFICIENTE DE CORRELACIÓN
El coeficiente de correlación satisface la siguiente desigualdad:
Si el valor del coeficiente de correlación se aproxima a cero, indica que la relación entre las variables y es
poca o débil.
Si el valor del coeficiente de correlación se aleja de cero (aproximándose a 1 o -1), indica que la relación
entre las variables y es mucha o fuerte.
Rendimiento (Km/L) 11 12 11 10 16 14 16
( ) ∑ ( 𝑥 − 𝑋 )( 𝑦 −𝑌 )=−550.6734
𝑛
1
Hacemos los cálculos: 𝑆 2𝑋𝑌 = 𝑖 𝑖
𝑛 𝑖=1
(√ )∑ ( 𝑥 − 𝑋 ) =261.0493 (√ )∑ ( 𝑦 −𝑌 ) =2.2946
𝑛 𝑛
1 1
𝑆 𝑋 =√ 𝑆 = 𝑆 𝑌 =√ 𝑆 =
2 2 2 2
𝑋 𝑖 𝑌 𝑖
𝑛 𝑖=1 𝑛 𝑖=1
Misma escala
(sólo para ver que la relación es muy fuerte)
Ejemplo: En el ejemplo anterior de los automóviles obtuvimos que el coeficiente de correlación es:
lo cual indicó una relación muy fuerte (negativa) entre las variables Peso () y Rendimiento ().
En este ejemplo, el coeficiente de determinación es:
Esto indica que el 84.51% de la variación de la variable Rendimiento () es ocasionada por una relación lineal
con la variable Peso ().