Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Lineal
Regresión Lineal
Regresión Lineal
Historia
La primera forma de regresión lineal documentada fue el método de los mínimos cuadrados que fue publicada por Legendre en
1805, Gauss publicó un trabajo en donde desarrollaba de manera más profunda el método de los mínimos cuadrados,1 y en
donde se incluía una versión del teorema de Gauss-Márkov.
El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e
hijos, donde resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio, tendían a igualarse a este,
mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir,
"regresaban" al promedio.2 La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de
ese fenómeno.
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase
de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágiles y con un soporte
teórico mucho más extenso por parte de la matemática y la estadística.
Pero bien, como se ha dicho, se puede usar el término lineal para distinguir modelos basados en cualquier clase de aplicación.
donde es una variable aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto
se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable
explícita, el hiperplano es una recta:
El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos , de modo que la
ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones o una muestra proveniente de
este modelo. En una observación -ésima cualquiera, se registra el comportamiento simultáneo de la variable
dependiente y las variables explícitas (las perturbaciones aleatorias se suponen no observables).
Los valores escogidos como estimadores de los parámetros , son los coeficientes de regresión sin que se pueda garantizar que
coincidan con parámetros reales del proceso generador. Por tanto, en
Los valores son por su parte estimaciones o errores de la perturbación aleatoria. Ei es el residuo e indica la bondad del ajuste
realizado para cada punto. Se calcula de la siguiente forma:
Una vez se ha obtenido la recta de regresión, es necesario comprobar la bondad del ajuste realizado mediante el siguiente análisis
ANOVA:
n= número de datos. Se compara F0 con valor F crítico (tabla F de Scnedecor) con valor de significación α, 1, y n-2 grados de
libertad concluyendo: Si F0< Ft, el modelo es apropiado, Si F0> Ft, el modelo utilizado no es apropiado.
donde son constantes desconocidas llamadas coeficientes de regresión. β1: Se trata del cociente entre la interacción
obtenida entre ambas variables y la suma de cuadrados de los valores de la variable dependiente. Este valor corresponde a la
pendiente de la recta. Por su parte, β0 es el resultado de la siguiente ecuación en la que aparecen los valores medios
correspondientes a ambas variables y el estimador β1 obtenido anteriormente. Este valor es la ordenada en el origen.
Se estiman y tal que la suma de los cuadrados de las diferencias entre las observaciones y la recta de regresión sea
mínima, esto es, buscamos minimizar la función error cuadrático dada por
entonces derivando respecto a y , evaluando en y e igualando a cero, obtenemos el siguiente sistema de ecuaciones
estas dos ecuaciones son conocidas como ecuaciones normales la solución de dicho sistema de ecuaciones está dada por:3
La interpretación del parámetro medio es que un incremento en Xi de una unidad, Yi incrementará en . Luego el modelo
ajustado de regresión lineal simple es
Para los casos en los que un modelo lineal no sea el más adecuado, se pueden aplicar los llamados modelos intrínsecamente
lineales que transforman la recta en otro tipo de función. Un ejemplo sería la función exponencial:
Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionadas
entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras
variables.
Este modelo cuenta con varias variables regresoras, por lo que cuenta con varios parámetros, para la regresión lineal múltiple, se
asume que la variable de respuesta se relaciona con las variables regresoras mediante la relación funcional:4
donde los parámetros son llamados coeficientes del modelo de regresión múltiple.
Supongamos que se tiene una muestra de tamaño dada por con donde denota el -ésimo valor
observado en el regresor y denota la -ésima observación de entonces el modelo toma la forma
donde es el error asociado a la -ésima medición del valor y sigue los supuestos usuales de modo que
(media cero, varianza constante e igual a y con ).
para . Resolver este sistema con ecuaciones de forma analítica es complicado por lo que se recurre a
escribir el modelo de regresión lineal múltiple
siendo
donde y .
donde denota el vector que contiene a los estimadores y denota un vector con ceros.
Si la matriz inversa existe entonces el estimador por mínimos cuadrados está dado por
Al igual que en el caso anterior será necesario efectuar una comprobación de la bondad de ajuste mediante un test ANOVA.
k= número de variables. n= número de datos. p= número de grupos. Siendo estas las expresiones para el cálculo de las sumas de
cuadrados:
Con el valor F crítico (valor de significación α, k, y n-p grados de libertad) correspondiente y se compara con F0 determinando la
bondad del ajuste de la misma forma que en el caso de una variable.
Rectas de regresión
Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión)
generada por una distribución conjunta. Matemáticamente, son posibles dos rectas de máximo ajuste:5
Líneas de tendencia
Véase también: Tendencia
Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de líneas
puede decirnos si un conjunto de datos en particular (como por ejemplo, el PIB, el precio del petróleo o el valor de las acciones)
han aumentado o decrementado en un determinado período.6 Se puede dibujar una línea de tendencia a simple vista fácilmente
a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas
como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan
polinomios de mayor grado dependiendo de la curvatura deseada en la línea.
Medicina
En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco7 vinieron de estudios que utilizaban la
regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por
eliminar factores que pudieran producir correlaciones espurias.
En el caso del tabaquismo, los investigadores incluyeron el estado socioeconómico para asegurarse que los efectos de mortalidad
por tabaquismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables
posibles en un estudio de regresión.8 9 En el ejemplo del tabaquismo, un hipotético gen podría aumentar la mortalidad y
aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la actualidad las
pruebas controladas aleatorias son consideradas mucho más confiables que los análisis de regresión.
Química
La concentración de un elemento es uno de los parámetros de mayor importancia en los procesos químicos aplicados en la
industria. Esta cuantificación se puede obtener mediante un espectrofotómetro, dispositivo que requiere se calibrado. Para ello
se elabora una recta de calibración que se obtiene a partir de la correlación entre la absorbancia de un patrón y la concentración
de la sustancia a controlar.10
Mecánica
En esta rama se utiliza la Regresión Lineal entre otros para ajustar la recta de Paris , una ecuación que sirve para estudiar
elementos sometidos a fatiga en función del número de ciclos a los que se somete un material. La bondad del ajuste se
comprueba representando el conjunto de valores discretos a-Nm obtenidos experimentalmente, frente a la curva
correspondiente a la recta de Paris definida por los valores “C” y “m”.11
Electricidad
En electricidad se puede obtener el valor de una resistencia en un circuito y su error mediante un ajuste de regresión lineal de
pares de datos experimentales de voltaje e intensidad obtenidos mediante un voltímetro y un amperímetro.12
Sensores
Calibración de un sensor de temperatura (termopar) en función de la caída de tensión y la temperatura. Se estudia la forma en
que varía la temperatura de un líquido al calentarlo. Se calibra el sensor y simultáneamente se mide la variación de temperaturas
en un líquido para representar los datos obtenidos posteriormente mediante Regresión Lineal.13
Física
Determinación del coeficiente de rozamiento estático de forma experimental a partir de la medición del ángulo de inclinación de
una rampa. Se realiza un montaje ajustando un circuito para medir el ángulo de inclinación, y se realizan mediciones variando
dicho. Mediante la regresión lineal de los datos obtenidos, se obtiene la ecuación y el índice de correlación a fin de saber el
error.14
Fabricación
Dos de los parámetros más importantes de una soldadura es la intensidad aplicada al hilo y la velocidad de alimentación del
mismo. Mediante técnicas de regresión lineal se elaboran las rectas que relacionan estos parámetros con la separación entre el
hilo y la zona a soldar.15
Diseño de experimentos
Con la metodología 2k es posible mejorar un proceso mediante la realización de experimentos, determinando qué variables
tienen un efecto significativo. A partir de esas variables se obtiene una recta de regresión que modeliza el efecto. Por ejemplo se
podría obtener la relación entre la temperatura y la presión en un proceso industrial.16
Construcción
Mediante técnicas de regresión lineal se caracterizarán diversas cualidades del hormigón. A partir del módulo de elasticidad es
posible predecir la resistencia a la compresión de una determinada composición de un hormigón. También se puede determinar
la succión capilar a partir del volumen absorbido por una muestra y el tiempo que ha durado la succión.17
Informática
Ejemplo en JavaScript para regresión lineal:
/**
* Linear regression in Javascript
* (c) 2016, Antonio Villamarin
* License GPL
*/
var
xarray = [
1, 2, 3, 4, 5
],
yarray = [
5, 5, 5, 6.8, 9
],
x = y = xy = xx = a = b = resultado = 0,
cantidad = xarray.length,
futuro = 100;
a = (y - (b * x)) / cantidad;
if(b != 0) {
console.log('Dado ' + futuro + ' => ' + Math.round(a + (b * futuro)));
} else {
console.log('Dado ' + futuro + ' => Infinito');
}
Ejemplo de una rutina que utiliza una recta de regresión lineal para proyectar un valor futuro: Código escrito en PHP
<?php
//Licencia: GNU/GPL
$xarray=array(1, 2, 3, 4, 5 ); //Dias
$yarray=array(5, 5, 5, 6.8, 9); //Porcentaje de ejecucion
$pm=100; //Valor futuro
$x2=0;
$y=0;
$x=0;
$xy=0;
$cantidad=count($xarray);
for($i=0;$i<$cantidad;$i++){
//Tabla de datos
print ($xarray[$i]." ---- ".$yarray[$i]."<br>");
//Calculo de terminos
$x2 += $xarray[$i]*$xarray[$i];
$y += $yarray[$i];
$x += $xarray[$i];
$xy += $xarray[$i]*$yarray[$i];
}
//Coeficiente parcial de regresion
$b=($cantidad*$xy-$x*$y)/($cantidad*$x2-$x*$x);
//Calculo del intercepto
$a=($y-$b*$x)/$cantidad;
//Recta tendencial
//y=a+bx
//Proyeccion en dias para un 100% de la ejecucion:
if ($b!=0) $dias_proyectados=($pm-$a)/$b;
else $dias_proyectados=999999; //Infinitos
$dp=round($dias_proyectados,0);
if($dp<=$pm) print $dp."---> Culmina antes de los $pm dias <br>";
if($dp >$pm) print $dp ."---> ALARMA: No culmina antes de los $pm dias <br>";
?>
# Regresor lineal
modelo = LinearRegression()
# Se forma el modelo con los datos
modelo.fit(X, Y)
Aplicación de regresión lineal simple en el proceso de pigmentación de una empresa del sector de la
automoción
En la práctica, con mucha frecuencia es necesario resolver problemas que implican conjuntos de variables, cuando se sabe que
existe alguna relación inherente entre ellas. Por ejemplo, en un caso industrial se puede saber que la pintura, para partes
automotrices, está relacionada con la cantidad de pigmentación con la que se lleva a cabo. Puede ser interesante desarrollar un
método de predicción, esto, un procedimiento para estimar el contenido de pigmentación que deben de tener las pinturas para
cumplir con las especificaciones de las armadoras como se muestra en la siguiente imagen de tal manera que el problema
consiste en lograr la mejor estimación de la relación entre las variables.
Del ejemplo citado anteriormente, los gramos de pigmentación son la variable independiente y la resolución de pintura es la
respuesta “Y”
El término regresión lineal implica “Y” esta linealmente relacionado con “X” por la ecuación de la recta:
Y=b+mX o Y=bx+c
La manera en que se representa el color en las armadoras y ensambladoras, es a través de la Figura 1, la cual muestra la
combinación de todos los colores posibles.
Para nuestro análisis en cuestión el color se especifica cómo se muestra en la Tabla 1. Las especificaciones de color para los
volantes de un modelo de automóvil, son las siguientes:
Tabla 1
L -27.59 '+/-0.6
A -0.05 '+/-0.2
B 1.29 '+/-0.2
De esta manera se observa que las especificaciones son muy justas y cualquier ajuste
equivoco de pigmentación en la pintura ocasionará, material en condiciones NG,
proporcionando indicadores negativos a la empresa como pérdida de tiempo, dinero,
aumento de scrap así como sus indicadores de PPMS internos y con su cliente. Haciendo
una corrida amplia y manipulando el pigmento blanco se toma de lecturas de las
condiciones de la pintura. Son conforme a la Tabla 2.
yi -26.8 -26.7 -26.7 -27.4 -27.6 -28.2 -27.5 -27.0 -27.7 -28.4 -27.8
Diagrama general del color.
b = -0,468
a = -25,44567
De tal manera que la fórmula de la recta estimada para el ejemplo de la pintura es:
= -25,445-0,468. X
Y la gráfica para validar la normalidad de los errores (uno de los supuestos en los que se basa este análisis) es:
De esta manera, la función de la recta a través de los mínimos cuadrados funciona e interactúa para generar una ayuda en el
ámbito industrial y generar un valor probabilístico en beneficio de obtención de una similitud de operaciones.
Este método ayudara a las empresas a: • Reducción de tiempos en decisiones de procesos • Reducción de inversión de materiales
en los procesos. • Generar un valor mínimo de incertidumbre en los procesos • Estandariza procesos.
La función de la recta es aplicable en el ámbito industrial al generar una regresión lineal para la obtención de un valor esperado
que ayude a las compañías a tener una idea de un valor de una variable que pueden controlar en beneficio de sus procesos.
81 1 150
89 1 180
83 2 150
91 2 180
79 1 150
87 1 180
84 2 150
90 2 180
SOLUCIÓN
Aplicando las fórmulas citadas anteriormente obtendremos los resultados de todos los datos que serán necesarios para el cálculo
de la Tabla ANOVA.
En primer lugar se ajustara el modelo lineal y= β0 + β 1x1+ β 2x2+ε a los datos, se realizará la estimación de los coeficientes, y
obtendremos la varianza residual:
S2 =1,04881
Tras esto a partir de los residuos calculados y representados en una tabla se calcula el coeficiente de determinación:
R2 =0,959559
Por último se calculan las varianzas asociadas a cada uno de los estimadores de los parámetros:
Parámetro Sbi
β0 4,24411
β1 0,74162
β2 0,02472
Tras esto ya podemos calcular y representar los resultados en la Tabla ANOVA. La significación global del ajuste se presenta en la
Tabla E52.3:
Al comparar Fo con el F0.05, 2, 5 puede concluirse que el modelo es significativo y que al menos un bi es distinto de cero. La
significancia del efecto de cada Xi se probara a partir de la prueba 1, basada en una prueba “t”, dicho análisis se presenta a
continuación:
Al comparar el to asociado a cada bi con la t0.025,5 puede observarse que los efectos tanto de la temperatura como de la
concentración son significativos a un nivel de confianza del 95%. El modelo ajustado es por tanto:
La validación del modelo se haría en base al análisis de los residuos, a través de los siguientes gráficos:
Véase también
Homoscedasticidad
Regresión logística
Modelos de regresión múltiple postulados y no postulados
Regresión segmentada
Econometría
Mínimos cuadrados
Regularización de Tikhonov
Cuarteto de Anscombe
Capital Asset Pricing Model
Regresión simple
Referencias
tabaquismo, los síntomas respiratorios y el asma sobre la
1. C.F. Gauss. Theoria combinationis observationum erroribus espirometría de adultos de la Ciudad de México.» (http://ww
minimis obnoxiae. (1821/1823) w.scielosp.org/scielo.php?script=sci_arttext&pid=S0036-36
2. Introduction to linear regression (https://web.archive.org/we 342005000500002&lng=pt)
b/20080222195200/http://www.curvefit.com/linear_regressio 10. Química: http://www.cpts.org/proyinvesti/PROYECTO02.pdf
n.htm) Curvefit.com (en inglés) Archivado (https://web.archive.org/web/20070726100111/htt
3. "Fórmulas", Probabilidad y Estadística. Cs. Básicas. U.D.B. p://www.cpts.org/proyinvesti/PROYECTO02.pdf) el 26 de
Matemática. Universidad Tecnológica Nacional, Facultad julio de 2007 en Wayback Machine.
Regional Buenos Aires. Editorial CEIT-FRBA. (Código 11. Mecanica: http://www.gef.es/Congresos/25/PDF/6-12.pdf
BM2BT2) Archivado (https://web.archive.org/web/20110921051157/htt
4. Técnicas de regresión: Regresión Lineal Múltiple. (http://ww p://www.gef.es/Congresos/25/PDF/6-12.pdf) el 21 de
w.fisterra.com/mbe/investiga/regre_lineal_multi/regre_lineal septiembre de 2011 en Wayback Machine.
_multi.asp) Archivado (https://web.archive.org/web/2010012 12. Electricidad:
7045938/http://www.fisterra.com/mbe/investiga/regre_lineal http://colos.inf.um.es/fisicabiologia/practicas/ohm.pdf
_multi/regre_lineal_multi.asp) el 27 de enero de 2010 en
13. Sensores: http://www.dfi.uchile.cl/labfi25a/exp-
Wayback Machine. Pértega Díaz, S., Pita Fernández, S.
separ/Sensor-Temperat.pdf Archivado (https://web.archive.o
Unidad de Epidemiología Clínica y Bioestadística. Complejo
rg/web/20090419132132/http://www.dfi.uchile.cl/labfi25a/ex
Hospitalario de La Coruña (España)
p-separ/Sensor-Temperat.pdf) el 19 de abril de 2009 en
5. Apunte sobre Rectas de regresión. (http://descartes.cnice. Wayback Machine.
mec.es/materiales_didacticos/bidimensional_lbarrios/regres
14. Física:
ion_est.htm) Ministerio de Educación y Ciencia. Gobierno
http://www.utp.edu.co/php/revistas/ScientiaEtTechnica/docsFT
de España.
362.pdf
6. Utilización de las líneas de tendencia (https://web.archive.or
g/web/20080725103354/http://www.paritech.com/paritech-si 15. Fabricación: http://www.redalyc.org/articulo.oa?
te/education/technical/indicators/trend/linear3.asp), Paritech id=49611942020
(en inglés) 16. Diseño de experimentos:
http://academic.uprm.edu/dgonzalez/6005/factoriales%202%2
7. Doll, R., Wheatley, K., Gray, R. et al. «Mortality in relation to
Archivado (https://web.archive.org/web/20120430061651/ht
smoking: 40 years' observations on male British doctors .»
tp://academic.uprm.edu/dgonzalez/6005/factoriales%202%
BMJ 1994;309:901-911 (8 de octubre).
20a%20la%20k) el 30 de abril de 2012 en Wayback
8. "Environmental Tobacco Smoke and Adult Asthma" (http://aj Machine.
rccm.atsjournals.org/cgi/content/full/158/1/170) Division of
17. Construcción:
Pulmonary and Critical Care Medicine, Division of
http://upcommons.upc.edu/pfc/bitstream/2099.1/3325/8/55874
Occupational and Environmental Medicine; Department of
8.pdf
Medicine, Institute for Health Policy Studies; and
Department of Epidemiology and Biostatistics, Universidad 18. Cursos Python. «Machine Learning para principiantes,
de California, San Francisco, California. (en inglés) regresión lineal en sklearn» (http://cursospython.com/regres
ion-lineal/). Cursos Python. Consultado el 13 de mayo de
9. Regalado-Pineda, Justino; Alejandro Gómez-Gómez; Javier
2020.
Ramírez-Acosta; Juan Carlos Vázquez-García. «Efecto del
Bibliografía
Canavos, George C.; Probabilidad y Estadística. Aplicaciones y Métodos. McGraw-Hill. México. ISBN 9684518560.
Devore, Jay L.; Probabilidad y Estadística para Ingeniería y Ciencias. International Thomson Editores. México. ISBN
9706864571.
Walpole, Ronald E.; Raymond, H.; Myers, Sharon L.; Probabilidad y Estadística para Ingenieros. Prentice-Hall
Hispanoamericana, S.A. México. ISBN 9701702646.
Enlaces externos
Cálculo de regresiones lineales en línea. (http://www.wessa.net/esteq.wasp) (en inglés)
ZunZun.com (https://web.archive.org/web/20190923083507/http://zunzun.com/) Ajuste de curvas y superficies en línea. (en
inglés)
xuru.org (http://www.xuru.org/rt/LR.asp) Archivado (https://web.archive.org/web/20080220140118/http://www.xuru.org/rt/LR.a
sp) el 20 de febrero de 2008 en Wayback Machine. Herramientas de regresión lineal en línea. (en inglés)
[1] (http://cajael.com/mestadisticos/T4DProbabilidad/node8.php) (enlace roto disponible en Internet Archive; véase el historial (https://w
eb.archive.org/web/*/http://cajael.com/mestadisticos/T4DProbabilidad/node8.php), la primera versión (https://web.archive.org/web/1/http://cajael.co
m/mestadisticos/T4DProbabilidad/node8.php) y la última (https://web.archive.org/web/2/http://cajael.com/mestadisticos/T4DProbabilidad/node8.ph
p)). Simulación de la recta de regresión de una variable bidimensional continua con R (lenguaje de programación)
Obtenido de «https://es.wikipedia.org/w/index.php?title=Regresión_lineal&oldid=159241613»