Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Re Gresi Ones
Re Gresi Ones
OBJETIVOS
REGRESIONES
Es usual en las ciencias e ingenierías que se posea un conjunto de datos numéricos que describen un
determinado fenómeno. Con el objetivo de estudiar propiedades más profundas de este fenómeno e
incluso realizar predicciones, se suelen buscar formulas matemáticas que se ajusten adecuadamente al
conjunto de datos resultantes. En este apartado introduciremos el ajuste de un conjunto de datos a tres
modelos matemáticos básicos: Modelo lineal, potencial y exponencial.
REGRESIÓN LINEAL:
x (Ux) y (Uy)
x1±Dx1 y1±Dy1
x2±Dx2 y2±Dy2
x3±Dx3 y3±Dy3
⁞
xn±Dxn yn±Dyn
Ahora suponga que al representar este conjunto de datos en papel milimetrado se obtiene una gráfica tal
que sigue una tendencia claramente lineal como se observa en la Figura 1. Como se observa en esta
figura, los datos experimentales siguen claramente un comportamiento lineal. La pregunta que se
genera es ¿cuál es la mejor recta que se ajusta a dicho conjunto de datos? La respuesta se encuentra en
un proceso de regresión lineal basado llamado mínimos cuadrados. En general, se debe entender una
regresión como un proceso en el cual se ajusta una ecuación a un cierto modelo matemático, buscando
minimizar la desviación que existe entre el modelo y el conjunto de datos.
y=mx +b , (1)
donde m es la pendiente y b el punto de corte con el eje y. Entonces, se puede pensar que una recta es
definida por la pendiente que posee y el punto de corte.
Ahora si, iniciemos el proceso para obtener la mejor recta que describe al conjunto de datos en
cuestión. Considere el punto i-ésimo de los datos experimentales el cual tiene coordenadas (xi, yi), y sea
y^ i el valor de y obtenido al evaluar la mejor recta en el punto xi , como se observa en la Figura 1, es
decir,
y^ i=mx i+ b .
Figura 1: Representación de los datos experimentales (puntos) y el ajuste o regresión (línea roja).
No confunda a y^ i con un vector unitario, simplemente se usa el acento circunflejo (^) para
diferenciarlo del valor experimental. Justo en el punto xi es intuitivo definir la desviación de la
regresión lineal respecto al experimento o el error de la regresión como la diferencia entre el valor
experimental y el valor de la mejor recta:
Por lo tanto, la desviación total es la suma de todas las desviaciones en cada uno de los punto
experimentales:
n n n
Desde un punto de vista “ingenuo” se pensaría que la mejor recta es la que minimiza la desviación
total, sin embargo, esta idea puede resultar incorrecta desde ciertos aspectos. Como se observa en la
Figura 1, existen puntos para los cuales la desviación es positiva y negativa en otros, por lo tanto,
puede presentarse el caso de una recta en la que a pesar de presentar desviaciones considerables
respecto a los datos experimentales, al calcular la desviación total (hay valores positivos y negativos en
la suma) se puede obtener un valor sumamente pequeño e incluso nulo. Por lo anterior, con el objetivo
de evitar este tipo de cancelaciones se tomará el cuadrado de cada desviación y se sumaran entre si:
n n n
Como se observa, se extrajo la pendiente y el punto de corte de la suma pues estos son valores
constantes. Al dividir la ecuación anterior por n (número de datos experimentales) se llega a:
2
− yx +m x +b x=0 . (6)
∑ xi yi ∑ x2i ∑ y 2i ∑ xi ∑ yi
i=1
, x 2= n i=1
y 2= i=1 i=1 i=1
xy= n , n , x= n , y= n . (7)
2
Procure no confundir xy con xy y x con ( x)2 . Con un procedimiento similar, de la segunda
expresión de (5) se llega a
− y +m x +b=0 . (8)
Antes de proceder a mostrar las ecuaciones finales se deben recordar dos hechos importantes:
1. Cada uno de los xi y yi que aparecen en las ecuaciones de (7) son los valores experimentales.
2. Recuerde que se está buscando la mejor recta que define al conjunto de datos, es decir, el valor
de la pendiente y el punto de corte de dicha recta con el eje de las ordenadas (vertical).
Observe que las expresiones (7) y (8) constituyen un sistema de dos ecuaciones independientes con dos
incongnita (m y b) que al combinarlas dan como resultados:
xy−x y x 2 y−xy x
m= , b= . (9)
x2 −( x )2 x 2−( x)2
Con las dos expresiones en (9) ya queda totalmente definida la mejor recta. Debido a la dispersión que
presentan los datos experimentales alrededor de esta recta, la pendiente y el punto de corte también
poseen incertidumbre en su cálculo, el cual define un rango de confianza. Sin entrar en detalles, las
expresiones de las incertidumbres son:
2 2 2 2 2
D m=m
√ [
1 ( x −x )( y − y )−( xy−x y)
n−2 (xy−x y )
2 ] (10)
1/ 2
D b=D m ( x 2 ) (11)
Como se observa, en este grado de la aproximación del error en la pendiente y el punto de corte, no se
tiene en cuenta el error asociado a cada dato experimental.
Ejemplo:
Un pequeño carro de cuerda se suelta y se obtienen los siguientes datos de la posición en función del
tiempo.
Observe que el tiempo hace las veces de la variable independiente, mientras que la posición cumple el
rol de variable dependiente. Al representar los puntos se obtiene la Figura 2. Como se observa en esta
figura que los datos siguen claramente una tendencia lineal, por lo cual se construye la Tabla 3.
50.0
40.0
Posición (cm)
30.0
20.0
10.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0
Tiempo (s)
Figura 2: Datos experimentales (puntos) de la posición en función del tiempo y el ajuste lineal (línea
roja).
cm cm
( )
x= 5.14 s ±0.15 s t +(5.01cm±0.74 cm) .
Puede resultar incomodo leer el resultado de esta manera pues las unidades introducen un poco de ruido
en el proceso de lectura y confundirse con la variable en cuestion.
Tabla 3: Términos de interés para calcular la regresión lineal. La fila en amarillo representa el
promedio de cada columna.
Un conjunto de datos experimentales que siguen una ley de potencias tienen la peculiaridad de lucir
como una linea recta en papel logarítmico. Se observa de la ecuación (12) que una ley de potencias
queda totalmente descrita si se conocen b y el exponente m. El punto reside en determinar dichos
valores si unicamente conozco el método para obtener una regresión lineal. La respuesta es bastante
sencilla y consiste en tomar el logaritmo natural a ambos lados de la igualdad:
m
ln ( y)=ln(b x ) .
Después de aplicar las propiedades de los logaritmos para el producto y los exponente se llega a
Y =B+m X , (15)
que corresponde justamente a la formula de una función lineal, es decir, si un conjunto de datos
experimentales siguen una ley de potencias, los logaritmos de estos datos tienen un comportamiento
lineal, lo cual resulta ser de gran utilidad pues en la sección anterior encontramos un método para
encontrar la regresión lineal asociada, por lo tanto, como primer paso se puede determinar la regresión
lineal con los datos logarítmicos y posteriormente se expresan adecuadamente todos los parámetros de
la regresión potencial.
Como se mencionó, al tomar el logaritmo de los datos experimentales, éstos tienen una tendencia lineal
dada por:
XY − X Y X 2 Y −XY X
m= , B= (16)
X 2−(X )2 X 2 −( X )2
2 2 2 2 2
√ [
1 ( X − X )(Y −Y )−(XY −X Y )
D m=m n−2
( XY − X Y )2 ] (17)
1/ 2
D B=D m ( X 2 ) (18)
La pendiente de la recta m se convierte en el exponente de la función potencial sin cambio alguno,
mientras que el coeficiente b es
b=e B (19)
Por último queda aclarar que m es una cantidad adimensional, mientras que [b]=Uy/(Ux)m.
Ejemplo:
Con el objetivo de comprobar la ley de Boyle, un estudiante midió como varía el volumen dentro de un
embolo en función de la presión aplicada. La Tabla 4 muestra los resultados obtenido.
Tabla 4: Datos experimentales del volumen del émbolo en función de la presión ejercida.
P ± 4 (kPa) V ± 1 (cm³) P ± 4 (kPa) V ± 1 (cm³) P ± 4 (kPa) V ± 1 (cm³)
85.98 20 120.31 14 204.74 8
90.76 19 130.71 13 220.46 7
95.30 18 139.85 12
100.89 17 156.35 11
106.67 16 166.24 10
114.00 15 183.63 9
(a) (b)
Figura 3: Volumen del émbolo en función de la presión ejercida en escala a) lineal y b) logarítmica.
Los puntos representan los datos experimentales y la linea roja a la regresión potencial.
Con el objetivo de realizar la regresión potencial se construye la Tabla 5. A partir de ésta y las
ecuaciones (16)-(20) se obtiene:
(12.3543)−(4.8742)(2.5540)
m= =−1.08 , su incertidumbre es D m=0.02 ,
(23.8455)−(4.8742)2
(23.8455)(2.5540)−(12.3543)( 4.8742)
B= =7.81 , su incertidumbre es D B=0.08
(23.8455)−( 4.8742)2
Tabla 5: Modelo de organización de datos para realiza una regresión potencial. Se omiten los errores
de las variables ya que no son necesarias para los cálculos.
P (kPa) V (cm³) p=ln(P) v=ln(V) p²=(ln(P))² v²=(ln(V))² pv=ln(P)ln(V)
85.98 20 4.45411471 2.99573227 19.8391379 8.97441185 13.3433351900584
90.76 19 4.50821866 2.94443898 20.3240355 8.66972090 13.2741747488493
95.30 18 4.55702981 2.89037176 20.7665207 8.35424890 13.171510264623
100.89 17 4.61403081 2.83321334 21.2892804 8.02709785 13.0725336733021
106.67 16 4.66973996 2.77258872 21.8064713 7.68724822 12.9472683395653
114.00 15 4.73619845 2.70805020 22.4315757 7.33353589 12.8258631606347
120.31 14 4.79007175 2.63905733 22.9447873 6.96462359 12.6412739481451
130.71 13 4.87298113 2.56494936 23.7459451 6.57896521 12.4989498152312
139.85 12 4.94057042 2.48490665 24.4092361 6.17476106 12.2768562895291
156.35 11 5.05209708 2.39789527 25.5236849 5.74990174 12.1143997152115
166.24 10 5.11343253 2.30258509 26.1471922 5.30189811 11.7741135115091
183.63 9 5.21292286 2.19722458 27.1745648 4.82779584 11.4539622355084
204.74 8 5.32174088 2.07944154 28.3209260 4.32407713 11.0662490630296
220.46 7 5.39571627 1.94591015 29.1137541 3.78656631 10.4995790561491
Promedios 4.87420467 2.55402609 23.8455080 6.62534661 12.3542906436676
REGRESIÓN EXPONENCIAL:
Un conjunto de datos experimentales que sigue un comportamiento exponencial tiene el aspecto de una
linea recta en papel semi-logarítmico. Para linealizar la formula exponencial, similarmente al caso
potencial se toma el logaritmo natural en ambos lados de la igualdad:
mx
ln ( y)=ln(be ) .
Después de aplicar las propiedades de los logaritmos para el producto y los exponente se llega a
Y =B+m x , (24)
que corresponde justamente a la formula de una función lineal. A diferencia del caso potencial,
únicamente se tomará el logaritmo de la variable dependiente (y), mientras que la variable
independiente (x) permanece inalterada.
xY −x Y x2 Y −xY x
m= , B= (16)
x 2−(x )2 x 2−( x)2
2 2 2 2 2
√ [
1 ( x −x )(Y −Y )−( xY −x Y )
D m=m n−2
( xY −x Y )2 ] (17)
1 /2
D B=D m ( x 2 ) (18)
b=e B (19)
Por último queda aclarar que m tiene unidades de 1/Ux, mientras que [b]=Uy.
Ejemplo:
Una bióloga mide el número de cierto tipo de bacterias presentes en una muestra y obtiene los datos en
la Tabla 6.
Tabla 6: Numero de bacterias en un recipiente medido cada día.
Tiempos (días) Número de bacterias
0.0±0.2 10±1
1.0±0.1 13±1
2.0±0.3 17±2
3.0±0.2 24±2
4.0±0.2 27±3
5.0±0.1 38±4
6.0±0.2 48±5
7.0±0.3 63±6
8.0±0.2 82±8
(a)
(b)
Figura 4: Número de bacterias en el recipiente en función del tiempo en escala a) lineal y b) semi-
logarítmica.
En la Tabla 7 se han organizado los datos de forma que sea más sencillo hacer los cálculos de la
regresión.
(15.18)−(4.0)(3.36)
El coeficiente m es m= =0.26 días−1 y su incertidumbre D m=0.01días−1 .
(22.7)−(4.0)2
(22.7)(3.36)−(15.18)(4.0)
El coeficiente B es B= =2.31 con D B=0.02 .
(22.7)−( 4.0)2
Finalmente el valor b=e 2.31=10.11 con incertidumbre D b=0.25 .
Tabla 7: Ḿodelo de tabla para encontrar los coeficientes de una regresión exponencial.
t N n=ln(N) t² n²=(ln(N))² tn=t ln(N)
0.0 10 2.30259 0.0 5.3018981 0.0
1.0 13 2.56495 1.0 6.5789652 2.564949
2.0 17 2.83321 4.0 8.0270979 5.666427
3.0 24 3.17805 9.0 10.100026 9.534161
4.0 27 3.29584 16 10.862541 13.18335
5.0 38 3.63759 25 13.232033 18.18793
6.0 48 3.87120 36 14.986197 23.22721
7.0 63 4.14313 49 17.165565 29.00194
8.0 82 4.40672 64 19.419175 35.25375
4.0 N.A. 3.35925 22.7 11.741500 15.17997
PREGUNTAS DE PREPARACIÓN