Está en la página 1de 11

Análisis de gráficas y regresiones

OBJETIVOS

 Realizar gráficas adecuadas a partir de los datos de un experimento.


 Interpretar correctamente las gráficas elaboradas y construir ecuaciones que relacionen las
variables medidas.
 Utilizar las incertidumbres en el análisis gráfico de datos.
 Apreciar las ventajas y limitaciones del método gráfico para analizar los datos experimentales.

REGRESIONES

Es usual en las ciencias e ingenierías que se posea un conjunto de datos numéricos que describen un
determinado fenómeno. Con el objetivo de estudiar propiedades más profundas de este fenómeno e
incluso realizar predicciones, se suelen buscar formulas matemáticas que se ajusten adecuadamente al
conjunto de datos resultantes. En este apartado introduciremos el ajuste de un conjunto de datos a tres
modelos matemáticos básicos: Modelo lineal, potencial y exponencial.

REGRESIÓN LINEAL:

Considere el siguiente conjunto de medidas obtenidas de mediciones experimentales:

Tabla 1: Conjunto de datos experimentales. x es la variable independiente mientras y es la variable


dependiente. Ux es la unidad de x y Uy es la unidad de y.

x (Ux) y (Uy)
x1±Dx1 y1±Dy1
x2±Dx2 y2±Dy2
x3±Dx3 y3±Dy3

xn±Dxn yn±Dyn

Ahora suponga que al representar este conjunto de datos en papel milimetrado se obtiene una gráfica tal
que sigue una tendencia claramente lineal como se observa en la Figura 1. Como se observa en esta
figura, los datos experimentales siguen claramente un comportamiento lineal. La pregunta que se
genera es ¿cuál es la mejor recta que se ajusta a dicho conjunto de datos? La respuesta se encuentra en
un proceso de regresión lineal basado llamado mínimos cuadrados. En general, se debe entender una
regresión como un proceso en el cual se ajusta una ecuación a un cierto modelo matemático, buscando
minimizar la desviación que existe entre el modelo y el conjunto de datos.

En general una linea recta en el espacio R² está dada por la expresión

y=mx +b , (1)
donde m es la pendiente y b el punto de corte con el eje y. Entonces, se puede pensar que una recta es
definida por la pendiente que posee y el punto de corte.

Ahora si, iniciemos el proceso para obtener la mejor recta que describe al conjunto de datos en
cuestión. Considere el punto i-ésimo de los datos experimentales el cual tiene coordenadas (xi, yi), y sea
y^ i el valor de y obtenido al evaluar la mejor recta en el punto xi , como se observa en la Figura 1, es
decir,
y^ i=mx i+ b .

Figura 1: Representación de los datos experimentales (puntos) y el ajuste o regresión (línea roja).

No confunda a y^ i con un vector unitario, simplemente se usa el acento circunflejo (^) para
diferenciarlo del valor experimental. Justo en el punto xi es intuitivo definir la desviación de la
regresión lineal respecto al experimento o el error de la regresión como la diferencia entre el valor
experimental y el valor de la mejor recta:

εi= y i− y^ i = y i−mxi −b . (2)

Por lo tanto, la desviación total es la suma de todas las desviaciones en cada uno de los punto
experimentales:
n n n

∑ εi=∑ y i− y^ i=∑ y i−mxi−b (3)


i=1 i =1 i=1

Desde un punto de vista “ingenuo” se pensaría que la mejor recta es la que minimiza la desviación
total, sin embargo, esta idea puede resultar incorrecta desde ciertos aspectos. Como se observa en la
Figura 1, existen puntos para los cuales la desviación es positiva y negativa en otros, por lo tanto,
puede presentarse el caso de una recta en la que a pesar de presentar desviaciones considerables
respecto a los datos experimentales, al calcular la desviación total (hay valores positivos y negativos en
la suma) se puede obtener un valor sumamente pequeño e incluso nulo. Por lo anterior, con el objetivo
de evitar este tipo de cancelaciones se tomará el cuadrado de cada desviación y se sumaran entre si:
n n n

∑ (εi)2=∑ ( y i− y^ i )2=∑ ( y i−mx i−b)2


i=1 i=1 i=1
(4)
Teniendo en cuenta lo anterior, se busca una recta que minimice el valor de la ecuación (4), la pregunta
es ¿respecto a quién(es) debemos minimizar? De manera lógica se llega a que la minimización debe
realizarse respecto a quienes definen a una recta, es decir, la pendiente y el punto de corte que son los
parámetros que se desean encontrar mediante la regresión. Recuerde del curso de calculo que para
minimizar una función, ésta se debe derivar respecto a la variable con la cual se desea minimizar y se
iguala a cero. En este caso se realiza el mismo procedimiento pero dos veces:
n n
∂ ∑ (εi )2 ∂ ∑ (εi )2
i=1 i=1
=0 , =0 (5)
∂m ∂b

Para la primera derivada se tiene


n n
2
∂ ∑ ( εi ) ∂ ∑ ( yi −mxi−b)2
i=1 i=1
= =0
∂m ∂m

puesto que la suma es finita, se puede introducir la derivada dentro de la suma:


n
∂ ∑ ( εi )2 n
i=1
=∑ 2( y i−mxi−b)(−x i )=0 .
∂m i=1
O equivalentemente:
n
2 ∑ − y i x i +mx2i +bx i=0 .
i=1

Separando cada término de la suma y dividiendo entre 2 se obtiene


n n n
2
−∑ y i x i +m ∑ x +b ∑ x i=0 . i
i=1 i=1 i =1

Como se observa, se extrajo la pendiente y el punto de corte de la suma pues estos son valores
constantes. Al dividir la ecuación anterior por n (número de datos experimentales) se llega a:
2
− yx +m x +b x=0 . (6)

Donde se han definido las cantidades promedio:


n n n n n

∑ xi yi ∑ x2i ∑ y 2i ∑ xi ∑ yi
i=1
, x 2= n i=1
y 2= i=1 i=1 i=1
xy= n , n , x= n , y= n . (7)

2
Procure no confundir xy con xy y x con ( x)2 . Con un procedimiento similar, de la segunda
expresión de (5) se llega a
− y +m x +b=0 . (8)

Antes de proceder a mostrar las ecuaciones finales se deben recordar dos hechos importantes:

1. Cada uno de los xi y yi que aparecen en las ecuaciones de (7) son los valores experimentales.
2. Recuerde que se está buscando la mejor recta que define al conjunto de datos, es decir, el valor
de la pendiente y el punto de corte de dicha recta con el eje de las ordenadas (vertical).
Observe que las expresiones (7) y (8) constituyen un sistema de dos ecuaciones independientes con dos
incongnita (m y b) que al combinarlas dan como resultados:

xy−x y x 2 y−xy x
m= , b= . (9)
x2 −( x )2 x 2−( x)2

Con las dos expresiones en (9) ya queda totalmente definida la mejor recta. Debido a la dispersión que
presentan los datos experimentales alrededor de esta recta, la pendiente y el punto de corte también
poseen incertidumbre en su cálculo, el cual define un rango de confianza. Sin entrar en detalles, las
expresiones de las incertidumbres son:

2 2 2 2 2
D m=m
√ [
1 ( x −x )( y − y )−( xy−x y)
n−2 (xy−x y )
2 ] (10)

1/ 2
D b=D m ( x 2 ) (11)

Como se observa, en este grado de la aproximación del error en la pendiente y el punto de corte, no se
tiene en cuenta el error asociado a cada dato experimental.

Ejemplo:

Un pequeño carro de cuerda se suelta y se obtienen los siguientes datos de la posición en función del
tiempo.

Tabla 2: Posición en función del tiempo de un carro de cuerda.


Tiempo (s) Posición (cm)
1.0±0.5 10.0±1.1
2.0±0.5 15.2±1.2
3.0±0.5 21.3±1.1
4.0±0.5 25.7±2.1
5.0±0.5 30.1±3.0
6.0±0.5 34.1±3.4
7.0±0.5 42.1±4.1
8.0±0.5 46.2±4.3

Observe que el tiempo hace las veces de la variable independiente, mientras que la posición cumple el
rol de variable dependiente. Al representar los puntos se obtiene la Figura 2. Como se observa en esta
figura que los datos siguen claramente una tendencia lineal, por lo cual se construye la Tabla 3.
50.0
40.0

Posición (cm)
30.0
20.0
10.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0
Tiempo (s)

Figura 2: Datos experimentales (puntos) de la posición en función del tiempo y el ajuste lineal (línea
roja).

A partir de la Tabla 3 y las relaciones en (9) , (10) y (11) se obtiene:

153.3 cm⋅s−(4.5 s )(28.1 cm)


m= =5.13 cm/s y su respectivo error D m=0.15 cm/s ,
25.5 s 2−(4.5)2

(25.5 s 2)(28.1 cm)−(153.3 cm⋅s)( 4.5 s)


b= 2 2 =5.01 cm y su respectivo error D b=0.74 cm .
25.5 s −(4.5 s )
Para representar la regresión resultante existen múltiples caminos. En una de las formas se escribe cada
término de la regresión con sus unidades e incertidumbres. De modo que la fórmula que describe la
posición del auto como función del tiempo en esta notación es

cm cm
( )
x= 5.14 s ±0.15 s t +(5.01cm±0.74 cm) .

Puede resultar incomodo leer el resultado de esta manera pues las unidades introducen un poco de ruido
en el proceso de lectura y confundirse con la variable en cuestion.

Tabla 3: Términos de interés para calcular la regresión lineal. La fila en amarillo representa el
promedio de cada columna.

t (s) x (cm) t²(s²) x²(m²) tx(m.s)


1.0 10.0 1.0 100 10
2.0 15.2 2.0 231.04 30.4
3.0 21.3 9.0 453.69 63.9
4.0 25.7 16 660.49 102.8
5.0 30.1 25 906.01 150.5
6.0 34.1 36 1162.81 204.6
7.0 42.1 49 1772.41 294.7
8.0 46.2 64 2134.44 369.6
4.5 28.1 25.5 927.61 153.3
REGRESIÓN POTENCIAL:

Una ley de potencias tiene la expresión


y=b x m (12)

Un conjunto de datos experimentales que siguen una ley de potencias tienen la peculiaridad de lucir
como una linea recta en papel logarítmico. Se observa de la ecuación (12) que una ley de potencias
queda totalmente descrita si se conocen b y el exponente m. El punto reside en determinar dichos
valores si unicamente conozco el método para obtener una regresión lineal. La respuesta es bastante
sencilla y consiste en tomar el logaritmo natural a ambos lados de la igualdad:
m
ln ( y)=ln(b x ) .

Después de aplicar las propiedades de los logaritmos para el producto y los exponente se llega a

ln ( y)=ln (b)+m ln ( x ) , (13)


a continuación, se definen un nuevo conjunto de variables convenientemente:

Y =ln ( y ) , X =ln ( x ) y B=ln(b) . (14)

Con las definiciones anteriores, la formula (13) queda escrita como

Y =B+m X , (15)

que corresponde justamente a la formula de una función lineal, es decir, si un conjunto de datos
experimentales siguen una ley de potencias, los logaritmos de estos datos tienen un comportamiento
lineal, lo cual resulta ser de gran utilidad pues en la sección anterior encontramos un método para
encontrar la regresión lineal asociada, por lo tanto, como primer paso se puede determinar la regresión
lineal con los datos logarítmicos y posteriormente se expresan adecuadamente todos los parámetros de
la regresión potencial.

Como se mencionó, al tomar el logaritmo de los datos experimentales, éstos tienen una tendencia lineal
dada por:

XY − X Y X 2 Y −XY X
m= , B= (16)
X 2−(X )2 X 2 −( X )2

y las respectivas incertidumbre son:

2 2 2 2 2

√ [
1 ( X − X )(Y −Y )−(XY −X Y )
D m=m n−2
( XY − X Y )2 ] (17)

1/ 2
D B=D m ( X 2 ) (18)
La pendiente de la recta m se convierte en el exponente de la función potencial sin cambio alguno,
mientras que el coeficiente b es

b=e B (19)

y su incertidumbre: D b=e B D B (20)

Por último queda aclarar que m es una cantidad adimensional, mientras que [b]=Uy/(Ux)m.

Ejemplo:

Con el objetivo de comprobar la ley de Boyle, un estudiante midió como varía el volumen dentro de un
embolo en función de la presión aplicada. La Tabla 4 muestra los resultados obtenido.

Tabla 4: Datos experimentales del volumen del émbolo en función de la presión ejercida.
P ± 4 (kPa) V ± 1 (cm³) P ± 4 (kPa) V ± 1 (cm³) P ± 4 (kPa) V ± 1 (cm³)
85.98 20 120.31 14 204.74 8
90.76 19 130.71 13 220.46 7
95.30 18 139.85 12
100.89 17 156.35 11
106.67 16 166.24 10
114.00 15 183.63 9

(a) (b)

Figura 3: Volumen del émbolo en función de la presión ejercida en escala a) lineal y b) logarítmica.
Los puntos representan los datos experimentales y la linea roja a la regresión potencial.

En la figura 3 a) se representan los datos experimentales obtenidos y en la 3 b) se grafican en escala


logarítmica. Es evidente de estas dos figuras que el comportamiento de los datos corresponde a una ley
de potencias.

Con el objetivo de realizar la regresión potencial se construye la Tabla 5. A partir de ésta y las
ecuaciones (16)-(20) se obtiene:
(12.3543)−(4.8742)(2.5540)
m= =−1.08 , su incertidumbre es D m=0.02 ,
(23.8455)−(4.8742)2

(23.8455)(2.5540)−(12.3543)( 4.8742)
B= =7.81 , su incertidumbre es D B=0.08
(23.8455)−( 4.8742)2

y finalmente el coeficiente b es b=e(7.81)=2472.6 kPa1.08 cm3 , su incertidumbre es


D b=188.5 kPa1.08 cm3 .

Con lo anterior la expresión para el volumen en función de la presión es:

V =( 2472.6 kPa 1.08 cm3±188.5 kPa1.08 cm3 ) P(−1.08±0.02)

Tabla 5: Modelo de organización de datos para realiza una regresión potencial. Se omiten los errores
de las variables ya que no son necesarias para los cálculos.
P (kPa) V (cm³) p=ln(P) v=ln(V) p²=(ln(P))² v²=(ln(V))² pv=ln(P)ln(V)
85.98 20 4.45411471 2.99573227 19.8391379 8.97441185 13.3433351900584
90.76 19 4.50821866 2.94443898 20.3240355 8.66972090 13.2741747488493
95.30 18 4.55702981 2.89037176 20.7665207 8.35424890 13.171510264623
100.89 17 4.61403081 2.83321334 21.2892804 8.02709785 13.0725336733021
106.67 16 4.66973996 2.77258872 21.8064713 7.68724822 12.9472683395653
114.00 15 4.73619845 2.70805020 22.4315757 7.33353589 12.8258631606347
120.31 14 4.79007175 2.63905733 22.9447873 6.96462359 12.6412739481451
130.71 13 4.87298113 2.56494936 23.7459451 6.57896521 12.4989498152312
139.85 12 4.94057042 2.48490665 24.4092361 6.17476106 12.2768562895291
156.35 11 5.05209708 2.39789527 25.5236849 5.74990174 12.1143997152115
166.24 10 5.11343253 2.30258509 26.1471922 5.30189811 11.7741135115091
183.63 9 5.21292286 2.19722458 27.1745648 4.82779584 11.4539622355084
204.74 8 5.32174088 2.07944154 28.3209260 4.32407713 11.0662490630296
220.46 7 5.39571627 1.94591015 29.1137541 3.78656631 10.4995790561491
Promedios 4.87420467 2.55402609 23.8455080 6.62534661 12.3542906436676

REGRESIÓN EXPONENCIAL:

Una función exponencial tiene la expresión


y=b emx (21)

Un conjunto de datos experimentales que sigue un comportamiento exponencial tiene el aspecto de una
linea recta en papel semi-logarítmico. Para linealizar la formula exponencial, similarmente al caso
potencial se toma el logaritmo natural en ambos lados de la igualdad:
mx
ln ( y)=ln(be ) .

Después de aplicar las propiedades de los logaritmos para el producto y los exponente se llega a

ln ( y)=ln(b)+m x ln ( e)=ln (b)+m x , (22)


a continuación, se definen las variables convenientemente:

Y =ln ( y ) y B=ln(b) . (23)

Con las definiciones anteriores, la formula (23) queda escrita como

Y =B+m x , (24)
que corresponde justamente a la formula de una función lineal. A diferencia del caso potencial,
únicamente se tomará el logaritmo de la variable dependiente (y), mientras que la variable
independiente (x) permanece inalterada.

Al tomar el logaritmo de la variable dependiente en el conjunto de datos experimentales, éstos


presentan una comportamiento lineal con respecto a la variable independiente, donde los coeficientes
que definen la recta son

xY −x Y x2 Y −xY x
m= , B= (16)
x 2−(x )2 x 2−( x)2

y las respectivas incertidumbre son:

2 2 2 2 2

√ [
1 ( x −x )(Y −Y )−( xY −x Y )
D m=m n−2
( xY −x Y )2 ] (17)

1 /2
D B=D m ( x 2 ) (18)

La pendiente de la recta m es el coeficiente en el exponente que acompaña a la variable independiente


de la función exponencial sin cambio alguno, mientras que el coeficiente b es

b=e B (19)

y su incertidumbre: D b=e B D B (20)

Por último queda aclarar que m tiene unidades de 1/Ux, mientras que [b]=Uy.

Ejemplo:

Una bióloga mide el número de cierto tipo de bacterias presentes en una muestra y obtiene los datos en
la Tabla 6.
Tabla 6: Numero de bacterias en un recipiente medido cada día.
Tiempos (días) Número de bacterias
0.0±0.2 10±1
1.0±0.1 13±1
2.0±0.3 17±2
3.0±0.2 24±2
4.0±0.2 27±3
5.0±0.1 38±4
6.0±0.2 48±5
7.0±0.3 63±6
8.0±0.2 82±8

(a)

(b)

Figura 4: Número de bacterias en el recipiente en función del tiempo en escala a) lineal y b) semi-
logarítmica.

En la Tabla 7 se han organizado los datos de forma que sea más sencillo hacer los cálculos de la
regresión.
(15.18)−(4.0)(3.36)
El coeficiente m es m= =0.26 días−1 y su incertidumbre D m=0.01días−1 .
(22.7)−(4.0)2

(22.7)(3.36)−(15.18)(4.0)
El coeficiente B es B= =2.31 con D B=0.02 .
(22.7)−( 4.0)2
Finalmente el valor b=e 2.31=10.11 con incertidumbre D b=0.25 .

La expresión para el número de bacterias es:


−1 −1

N=(10.11±0.25)e(0.26 días ±0.01 días )t

Tabla 7: Ḿodelo de tabla para encontrar los coeficientes de una regresión exponencial.
t N n=ln(N) t² n²=(ln(N))² tn=t ln(N)
0.0 10 2.30259 0.0 5.3018981 0.0
1.0 13 2.56495 1.0 6.5789652 2.564949
2.0 17 2.83321 4.0 8.0270979 5.666427
3.0 24 3.17805 9.0 10.100026 9.534161
4.0 27 3.29584 16 10.862541 13.18335
5.0 38 3.63759 25 13.232033 18.18793
6.0 48 3.87120 36 14.986197 23.22721
7.0 63 4.14313 49 17.165565 29.00194
8.0 82 4.40672 64 19.419175 35.25375
4.0 N.A. 3.35925 22.7 11.741500 15.17997

PREGUNTAS DE PREPARACIÓN

1. Investigue las utilidades del papel logarítmico y semi-logarítmico.


2. Realice un un ejemplo en el cual represente un conjunto de datos en papel logarítmico.
3. Realice un un ejemplo en el cual represente un conjunto de datos en papel semi-logarítmico.
4. ¿En que tipo de papel una función potencial tiene un aspecto lineal?
5. ¿En que tipo de papel una función exponencial tiene un aspecto lineal?

También podría gustarte