Está en la página 1de 8

Mtodos cuantitativos de anlisis grfico

Mtodo de cuadrados mnimos Regresin lineal Hemos enfatizado sobre la importancia de las representaciones grficas y hemos visto la utilidad de las versiones linealizadas de los grficos (X, Y) junto a las distintas maneras de llevar a cabo la linealizacin. A menudo nos confrontamos con situaciones en las que existe o suponemos que existe una relacin lineal entre las variables X e Y. Surge de modo natural la pregunta: cul es la relacin analtica que mejor se ajusta a nuestros datos? El mtodo de cuadrados mnimos es un procedimiento general que nos permite responder esta pregunta. Cuando la relacin entre las variables X e Y es lineal, el mtodo de ajuste por cuadrados mnimos se denomina tambin mtodo de regresin lineal. En este captulo discutiremos este ltimo caso. El lector puede consultar en el Apndice F de la Ref. [1] una discusin del caso general de cuadrados mnimos cuando el modelo es no lineal y los datos estn afectados de errores.

La Fig. 1 ilustra el caso lineal. La dispersin de los valores est asociada a la fluctuacin de los valores de cada variable. Observamos o suponemos una tendencia lineal entre las variables y nos preguntamos sobre cul es la mejor recta:

y(x) = a x + b

(1)

que representa este caso de inters. Es til definir la funcin 2 (Chi-cuadrado)[1-3]:

2 = i y ( a x + b) i i

2 (2)

que es una medida de la desviacin total de los valores observados yi respecto de los predichos por el modelo lineal a x + b. Los mejores valores de la pendiente a y la ordenada al origen b son aquellos que minimizan esta desviacin total, o sea, son los valores que remplazados en la Ec.(1) minimizan la funcin 2, Ec.(2). Los parmetros a y b pueden obtenerse usando tcnicas matemticas que hacen uso del clculo

Red Creativa de Ciencia - 2002

diferencial. Aplicando estas tcnicas, el problema de minimizacin se reduce al de resolver el par de ecuaciones:

d 2 =0 da de donde resulta:[1-4]

d 2 =0 db

(3)

a=

N xi yi xi yi N xi2 ( xi )
2

(4)

b=

N x i2 y i x i x i y i N x i2 ( x i )
2

(5)

Actualmente, la mayora de los programas de anlisis de datos y planillas de clculo, realizan el proceso de minimizacin en forma automtica y dan los resultados de los mejores valores de a y b, o sea los valores indicado por la ecuaciones (4) y (5).

Figura 1 Grfico de datos asociados a un modelo lineal. La cantidad yi - y(xi) representa la desviacin de cada observacin de yi respecto del valor predicho por el modelo y(x).

Red Creativa de Ciencia - 2002

El criterio de mnimos cuadrados reemplaza el juicio personal de quien mire los grficos y defina cul es la mejor recta. En los programas como Excel, Origin, etc., este clculo se realiza usando la herramienta regresin lineal o ajuste lineal. Los resultados (4) y (5) se aplican en el caso lineal cuando todos los datos de la variable dependiente tienen la misma incertidumbre absoluta y la incertidumbre de la variable independiente se considera despreciable.

Una medida de la calidad o bondad del ajuste realizado viene dado por el coeficiente de correlacin R2 entre las variables X e Y, definido como:

R2 = donde

Cov ( x, y ) 2 Var ( x ) Var ( y )

(6)

Cov ( x, y ) =
N

N xi yi xi yi
i =1

N
2 2 i

i =1 2

i =1

(7)

N x xi Var( x ) = i =1 i =1 N N
y

=< x 2 > < x > 2


=< y 2 > < y > 2
2

(8)

N y yi i =1 Var ( y ) = i =1 N N
N 2 i

(9)

El valor de R vara entre 1 y 1. Si R es 1 o prximo a estos valores, decimos que el modelo lineal es adecuado para describir los datos experimentales. Cuando R se aparta de estos extremos decimos que una expresin lineal no es una buena descripcin de los datos. En este caso, conviene analizar el grfico y buscar una relacin nolineal que aproxime mejor la dependencia. Dado que R mide el grado de correlacin lineal entre los datos, si, por ejemplo, los pares de puntos (X, Y) tienen una relacin tal que

Red Creativa de Ciencia - 2002

caen sobre un crculo, aunque ellos estn correlacionados, tendramos R 0. Desde luego, si los pares (X, Y) no tienen correlacin alguna entre ellos, tambin tendramos R 0. Ver la Figura 2.

10
     

10
   

5 0 -5 -10 -5 y

5 0 -5 -10 y

5 x

10

15

-5

0 -5

0 -5

-10 -5 0 5 x 10 15

-10 -5 0 5 x 10 15

Figura 2 Ajuste de datos experimentales por un modelo lineal. a) Caso de una buena correlacin lineal; b) aceptable; c) es un caso en el prcticamente no hay correlacin entre X e Y; d) tiene una buena correlacin pero el modelo lineal es inadecuado.

Frecuentemente el resultado que deseamos determinar de nuestro experimento es alguno de los parmetros de la Ec. (1). Por ejemplo, si deseamos determinar la constante elstica k de un resorte a partir de mediciones de fuerzas aplicadas Fi y estiramientos xi que le producen al resorte, k ser precisamente la pendiente de la recta que mejor se ajusta a los datos. Otro ejemplo es la obtencin de la resistencia elctrica R de un conductor, que deseamos determinar a partir de mediciones de tensin Vi y la corriente que lo atraviesa Ii. Por consiguiente, es til disponer de un modo de estimar las incertidumbres asociadas a la determinacin de los parmetros a y b de la Ec. (1). La importancia del mtodo de cuadrados mnimos reside en el hecho que nos permite

Red Creativa de Ciencia - 2002

"

10
  

10


  

5 x

10

15

obtener valores de la desviacin estndar o sea los errores asociados a los parmetros a y b de la Ec. (1)[4], que denotaremos con los smbolos a y b. En esta seccin slo presentamos los resultados de utilidad ms frecuente en el laboratorio; el lector interesado podr encontrar un tratamiento ms exhaustivo en las Ref.[1-4]. Las incertidumbres de los parmetros del ajuste vienen dadas por las expresiones:

a =

2 N N Var( x )

(10)

b =

2 N xi2

N Var( x )

i =1

(11)

2 donde N , conocido como el valor de Chi-cuadrado por grado de libertad, viene dada

por:
2 N =

1 2 N 2

(12)

Las incertidumbres de los parmetros a y b tambin pueden escribirse en trminos del coeficiente de correlacin R del siguiente modo:

a2 1 1 a = (N 2) R2

(13)

b = a < x2 >
donde

(14)

< x 2 >=

x
i =1

2 i

(15)

Red Creativa de Ciencia - 2002

Estas expresiones son de mucha utilidad para estimar a y b, ya que la mayora de las planillas de clculo y programas de ajuste, por los regular indican los valores de los parmetros a y b que mejor ajustan los datos y el valor de R.

Precauciones en el anlisis No siempre es suficiente admitir que dos variables siguen una relacin lineal guindonos por lo que muestra un grfico de los datos en escalas lineales. Menos aun si slo evaluamos el coeficiente de correlacin del ajuste lineal que propondramos a partir de este grfico. Un grfico de Y = X1.1 (variables sin correlacin lineal) puede ajustarse por una recta y obtenerse a la vez un coeficiente de correlacin lineal (inexistente) de, por ejemplo, 0.998. Un grfico de datos experimentales de Y = X con algo de dispersin fortuita de los puntos, podra devenir en un coeficiente de, por ejemplo, 0.995, menor que el anterior. Entre los coeficientes hay una diferencia, apenas, del 3 por mil. Pero en un grfico log-log, la diferencia de pendientes ser la que hay entre 1.1 y 1.0, lo que representa un 10% de discrepancia entre los exponentes de la variable X. Estos mtodos de anlisis nos ensean que los efectos de correlacin pueden estar enmascarados por el efecto del ruido de los datos. En ocasiones lo difcil es establecer si existe correlacin entre las variables, aun cuando los datos provengan de fuentes limpias que hayan producido datos con relativamente poca dispersin. Muchas veces la decisin entre dos alternativas debe hacerse usando otros criterios. Por ejemplo, la consistencia con otros conjuntos de datos o sobre la base de consideraciones de simetra o concordancia con teoras bien establecidas.

Red Creativa de Ciencia - 2002

Ejemplo: Imaginemos un experimento donde se mide la distancia que recorre un mvil sobre una lnea recta mientras una fuerza constante acta sobre l. Esperamos que el movimiento sea uniformemente acelerado. Supongamos que el cuerpo parte del reposo, que medimos x(t) a tiempos largos y que los datos colectados son los representados en la Fig. 3.a.

1050 900 750 600 75 4.05 4.00 3.95

(a)

x (cm)

= 0.99959

80

85

90

95

100

105

t (s)
(b)

log(x)

3.90 3.85 3.80 pendiente = 2

3.75 1.88 1.90 1.92 1.94 1.96 1.98 2.00 2.02

log(t)
Figura 3 Representacin de x(t) para un cuerpo que se mueve con movimiento uniformemente acelerado. (a) A tiempos largos no se aprecia bien la curvatura de la curva y, dado que el coeficiente de correlacin lineal es muy cercano a la unidad, podra suponerse que la correlacin es lineal. (b) log(x) en funcin de log(t), de donde se deduce que la relacin no es lineal sino cuadrtica.

Si los datos experimentales se analizan sobre el grfico de escalas lineales, el ajuste por un modelo lineal es ms que tentador. Hecho esto, se obtiene la ecuacin de la mejor recta y un coeficiente de correlacin muy alto, R = 0.99959. Sin embargo, un modelo basado en las ecuaciones de la dinmica dice que

Red Creativa de Ciencia - 2002

x=

1 2 at 2

donde a es la aceleracin. En la Fig. 3.b estn los logaritmos de los mismos datos, de donde se ve claramente la proporcionalidad x t2 que predice el modelo, difcilmente demostrable a partir del grfico de la Fig. 3.a. Evidentemente, el uso de una aproximacin lineal no es buena en este problema y el mero juicio del valor del coeficiente de correlacin no es suficiente.

Referencias 1. S. Gil y E.Rodrguez, Fsica re-Creativa, Prentice Hall, Buenos Aires 2001. 2. P. Bevington and D. K. Robinson, Data reduction and error analysis for the physical sciences, 2nd ed., McGraw Hill, New York, 1993. 3. Stuardt L. Meyer, Data analysis for scientists and engineers, John Willey & Sons, Inc., New York, 1975. 4. D. C. Baird, Experimentacin, 2 ed., Prentice Hall Hispanoamericana S.A., Mxico, 1991.

Red Creativa de Ciencia - 2002

También podría gustarte