Está en la página 1de 10

Nombre: Robledo Sebastin Informe del curso de Regresin Lineal y no Lineal 2007 1.

1 Introduccin: El presente trabajo tiene por objeto aplicar la estadstica matemtica para el anlisis de datos obtenidos en las experiencias de laboratorio para luego sacar conclusiones tanto de la aplicacin de los modelos utilizados as como tambin del diseo experimental o la recopilacin de datos. En este trabajo en particular se aplicara un procedimiento inferencial que podr utilizarse cuando una variable aleatoria Y, denominada variable dependiente, tiene una media que es una funcin de una o ms variables no aleatorias, X1, X2, ., Xk designadas variables independientes. Se pueden utilizar muchos tipos diferentes de funciones matemticas para representar el modelo de una respuesta que sea funcin de una o ms variables independientes. Es posible clasificar estos modelos en dos categoras, los modelos determinsticos y los modelos probabilsticos. Por ejemplo, supongamos que tengamos que relacionar una respuesta y con una variable x y que las mismas estn relacionadas entre si segn la ecuacin: y = 0 + 1 x (1)

Donde los parmetros son desconocidos. Este modelo se denomina modelo matemtico determinstico porque no permite algn error en la prediccin de y como funcin de x. Ahora supongamos que obtenemos una muestra de n valores de y que corresponden a n diferentes valores de la variable independiente x, y que la representacin grfica de los datos es como se muestra en la fig. n 1. Es evidente en la figura que el valor esperado de y puede aumentar como una funcin lineal de x, pero que un modelo determinstico queda lejos de ser una descripcin adecuada de la realidad, al repetir los experimentos y flucta de manera aleatoria. Esto nos indica que el modelo determinstico no es representacin exacta de la relacin entre las dos variables. Adems si se utilizara el modelo para predecir y cuando x toma un determinado valor, la prediccin tendra un error desconocido. Esto naturalmente, nos conduce a la aplicacin de los modelos estadsticos. La prediccin de y para un dado valor de x es un proceso inferencial y se requiere conocer las propiedades del error de la prediccin si sta va a ser utilizada en la realidad. Por ej. podramos representar las respuestas de la figura mediante el modelo: E (Y ) = 0 + 1 x Lo que equivale a: y = 0 + 1 x + (3) (2)

En donde es una variable aleatoria con una distribucin de probabilidad especifica con media cero. Considrese a Y como una variable que tiene un componente determinstico, E(Y), ms un componente aleatorio . Este modelo toma en cuenta el comportamiento aleatorio de Y representado en la figura y representa una descripcin ms adecuada de la realidad que el modelo determinstico.

-2

y 2

-2

-1

0 x

Fig. n 1: Representacin grfica de los datos Aunque haya un sinfn de funciones diferentes que pueden utilizar como modelo del valor medio de la variable de respuesta Y como una funcin de una o ms variables independientes, nos concentraremos en el conjunto de modelos estadsticos lineales. Un modelo para estimar los parmetros de cualquier modelo lineal es el mtodo de los mnimos cuadrados, que se puede ilustrar sencillamente aplicndolo para ajustar una lnea recta a travs de un conjunto de puntos que representan los datos. 1.2 Anlisis del modelo ajustado Para la obtencin de la curva de calibracin se mide la respuesta en corriente (corriente de pico) obtenida a partir de la aplicacin de una onda cuadrada para un dado valor de concentracin. En el proceso de recopilacin de datos, la corriente se obtiene a partir de la diferencia del valor pico y una lnea de base que hace las veces de blanco. Lo que se busca es comparar si existe alguna diferencia significativa entre las varias posibilidades cuando se toman los dos puntos al trazar una lnea de base fig. n 2 para luego hacer la grfica y ajustar la curva de calibrado.

2.5

x 10

-5

A 1.5 1 0.4

0.6

0.8

1.2 E(Volt)

1.4

1.6

1.8

Fig. n 2 La lnea verde representa la lnea de base, la cual es restada para cada respuesta en corriente correspondiente a cada valor de concentracin.

Tabla n 1 concentracin 13.927 27.684 41.275 54.702 67.968 81.076 94.029 106.83 Ip_clb1* 3.488E-6 6.9565E-6 1.0304E-5 1.3829E-5 1.4997E-5 1.8819E-5 2.2337E-5 2.5842E-5 Ip_clb2 3.4928E-6 6.9056E-6 1.0285E-5 1.3797E-5 1.4966E-5 1.8814E-5 2.2369E-5 2.585E-5 Ip_clb3 3.5061E-6 6.9052E-6 1.0279E-5 1.3784E-5 1.4964E-5 1.8839E-5 2.2281E-5 2.588E-5 Ip_clb4 3.511E-6 6.9269E-6 1.031E-5 1.3838E-5 1.4927E-5 1.8738E-5 2.2275E-5 2.5914E-5 Ip_clb5 3.5065E-6 6.926E-6 1.0275E-5 1.3827E-5 1.4927E-5 1.8767E-5 2.2426E-5 2.5823E-5

* Corriente de pico con la lnea de base restada 1.3 Anlisis de los datos de corriente de pico obtenidos a partir de restar la lnea de base Lo que se pretende encontrar es que no exista una diferencia significativa entre los datos, de manera tal que se seleccione solo un conjunto de datos para luego compararlos con los datos encontrados sin restarles la lnea de base, para tal propsito se compararon los datos entre si a partir de la implementacin del test. One-Way ANOVA Summary Statistics Dataset N Mean SD SE ------------------------------------------------------------------------------------------bhtexp11_ipclb1 8 1.45716E-5 7.60775E-6 2.68974E-6 bhtexp11_ipclb2 8 1.45599E-5 7.62174E-6 2.69469E-6 bhtexp11_ipclb3 8 1.45548E-5 7.61524E-6 2.69239E-6 bhtexp11_ipclb4 8 1.4555E-5 7.60595E-6 2.68911E-6 bhtexp11_ipclb5 8 1.45597E-5 7.61501E-6 2.69231E-6 ------------------------------------------------------------------------------------------Null Hypothesis: The means of all selected datasets are equal Alternative Hypothesis: The means of one or more selected datasets are different ANOVA Sum of Mean Source DoF Squares Square F Value P Value -----------------------------------------------------------------------------Model 4 1.48727600E-15 3.71819000E-16 0.00001 1.00000 Error 35 2.02859600E-9 5.79598858E-11 -----------------------------------------------------------------------------At the 0.05 level, the population means are not significantly different.

Conclusin: a partir de la aplicacin del test concluimos que asumiendo normalidad, la media de las muestras no difieren significativamente entre ellas, por lo tanto podemos considerar cualquier conjunto de datos para compararla con la regresin sin lnea de base. 1.4 Ajuste de los datos sin restarles la lnea de base: Tabla n2 concentracin 13.927 27.684 41.275 54.702 67.968 81.076 94.029 106.83 Ip_slb0* 1.67875E-5 2.03764E-5 2.39219E-5 2.74247E-5 3.08855E-5 3.43051E-5 3.76842E-5 4.10237E-5

* Corriente de pico sin restar la lnea de base


curva de calibracin_sin restar linea de base
ip_slb (A) .000015 .00002 .000025 .00003 .000035 .00004

20

40

60 80 concentracin (ppm) 95% CI ip_slb0 Fitted values

100

Resultados del ajuste regress ip_slb0 Source Model Residual Total c SS 5.0344e-10 3.3152e-12 5.0676e-10 df MS 1 5.0344e-10 6 5.5254e-13 7 7.2394e-11 Number of obs F( 1, 6) Prob > F R-squared Adj R-squared Root MSE ip_slb0 c _cons Coef. 2.61e-07 .0000132 Std. Err. t 8.64e-09 30.19 5.89e-07 22.35 P>t 0.000 0.000 =8 = 911.15 = 0.0000 = 0.9935 = 0.9924 = 7.4e-07 [95% Conf. 2.40e-07 .0000117 Interval] 2.82e-07 .0000146

5.00e-07.00e-06 1

Residuos_cc_sin linea de base

Residuals -1.50e-06 -1.00e-06 -5.00e-07 0

.000015

.00002

.000025 .00003 Fitted values

.000035

.00004

Test de Normalidad swilk res_ipslb Shapiro-Wilk W Variable res_ipslb Obs W 8 0.94473 test for normal data Vz 0.770 -0.407 Prob>z 0.65815

Conclusin: la implementacin del modelo propuesto ajusta correctamente en funcin de analizar los parmetros que arroja la tabla ANOVA, en este el parmetro F el cual da indicios sobre la falta de ajuste, ya que relaciona los cuadrados mnimos por falta de ajuste con los cuadrados mnimos de error puro, es bajo. Otro parmetro que observamos es el coeficiente de determinacin, relacin entre la suma de los cuadrados del modelo y la suma de los cuadrados totales, el cual a su vez lo relacionamos con el coeficiente de correlacin lineal, ya que para el caso de regresin simple es igual a la raz cuadrada del R2 el cual varia entre -1 y 1, en nuestro caso el mismo esta prximo a 1. Adems de los parmetros antes mencionados, hay que corroborar que los residuos no estn correlacionados entre si, que los mismos presenten una distribucin normal y homogeneidad en la varianza, los mismos pueden ser analizados a partir de una grfica de residuos vs valores ajustados as como con los correspondientes test, en este caso mostramos la grfica y adems implementamos un test de normalidad (Shapiro-Wilk), teniendo en cuenta que el mismo es aplicable para el caso en el que el tamao de la muestra es pequeo; puesto que el valor de la probabilidad es elevado decimos que no rechazamos la hiptesis nula la cual estableca que se cumple con la condicin de normalidad.

Si ahora tomamos los valores de las corrientes de pico con lnea de base restada (Ip_clb1) y le aplicamos la regresin lineal y hacemos el mismo anlisis, encontramos: Tabla n3 concentracin 13.927 27.684 41.275 54.702 67.968 81.076 94.029 106.83 Ip_clb1* 3.488E-6 6.9565E-6 1.0304E-5 1.3829E-5 1.4997E-5 1.8819E-5 2.2337E-5 2.5842E-5

*corriente con lnea de base restada de la exp_11


curva de calibracin_con linea de base restada

ip_clb (A) 0 5.00e-06 .0000100001500002000025 . . .

20

40

60 80 concentracin (ppm) 95% CI ip_clb1 Fitted values

100

regress ip_clb1 Source Model Residual Total ip_clb1 c _cons

c SS 4.0250e-10 2.6421e-12 4.0514e-10 Coef. 2.33e-07 3.57e-07 df MS 1 4.0250e-10 6 4.4035e-13 7 5.7878e-11 Std. Err. t 7.72e-09 30.23 5.25e-07 0.68 Number of obs F( 1, 6) Prob > F R-squared Adj R-squared Root MSE P>t 0.000 0.522 =8 = 914.05 = 0.0000 = 0.9935 = 0.9924 = 6.6e-07 [95% Conf. 2.14e-07 -9.28e-07 Interval] 2.52e-07 1.64e-06

5.00e-07.00e-06 1 Residuals -1.50e-06 -1.00e-06 -5.00e-07 0

Residuos_cc_con linea de base restada

5.00e-06

.00001

.000015 Fitted values

.00002

.000025

swilk res_ipclb1 Shapiro-Wilk W Variable res_ipclb1 Obs W 8 0.93140 test for normal data Vz 0.956 -0.073 Prob>z 0.52893

Conclusin: haciendo el mismo anlisis que para el caso de los datos sin restarles la lnea de base, encontramos que el ajuste es correcto, y cumple adems con la condicin de la normalidad en los residuos. La diferencia en principio que existe con el ajuste anterior es que en este caso el valor de 0 es igual a cero ya que no se rechaza la hiptesis nula. 1.5 Comparacin entre las curvas obtenidas sin restar y restando la lnea de base. Grfica de los datos correspondientes:
Curva de calibracin

.00001 .00002 .00003 .00004

20

40

60 80 concentracin (ppm) ip_clb1 ip_slb0

100

Propuesta: lo que se pretende comparar es si existe alguna diferencia significativa entre las pendientes de las dos curvas obtenidas como se explico anteriormente. El modelo propuesto para tal fin es el siguiente: Para x2=0, el cual corresponde a la curva con lnea de base y = 0 + 1 x1 + Y x2=1, para el caso que no tiene restada la lnea de base y = ( 0 + 2 ) + ( 1 + 3 ) x1 +

regress ip x1 x2 x3 Source Model SS df MS Number of obs = 16 F( 3, 12) R-squared Total Root MSE ip x1 x2 x3 _cons Coef. 2.61e-07 -2.79e-08 .0000132 Std. Err. t P>t = 1194.07 = 0.0000 = 0.9967 = 7.0e-07 [95% Conf. Interval] 2.43e-07 -5.29e-08 .000012 2.78e-07 -2.85e-09 .0000144 1.7452e-09 3 5.8173e-10

Residual 5.8462e-12 12 4.8718e-13 Prob > F

1.7510e-09 15 1.1674e-10 Adj R-squared = 0.9958

8.12e-09 32.12 0.000 1.15e-08 -2.43 0.032 5.53e-07 23.85 0.000

-.0000128 7.82e-07 -16.39 0.000

-.0000145 -.0000111

Anlisis de la razn de varianza sdtest ip_slb0 == ip_clb1 Variance ratio test -----------------------------------------------------------------------------Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------ip_slb0 | 8 .0000291 3.01e-06 8.51e-06 .0000219 .0000362 ip_clb1 | 8 .0000146 2.69e-06 7.61e-06 8.21e-06 .0000209 ---------+-------------------------------------------------------------------combined | 16 .0000218 2.70e-06 .0000108 .0000161 .0000276 -----------------------------------------------------------------------------ratio = sd(ip_slb0) / sd(ip_clb1) f = 1.2508 Ho: ratio = 1 degrees of freedom = 7, 7

Ha: ratio < 1 Pr(F < f) = 0.6123

Ha: ratio != 1 2*Pr(F > f) = 0.7753

Ha: ratio > 1 Pr(F > f) = 0.3877

Conclusin: puesto que el parmetro 3 es igual a cero ya que no se rechaza la hiptesis nula, nos indica que las dos curvas difieren en su valor de ordenada al origen pero no difieren significativamente en sus pendientes. 1.6 Por ultimo vamos a comparar dos curvas de calibracin obtenidas en diferentes experiencias, una corresponde a los datos de la exp_11, analizados arriba, y la otra a la exp_13. Tabla n4 concentracin Ip_clbexp_13* 26.717 6.1753E-6 52.79 1.2996E-5 78.242 1.8562E-5 103.1 2.4444E-5 127.37 2.9332E-5 151.09 3.5169E-5 174.27 4.0201E-5 196.92 4.5193E-5 regress ipclb_exp_13 c Source SS Model 1.2823e-09 Residual 7.1880e-13 Total 1.2830e-09 df MS 1 1.2823e-09 6 1.1980e-13 7 1.8329e-10 Number of obs F( 1, 6) Prob > F R-squared Adj R-squared Root MSE ipclb_exp_13 Coef. c 2.27e-07 _cons 6.42e-07 swilk res_ip Shapiro-Wilk W Variable res_ip Obs W 8 0.94290 test for normal data Vz 0.795 -0.358 Prob>z 0.63984 Std. Err. t 2.20e-09 103.46 2.78e-07 2.31 P>t 0.000 0.060 =8 =10703.59 = 0.0000 = 0.9994 = 0.9993 = 3.5e-07 [95% Conf. 2.22e-07 -3.87e-08 Interval] 2.33e-07 1.32e-06

De los anlisis anteriores sobre las experiencias expuestas tenemos que las expresiones de las corrientes en funcin de la concentracin son las siguientes: ip _ 11 = 2.33.10 7.c ip _ 13 = 2.27.10 7.c De manera tal que proponiendo como se hizo anteriormente el siguiente modelo: Para x2=0, el cual corresponde a la curva de la exp_11 y = 0 + 1 x1 + Y x2=1, para el caso de la exp_13 y = ( 0 + 2 ) + ( 1 + 3 ) x1 + Obtenemos: regress y x1 Source Model Residual Total y x1 x2 x3 _cons x2 SS 2.2547e-09 3.2774e-12 2.2579e-09 Coef. 2.33e-07 2.72e-07 -5.52e-09 3.71e-07 x3 df MS F( 3, 12) 3 7.5155e-10 12 2.7312e-13 Adj R-squared 15 1.5053e-10 Std. Err. t 6.08e-09 38.31 5.90e-07 0.46 6.92e-09 -0.80 4.14e-07 0.90 Number of obs = 2751.77 Prob > F R-squared = 0.9982 Root MSE P>t 0.000 0.653 0.441 0.388 = 5.2e-07 [95% Conf. 2.20e-07 -1.01e-06 -2.06e-08 -5.31e-07 Interval] 2.46e-07 1.56e-06 9.56e-09 1.27e-06 = 0.0000 = 0.9985 = 16

Conclusin: a partir de la regresin anterior se puede concluir que las dos curvas no presentan diferencias significativas, ya que el parmetro 2 que corresponde a la modificacin del valor de la ordenada y el parmetro 3 que modifica la pendiente, no son significativos ya que sus respectivas probabilidades no rechazan la hiptesis nula, de igual forma el valor de la constante como sucediera en los casos analizados individualmente es igual a cero, quedando la ecuacin resultante: ip = 2.33.10 7.c

10

También podría gustarte