Está en la página 1de 14

UNRC-UNC Bioestadstica y Diseo de Experimentos

Modelo de regresin

Ejercicio Resuelto.
El inters de esta trabajo radica en la relacin entre la presin baromtrica y el punto de ebullicin del agua. La motivacin del trabajo radica en estimar la altitud por encima del nivel del mar, a travs de mediciones (datos) de punto de ebullicin de agua. Es conocido que la altitud puede determinarse desde lecturas de presin baromtrica pero el punto de ebullicin del agua es una mtrica ms conveniente para los alpinistas ya que no necesitan llevar consigo instrumentos delicados como aquellos necesarios para medir la presin. Los datos en la abla !, representan los puntos de ebullicin (temperaturas en grados "ent#grados) y la $resin baromtrica (en mm de mercurio) medidas a !% altitudes di&erentes.

abla !. $unto de ebullicin del agua ($E) y $resin baromtrica ($') Caso PE (C) PA (mm) 1 90.28 528.07 2 90.17 528.07 3 92.17 568.96 4 92.44 575.82 5 93.00 588.01 6 93.28 593.09 7 93.83 606.81 8 93.94 609.35 9 94.11 610.11 10 94.06 609.85 11 95.33 638.56 12 95.89 674.88 13 98.61 723.65 14 98.11 705.10 15 99.28 737.62 16 99.94 758.95 17 100.11 763.52

UNRC-UNC Bioestadstica y Diseo de Experimentos


%%-,+)

Modelo de regresin

%!.,-,

$'

*,-,(.

-(!,.-

-!*,/. (),*%

)+,,!

)-,!,

)%,(%

!..,*!

$E

Figura 1. Diagrama de dispersin para la relacin Presin baromtrica (mm de mercurio , PA) sobre Punto de Ebullicin (temperatura grados Centgrados, PE). 0e intent describir esta tendencia mediante la estimacin de una l#nea recta que ajuste a estos datos. 0e utili1 el mtodo de m#nimos cuadrados ordinarios para establecer la recta de ajuste. La estimacin de parmetros para la recta de ajuste a los datos, se presenta en la abla +. El intercepto negativo sugiere que la relacin no se e2tiende a valores de $E menores. En este e2perimento, el inters radica en la estimacin de la pendiente de la recta. La interpretacin es que si la pendiente es cero, la $' no depende del $E, mientras que un valor no cero representa un cambio en la respuesta por unidad de cambio en la variable predoctora. La pendiente es +/,)!, estad#sticamente di&erente de cero, indicando que por cada grado cent#grado ms, necesario para la ebullicin del agua, la presin baromtrica se incrementa en +/,)! mm de mercurio. El error estndar de la estimacin de los coe&icientes de la recta de ajuste es muy bajo en relacin a la magnitud de los mismos. El valor R+ es un indicador de la contribucin de la variable $E a la descripcin de la $', tambin puede ser

UNRC-UNC Bioestadstica y Diseo de Experimentos

Modelo de regresin

entendido como el porcentaje de la variabilidad de los datos que es e2plicada por el modelo, es este caso el porcentaje es ))3. En la abla /, se presenta un "uadro de 'nlisis de

4arian1a, que provee una estimacin de la 4arian1a Residual y los resultados del contraste de la 5iptesis de pendiente cero. El estad#stico 6 observado en el '7'4' es alto comparado con el valor esperado para una 6(!,!-) y por tanto el valor p8asociado sugiere el rec5a1o de la 5iptesis de pendiente cero ($9.,...!). El valor8p es la probabilidad de obtener valores del estad#stico mayores al observado, cuando la 5iptesis nula es cierta. "omo esta probabilidad es 9.,...! se concluye que la 5iptesis de pendiente cero no es cierta y que por lo tanto e2iste un cambio en $' proporcional al cambio en el $E. En la abla +, se presentaron tambin los intervalos de con&ian1a, al )-3 de con&ian1a, para la pendiente. 0e puede decir que con una probabilidad de ..)- el intervalo (++,)/:+,,).) contiene la verdadera pendiente de la relacin lineal entre $' y $E. El mismo anlisis podr#a ser reali1ado sobre el intercepto, pero aqu# no es de inters ya que la $' para un $E;. no es relevante. <n intervalo ms =til sobre el intercepto podr#a ser para el modelo ajustado con los datos de $E centrados por su media, ya que corresponde a la estimacin de la $' cuando $E es igual a la media de los $E registrados en estas !% altitudes. El >" al )-3 para el intercepto de la relacin de $' con los datos centrados es (*//,,,:*/),--). La estimacin de la pendiente no cambia cuando se centran los datos, ya que simplemente se 5a trasladado la recta para 5acer que la ordenada al origen (intercepto) corresponda al punto medio de los valores input. En la 6igura + se presenta la recta ajustada y el intervalo de con&ian1a para la relacin lineal.

Tabla 2. Parmetros estimados para la relacin lineal de PA sobre PE (R2=0,99)


Coeficiente intercepto #E Estimacin -1634,68 3,91 EE 43,8 ",46 LI(95%) -1! 8,"8 ,93 LS(95%) -1541, ! 4,9"

Tabla 3. Cuadro de Anlisis de la Varianza para la relacin lineal de PA sobre PE.


$%&% #E Error ,ota( SC 936 8,19 5 ,33 9415",51 '( 1 15 16 C) 936 8,19 34,8 $ 688,!8 p-*a(or +","""1 -------

UNRC-UNC Bioestadstica y Diseo de Experimentos


%%%,!/

Modelo de regresin

%.(,((

$'

*,.,*/

-%+,/(

-.,,!/ (),*%

)+,,!

)-,!,

)%,(%

!..,*!

$E

Figura 2. Relacin lineal ajustada entre la Presin baromtrica (mm de mercurio , PA) y el Punto de Ebullicin (temperatura grados Centgrados, PE). La estructura de los >" es de inters. Estos son ms estrec5os para valores de input iguales a su media, para estos valores la respuesta estimada es el promedio de los valores observados para la variable respuesta, mientras que los >" se 5acen ms anc5os a medida que nos alejamos del centro de los datos e2perimentales. Este 5ec5o soporta la intuicin de que la relacin es ms con&iable cerca del centro de los valores input que en los e2tremos. Los >" dependen, en general, de? !) el coe&iciente de con&ian1a (aqu#, )-3), +) la variabilidad de los datos (aqu#, estimada por el "@R;/,,(+), el tamaAo de muestra (aqu#, 7;!%), y ,) el valor input usado para la prediccin (cun lejos est del centro o los e2tremos del dominio e2perimental). El mayor anc5o de los intervalos en los e2tremos de los datos e2perimentales provee alg=n tipo de proteccin para la e2trapolamos ms all del dominio de los datos, no obstante se recomienda no reali1ar e2trapolaciones muc5o ms all de dic5a regin. 7o 5ay garant#as estad#sticas de que el modelo &uncione bien ms all de la misma, aunque, sea un

UNRC-UNC Bioestadstica y Diseo de Experimentos

Modelo de regresin

modelo ajustado con alto grado de precisin. El modelo lineal ajustado puede ser slo una apro2imacin local aceptable de la relacin. "omo la motivacin del e2perimento &ue predecir la altitud desde el $E, en realidad no interesa un >" para la altitud media en un $E dado ya que la ecuacin ser usada para predecir un valor de $' para cada $E problema, por ello es mejor acompaAar nuestro predictor puntual con un intervalo de prediccin, es decir un intervalo que con alta probabilidad incluye el valor de $' correspondiente al $E problema. '=n si los parmetros de la relacin &uesen conocidos, la variabilidad en el sistema que se est estudiando impide una prediccin e2acta, por ello cobra sentido calcular un intervalo de prediccin de valores individuales de la variable respuesta. En la 6igura /, se presenta nuevamente el ajuste y el intervalo de

con&ian1a para la estimacin de la $' media pero se 5a agregado el intervalo de prediccin para la prediccin del valor de $' para un nuevo $E.
%(-,!!

%!+,(/

$'

*,.,-,

-*(,+-

,)-,)% (),*%

)+,,!

)-,!,

)%,(%

!..,*!

$E

Figura 3. Relacin lineal ajustada entre la Presin baromtrica (mm de mercurio , PA) y el Punto de Ebullicin (temperatura grados Centgrados, PE).Intervalos de confianza (95%) (lmites ms prximos al ajuste) e Intervalo de Prediccin (intervalo de mayor amplitud).

UNRC-UNC Bioestadstica y Diseo de Experimentos

Modelo de regresin

Examen de los datos y del modelo


La discusin que sigue ser basada en la premisa de que el modelo ajustado est correctamente especi&icado. El supuesto de observaciones independientes con distribucin 7ormal que tienen como esperan1a el verdadero valor de la relacin lineal y varian1a,

tiene varias implicaciones que deben ser controlodas cuando se utili1a un modelo de regresin lineal. Es importante responder a las siguientes preguntas? !) BEs la recta realmente una apro2imacin ra1onable para la &uncin media (al menos en el dominio e2perimental)C, +) BEs la varian1a la misma para todo el dominio e2perimentalC, /) B6ueron los datos colectados desde el mismo modeloC, y ,) BEs el supuesto de normalidad aceptableC. 0e presenta a continuacin una serie de gr&icos y procedimientos numricos com=nmente utili1ados para el control de estos supuestos (elementos diagnstico de regresin). Dado que ste es un modelo de regresin lineal simple, la &orma ms obvia de controlar su adecuocidad es superponiendo el ajuste a los datos, sobre el diagrama de dispersin. La 6igura +, no revela grupos de puntos que no sean bien descriptos por el modelo ajustado: e2iste solamente un punto, cercano al $E promedio, que se encuentra &uera del intervalo de prediccin. 7o obstante, el gr&ico no sugiere una relacin esperada (&uncin media) alternativa. La superposicin de la recta ajustada sobre los datos puede ayudar a visuali1ar que las varian1as dependan de los valores del input si se tienen varias observaciones de $' sobre cada $E o al menos para algunos $E estrategicamente ubicados, aqu# es di&#cil concluir. <n problema potencial con este tipo de gr&icos para control de supuestos es que la magnitud de la respuesta puede enmascarar problemas de &alta de supuestos, por ello reali1aremos el control de los supuestos del modelo de regresin lineal sobre gr&icos de residuos. Los

residuos generalmente se encuentran correlacionados y presentan di&erentes varian1as por lo que no pueden ser vistos como variables 7(.,

2 ).

UNRC-UNC Bioestadstica y Diseo de Experimentos

Modelo de regresin

En la 6igura ,a, se presenta el gr&ico de residuos vs. los valores predic5os (este gr&ico es equivalente al de los residuos vs. los inputs, ya que los predic5os son una &uncin lineal de los inputs). El comportamiento esperado del gr&ico de los residuos vs. predic5os es sugerido por el 5ec5o de que la correlacin muestral entre los residuos y los predic5os es cero, y por tanto el gr&ico debiera no mostrar tendencia o patrn no aleatorio. El gr&ico de la 6igura ,a tiene dos caracter#sticas distintivas? la mayor#a de los residuos indican un patrn curvil#neo y e2iste una observacin (caso !+) que se aleja de este patrn. Luego se piensa que? !) puede 5aber un problema con el caso !+, +) podr#amos no estar trabajando con la &orma &uncional correcta para el valor esperado, o /) podr#a ser mejor modelar alguna &uncin de la respuesta. Este patrn no &ue visuali1ado en la 6igura +, debido a la magnitud de las respuestas. El modelo de la recta di un buen ajuste a los datos si los &ines son predictivos, pero si se est interesado en el desarrollo de una relacin terica entre $' y $E, los residuos sugieren que debiramos seguir indagando. Dada la e2presin de la varian1a de los residuos ( (!85ii)) se tiene que
2

los residuos cerca de los e2tremos del dominio e2perimental tienen menos varian1a que los asociados con observaciones con valores de imput cercanos al promedio. Luego, un gr&ico de residuos podr#a sugerir que los datos son ms variable para valores intermedios y menos para valores e2tremos de inputs aun cuando los supuestos del modelo se satis&acen. $ara 5acer los residuos comparables, trabajamos con los residuos estudenti1ados (interna o e2ternamente estutenti1ados). En la 6igura ,b se presentan los residuos e2ternamente estudenti1ados, los cuales se usan como indicadores de que una observacin (en este caso la !+) es mal ajustada por el modelo.

UNRC-UNC Bioestadstica y Diseo de Experimentos

Modelo de regresin

!%,*!

!!,/!

RD<FE$'

-,..

8!,/.

8%,*! -.),%,

-%-,!!

*,.,,(

%.-,(,

%%!,+!

$REDE$'

/,.)

!+

!,)(

REE$'

.,(*

8.,+-

8!,/* -.),%,

-%-,!!

*,.,,(

%.-,(,

%%!,+!

$REDE$'

Figura 4. Arriba (a): Residuos vs predichos Abajo (b): Residuos Estudentizados vs. Predichos

UNRC-UNC Bioestadstica y Diseo de Experimentos

Modelo de regresin

En el gr&ico GG8plot 7ormal de los residuos estudenti1ados (6igura -), se visuali1a una ligera linea recta desde la cual el residuo de la observacin !+ es bastante distante. 0in duda algo e2traAo 5ay en el caso !+, cuando una observacin se identi&ica como HoutlierI puede ser tanto un problema de la observacin con el valor de la respuesta que con el valor del imput. $ara este conjunto de datos, es &cil notar que lo He2traAoI de la observacin !+ debiera estar asociado con el valor de la respuesta ya que justo es un caso que cae en el medio del rango de los valores del input. Dado que la unica observacin HraraI se encuentra justo en el medio, no se consideras muy relevante calcular leverages. El e&ecto de un punto con alto leverage es &or1ar que el modelo ajustado pase cerca del valor observado de la respuesta (claramente este no ser el e&ecto del caso !+).
+,(( n; !% r; .,)//

"uantiles observados(REE$')

!,%!

.,-/

8.,*,

8!,(+ 8!,(+

8.,*,

.,-/

!,%!

+,((

"uantiles esperados bajo distribucin 7ormal

Figura 5. QQ-Plot Normal construido con todos los datos y los residuos estudentizados

UNRC-UNC Bioestadstica y Diseo de Experimentos

Modelo de regresin

<na alternativa, a un tratamiento ms &ormal de este caso outlier, ser#a borrar la observacin y volver a reali1ar el ajuste. El e&ecto de la eliminacin del caso !+, no es pequeAo, el nuevo "@R es menos de la mitad del anterior (con 7;!% datos) y el estad#stico 6 se duplica (resultados no presentados). Este era un caso raro, pero si bien su eliminacin permiti obtener un GG8plot normal de los residuos mejor que el del modelo ajustado sobre todos los casos (6igura *a), a=n se evidencia alejamiento de supuestos (6igura *b). Es decir que

podriamos no estar trabajando con la &orma &uncional correcta para el valor esperado, o podr#a ser necesario modelar alguna &uncin de la respuesta. $or ejemplo, si se modela (sin el caso !+) el log($') en &uncin de $E, en lugar de la $', se obtienen la ecuacin de prediccin, los gr&ico GG plot normal y de residuos estudenti1ados versus predic5os que se muestran en la 6igura %. De ellos se deduce que en la escala logaritmica de la respuesta la &uncin media propuesta representa un ajuste adecuado sin una violacin severa de ninguno de los supuestos de la in&erencia lineal. $or supuesto, queda develar cmo se reali1 la seleccin de la trans&ormacin log. ' los &ines de ilustrar con ms 5erramientas que el caso !+ es un outlier no in&luyente, se presentan en la abla /, los residuos e2ternamente estudenti1ados, la distancia de "ooJ y el leverage para cada caso asociados tanto para el ajuste reali1ado incluyendo el caso !+ como para el ajuste sin este caso.

Conclusin:
Kay una &uerte relacin lineal entre la $' y el $E, por tanto podr#a el $E ser usado para predecir la altitud, un modelo de prediccin sugerido para el logaritmo de la respuesta es Log($');!,+%*L.,.!*.$E, R+;!.

10

UNRC-UNC Bioestadstica y Diseo de Experimentos

Modelo de regresin

!,)+ n; !* r; .,)%, (REE$')

"uantiles observados(REE$')

.,)(

.,.-

8.,()

8!,(/ 8!,(/

8.,()

.,.-

.,)(

!,)+

"uantiles esperados bajo distribucin 7ormal

11

UNRC-UNC Bioestadstica y Diseo de Experimentos


+,.)

Modelo de regresin

!,!(

REE$'

.,+(

8.,*/

8!,-/ -.),+/

-%,,//

*/),,+

%.,,-+

%*),*+

$REDE$'

Figura 6. QQ-Plot Normal y residuos estudentizados vs predichos, eliminando el caso 12

+,()

+,(-

LFM!.E$'

+,(.

+,%*

+,%! (),*%

)+,,!

)-,!,

)%,(%

!..,*!

$E
Coeficientes de regresin y estadsticos asociados Coef const Est% 1, 8 EE LI(95%) ","1 1, 6 LS(95%) , p-*a(or 1, 9 148,18 +","""1

12

UNRC-UNC Bioestadstica y Diseo de Experimentos


#E "," 9,1E-"5 "," "," 1!6,9

Modelo de regresin
+","""1

+,-.

Res. estudenti1adosELFM!.E$'

!,+-

.,..

8!,+-

8+,-. +,%!

+,%*

+,(.

+,(-

+,()

predic5os

!,(/ n; !* r; .,)%. (REELFM!.E$')

"uantiles observados(REELFM!.E$')

.,((

8.,.*

8!,.!

8!,)8!,)-

8!,.!

8.,.*

.,((

!,(/

"uantiles esperados bajo distribucin 7ormal

Figura 7. Ajuste y control del modelo para la relacin entre el log(PA) sobre PE.

13

UNRC-UNC Bioestadstica y Diseo de Experimentos

Modelo de regresin

Tabla 3. Medidas diagnstico asociadas al ajuste lineal con y sin el caso 12. Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Leverage 0,193 0,200 0,107 0,098 0,083 0,076 0,067 0,065 0,063 0,064 0,060 0,064 0,140 0,119 0,172 0,209 0,220 ResiduoE E -0,722 -0,206 -0,158 0,071 0,089 -0,118 0,163 0,174 -0,409 -0,243 -0,376 12,123 0,003 -0,894 -0,709 -0,215 -0,256 DCook Leverage 0,065 0,006 0,002 0,000 0,000 0,001 0,001 0,001 0,006 0,002 0,005 0,468 0,000 0,055 0,054 0,007 0,010 0,195 0,201 0,109 0,100 0,085 0,079 0,070 0,068 0,066 0,067 0,064 0,146 0,125 0,179 0,217 0,228 ResiduoE E -2,202 -0,243 0,036 0,823 0,923 0,235 1,260 1,310 -0,666 -0,123 -0,469 1,093 -2,179 -1,250 0,481 0,367 DCook 0,459 0,008 0,000 0,039 0,040 0,003 0,057 0,060 0,016 0,001 0,008 0,101 0,268 0,164 0,034 0,021

14