Está en la página 1de 28

UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA


MODELOS DE REGRESION Y CORRELACION
ASIGNATURA PROFESOR ALUMNO : Bioestadstica. : Alf edo S!ll"# Le"#. : A$ALA NUNURA%DE$VI
ASCATE SAAVEDRA% MICHIEL A&URTO LABAN% UBALDINO ALVA CASTRO% DANIEL TRELLES COVE'AS% DENNIS VE&A AVILA% STEFANIA

Pi! a% Se(tie)* e de +,-,.

MODELO LINEAL DE DOS VARIABLES A TRAVS DEL ANLISIS DE REGRESIN


En mltiples ocasiones en la prctica clnica nos encontramos con situaciones en las que se requiere analizar la relacin entre dos variables cuantitativas. Los dos objetivos fundamentales de este anlisis sern, por un lado, determinar si dichas variables estn asociadas y en qu sentido se da dicha asociacin !es decir, si los valores de una de las variables tienden a aumentar "o disminuir# al aumentar los valores de la otra$% y por otro, estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra. La forma correcta de abordar el primer problema es recurriendo a coeficientes de correlacin. &in embar'o, el estudio de la correlacin es insuficiente para obtener una respuesta a la se'unda cuestin( se limita a indicar la fuerza de la asociacin mediante un nico nmero, tratando las variables de modo sim trico, mientras que nosotros estaramos interesados en modelizar dicha relacin y usar una de las variables para e)plicar la otra. *ara tal propsito se recurrir a la t cnica de re'resin. +qu analizaremos el caso ms sencillo en el que se considera nicamente la relacin entre dos variables. +s mismo, nos limitaremos al caso en el que la relacin que se pretende modelizar es de tipo lineal.

La recta de re'resin
,onsideremos una variable aleatoria respuesta !o dependiente$ -, que supondremos relacionada con otra variable !no necesariamente aleatoria$ que llamaremos e)plicativa, predictora o independiente y que se denotar por .. + partir de una muestra de n individuos para los que se dispone de los valores de ambas variables, /!. i,-i$,i 0 1,...n2, se puede visualizar 'rficamente la relacin e)istente entre ambas mediante un 'rfico de dispersin, en el que los valores de la variable . se disponen en el eje horizontal y los de - en el vertical. El problema que subyace a la metodolo'a de la re'resin lineal simple es el de encontrar una recta que ajuste a la nube de puntos del dia'rama as dibujado, y que pueda ser utilizada para predecir los valores de - a partir de los de .. La ecuacin 'eneral de la recta de re'resin ser entonces de la forma( - 0 a 3 b.. El problema radica en encontrar aquella recta que mejor ajuste a los datos. 4radicionalmente se ha recurrido para ello al m todo de mnimos cuadrados, que eli'e como recta de re'resin a aquella que minimiza las distancias verticales de las observaciones a la recta. 5s concretamente, se pretende encontrar a y b tales que(

6esolviendo este problema mediante un sencillo clculo de diferenciacin, se obtienen los estimadores mnimos cuadrticos de los coeficientes de la recta de re'resin(

Tabla 1. Tensin Arterial Sistlica y Edad de 69 pacientes N Tensin Sistlica


114 134 124 128 116 120 138 130 139 125 132 130 140 144 110 148 124 136 150 120 144

Edad

Tensin Sistlica
156 159 130 157 142 144 160 174 156 158 174 150 154 165 164 168 140 170 185 154 169

Edad

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

17 18 19 19 20 21 21 22 23 25 26 29 33 33 34 35 36 36 38 39 39

36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56

47 47 48 48 50 50 51 51 52 5 55 56 56 56 57 57 59 59 60 61 61

22 23 24 25 26 27 28 29 30 31 32 33 34 5

153 134 152 158 124 128 138 142 160 135 138 142 145 149

40 41 41 41 42 42 42 44 44 45 45 46 47 47

57 58 59 60 61 62 63 64 65 66 67 68 69

172 144 162 158 162 176 176 158 170 172 184 175 180

62 6 64 65 65 65 66 67 67 68 68 69 70

La 4abla 1 muestra los datos de 78 pacientes de los que se conoce su edad y una medicin de su tensin sistlica. &i estamos interesados en estudiar la variacin en la tensin sistlica en funcin de la edad del individuo, deberemos considerar como variable respuesta la tensin y como variable predictora la edad. En la 9i'ura 1 se muestra, superpuesta al dia'rama de dispersin, la recta de re'resin de mnimos cuadrados correspondientes, as como las distancias verticales de las observaciones muestrales a la recta. +plicando los clculos anteriores a este caso, resultara(

,omo se puede suponer, la relacin Y = a + bX no va a cumplirse e)actamente, sino que e)istir un error que representa la variacin de - en todos los datos con un mismo valor de la variable independiente. Las distancias verticales entre el valor observado y el valor dado por la recta para cada individuo !o valor ajustado$ reciben el nombre de residuos, y se suelen denotar por . La e)presin terica del modelo matemtico ser, por tanto(

:onde, adems, se supondr


!i"#ra 1. $elacin entre la Edad y %resin Sistlica. $ecta de $e"resin y di&erencias entre l's (al'res 'bser(ad's y a)#stad's

;nterpretacin de los coeficientes de re'resin y la tabla +<=>+


En la ecuacin 'eneral de la recta de re'resin, claramente b es la pendiente de la recta y a el valor de la variable dependiente - para el que . 0 ?. En consecuencia, una vez estimados estos coeficientes, en la mayora de las aplicaciones clnicas el valor de @ no tendr una interpretacin directa, mientras que el valor servir como un indicador del sentido de asociacin entre ambas variables( as, nos indicar una relacin directa entre ellas !a mayor valor de la variable e)plicativa, el valor de la variable dependiente - aumentar$, delatar una relacin de tipo inverso, mientras que nos indica que no e)iste una relacin lineal clara entre ambas variables. +s mismo, y tal y como se deduce de la ecuacin de la recta de re'resin, el coeficiente b nos da una estimacin del cambio por t rmino medio en la variable - por cada unidad en que se incrementa .. +l i'ual que ocurre con otros estimadores, e)istir cierta incertidumbre en el clculo de las estimaciones, que se podr reflejar mediante intervalos de confianza para ambos valores, construidos bajo la hiptesis de normalidad de los residuos, mediante las e)presiones(

:onde denota al cuantil de orden de una distribucin t de &tudent con n#A 'rados de libertad. :e i'ual forma, podemos limitar esta incertidumbre realizando un test para contrastar la hiptesis de que b0? mediante el cociente y comparando ste con la distribucin t de &tudent con n#A 'rados de libertad. :e modo anlo'o se llevara a cabo un contraste para la hiptesis a0?. El hecho de que el test no resulte si'nificativo indicar la ausencia de una relacin clara de tipo lineal entre las variables, aunque pueda e)istir una asociacin que no sea captada a trav s de una recta. *ara los datos del ejemplo, el resultado de ajustar un modelo de re'resin lineal se muestra en la 4abla A.
Tabla 2. Modelo de Regresin Lineal Simple de la resin sis!li"a a#$s!ando por edad /+ 950 ,-. t p

*ariab le %ons!a n!e *dad

+'e&icie nte ,-.

E.T. ,-.

103.35 0.98

4.33 0.09

&94.72' 111.99( &0.81' 1.16( 2edia c#adr3 tica

23. 89 11. 03 !

)0. 001 )0. 001 p

!#ent e de *ariac in Regres in en edad Resid$ al To!al

S#1a de +#adra d's 14+965. 31

".l.

14+965. 31

121 .59

)0. 001

8+246.4 6 23+211. 77

67

123.08

68

La recta as ajustada e)plica tan slo una parte de la variabilidad de la variable dependiente, e)presada sta comnmente por medio de la varianza de -, mientras que la cantidad de variabilidad que resta por e)plicar puede ser e)presada a trav s de los residuos. Beneralmente un anlisis de re'resin suele ser e)presado por una tabla de anlisis de la varianza en la que se refleja toda esta informacin. En la 4abla A se muestra adems la tabla correspondiente en el ejemplo de la tensin sistlica. La columna etiquetada por C&uma de cuadradosC muestra una descomposicin de la variacin total de - en las partes e)plicada y no e)plicada !residual$ por la re'resin. La proporcin de variabilidad e)plicada por el modelo coincide aqu con el cuadrado del coeficiente de correlacin lineal de *earson, que recibe el nombre de coeficiente de determinacin, y que se persi'ue sea pr)imo a 1. En nuestro ejemplo sera 6A0?.7DE. + partir de esta informacin puede elaborarse un contraste para verificar la utilidad del modelo. En el caso de re'resin lineal simple, el estadstico de contraste se reduce a(

Fue se comparar con el cuantil correspondiente a una distribucin 9 de &nedecor con parmetros 1 y n#1. El test resultante ser equivalente al test t para contrastar G?( b0?.

Giptesis del modelo


Hna vez ajustado el modelo, y antes de usarlo para realizar nuevas predicciones, conviene ase'urarse de que no se violan las hiptesis sobre las que se soporta( independencia de las observaciones muestrales, normalidad de los valores de la variable dependiente - para cada valor de la variable e)plicativa, homocedasticidad !i.e., la variabilidad de - es la misma para todos los valores de .$ y relacin lineal entre las dos variables. La informacin ms relevante la aportan los residuos. +s, bajo las suposiciones anteriores, los residuos habrn de tener una distribucin normal de media cero y varianza constante. El modo ms sencillo de comprobar si esto se verifica es obteniendo una impresin visual a partir de un 'rfico de los residuos frente a la variable dependiente -. La 9i'ura A muestra las diferentes posibilidades en un 'rfico de residuos, mientras que el 'rfico que se obtiene en el ejemplo manejado se refleja en la 9i'ura I.
!i"#ra 2. 4i&erentes p'sibilidades del 5r3&ic' de $esid#'s

!i"#ra

. 5r3&ic' de $esid#'s de la re"resin &rente a la edad

&e puede complementar este anlisis mediante 'rficos de probabilidad normal y tests de normalidad para los residuos, como el de Jolmo'orov#&mirnov !9i'ura D$. +s mismo, la independencia de las observaciones puede estudiarse mediante 'rficos de autocorrelacin y contrastes de independencia como el de :urbin#Katson.

!i"#ra 4. 5r3&ic' de %r'babilidad n'r1al de l's $esid#'s para la Tensin Sistlica &rente a la Edad.

+unque obviaremos un anlisis detallado de la verificacin de las hiptesis del modelo, conviene hacer referencia a las medidas a tomar en caso de no cumplirse. *ara el caso de no normalidad, resulta obvio que la medida ms inmediata es la transformacin de la

variable dependiente, aunque otra alternativa son los cada vez ms utilizados modelos de re'resin no param trica, que evitan la suposicin de una distribucin 'aussiana. 4ambi n se debe modificar el modelo en el caso de datos dependientes o valores repetidos.

*rediccin
,uando se verifican las hiptesis sobre las que se asienta el modelo, la recta de re'resin puede ser utilizada para predecir el valor medio de la variable - para cada valor concreto de .. ,alculando la esperanza matemtica en ambos lados de la ecuacin !1$ se obtendr(

:e modo que la lnea de re'resin proporciona un estimador del valor medio de - para cada valor de .. ,omo tal estimador, debemos considerar la incertidumbre asociada a esta recta, que puede ser reflejada mediante re'iones de confianza que contienen a la recta. En la 9i'ura E se muestra, superpuesta al dia'rama de dispersin, la recta de re'resin en el ejemplo de la tensin sistlica que estamos manejando, as como una re'in de confianza para la misma, que contendr a la verdadera relacin entre tensin sistlica y edad con una se'uridad del 8EL.

!i"#ra 5. /nter(al's de c'n&ian6a al 95 0 para la $ecta de $e"resin y para la %rediccin de la %resin Sistlica en #n indi(id#'.

4ambi n se puede utilizar la recta de re'resin como estimador del valor de - en un individuo concreto. En este caso se esperar una mayor incertidumbre en la estimacin que en el caso de predecir una tendencia media. En la 9i'ura D se muestra adems la

banda de prediccin para el ejemplo que estamos manejando, siendo sta mucho ms amplia que en el caso de intentar predecir el valor medio. La re'resin lineal simple es entonces una t cnica sencilla y accesible para valorar la relacin entre dos variables cuantitativas en la prctica clnica, proponiendo adems un modelo al que se ajusta dicha relacin. <o debemos olvidar que a lo lar'o de este artculo hemos abordado el caso ms sencillo en el que se obvia el problema de un nmero ms elevado de variables entre las que valorar la relacin. En este caso entraramos de lleno en la temtica de la re'resin lineal mltiple, lo cual nos obli'ara a abordar problemas de ndole ms complicado como el de la colinealidad, interaccin entre variables, variables confusoras o un anlisis ms detallado de los residuos del modelo. +s mismo, no se debe pasar por alto el hecho de que en la mayora de las aplicaciones prcticas la relacin que se observa entre pares de variables no es tanto lineal como de tipo curvilneo !ya sea una relacin lo'artmica, e)ponencial, polinmica, etc.$. En estos casos, aunque se puede hablar de re'resin curvilnea se'n el tipo de relacin, una conveniente transformacin de las variables reduce el problema al caso que acabamos de abordar.

ANALIZAR EL MODELO LINEAL DE DOS VARIABLES A TRAVES DEL ANALISIS DE CORRELACION

+nlisis de ,orrelacin
Es el conjunto de t cnicas estadsticas empleado para medir la intensidad de la asociacin entre dos variables. El principal objetivo del anlisis de correlacin consiste en determinar que tan intensa es la relacin entre dos variables. <ormalmente, el primer paso es mostrar los datos en un dia'rama de dispersin. Diagrama de Dispersin.# es aquel 'rafico que representa la relacin entre dos variables. Varia !e Dependien"e#$ es la variable que se predice o calcula. ,uya representacin es C-C Varia !e Independien"e#$ es la variable que proporciona las bases para el calculo. ,uya representacin es( .1, .A, .I.......

:efinicin de ,orrelacin Lineal


En ocasiones nos puede interesar estudiar si e)iste o no al'n tipo de relacin entre dos variables aleatorias. +s, por ejemplo, podemos pre'untarnos si hay al'una relacin

entre las notas de la asi'natura Estadstica ; y las de 5atemticas ;. Hna primera apro)imacin al problema consistira en dibujar en el plano 6A un punto por cada alumno( la primera coordenada de cada punto sera su nota en estadstica, mientras que la se'unda sera su nota en matemticas. +s, obtendramos una nube de puntos la cual podra indicarnos visualmente la e)istencia o no de al'n tipo de relacin !lineal, parablica, e)ponencial, etc.$ entre ambas notas. =tro ejemplo, consistira en analizar la facturacin de una empresa en un periodo de tiempo dado y de cmo influyen los 'astos de promocin y publicidad en dicha facturacin. &i consideramos un periodo de tiempo de 1? aMos, una posible representacin sera situar un punto por cada aMo de forma que la primera coordenada de cada punto sera la cantidad en euros invertidos en publicidad, mientras que la se'unda sera la cantidad en euros obtenidos de su facturacin. :e esta manera, obtendramos una nube de puntos que nos indicara el tipo de relacin e)istente entre ambas variables. En particular, nos interesa cuantificar la intensidad de la relacin lineal entre dos variables. El parmetro que nos da tal cuantificacin es el coeficiente de correlacin lineal de *earson r, cuyo valor oscila entre "1 y 31(

,omo se observa en los dia'ramas anteriores, el valor de r se apro)ima a 31 cuando la correlacin tiende a ser lineal directa !mayores valores de X si'nifican mayores valores de Y$, y se apro)ima a "1 cuando la correlacin tiende a ser lineal inversa. Es importante notar que la e)istencia de correlacin entre variables no implica causalidad. N+tencinO( si no hay correlacin de nin'n tipo entre dos v.a., entonces tampoco habr correlacin lineal, por lo que r 0 ?. &in embar'o, el que ocurra r 0 ? slo nos dice que no hay correlacin lineal, pero puede que la haya de otro tipo. El si'uiente dia'rama resume el anlisis del coeficiente de correlacin entre dos variable(

MODELO LINEAL CON DOS VARIABLES


Es un modelo de re'resin lineal entre dos variables

Es un modelo probabilstico, que tambi n se puede escribir

+ la variable - se la denomina variable dependiente y a . independiente. 5odelo ; de re'resin lineal se asume que(

i$ . no es una variable aleatoria. ii$ para cada valor )i de . e)iste una v.a. -P)i cuya media est dada por el modelo. iii$ todas las variables -P)i son normales, independientes y con i'ual varianza.

E%emp!& '( &e quiere estudiar la asociacin entre consumo de sal y tensin arterial. + una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensin arterial un tiempo despu s. >ariable .( 'r. de sal diarios !no aleatoria$ >ariable -( presin arterial en mm. de G' +sumimos que para cada valor de ., - no est determinada, sino que

a? presin arterial media de los que no toman nada de sal. a1 cambio de la media de presin arterial por aumentar 1 'r. el consumo de sal, asumiendo que es constante. &i fuera ?, quiere decir que la presin no cambia con el consumo de sal, por tanto ambas variables son independientes, un valor distinto de cero indica que estn correlacionadas y su ma'nitud mide la fuerza de la asociacin. + partir de una muestra aleatoria, la teora estadstica permite( i$ estimar los coeficientes a i del modelo !hay dos procedimientos( mnimos cuadrados y m)ima verosimilitud que dan el mismo resultado$. ii$ estimar la varianza de las variables -P) i llamada cuadrados medios del error y representada por sA o 5&E. + su raz cuadrada se le llama error estndar de la estimacin. iii$ conocer la distribucin muestral de los coeficientes estimados, tanto su forma !t$ como su error estndar, que permite hacer estimacin por intervalos como contrastes de hiptesis sobre ellos. E%emp!& )( *ara el diseMo del ejemplo A una muestra produce los si'uientes datos(

. !sal$ 1,Q A,A I,E D,? D,I E,? La CsalidaC de un paquete estadstico es(

- !*resin$ 1?? 8Q 11? 11? 11A 1A?

Q7,IR1 presin arterial media sin nada de sal. 7,IIE aumento de presin por cada 'r. de sal% como es distinto de ? indica correlacin. La pre'unta es Spodra ser ? en la poblacinT En t rminos de contrastes de hiptesis G?( a1 0 ? G1( a1U 0 ? &e'n iii$ aqu t0R,ED7 con un valor p0?,??A &e rechaza G?. *ara hacer estimacin por intervalos de la fuerza de la asociacin o el efecto

En este ejemplo para a 1 al 8EL 7,IIE V A,RR7 ) ?,QD? 0 !D,??D Q,777$.

IN*ERENCIA ESTADISTICA

El uso principal de la inferencia estadstica en la investi'acin emprica, es lo'rar conocimiento de una 'ran clase de unidades estadsticas !seres humanos, plantas, parcelas de tierra$, de un nmero relativamente pequeMo de los mismos elementos. Los m todos de inferencia estadstica emplean el razonamiento inductivo, razonamiento de lo particular a lo 'eneral y de lo observado a lo no observado. ,ualquier coleccin o a're'acin 'rande de cosas que deseamos estudiar o de las cuales deseamos hacer inferencias, se llama poblacin. El t rmino poblacin tiene ms si'nificado cuando se lo junta con la definicin de muestra de una poblacin( una muestra es una parte o subconjunto de una poblacin. Hna muestra de n elementos de la poblacin de < elementos, debera ser seleccionada de forma tal que las caractersticas de la poblacin puedan ser estimadas con un mar'en de error conocido. Los valores de varias medidas descriptivas calculadas para las poblaciones, se llaman parmetros. *ara las muestras, estas mismas medidas descriptivas se llaman estadsticas. Hn parmetro describe una poblacin de la misma manera que una estadstica describe a una muestra. Es costumbre simbolizar las estadsticas con letras romanas y los parmetros con letras 'rie'as.

Estadstica 5edia aritm tica >ariancia :esvo estndar ,oeficiente de correlacin &W & 6

*armetro A

Hna estadstica calculada a partir de una muestra es un estimador del parmetro en la poblacin. Hna estimacin es al'una funcin de los resultados de una muestra que produce un valor, llamado estimador. El estimador da al'una informacin respecto al parmetro. *or ejemplo, la media de la muestra, , es un estimador de la media en la poblacin. Las poblaciones pueden ser infinitas o finitas. *ara la mayora de los propsitos de investi'acin, se supone que las poblaciones son infinitas, no finitas, en tamaMo, las cuales son al'o artificial o ima'inario.

Hna poblacin finita puede ser e)tremadamente 'rande. Es posible concebir un proceso de conteo de los elementos de la poblacin, el cual puede ser computado% lue'o la poblacin es t cnicamente finita. +fortunadamente no es necesario crear problemas en cuanto a la distincin entre poblaciones infinitas y finitas. El m todo usado para seleccionar la muestra es muy importante al juz'ar la validez de la inferencia que se hace de la nuestra a la poblacin. *ara que una muestra sirva adecuadamente como base para obtener estimadores de parmetros poblacionales, debe ser representativa de la poblacin. El muestreo al azar de una poblacin producir muestras que Ca la lar'aC son representativas de la poblacin. &i una muestra se e)trae aleatoriamente, es representativa de la poblacin en todos los aspectos, esto es, la estadstica diferir del parmetro solo por azar. La habilidad para estimar el 'rado de error debido al azar !error de muestreo$, es un ras'o importante de una muestra al azar.

ESTIMACIN DE +ARMETROS
La teora clsica de la ;nferencia Estadstica trata de los m todos por los cuales se selecciona una muestra de una poblacin y, basndose en las pruebas de las muestras, se trata de( X Estimar el valor de un parmetro desconocido, por ejemplo . X >erificar si es o no i'ual a cierto valor predeterminado, por ejemplo ?. El primero de estos dos procedimientos, de inferir de una muestra a una poblacin, se llama estimacin de un parmetro% el se'undo, prueba de una hiptesis acerca de un parmetro. :entro del primer procedimiento, la estimacin de un parmetro puede tener por resultado un solo punto !estimacin puntual$, o un intervalo dentro del cual e)ista cierta probabilidad de encontrarlo !estimacin por intervalos$. Hn estimador puntual es un nico punto o valor, el cual se considera va a estimar a un parmetro. La e)presin E! $ 0 su'iere que el nico valor de es un estimador puntual inses'ado o no viciado de . Hn estimador por intervalo se construye sobre el concepto de un estimador puntual, pero adems, proporciona al'n 'rado de e)actitud del estimador. ,omo el t rmino lo su'iere, un estimador por intervalo es un ran'o o banda dentro de la cual el parmetro se supone va a caer.

A+LICAR AL MODELO LINEAL DE DOS VARIABLES, LA TEORIA DE LA IN*ERENCIA ESTADISTICA EN C-ANTO A LA +R-EBA DE .I+OTESIS

CORRELACION / MODELOS DE REGRESION LINEAL

Beneralizacin del concepto de fdp a variables multidimensionales

La funcin densidad de probabilidad !fdp$ para una variable aleatoria es una funcin a partir de la cual se puede calcular la probabilidad de los distintos valores de la variable. En el caso discreto(

En el caso continuo(

Esto se puede 'eneralizar a ms de una variable. *ara n variables aleatorias .1, .A,..., .n se llama fdp conjunta a una funcin n#dimensional f!)1,)A,...,)n$ a partir de la cual se puede calcular la probabilidad de los distintos valores de las variables. En el caso discreto(

En el caso continuo(

:el mismo modo que en el caso unidimensional estas funciones estn sometidas a las condiciones(

discreta continua

E%emp!& '( En una cierta poblacin se definen dos variables discretas( .10 hipertensin arterial y .A0 consumo e)cesivo de sal, ambas con los valores ?0no y 10s. La fdp conjunta podra ser X1 X2 ? 1 ? ?,D ?,I 1 ?,1 ?,A

f!?,?$0?,D quiere decir que la probabilidad de que un individuo no sea hipertenso !.10?$ y no ten'a un consumo e)cesivo de sal !.A0?$ es ?,D. =bs rvese que la suma de los valores de la fdp es 1. + partir de esta fdp se puede calcular p.e. la probabilidad de que un individuo sea hipertenso como ?,13?,A0?,I. En 'eneral dada una fdp conjunta !para simplificar la notacin consideremos slo dos variables X e Y$ se pueden calcular las denominadas fdp mar'inales como ,aso discreto ,aso continuo - sim tricamente para la variable Y. En el ejemplo anterior( X1 X1 ? 1 f1!.1$ ? ?,D ?,I ?,R 1 ?,1 ?,A ?,I fA!.A$ ?,E ?,E

&e definen tambi n las fdp condicionadas

Fue permiten calcular las respectivas probabilidades condicionadas. En el ejemplo anterior se puede construir, p.e., la fdp de la hipertensin !.1$ condicionada al consumo no e)cesivo de sal !.A0?$. .1 ? 1 ?,DY?,E0?,Q ?,1Y?,E0?,A

=bs rvese que como esto es una fdp, la suma de sus valores debe ser 1. ?,Q es la probabilidad de que un individuo no sea hipertenso dado que no tiene un consumo e)cesivo de sal.

;ndependencia de dos variables aleatorias


:os v.a. . e - se dice que son estocsticamente independientes si y slo si f!),y$0f1!)$.fA!y$. En caso contrario se dice que estn correlacionadas. S&on independientes las variables del ejemplo anteriorT ,omo f 1!?$0?,R y fA!?$0?,E f1!?$. fA!?$0?,IE no es i'ual a f!?,?$0?,D no son independientes. &e'n la definicin de fdp condicionada, si . e - son independientes

Fue coincide ms con la idea intuitiva de independencia. S,undo diramos que la hipertensin es independiente del consumo de salT ,uando la probabilidad de ser hipertenso es la misma en los consumidores de sal( f!) 1P.A01$, en los no consumidores( f!)1P.A0?$ y en la poblacin 'eneral( f1!)1$. En el ejemplo, la probabilidad de ser hipertenso en la poblacin 'eneral f 1!1$0?,I y en los consumidores de sal f!.101P.A01$0?,AY?,E0?,D por lo tanto tampoco son independientes desde esta perspectiva !evidentemente, ya que ambas son equivalentes$. :iramos que el consumo de sal y la hipertensin estn correlacionados o asociados, o que la hipertensin depende del consumo de sal o, en terminolo'a epidemiol'ica, que el consumo de sal es un factor de ries'o para la hipertensin. En cualquier caso, la correlacin no implica dependencia causal. El problema, en la prctica, es que no se suelen conocer las fdpZs. + partir de una muestra slo se puede obtener una estimacin de la misma, adems tambi n se desean obtener estimaciones de la fuerza de la asociacin. Los modelos de re'resin son modelos matemticos de dependencia entre variables que permiten resolver ambos problemas. Gay tantos modelos como funciones matemticas de dependencia se puedan concebir, los ms usados son lineal, polinmico, lo'stico, de *oisson,...

9uncin lineal

&e llama

funcin

lineal

de

una

variable,

una funcin

de

la

forma

a?( ordenada en el ori'en !valor de - cuando .0?$ a1( pendiente !cambio de - al aumentar . en 1$

5odelo de re'resin lineal simple


Es un modelo de re'resin lineal entre dos variables

Es un modelo probabilstico, que tambi n se puede escribir

+ la variable - se la denomina variable dependiente y a . independiente. 5odelo ; de re'resin lineal se asume que i$ . no es una variable aleatoria.

ii$ para cada valor )i de . e)iste una v.a. -P)i cuya media est dada por el modelo. iii$ todas las variables -P)i son normales, independientes y con i'ual varianza.

E%emp!& )( &e quiere estudiar la asociacin entre consumo de sal y tensin arterial. + una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensin arterial un tiempo despu s. >ariable .( 'r. de sal diarios !no aleatoria$ >ariable -( presin arterial en mm. de G' +sumimos que para cada valor de ., - no est determinada, sino que

a? presin arterial media de los que no toman nada de sal. a1 cambio de la media de presin arterial por aumentar 1 'r. el consumo de sal, asumiendo que es constante. &i fuera ?, quiere decir que la presin no cambia con el consumo de sal, por tanto ambas variables son independientes, un valor distinto de cero indica que estn correlacionadas y su ma'nitud mide la fuerza de la asociacin. + partir de una muestra aleatoria, la teora estadstica permite(

i$ estimar los coeficientes a i del modelo !hay dos procedimientos( mnimos cuadrados y m)ima verosimilitud que dan el mismo resultado$. ii$ estimar la varianza de las variables -P) i llamada cuadrados medios del error y representada por sA o 5&E. + su raz cuadrada se le llama error estndar de la estimacin. iii$ conocer la distribucin muestral de los coeficientes estimados, tanto su forma !t$ como su error estndar, que permite hacer estimacin por intervalos como contrastes de hiptesis sobre ellos.

E%emp!& 0( *ara el diseMo del ejemplo A una muestra produce los si'uientes datos( . !sal$ 1,Q A,A I,E D,? D,I E,? La CsalidaC de un paquete estadstico es( - !*resin$ 1?? 8Q 11? 11? 11A 1A?

Q7,IR1 presin arterial media sin nada de sal. 7,IIE aumento de presin por cada 'r. de sal% como es distinto de ? indica correlacin. La pre'unta es Spodra ser ? en la poblacinT En t rminos de contrastes de hiptesis G? ( a1 0 ? G1 ( a1 U ?

&e'n iii$ aqu t0R,ED7 con un valor p0?,??A &e rechaza G?. *ara hacer estimacin por intervalos de la fuerza de la asociacin o el efecto

En este ejemplo para a 1 al 8EL 7,IIE V A,RR7)?,QD? 0 !D,??D Q,777$ - del mismo modo se ha calculado en la salida anterior, aunque en 'eneral tiene menos inter s, para a?

COE*ICIENTE DE CORRELACION
&ean ) y - dos variables aleatorias con varianzas coeficiente de correlacin entre . y - por( se define el

,uyo estimador es dado por la si'uiente e)presin(

Equivalente a(

El coeficiente de correlacin presenta la ventaja de ser un valor entre #1 y 1, facilitando su interpretacin. Esta asociacin ser tan 'rande, cuando r est ms alejado del valor

cero y nula cuando r0?. + continuacin se presentan dos ejemplos de dia'ramas de dispersin y correspondientes coeficientes de correlacin lineal.

Imp&r"an"e( el coeficiente de correlacin lineal es un indicador del 'rado de asociacin lineal entre dos variables. +s p0? no indica ausencia de asociacin entre las variables, pero s ausencia de asociacin lineal entre las variables. + continuacin se presentan al'unos dia'ramas de dispersin en que r0? y e)iste relacin entre las variables.

In1eren2ia a2er2a de! 2&e1i2ien"e de 2&rre!a2in


+ continuacin se detallan los pasos necesarios para la realizacin de la prueba de hiptesis para verificar si el coeficiente de correlacin es estadisticamente diferente de cero, 1.# Giptesis a ser evaluadas

A.# Estadstica de la prueba &uponiendo que la muestra fue e)trada de una poblacin con distribucin normal bivariada, la estadstica(

Fue tiene una distribucin t de student con n#A 'rados de libertad, donde n es el tamaMo de la muestra y r el coeficiente de correlacin muestral, puede utlizarse para probar la hiptesis nula Go( p0?. I.# :ado el nivel de si'nificancia, construir la re'iMon crtica de la prueba.

D.# 6e'la de decisin( rechazar G? si E%emp!& de ap!i2a2in Los m dicos promotores de campaMas de prevencin contra el &;:+ estn estudiando el efecto de su ltima campaMa publicitaria para el uso de condones. &e esco'ieron personas al azar para pre'untarles cuntos preservativos haban comprado despu s de haber ledo los anuncios o spo[s publicados como parte de la tarea preventiva. Los resultados se muestran en la tabla. +nuncios ledos o vistos y cantidad de preservativos comprados.

Res&!32in ,lculo del coeficiente de correlacin(

Evaluacin de hiptesis Go( p0?, utilizando un nivel de si'nificancia del EL.

,omo este valor de t e)cede el valor crtico de t!7.??E$0 A.DDR, se concluye que hay evidencia suficiente para seMalar que e)iste correlacin lineal entre el nmero de anuncios ledos y la cantidad de preservativos adquiridos.

BIBLIOGRA*IA
http(YY\\\.uoc.eduYinIYemathYdocsY6e'resionLineal.pdf