Modelode de Regresion y Correl

AO DE LAS CUMBRES MUNDIALES EN EL PERU
UNIVERSIDAD NACIONAL DE PIURA

FACULTAD DE MEDICINA HUMANA TRABAJO DE INVESTIGACION N 7
Modelos de Regresin y Correlacin

ALUMNOS: Nima Urbina David Ramos Marcelo Yvn Surez Loro Mercedes Amnely Ura Len Ronald Ivn Medicina Humana Alfredo Sulln Len
ESPECIALIDAD: DOCENTE:
PIURA- PERU III SEMESTRE- 2008
Universidad Nacional de Piura Bioestadstica
Modelos
de Regresin Lineal y Correlacin
Generalizacin del concepto de fdp a variables multidimensionales La funcin densidad de probabilidad ( fdp) para una variable aleatoria es una funcin a partir de la cual se puede calcular la probabilidad de los distintos valores de la variable. En el caso discreto:
en el caso continuo:
Esto se puede generalizar a ms de una variable. Para n variables aleatorias X1, X2, ..., Xn se llama fdp conjunta a una funcin n-dimensional f(x 1,x2,...,xn) a partir de la cual se puede calcular la probabilidad de los distintos valores de las variables. En el caso discreto:
en el caso continuo:
Del mismo modo que en el caso unidimensional estas funciones estn sometidas a las condiciones:
discreta continua
Facultad de Medicina Humana
Ejemplo 1: En una cierta poblacin se definen dos variables discretas: X1= hipertensin arterial y X2= consumo excesivo de sal, ambas con los valores 0=no y 1=s. La fdp conjunta podra ser X1 0 0,4 0,3
X2 0 1
1 0,1 0,2
f(0,0)=0,4 quiere decir que la probabilidad de que un individuo no sea hipertenso (X1=0) y no tenga un consumo excesivo de sal (X 2=0) es 0,4. Obsrvese que la suma de los valores de la fdp es 1. A partir de esta fdp se puede calcular p.e. la probabilidad de que un individuo sea hipertenso como 0,1+0,2=0,3. En general dada una fdp conjunta (para simplificar la notacin consideremos slo dos variables X e Y) se pueden calcular las denominadas fdp marginales como Caso discreto Caso continuo y simtricamente para la variable Y. En el ejemplo anterior: X1 0 0,4 0,3 0,7
X1 0 1 f1(X1)
1 0,1 0,2 0,3
f2(X2) 0,5 0,5
Se definen tambin las fdp condicionadas
que permiten calcular las respectivas probabilidades condicionadas. 3
En el ejemplo anterior se puede construir, p.e., la fdp de la hipertensin (X1) condicionada al consumo no excesivo de sal (X2=0). X1 0 1 0,4/0,5=0,8 0,1/0,5=0,2
Obsrvese que como esto es una fdp, la suma de sus valores debe ser 1. 0,8 es la probabilidad de que un individuo no sea hipertenso dado que no tiene un consumo excesivo de sal. Independencia de dos variables aleatorias Dos v.a. X e Y se dice que son estocsticamente independientes si y slo si f(x,y)=f1(x).f2(y). En caso contrario se dice que estn correlacionadas. Son independientes las variables del ejemplo anterior? Como f1(0)=0,7 y f2(0)=0,5 f1(0). f2(0)=0,35 no es igual a f(0,0)=0,4 no son independientes. Segn la definicin de fdp condicionada, si X e Y son independientes
que coincide ms con la idea intuitiva de independencia. Cundo diramos que la hipertensin es independiente del consumo de sal? Cuando la probabilidad de ser hipertenso es la misma en los consumidores de sal: f(x1|X2=1), en los no consumidores: f(x1|X2=0) y en la poblacin general: f1(x1). En el ejemplo, la probabilidad de ser hipertenso en la poblacin general f1(1)=0,3 y en los consumidores de sal f(X 1=1|X2=1)=0,2/0,5=0,4 por lo tanto tampoco son independientes desde esta perspectiva (evidentemente, ya que ambas son equivalentes). Diramos que el consumo de sal y la hipertensin estn correlacionados o asociados, o que la hipertensin depende del consumo de sal o, en terminologa epidemiolgica, que el consumo de sal es un factor de riesgo para 4
Universidad Nacional de Piura Bioestadstica la hipertensin. En cualquier caso, la correlacin no implica dependencia causal. El problema, en la prctica, es que no se suelen conocer las fdp's. A partir de una muestra slo se puede obtener una estimacin de la misma, adems tambin se desean obtener estimaciones de la fuerza de la asociacin. Los modelos de regresin son modelos matemticos de dependencia entre variables que permiten resolver ambos problemas. Hay tantos modelos como funciones matemticas de dependencia se puedan concebir, los ms usados son lineal, polinmico, logstico, de Poisson, Funcin lineal Se llama funcin lineal de una variable, a una funcin de la forma
0: ordenada en el origen (valor de Y cuando X=0) 1: pendiente (cambio de Y al aumentar X en 1)
Modelo de regresin lineal simple Es un modelo de regresin lineal entre dos variables
es un modelo probabilstico, que tambin se puede escribir
A la variable Y se la denomina variable dependiente y a X independiente. Modelo I de regresin lineal se asume que
i) X no es una variable aleatoria. ii) para cada valor xi de X existe una v.a. Y|xi cuya media est dada por el modelo. iii) todas las variables Y|x i son normales, independientes y con igual varianza.
Ejemplo 2: Se quiere estudiar la asociacin entre consumo de sal y tensin arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensin arterial un tiempo despus. Variable X: gr. de sal diarios (no aleatoria) Variable Y: presin arterial en mm. De Hg Asumimos que para cada valor de X, Y no est determinada, sino que
H0 presin arterial media de los que no toman nada de sal. H1 cambio de la media de presin arterial por aumentar 1 gr el consumo de sal, asumiendo que es constante. Si fuera 0, quiere decir que la presin no cambia con el consumo de sal, por tanto ambas variables son independientes, un valor distinto de cero indica que estn correlacionadas y su magnitud mide la fuerza de la asociacin. A partir de una muestra aleatoria, la teora estadstica permite: i) estimar los coeficientes H1 del modelo (hay dos procedimientos: mnimos cuadrados y mxima verosimilitud que dan el mismo resultado). ii) estimar la varianza de las variables Y|x i llamada cuadrados medios del error y representada por s 2 o MSE. A su raz cuadrada se le llama error estndar de la estimacin. iii) conocer la distribucin muestral de los coeficientes estimados, tanto su forma (t) como su error estndar, que permite hacer estimacin por intervalos como contrastes de hiptesis sobre ellos.
Universidad Nacional de Piura Bioestadstica Ejemplo 3 : Para el diseo del ejemplo 2 una muestra produce los siguientes datos: X (sal) 1,8 2,2 3,5 4,0 4,3 5,0 Y (Presin) 100 98 110 110 112 120
La "salida" de un paquete estadstico es:
86,371 presin arterial media sin nada de sal. 6,335 aumento de presin por cada gr de sal; como es distinto de 0 indica correlacin. La pregunta es podra ser 0 en la poblacin? En trminos de contrastes de hiptesis H0 : 1 = 0 H1 :1 0 segn iii) aqu t=7,546 con un valor p=0,002 Se rechaza H0. Para hacer estimacin por intervalos de la fuerza de la asociacin o el efecto
En este ejemplo para 1 al 95% 6,335 2,776x0,840 = (4,004 8,666) 7
Universidad Nacional de Piura Bioestadstica y del mismo modo se ha calculado en la salida anterior, aunque en general tiene menos inters, para 0
Interpretacin del contraste 1 = 0 Si no se puede rechazar esta hiptesis, puede ocurrir que: i) el modelo sea inapropiado, bien porque las variables son independientes, bien porque la dependencia no sea lineal. Hay que investigar otros modelos. ii) se cometa error tipo II, el modelo es adecuado, pero el tamao de la muestra es insuficiente. Hay que calcular la potencia. Si se rechaza la hiptesis puede ocurrir que: i) el modelo es adecuado ii) se cometa error tipo I iii) exista una relacin no lineal, pero los datos son compatibles con un modelo lineal. Anlisis de residuos. Inferencias sobre la regresin A veces interesa hacer inferencias sobre la propia regresin, es decir sobre Y| xi para cualquier valor de x i. Si a los valores x i de la muestra se les aplica la ecuacin estimada, se obtiene una estimacin de Y|xi
Cuya distribucin muestral tambin es conocida. A veces se representan los intervalos de confianza para la regresin en la denominada banda de confianza de la regresin. En la figura se presenta la banda de confianza para los datos del ejemplo 3
Anlisis de la varianza de la regresin Es un modo alternativo de hacer contrastes sobre el coeficiente 1. Consiste en descomponer la variacin de la variable Y de dos componentes: uno la variacin de Y alrededor de los valores predichos por la regresin y otro con la variacin de los valores predichos alrededor de la media. Si no existe correlacin ambos estimadores estimaran la varianza de Y y si la hay, no. Comparando ambos estimadores con la prueba de la F se contrasta la existencia de correlacin. Para el ejemplo 3
Observese que el valor de p es igual que antes (son contrastes equivalentes) y el valor de F es el cuadrado del de t. Ejemplo 4: Se quiere investigar el efecto de la ingestin masiva de vitamina C sobre el hgado de las cobayas. Se eligen dos grupos de 4 cobayas, a uno se 9
Universidad Nacional de Piura Bioestadstica le administra y al otro no. Se sacrifica a los animales y se mide la concentracin de lpidos en el hgado. Grupo controlTratado (=0) (=1) 23,8 13,8 15,4 9,3 21,7 17,2 18,0 15,1 Se podra plantear un contraste sobre medias con la t de Student.
Tambin se puede plantear un modelo de regresin entre la variable grupo (X=0 control y X=1 tratado) y la variable lpido (Y)
10
Modelo II de regresin lineal Se asume que las variables X e Y son ambas variables aleatorias y que su fdp conjunta es normal bivariante. La normal bivariante es una extensin a dos dimensiones de la normal univariante. Su representacin grfica es una campana tridimensional. Depende de 5 parmetros: x, y, x, y y que son respectivamente las medias, las desviaciones tpicas de X e Y, y su coeficiente de correlacin. Dicho coeficiente se define como Siendo el numerador la llamada covarianza
11
Las propiedades de la normal bivariante son: i) las fdps marginales son ambas normales con medias x, y y desviaciones tpicas x, y respectivamente. ii) las fdps condicionadas f(y|x) son tambin normales con medias y varianzas
obsrvese que la media depende linealmente de x, es decir, tambin se puede escribir
iii) simtricamente las fdps f(x|y) A partir de una muestra aleatoria se pueden estimar los coeficientes por los mismos procedimientos que en el modelo I y se obtienen los mismos resultados!! Ahora, sin embargo, tambin se obtiene un estimador para el coeficiente de correlacin (la "famosa" r) que no tiene sentido en el modelo I. Propiedades del coeficiente de correlacin i) nmero sin dimensiones entre -1 y 1. ii) si las variables son independientes =0. La inversa no es necesariamente cierta, aunque si las variables son normales bivariantes s. iii) si las variables estuvieran relacionadas linealmente =1 Un contraste que interesa realizar en un modelo II es H 0: =0. Como
este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque tambin hay tablas basadas en que una cierta transformacin (de Fisher) de r se distribuye aproximadamente como una normal. Qu mide r? Se puede demostrar una relacin algebraica entre r y el anlisis de la varianza de la regresin de tal modo que su cuadrado ( coeficiente de determinacin) es la proporcin de variacin de la variable Y debida a la regresin. En este sentido, r2 mide el poder explicatorio del modelo lineal. 12
Universidad Nacional de Piura Bioestadstica Qu no mide r? - no mide la magnitud de la pendiente ("fuerza de la asociacin")
- tampoco mide lo apropiado del modelo lineal
Potencia de los contrastes en regresin Los contrastes se realizan en base al conocimiento de la distribucin muestral del estadstico usado. En el caso de la regresin, las distribuciones usadas son la normal (para r) y la t de Student (para los coeficientes). Slo para la normal es fcil el clculo de la potencia, pero sabemos que la t tiende asintticamenta (para muestras grandes (>30 en la prctica) a la normal. Usaremos esto. 1- = p(rechazar Ho| Ho falsa) Supongamos que
13
Universidad Nacional de Piura Bioestadstica asumamos normalidad qu potencia tiene el contraste si 1 fuera 5 (recordar que se necesita concretar H1)? Cundo rechazamos H0 al 95%? Cuando
en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H 0. Hay que calcular la probabilidad de encontrar
si 1 fuera 5. Calculamos
y lo miramos en la tabla de la normal 1- =0,512=51,2% Modelo de regresin lineal mltiple Las variables biolgicas suelen presentar multicorrelaciones. P.e. para estudiar el efecto del consumo de grasas saturadas en el nivel del colesterol en sangre, se puede plantear un modelo de RLS, sin embargo el nivel de colesterol puede depender tambin de otras variables: consumo de otras substancias, ejercicio realizado, edad, factores metablicos genticos, etc. Si, para cada valor del consumo de grasas, las dems variables se distribuyen aleatoriamente, la estimacin por RLS es adecuada y la variacin "debida" a las otras variables estara incluida en la variacin aleatoria alrededor de la regresin, pero en caso contrario la estimacin sera incorrecta, si p.e., las costumbres dietticas variaran con la edad y sta influyera en el colesterol, una parte no cuantificada de la variacin del colesterol que el modelo atribuye al consumo de grasas sera "debida" a la edad. La regresin lineal mltiple (RLM) es un modelo que permite estudiar estos efectos. El modelo es
0: media de Y cuando todas las Xi son cero (cuando no tiene sentido Xi=0, p.e. edad, se interpreta como la media de Y que no depende de las Xi). 14
Universidad Nacional de Piura Bioestadstica i: cambio en la media de Y cuando Xi aumenta una unidad permaneciendo constantes las dems. Las asunciones del modelo son una generalizacin de las de RLS y dado el resultado de RLS no vamos a distinguir entre modelo I y II. La estimacin de los coeficientes tambin se hace por mnimos cuadrados o mxima verosimilitud y se obtienen los mismos resultados. Estos resultados, usando notacin matricial, son (incluyen como caso particular la RLS):
siendo la matriz columna de coeficientes estimados, Y la matriz columna de observaciones de la variable dependiente y X la denominada matriz de diseo
es decir la matriz de datos con una primera columna de 1's. Estos coeficientes se distribuyen como una normal multivariante cuya matriz de medias son los verdaderos coeficientes y matriz de varianzas-covarianzas
un buen estimador de 2 es
que se distribuye como una 2 con n - (k+1) grados de libertad. Estas frmulas ponen de manifiesto unas limitaciones al resolver estos modelos. Para ello hay que invertir una matriz y no todas las matrices pueden invertirse (singulares). En dos situaciones no se puede: 1. El nmero de observaciones (n), es menor o igual que el nmero de variables independientes (k). 2. Una variable independiente es combinacin lineal de otra(s) o constante (colinealidad ). Estimacin y contrastes de hiptesis:
15
Universidad Nacional de Piura Bioestadstica Usando la teora resumida en el apartado anterior, los intervalos de confianza para los coeficientes se construyen igual que en RLS.
y los contrastes de hiptesis H0: I = 0 H1: i 0 se realizan con el estadstico
Ejemplo 5 Dada una muestra hipottica de 20 pacientes en los que se ha recogido los siguientes datos: nivel de colesterol en plasma sanguneo (en mg/100 ml), edad (en aos), consumo de grasas saturadas (en gr/semana) y nivel de ejercicio (cuantificado como 0: ningn ejercicio, 1: ejercicio moderado y 2: ejercicio intenso), realizar el ajuste a un modelo lineal entre el nivel de colesterol y las dems variables. Tabla de datos Paciente 1 2 3 4 5 6 7 8 9 10 11 12 Colesterol 350 190 263 320 280 198 232 320 303 220 405 190 Edad 80 30 42 50 45 35 18 32 49 35 50 20 Grasas 35 40 15 20 35 50 70 40 45 35 50 15 Ejerci. 0 2 1 0 0 1 1 0 0 0 0 2 16
Universidad Nacional de Piura Bioestadstica 13 14 15 16 17 18 19 20 230 227 440 318 212 340 195 223 40 30 30 23 35 18 22 41 20 35 80 40 40 80 15 34 1 0 1 2 1 0 0 0
La salida del programa de ordenador es
Anlisis de la varianza de la regresin De un modo similar a RLS se puede descomponer la variacin de la variable Y de dos componentes: uno la variacin de Y alrededor de los valores predichos por la regresin y otro con la variacin de los valores predichos alrededor de la media. Si el modelo lineal no es adecuado, ambos estimadores estimaran la varianza de Y y si es adecuado no. Comparando ambos estimadores con la prueba de la F se contrasta lo adecuado del modelo. Para el ejemplo 5
Obsrvese que, a diferencia de la RLS, este contraste no es equivalente al realizado sobre los coeficientes.
17
Universidad Nacional de Piura Bioestadstica Se define tambin el coeficiente de determinacin como el cociente entre la suma de cuadrados de la regresin y la suma de cuadrados total ( R2 = SSR/SST) y a su raz cuadrada ( R) se le denomina coeficiente de correlacin mltiple.
Adems de esta prueba global del modelo basada en el anlisis de la varianza, se pueden plantear pruebas parciales sobre si una variable, o un grupo de variables, aadidas a un modelo previo lo mejoran. Se tiene un modelo
y se aade una nueva variable X*, con el primer modelo se tiene una SSR(Y,X1,...,Xk) y con el nuevo otra SSR(Y,X1,...,Xk,X*), la diferencia entre ambas ser lo que ha mejorado la suma de cuadrados por aadir la variable X* y tendr 1 grado de libertad. SSR(Y,X*|X1,...,Xk) = SSR(Y,X1,...,Xk,X*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) SSE(Y,X1,...,Xk,X*) y el cociente
llamado F parcial, tendr una distribucin F con 1 y n-(k+2) grados de libertad en la hiptesis nula de que la nueva variable X* no mejore el modelo. Evidentemente este contraste es totalmente equivalente a contrastar que el coeficiente * de la nueva variable es cero con la prueba basada en la t. Del mismo modo, si al modelo original se le aaden p variables X1*,...,Xp*, se puede definir SSR(Y,X1*,...,Xp*|X1,...,Xk) = SSR(Y,X1,...,Xk,X1*,...,Xp*) - SSR(Y,X1,...,Xk) = SSE(Y,X1,...,Xk) - SSE(Y,X1,...,Xk,X1*,...,Xp*) que tiene p grados de libertad, y el cociente 18
se distribuye como una Fp,n-(k+p+1) en la hiptesis nula de que las nuevas p variables X1*, ..., Xp* no mejoren el modelo con respecto a las k variables originales y permite contrastar dicha hiptesis. Ejemplo 6 Con los datos del ejemplo 5, realizar el contraste de la F parcial para aadir la variable ejercicio a un modelo que slo contenga la edad y las grasas consumidas. La tabla de anova correspondiente al modelo con EDAD y GRASAS es
Por lo tanto, comparando esta tabla con la del modelo completo SSR(COLEST,EJERC|GRASAS,EDAD) = SSR(COLEST,GRASAS,EDAD,EJERC) - SSR(COLEST,GRASAS,EDAD) = 49275,94 - 48940,18 = 335,76 por tanto Fpar=335,76/3381,83=0,099 que se distribuye como una F1,16. Como F0,05(1,16) = 4,49 no se puede rechazar la hiptesis de que EJERC no mejora el modelo. Obsrvese que esta F par es exactamente el cuadrado del valor de t correspondiente al coeficiente de EJERC en el modelo con las tres variables independientes.
19
Universidad Nacional de Piura Bioestadstica Variables indicadoras ("dummy") En los modelos de RLM la linealidad se asume. Esto, p.e. para la variable EJERC del ejemplo anterior, quiere decir que el efecto sobre el colesterol de hacer ejercicio intenso (EJERC=2) con respecto a no hacerlo (EJERC=0) es el doble que el del ejercicio moderado (EJERC=1). Es razonable esta asuncin? y para la variable FUMA codificada como 0: no fuma, 1:fumador y 2:ex-fumador? Una solucin podra ser crear tantas variables como categoras. No sirve porque seran combinacin lineal y el modelo es irresoluble. La solucin es crear tantas variables como categoras menos 1 (en los ejemplos anteriores 2) denominadas variables indicadoras con el siguiente esquema No-fumador Fumador Ex-fumador X1 0 1 0 X2 0 0 1
Las variables X1 y X2 ya no son combinacin lineal y, por tanto, el modelo es resoluble. El modelo quedara
0 es Y cuando X1 y X2 son ambas cero, es decir, para los no-fumadores; 0 + 1 es Y cuando X1 es 1 y X2 es 0, es decir fumadores, por lo tanto 1 es lo que cambia Y entre fumadores y no-fumadores y del mismo modo 2 es lo que cambia Y entre ex-fumadores y no-fumadores. Con este esquema de codificacin los coeficientes tienen una clara interpretacin cuando, como en este caso, una de las categoras (no-fumador) se quiere usar como referencia para las dems. A dicha categora se le asigna el valor cero para todas las variables indicadoras. Sin embargo, para variables en las que no haya una categora que sea natural usarla como referencia, por ejemplo genotipos, lugar de residencia, etc., es ms til otro esquema de codificacin. Para discutirlo supngase la variable lugar de residencia con cuatro lugares: A, B, C y D. Se crearn tres variables indicadoras (siempre una menos que categoras) con el siguiente esquema X1 A -1 X2 -1 X3 -1 20
B C D
1 0 0
0 1 0
0 0 1
El modelo quedar
y por lo tanto Y = 0 - 1 - 2 - 3 = Y|A para los residentes en A Y = 0 + 1 = Y|B para los residentes en B Y = 0 + 2 = Y|C para los residentes en C Y = 0 + 3 = Y|D para los residentes en D si se suman las 4 ecuaciones: 0 = ( Y|A + Y|B + Y|C + Y|D)/4 por lo tanto 0 es la media de Y en los cuatro lugares de residencia 1 la diferencia de los residentes en B con respecto a la media 2 la diferencia de los residentes en C con respecto a la media y 3 la diferencia de los residentes en D con respecto a la media y, evidentemente, - 1 - 2 - 3 la diferencia de los residentes en A con respecto a la media. De modo que a diferencia del esquema anterior, se usa como nivel de referencia la media en todas las categoras en lugar de una de ellas. Otro posible esquema de codificacin que a veces se usa en la literatura es
X1 A B C D 1 0 0 0
X2 1 1 0 0
X3 1 1 1 0
y queda para el lector, a modo de ejercicio, la interpretacin de los coeficientes de regresin en este caso.
21
Universidad Nacional de Piura Bioestadstica Conviene destacar que estas variables indicadoras no tienen ningn sentido por s solas y por, lo tanto, deben figurar en los modelos y se debe contrastar su inclusin siempre en bloque, usando la F del modelo completo si slo estn dichas variables en el modelo, o la F parcial correspondiente a las mismas si hay ms variables. Ejercicio propuesto : Para los datos del Ejemplo 5, crear "dummys" para el ejercicio (con qu esquema?) y contrastar (con la F parcial) si estas variables mejoran el modelo que slo contiene edad y grasas. Interpretar los coeficientes. Ejemplo 7: Considrense los siguientes datos, procedentes de una muestra hipottica, sobre presin arterial en cm de Hg y "status" de fumador, codificado como 0: no-fumador, 1: fumador y 2: ex-fumador. Discutir el modelo de regresin entre presin arterial y "status" de fumador y estimar por intervalos la presin arterial media segn el "status" de fumador, a partir de los resultados del modelo ms adecuado. Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Presin arte. 15,0 19,0 16,3 22,0 18,0 19,8 23,2 14,4 20,3 22,0 20,5 19,0 12,7 14,0 11,8 11,2 14,0 19,5 22,3 15,0 12,6 16,4 13,5 13,7 Fumador 0 2 1 1 2 0 1 0 2 1 2 2 0 0 0 2 0 1 1 0 2 0 2 1
Los resultados de un modelo entre presin arterial y "status" de fumador tal y como est codificado en la tabla son:
22
En este caso de una nica variable independiente, el contraste sobre el modelo global con la F es equivalente al realizado con la t sobre el coeficiente 1 y con ninguno se puede rechazar la hiptesis nula ( p=0,250) de no dependencia. Es decir, analizado de este modo no hay dependencia entre ambas variables. Si se crean dos variables indicadoras (FUMA y EX_FUMA) con el primer esquema discutido antes la tabla de datos queda PACIEN 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 PRE_AR 15.0 19.0 16.3 22.0 18.0 19.8 23.2 14.4 20.3 22.0 20.5 19.0 12.7 14.0 11.8 11.2 14.0 19.5 22.3 15.0 FUMADORFUMA 0 0 2 0 1 1 1 1 2 0 0 0 1 1 0 0 2 0 1 1 2 0 2 0 0 0 0 0 0 0 2 0 0 0 1 1 1 1 0 0 EX_FUMA 0 1 0 0 1 0 0 0 1 0 1 1 0 0 0 1 0 0 0 0 23
Universidad Nacional de Piura Bioestadstica 21 22 23 24 12.6 16.4 13.5 13.7 2 0 2 1 0 0 0 1 1 0 1 0
y el modelo entre PRE_AR y FUMA y EX_FUMA
Para contrastar si la presin arterial depende del "status" de fumador, deber usarse el contraste basado en la F (p=0,018) y por lo tanto al nivel de significacin habitual =0,05 se rechaza la hiptesis nula de no dependencia. A pesar de que el coeficiente para EX_FUMA no es significativamente distinto de 0 (p=0,220), se mantiene en el modelo porque FUMA no tiene sentido por s sola. Obsrvese que usando las variables indicadoras se ha encontrado una dependencia que antes no se haba puesto de manifiesto, debido a la falta de linealidad para los cdigos usados. La estimacin puntual de la presin arterial media de los no-fumadores ( 0 en el modelo) es 14,789 con un error estndar estimado de 1,07 y, como t 0,025(21) = 2,08, su intervalo de confianza al 95% es 14,789 2,08x1,07 = (12,563 17,014). La estimacin del aumento medio de la presin arterial en los fumadores ( 1) es 5,068 que es significativamente distinto de cero (p=0,005) y la estimacin del aumento medio de la presin arterial en los ex-fumadores ( 2) es 1,974 pero no es significativamente distinto de cero (p=0,220). 24
Universidad Nacional de Piura Bioestadstica Para realizar la estimacin por intervalos de la presin media en fumadores (0+ 1) y ex-fumadores (0 + 2) se necesita estimar sus respectivas varianzas
var(0 + 1) = var( 0) + var( 1) + 2cov( 0 , 1) = 1,145 + 2,618 - 2 x 1,145 = 1,473 EE(0 + 1) = 1,214 var(0 + 2) = var( 0) + var( 2) + 2cov( 0 , 2) = 1,145 + 2,434 - 2 x 1,145 = 1,289 EE(0 + 2) = 1,135 Por lo tanto los intervalos de confianza al 95% para la presin arterial media de fumadores y ex-fumadores son fumadores: (14,789+5,068) 2,08x1,214 = (17,332 ex-fumad : (14,789+1,974) 2,08x1,135 = (14,402 19,124) recordemos que para no-fumadores se haba obtenido no-fumad : 14,789 2,08x1,07 = (12,563 17,015) y que la diferencia entre no-fumadores y ex-fumadores no es significativa, mientras que la diferencia entre no-fumadores y fumadores s lo es. Interaccin y confusin en la regresin Los modelos de regresin pueden usarse con dos objetivos: 1) predictivo en el que el inters del investigador es predecir lo mejor posible la variable dependiente, usando un conjunto de variables independientes y 2) estimativo en el que el inters se centra en estimar la relacin de una o ms variables independientes con la variable dependiente. En el ejemplo desarrollado en los apartados anteriores, el inters podra ser encontrar el modelo que mejor prediga el nivel de colesterol en sangre, en funcin de las otras variables (objetivo 1) o simplemente cuantificar la relacin entre el consumo de grasas y dicho nivel de colesterol (objetivo 2). El resultado de un modelo predictivo es el modelo mismo, mientras que en un modelo estimativo es la estimacin del coeficiente de la variable de inters. El
22,382)
25
Universidad Nacional de Piura Bioestadstica segundo objetivo es el ms frecuente en estudios etiolgicos en los que se trata de encontrar factores determinantes de una enfermedad o un proceso. La interaccin y la confusin son dos conceptos importantes cuando se usan los modelos de regresin con el segundo objetivo, que tienen que ver con la interferencia que una o varias variables pueden realizar en la asociacin entre otras. Existe confusin cuando la asociacin entre dos variables difiere significativamente segn que se considere, o no, otra variable, a esta ltima variable se le denomina variable de confusin para la asociacin. Existe interaccin cuando la asociacin entre dos variables vara segn los diferentes niveles de otra u otras variables. Aunque en una primera lectura pueden parecer similares, conviene distinguir claramente entre ambos fenmenos. En el ejemplo 5 la edad no presenta una correlacin significativa con el nivel de colesterol si no se considera el consumo de grasas, mientras que si se considera dicho consumo, s lo presenta, en este caso el consumo de grasas es una variable de confusin para la asociacin entre colesterol y edad. Para que exista confusin no es necesario que exista un cambio tan drstico (la correlacin es significativa en un caso y no lo es en el otro), tambin puede ocurrir que, an siendo significativa en ambos casos, cambie el coeficiente de regresin. Evidentemente la mejor estimacin del coeficiente es la que se obtiene del modelo en que figura la variable de confusin, en el ejemplo, la mejor estimacin del coeficiente correspondiente a la edad es la del modelo con edad y consumo de grasas. En el mismo ejemplo, si la asociacin entre la edad y el nivel de colesterol fuera diferente para los individuos que realizan ejercicio que para los que no lo realizan, se dira que, para el nivel de colesterol, existe interaccin entre la edad y el ejercicio realizado. En este caso no existe una nica estimacin del coeficiente de la variable de inters, sino que habra una estimacin para cada nivel de la otra variable, es decir y en el ejemplo, una estimacin de la relacin entre el nivel de colesterol y la edad para los individuos que realizan ejercicio y otra distinta para los que no lo realizan. Veamos estos conceptos sobre los modelos. El modelo ms sencillo para estudiar la asociacin entre una variable Y y otra variable X1 es Y = 0 + 1 X1 donde 1 cuantifica la asociacin: es el cambio en Y por unidad de cambio en X1. Se dice que X2 es una variable de confusin para esta asociacin, si el modelo Y = 0 + 1 X1 + 2 X2
26
Universidad Nacional de Piura Bioestadstica produce una estimacin para 1 diferente del modelo anterior. Evidentemente esta definicin se puede ampliar a un conjunto de variables, se dice que las variables X2, ..., Xk son variables de confusin si la estimacin de 1 obtenida por el modelo Y = 0 + 1 X1 + 2 X2 + ... + k Xk es diferente de la obtenida en el modelo simple. En ambos casos se dice que la estimacin de 1 obtenida en los modelos mltiples est controlada o ajustada por X2 o por X2 ,..., Xk Contrastar la existencia de confusin requiere, por lo tanto, comparar los coeficientes de regresin obtenidos en dos modelos diferentes y si hay diferencia, existe la confusin, en cuyo caso la mejor estimacin es la ajustada. Para dicha comparacin no se precisa realizar un contraste de hiptesis estadstico ya que aunque la diferencia encontrada sea debida al azar, representa una distorsin que la estimacin ajustada corrige. Ser el investigador quin establezca el criterio para decidir cuando hay diferencia. Ntese que se est hablando de diferencia en la estimacin, que puede afectar tanto al propio coeficiente como a su error estndar (lo habitual es considerar que existe confusin cuando el coeficiente o su error estndar cambian en ms del 10%). El modelo ms sencillo que hace explcita la interaccin entre dos variables X1 y X2 es Y = 0 + 1 X1 + 2 X2 + 3 X1 X2 En este modelo, el valor de Y para unos valores determinados x1, x2 de X1, X2 es Y = 0 + 1 x1+ 2 x2+ 3 x1x2 y para los valores x1 + 1 y x2 Y = 0 + 1(x1+ 1) + 2 x2+ 3 (x1+ 1) x2 = 0 + 1 x1+ 1 + 2 x2 + 3 x1x2 + 3 x2 restando ambas se encuentra el cambio en Y por una unidad de cambio en X1 manteniendo fijo X2 1 + 3 x2 que es diferente para cada valor x2 de X2. Del mismo modo, el cambio en por una unidad de cambio en X2 manteniendo fijo X1 es 2 + 3 x1 27
Y
Universidad Nacional de Piura Bioestadstica Por lo tanto, contrastar la existencia de interaccin entre X1 y X2 es contrastar si el coeficiente 3 es cero (no hay interaccin), o distinto de cero (existe interaccin). En caso de que exista interaccin los coeficientes 1 y 2 por s solos no significan nada y la asociacin de las variables X1 y X2 con Y estar cuantificada por las expresiones anteriores. Es obvio que primero debe contrastarse la interaccin y despus, en caso de que no exista, la confusin. Ejemplo 8 En un trabajo para estudiar la relacin de la presin arterial sistlica con el consumo de tabaco y caf, codificadas ambas como 0: no y 1: s, se han obtenido los siguientes datos de una muestra aleatoria hipottica Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Presin arte. 15,0 11,0 26,3 13,0 18,0 19,8 23,2 14,4 13,3 12,0 22,5 23,5 12,7 14,0 11,8 21,2 14,0 15,5 12,3 15,0 22,6 16,4 23,5 13,7 Tabaco 0 1 1 1 0 1 1 0 1 1 1 1 0 0 0 1 0 1 1 0 1 0 1 1 Caf 1 1 0 1 1 1 0 0 1 1 0 0 1 1 0 0 0 1 1 0 0 1 0 1
Contrastar la existencia de interaccin y confusin y obtener la mejor estimacin por intervalos para el efecto de ambos factores.
28
Universidad Nacional de Piura Bioestadstica Para contrastar la existencia de interaccin se crea una nueva variable (TABXCA) que sea el producto de la variables TABACO y CAFE y se hace un modelo de regresin con las 3 variables. El resultado es
Segn la tabla de anova, el modelo completo es muy significativo (p=0,000). El coeficiente de correlacin mltiple es muy alto, ya que la proporcin de suma de cuadrados explicada por la regresin (R 2) es aproximadamente del 82%. El coeficiente del trmino de interaccin es significativamente distinto de cero (p=0,000), y aunque el del trmino del CAFE no lo sea (p=0,332) se mantiene en el modelo en aplicacin del principio jerrquico. Hay interaccin entre CAFE y TABACO y no puede hablarse, por lo tanto, de un efecto del tabaco, sino que hay un efecto del tabaco para los consumidores de caf y otro distinto para los no consumidores de caf y, del mismo modo, hay un efecto del caf para los consumidores de tabaco y otro efecto para los no consumidores de tabaco. Vamos a estimar el efecto del tabaco.
29
Universidad Nacional de Piura Bioestadstica La presin arterial media en la muestra es 16,86 y la estimacin de la presin arterial de los no-fumadores y no consumidores de caf ( 0 ) es 13,8. Segn vimos antes la estimacin del efecto del tabaco (cambio en la presin arterial media por ser fumador) es para los no consumidores de caf 1 y para los consumidores de caf1 + 3. La varianza estimada de esta ltima estimacin es
var( 1 + 3) = var(1) + var( 3) + 2cov( 1 , 3) = 1,779 + 3,251 + 2x(1,779) = 1,472 por lo tanto EE(1 + 3) = 1,213. Como t0,025(20)= 2,086 los intervalos de confianza estimados al 95% para el efecto del tabaco son no consumidores de caf: 9,457 2,086x1,334 = ( 6,675 12,240) consumidores: 9,457-10,852 2,086x1,213 = (-3,925 1,135) para los no consumidores de caf, el tabaco aumenta la presin arterial media en 9,457 unidades y este aumento es significativamente distinto de cero, mientras que para los consumidores de caf la disminuye en -1,395 unidades, si bien esta disminucin no es significativamente distinta de cero (su intervalo de confianza incluye el cero). Estrategias de modelizacin El problema es cmo usamos todo esto?. Debido a los dos objetivos distintos que un anlisis de regresin puede tener es difcil establecer una estrategia general para encontrar el mejor modelo de regresin, es ms, el mejor modelo significa cosas distintas con cada objetivo. En un anlisis predictivo el mejor modelo es el que produce predicciones ms fiables para una nueva observacin, mientras que en un anlisis estimativo el mejor modelo es el que produce estimaciones ms precisas para el coeficiente de la variable de inters.
30
Universidad Nacional de Piura Bioestadstica En ambos casos se prefiere el modelo ms sencillo posible (a este modo de seleccionar modelos se le denomina parsimonia), de modo que en un anlisis estimativo, se puede excluir del modelo una variable que tenga un coeficiente significativamente distinto de cero y que su contribucin a la prediccin de la variable dependiente sea importante, porque no sea variable de confusin para la variable de inters (el coeficiente de dicha variable no cambia), en un anlisis predictivo esa variable no se excluira. Sin embargo, hay una serie de pasos que deben realizarse siempre: i) Especificacin del modelo mximo. ii) Especificacin de un criterio de comparacin de modelos y definicin de una estrategia para realizarla. iii) Evaluacin de la fiabilidad del modelo. i) Especificacin del modelo mximo Se trata de establecer todas las variables que van a ser consideradas. Recurdese que el modelo saturado (el mximo que se puede considerar) tiene n - 1 variables pero que, con este modelo, los grados de libertad para SSE son cero, y R2=1, de modo que, en general, el modelo saturado no tiene inters y el modelo mximo deber tener menos variables independientes que el modelo saturado (un criterio habitual es incluir como mximo una variable cada 10 casos). El criterio para decidir qu variables forman el modelo mximo lo establece el investigador en funcin de sus objetivos y del conocimiento terico que tenga sobre el problema, evidentemente cuanto menor sea el conocimiento previo mayor tender a ser el modelo mximo. Un modelo mximo grande minimiza la probabilidad de error tipo II o infraajuste, que en un anlisis de regresin consiste en no considerar una variable que realmente tiene un coeficiente de regresin distinto de cero. Un modelo mximo pequeo minimiza la probabilidad de error tipo I o sobreajuste (incluir en el modelo una variable independiente cuyo coeficiente de regresin realmente sea cero). Debe tenerse en cuenta tambin que un sobreajuste, en general, no introduce sesgos en la estimacin de los coeficientes (los coeficientes de las otras variables no cambian), mientras que un infraajuste puede producirlos, pero que un modelo mximo grande aumenta la probabilidad de problemas de colinealidad. En el modelo mximo deben considerarse tambin los trminos de interaccin que se van a introducir (en un modelo estimativo slo interesan interacciones entre la variable de inters y las otras) y la posibilidad de incluir trminos no lineales. En Biologa son muy frecuentes relaciones no lineales, que pueden 31
Universidad Nacional de Piura Bioestadstica modelizarse con trminos cuadrticos o de mayor transformaciones tales como la exponencial o el logaritmo. orden o con
En el ejemplo 5 podra considerarse que la dependencia del nivel de colesterol en sangre con las grasas consumidas puede no ser lineal y presentar, por ejemplo, saturacin: por encima de un cierto nivel de grasas ingeridas el colesterol en sangre ya no sube ms, o un punto umbral: las grasas consumidas elevan el colesterol, slo si sobrepasan un cierto valor. Cada uno de estos fenmenos puede modelarse satisfactoriamente con un trmino cuadrtico o una transformacin logartmica o exponencial (introducir en el modelo junto con, o en lugar de, la variable GRASAS, la variable (GRASAS) 2; o log(GRASAS) o EXP(GRASAS)) y ambos juntos, con un trmino cbico ((GRASAS)3). ii) Comparacin de modelos Debe establecerse cmo y con qu se comparan los modelos. Si bien hay varios estadsticos sugeridos para comparar modelos, el ms frecuentemente usado es la F parcial, recordando que cuando los dos modelos slo difieren en una variable, el contraste sobre la F parcial es exactamente el mismo que el realizado con la t sobre el coeficiente de regresin, pero a veces interesa contrastar varias variables conjuntamente mejor que una a una (por ejemplo todos los trminos no lineales) o, incluso, es necesario hacerlo (por ejemplo para variables indicadoras). Hay que hacer notar que en un anlisis estimativo el criterio para incluir o excluir variables distintas a las de inters, es sobre todo los cambios en los coeficientes y no los cambios en la significacin del modelo. Los distintos modelos a comparar se pueden construir de dos formas: por eliminacin o hacia atrs (" backward") y por inclusin o hacia adelante ("forward"). Con la primera estrategia, se ajusta el modelo mximo y se calcula la F parcial para cada variable como si fuera la ltima introducida (que es equivalente a la t para esa variable), se elige la menor de ellas y se contrasta con el nivel de significacin elegido. Si es mayor o igual que el valor crtico se adopta este modelo como resultado del anlisis y si es menor se elimina esa variable y se vuelve a repetir todo el proceso hasta que no se pueda eliminar ninguna variable. Con la estrategia hacia adelante, se empieza con un modelo de una variable, aquella que presente el mayor coeficiente de correlacin simple. Se calcula la F parcial para la inclusin de todas las dems, se elige la mayor de ellas y se contrasta con el nivel de significacin elegido. Si es menor que el valor crtico, se para el proceso y se elige el modelo simple como mejor modelo, y si es mayor o igual que dicho valor crtico, esa variable se incluye en el modelo y se 32
Universidad Nacional de Piura Bioestadstica vuelve a calcular la F parcial para la inclusin de cada una de todas las restantes, y as sucesivamente hasta que no se pueda incluir ninguna ms. Una modificacin de esta ltima estrategia es la denominada " stepwise" que consiste en que, cada vez que con el criterio anterior se incluye una variable, se calculan las F parciales de todas las incluidas hasta ese momento como si fueran las ltimas y la variable con menor F parcial no significativa, si la hubiera, se elimina. Se vuelven a calcular las F parciales y se continua aadiendo y eliminando variables hasta que el modelo sea estable. Las variaciones a estas estrategias consisten en que, con cualquiera de ellas, se puede contrastar varias variables en lugar de una sola y que, en aplicacin del principio jerrquico, cuando se contrasta un trmino de interaccin, el modelo debe incluir todos los trminos de orden inferior y, si como resultado del contraste, dicho trmino permanece en el modelo, tambin ellos deben permanecer en el mismo, aunque no se pueda rechazar que los coeficientes correspondientes no son distintos de cero. En cualquier caso, puede ser peligroso aplicar cualquiera de estas estrategias automticamente (con un paquete estadstico, por ejemplo) por lo que se ha comentado ms arriba sobre los distintos criterios dependiendo del objetivo del estudio, los trminos de interaccin y las variables indicadoras. Ejemplo 9 Encontrar el mejor modelo para los datos del ejemplo 5 , con el objetivo de estimar el efecto del consumo de grasas sobre el nivel del colesterol y usando la estrategia hacia atrs. El modelo mximo estara formado por EDAD, GRASAS, EJERC (teniendo en cuenta que est codificado en 3 niveles podra ser conveniente analizarlo a travs de 2 variables indicadoras, pero no se va a hacer por simplicidad del ejemplo), se considerar tambin el trmino (GRASAS) 2 para analizar relaciones no lineales y los trminos de interaccin entre GRASAS y EDAD y entre GRASAS y EJERC. La interaccin entre EDAD y EJERC en este caso no interesa, puesto que la variable de inters es GRASAS. En el archivo de datos, habr que crear 3 variables nuevas: GRASA2 = (GRASAS)2, GRAXED = GRASAS x EDAD y GRAXEJ = GRASAS x EJERC y el resultado del anlisis del modelo mximo es
33
Recordando que la F parcial de una variable dadas todas las dems es el cuadrado del valor de t para el coeficiente de la misma, la variable que tiene menor F parcial no significativa es GRAXEJ, por lo tanto esta variable se elimina y se ajusta ahora un modelo excluyndola.
34
Obsrvese que R apenas ha disminuido (R siempre disminuye al quitar variables y su disminucin es otro de los estadsticos propuestos para comparar modelos) pero la F global ha mejorado (p=0,018 frente a 0,040). En este modelo la menor F parcial no significativa corresponde a EDAD, sin embargo, en el modelo todava est el trmino de interaccin entre EDAD y GRASAS (GRAXED) en consecuencia EDAD no se puede quitar ( principio jerrquico), la siguiente F parcial corresponde a EJERCI y no es significativa, en consecuencia se quita EJERCI. El nuevo modelo es
35
No hay cambios en los coeficientes de GRASAS, ni GRASA2, ni GRAXED (EJERCI no es variable de confusin, por lo tanto se puede eliminar definitivamente. Si hubiera habido cambios no se podra eliminar a pesar de no ser significativa). La variable con menor F parcial sigue siendo EDAD y la siguiente GRAXED. Se quita y el nuevo modelo es
La menor F parcial no significativa es, ahora, la de GRASAS, pero GRASA2 debe contrastarse antes y como tampoco es significativa (obsrvese, no obstante, que est en el borde y podra tratarse de un problema de falta de potencia) se quitara GRASA2. El modelo finalmente queda
36
Donde la F global es significativa siendo tambin significativas las F parciales de las dos variables que permanecen, de modo que ste podra ser el modelo final. No obstante, como el objetivo del estudio es estimar el efecto de las grasas, se debera probar un modelo sin la edad y si en ste ltimo modelo no hubiera cambios en la estimacin del efecto de las grasas, podra quitarse la edad, en aplicacin del principio de parsimonia.
Como el cambio en el coeficiente es mayor que el 10%, concluimos que EDAD es variable de confusin y el modelo final es el que comntoene GRASAs y EDAD. iii) Evaluacin de la fiabilidad del modelo Una vez encontrado el mejor modelo hay que evaluar su fiabilidad, es decir, evaluar si se comporta igual en otras muestras extradas de la misma poblacin. Evidentemente, el modo ms completo de evaluarlo ser repetir el estudio con otra muestra y comprobar que se obtienen los mismos resultados, aunque generalmente esta aproximacin resulta excesivamente costosa. 37
Universidad Nacional de Piura Bioestadstica Otra aproximacin alternativa consiste en partir aleatoriamente la muestra en dos grupos y ajustar el modelo con cada uno de ellos y si se obtienen los mismos resultados se considera que el modelo es fiable. Esta aproximacin es demasiado estricta ya que, en la prctica, casi nunca se obtienen los mismos resultados. Una validacin menos estricta consiste en ajustar el modelo sobre uno de los grupos (grupo de trabajo) y calcular su R 2, que se puede interpretar como el cuadrado del coeficiente de correlacin simple entre la variable dependiente y las estimaciones obtenidas en la regresin. Despus, y con el modelo obtenido en el grupo de trabajo, calcular las estimaciones de la variable dependiente en el otro grupo (grupo de validacin) y calcular el coeficiente de correlacin simple al cuadrado entre estas estimaciones y la variable dependiente (R 2*), a este coeficiente se le denomina coeficiente de correlacin de validacin cruzada . A la diferencia R2-R2* se le denomina reduccin en la validacin cruzada y, aunque no hay reglas firmes al respecto, se considera que una reduccin superior a 0,90 indica un modelo no fiable y una reduccin inferior a 0,10 indica un modelo muy fiable.
38
Bibliografia
Bioestadistica, base para el analisis de las ciencias de la salud. Wayne w. Daniel. 4yta edicion en espaol. Editorial limusa wiley. Introduccin a la estadstica para las ciencias sociales . Pea, d., romo, j. Ed. Mcgraw-hill. Madrid, 1999 PAGINAS CONSULTADAS: http://www.hrc.es/bioest/Reglin_16.html http://descartes.cnice.mec.es/eda2007/practicas_profesores/P3/laureano _p3/estadistica_unidimensional/esta4.htm http://www.eumed.net/libros/2007a/239/4a.htm
39

Modelode de Regresion y Correl

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modelode de Regresion y Correl

Cargado por

Copyright:

Formatos disponibles

AO DE LAS CUMBRES MUNDIALES EN EL PERU

UNIVERSIDAD NACIONAL DE PIURA

Modelos de Regresin y Correlacin

PIURA- PERU III SEMESTRE- 2008

Universidad Nacional de Piura Bioestadstica

de Regresin Lineal y Correlacin

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

1 0,1 0,2 0,3

f2(X2) 0,5 0,5

Se definen tambin las fdp condicionadas

que permiten calcular las respectivas probabilidades condicionadas. 3

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

0: ordenada en el origen (valor de Y cuando X=0) 1: pendiente (cambio de Y al aumentar X en 1)

es un modelo probabilstico, que tambin se puede escribir

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

La "salida" de un paquete estadstico es:

En este ejemplo para 1 al 95% 6,335 2,776x0,840 = (4,004 8,666) 7

Facultad de Medicina Humana

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

obsrvese que la media depende linealmente de x, es decir, tambin se puede escribir

Facultad de Medicina Humana

- tampoco mide lo apropiado del modelo lineal

Facultad de Medicina Humana

Facultad de Medicina Humana

Facultad de Medicina Humana

y los contrastes de hiptesis H0: I = 0 H1: i 0 se realizan con el estadstico

Facultad de Medicina Humana

La salida del programa de ordenador es

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica 21 22 23 24 12.6 16.4 13.5 13.7 2 0 2 1 0 0 0 1 1 0 1 0

y el modelo entre PRE_AR y FUMA y EX_FUMA

Facultad de Medicina Humana

Facultad de Medicina Humana

Facultad de Medicina Humana

Facultad de Medicina Humana

Facultad de Medicina Humana

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

Universidad Nacional de Piura Bioestadstica

Facultad de Medicina Humana

También podría gustarte