Bio Esta Di Stica

Instituto Epidemiologa de Salud Carlos III
Centro Nacional de
Roberto Pastor-Barriuso
BIOESTADSTICA
Centro Nacional de
Instituto Epidemiologa de Salud Carlos III
MINISTERIO DE ECONOMA Y COMPETITIVIDAD
Instituto de Salud Carlos III
Centro Nacional de Epidemiologa
Centro Nacional de Epidemiologa Instituto de Salud Carlos III Monforte de Lemos, 5 28029 MADRID (ESPAA) Tel.: 91 822 20 00 Fax: 91 387 78 15 http://www.isciii.es
Catlogo general de publicaciones oficiales: http://publicacionesoficiales.boe.es/ Para obtener este libro de forma gratuita en internet (formato pdf): http://publicaciones.isciii.es/
http://creativecommons.org/licenses/by-nc-sa/2.1/es/
EDITA: CENTRO NACIONAL DE EPIDEMIOLOGA Instituto de Salud Carlos III Madrid, diciembre de 2012 N.I.P.O. (en lnea): 477-11-083-3 I.S.B.N.: 978-84-695-3775-6 Imprime: Agencia Estatal Boletn Oficial del Estado. Avda. de Manoteras, 54. 28050 MADRID
BIOESTADSTICA
Roberto Pastor-Barriuso Cientfico Titular Centro Nacional de Epidemiologa, Instituto de Salud Carlos III, Madrid
Para citar este libro Pastor-Barriuso R. Bioestadstica. Madrid: Centro Nacional de Epidemiologa, Instituto de Salud Carlos III, 2012.
Este texto puede ser reproducido siempre que se cite su procedencia.
A la memoria de Carmen A Marta, Pablo, Miguel y Antonio
NDICE
1 Estadstica descriptiva 1.1 Introduccin 1.2 Medidas de tendencia central 1.2.1 Media aritmtica 1.2.2 Mediana 1.2.3 Media geomtrica 1.3 Medidas de posicin: cuantiles 1.4 Medidas de dispersin 1.4.1 Varianza y desviacin tpica 1.4.2 Rango intercuartlico 1.4.3 Coeficiente de variacin 1.5 Representaciones grficas 1.5.1 Diagrama de barras 1.5.2 Histograma y polgono de frecuencias 1.5.3 Grfico de tallo y hojas 1.5.4 Diagrama de caja 1.6 Referencias 2 Probabilidad 2.1 2.2 2.3 2.4 2.5 2.6 Introduccin Concepto y definiciones de probabilidad Probabilidad condicional e independencia de sucesos Regla de la probabilidad total Teorema de Bayes Referencias 1 1 3 3 4 5 5 6 6 7 7 8 8 9 10 11 12 13 13 14 16 18 18 20 21 21 22 24 26 29 29 31 34 36 37 39
vii
3 Variables aleatorias y distribuciones de probabilidad 3.1 Introduccin 3.2 Distribuciones de probabilidad discretas 3.2.1 Distribucin binomial 3.2.2 Distribucin de Poisson 3.2.3 Aproximacin de Poisson a la distribucin binomial 3.3 Distribuciones de probabilidad continuas 3.3.1 Distribucin normal 3.3.2 Aproximacin normal a la distribucin binomial 3.3.3 Aproximacin normal a la distribucin de Poisson 3.4 Combinacin lineal de variables aleatorias 3.5 Referencias
ndice
4 Principios de muestreo y estimacin 4.1 Introduccin 4.2 Principales tipos de muestreo probabilstico 4.2.1 Muestreo aleatorio simple 4.2.2 Muestreo sistemtico 4.2.3 Muestreo estratificado 4.2.4 Muestreo por conglomerados 4.2.5 Muestreo polietpico 4.3 Estimacin en el muestreo aleatorio simple 4.3.1 Estimacin puntual de una media poblacional 4.3.2 Error estndar de la media muestral 4.3.3 Teorema central del lmite 4.3.4 Estimacin de una proporcin poblacional 4.4 Referencias 5 Inferencia estadstica 5.1 Introduccin 5.2 Estimacin puntual 5.3 Estimacin por intervalo 5.3.1 Distribucin t de Student 5.3.2 Intervalo de confianza para una media poblacional 5.4 Contraste de hiptesis 5.4.1 Formulacin de hiptesis 5.4.2 Contraste estadstico para la media de una poblacin 5.4.3 Errores y potencia de un contraste de hiptesis 5.5 Referencias 6 Inferencia sobre medias 6.1 Introduccin 6.2 Inferencia sobre una media y varianza poblacional 6.2.1 Inferencia sobre la media de una poblacin 6.2.2 Inferencia sobre la varianza de una poblacin 6.3 Comparacin de medias en dos muestras independientes 6.3.1 Comparacin de medias en distribuciones con igual varianza 6.3.2 Contraste para la igualdad de varianzas 6.3.3 Comparacin de medias en distribuciones con distinta varianza 6.4 Comparacin de medias en dos muestras dependientes 6.5 Referencias
41 41 42 43 43 44 46 47 49 49 51 53 55 58 59 59 60 62 62 63 67 67 69 72 76 79 79 80 80 81 83 85 88 90 92 95
viii
ndice
7 Inferencia sobre proporciones 7.1 7.2 7.3 7.4 7.5 7.6 Introduccin Inferencia sobre una proporcin poblacional Comparacin de proporciones en dos muestras independientes Asociacin estadstica en una tabla de contingencia Test de tendencia en una tabla r2 Medidas de efecto en una tabla de contingencia 7.6.1 Riesgo relativo 7.6.2 Odds ratio 7.7 Comparacin de proporciones en dos muestras dependientes 7.8 Apndice: correccin por continuidad 7.9 Referencias 8 Mtodos no paramtricos 8.1 8.2 8.3 8.4 8.5 Introduccin Test de la suma de rangos de Wilcoxon Test de los rangos con signo de Wilcoxon Test exacto de Fisher Referencias
97 97 97 99 102 106 107 108 111 114 117 120 121 121 122 129 134 138 139 139 140 140 141 142 143 146 148 148 152 154 155 155 155
ix
9 Determinacin del tamao muestral 9.1 Introduccin 9.2 Tamao muestral para la estimacin de un parmetro poblacional 9.2.1 Tamao muestral para la estimacin de una media 9.2.2 Tamao muestral para la estimacin de una proporcin 9.3 Tamao muestral para la comparacin de medias 9.3.1 Tamao muestral para la comparacin de medias en dos muestras independientes 9.3.2 Tamao muestral para la comparacin de medias en dos muestras dependientes 9.4 Tamao muestral para la comparacin de proporciones 9.4.1 Tamao muestral para la comparacin de proporciones en dos muestras independientes 9.4.2 Tamao muestral para la comparacin de proporciones en dos muestras dependientes 9.5 Referencias 10 Correlacin y regresin lineal simple 10.1 Introduccin 10.2 Coeficiente de correlacin
ndice
10.2.1 Coeficiente de correlacin muestral de Pearson 10.2.2 Coeficiente de correlacin de los rangos de Spearman 10.3 Regresin lineal simple 10.3.1 Estimacin de la recta de regresin 10.3.2 Contraste del modelo de regresin lineal simple 10.3.3 Inferencia sobre los parmetros de la recta de regresin 10.3.4 Bandas de confianza y prediccin para la recta de regresin 10.3.5 Evaluacin de las asunciones del modelo de regresin lineal simple 10.3.6 Observaciones atpicas e influyentes 10.3.7 Variable explicativa dicotmica 10.4 Referencias 11 Regresin lineal mltiple 11.1 Introduccin 11.2 Estructura de la regresin lineal mltiple 11.3 Estimacin e inferencia de la ecuacin de regresin 11.3.1 Estimacin de los coeficientes de regresin 11.3.2 Inferencia sobre los coeficientes de regresin 11.3.3 Inferencia sobre la ecuacin de regresin 11.4 Contrastes de hiptesis en regresin lineal mltiple 11.4.1 Contraste global del modelo de regresin lineal mltiple 11.4.2 Contrastes parciales 11.5 Variables explicativas politmicas 11.6 Regresin polinomial 11.7 Confusin e interaccin en regresin lineal 11.7.1 Control de la confusin en regresin lineal 11.7.2 Evaluacin de la interaccin en regresin lineal 11.8 Apndice: formulacin matricial de la regresin lineal mltiple 11.9 Referencias Apndice: tablas estadsticas
158 161 164 166 169 173 175 178 184 190 191 193 193 194 196 197 200 201 203 203 206 210 215 218 218 221 228 232 233
TEMA 1 ESTADSTICA DESCRIPTIVA

1.1INTRODUCCIN La estadstica es la rama de las matemticas aplicadas que permite estudiar fenmenos cuyos resultados son en parte inciertos. Al estudiar sistemas biolgicos, esta incertidumbre se debe al desconocimiento de muchos de los mecanismos fisiolgicos y fisiopatolgicos, a la incapacidad de medir todos los determinantes de la enfermedad y a los errores de medida que inevitablemente se producen. As, al realizar observaciones en clnica o en salud pblica, los resultados obtenidos contienen una parte sistemtica o estructural, que aporta informacin sobre las relaciones entre las variables estudiadas, y una parte de ruido aleatorio. El objeto de la estadstica consiste en extraer la mxima informacin sobre estas relaciones estructurales a partir de los datos recogidos. En estadstica se distinguen dos grandes grupos de tcnicas: yy La estadstica descriptiva, en la que se estudian las tcnicas necesarias para la organizacin, presentacin y resumen de los datos obtenidos. yy La estadstica inferencial, en la que se estudian las bases lgicas y las tcnicas mediante las cuales pueden establecerse conclusiones sobre la poblacin a estudio a partir de los resultados obtenidos en una muestra. El anlisis de una base de datos siempre partir de tcnicas simples de resumen de los datos y presentacin de los resultados. A partir de estos resultados iniciales, y en funcin del diseo del estudio y de las hiptesis preestablecidas, se aplicarn las tcnicas de inferencia estadstica que permitirn obtener conclusiones acerca de las relaciones estructurales entre las variables estudiadas. Las tcnicas de estadstica descriptiva no precisan de asunciones para su interpretacin, pero en contrapartida la informacin que proporcionan no es fcilmente generalizable. La estadstica inferencial permite esta generalizacin, pero requiere ciertas asunciones que deben verificarse para tener un grado razonable de seguridad en las inferencias. A continuacin se definen algunos conceptos generales que aparecen repetidamente a lo largo de la exposicin: yy Poblacin es el conjunto de todos los elementos que cumplen ciertas propiedades y entre los cuales se desea estudiar un determinado fenmeno. yy Muestra es un subconjunto de la poblacin seleccionado mediante un mecanismo ms o menos explcito. En general, rara vez se dispone de los recursos necesarios para estudiar a toda la poblacin y, en consecuencia, suelen emplearse muestras obtenidas a partir de estas poblaciones. Ejemplo 1.1 Algunos ejemplos de poblaciones son: Las personas residentes en Washington D.C. a 1 de enero de 2010. Las personas infectadas con el virus de inmunodeficiencia humana en Brasil a da de hoy.
Pastor-Barriuso R.
Estadstica descriptiva
Para estas poblaciones, algunas muestras podran ser: 500 residentes en Washington D.C. a 1 de enero de 2010 seleccionados mediante llamadas telefnicas aleatorias. Todas las personas que acuden a un hospital de Ro de Janeiro durante el presente ao para realizarse un test del virus de inmunodeficiencia humana y que resultan ser positivas. yy Variables son propiedades o cualidades que presentan los elementos de una poblacin. Las variables pueden clasificarse en: Variables cualitativas o atributos son aquellas que no pueden medirse numricamente y que, a su vez, pueden ser: Nominales, en las que no pueden ordenarse las diferentes categoras. Ordinales, en las que pueden ordenarse las categoras, pero no puede establecerse la distancia relativa entre las mismas. Variables cuantitativas son aquellas que tienen una interpretacin numrica y que se subdividen en: Discretas, slo pueden tomar unos valores concretos dentro de un intervalo. Continuas, pueden tomar cualquier valor dentro de un intervalo. En la prctica, todas las variables continuas que medimos son discretas en el sentido de que, debido a las limitaciones de los sistemas de medida, las variables continuas no pueden adoptar todos los valores dentro de un intervalo. De cara a los anlisis posteriores, la principal distincin se establece, por tanto, entre variables con relativamente pocas categoras (como nmero de hijos) frente a variables con muchas categoras (como niveles de colesterol en sangre). Ejemplo 1.2 Algunos ejemplos de variables son: Variables cualitativas nominales: sexo, raza, estado civil (soltero, casado, viudo, separado, divorciado), religin (catlico, protestante, otros), nacionalidad. Variables cualitativas ordinales: salud auto-percibida (buena, regular, mala), severidad de la enfermedad (leve, moderada, grave). Por ejemplo, para esta ltima variable ordinal, podemos establecer un orden de severidad, pero no podemos decir que la diferencia de severidad entre un paciente moderado y uno leve sea la misma que entre uno grave y uno moderado. Variables cuantitativas discretas: nmero de hijos, nmero de dientes cariados. Variables cuantitativas continuas: edad, peso, altura, presin arterial, niveles de colesterol en sangre. yy Estadstico es cualquier operacin realizada sobre los valores de una variable. yy Parmetro es un valor de la poblacin sobre el que se desea realizar inferencias a partir de estadsticos obtenidos de la muestra, que en este caso se denominan estimadores. Por convencin, los parmetros poblacionales se denotan con letras del alfabeto griego, mientras que los estimadores muestrales se denotan con letras de nuestro alfabeto.
Pastor-Barriuso R.
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parmetros poblacionales correspondientes. A Ejemplo 1.3 Algunos ejemplos de estadsticos incluyen: 1.2 MEDIDAS DE TENDENCIA CENTRAL describen los principales La media de continuacin los valores dese colesterol de una muestra. estimadores de la tendencia central de una El valor ms variable. alto de colesterol de una muestra. Las medidas de tendencia central informan acerca de cul es el valor ms representativo La suma de los valores de colesterol de una muestra elevados al cuadrado.
Medidas de tendencia central
de una determinada variable o, dicho de forma equivalente, estos estimadores indican
As, por ejemplo, la media del colesterol en una poblacin, que se denotara por , es un 1.2.1 Media aritmtica parmetro que se estima a partir de la media de los valores de colesterol en una muestra 1.2 MEDIDAS DE TENDENCIA CENTRAL alrededor de qu valor se agrupan los datos observados. medidas dela tendencia se define como suma de cada uno de los La media aritmtica, denotada por obtenida de esa poblacin, que se representara por x ., Las Las detema, tendencia central acerca de cul es el valor ms representativo central la muestra sirven tanto para resumir los resultados observados como para En medidas elde presente se revisan las informan herramientas fundamentales para la realizacin de un anlisis valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos descriptivo de las variables recogidas en una muestra, tanto mediante estimadores de la tendencia de unaposicin determinada variable o, dicho de forma equivalente, estos estimadores indican central, y dispersin como mediante la utilizacin representaciones grficas. realizar inferencias acerca de los parmetros poblacionales correspondientes. A por n el tamao muestral y por xi el de valor observado para el sujeto i-simo, i = 1, ..., n, alrededor de se qu valor se agrupan los dada datos observados. de Las de tendencia la media por continuacin describen los vendra principales estimadores lamedidas tendencia central de una 1.2 MEDIDAS DE TENDENCIA CENTRAL central de la muestra sirven tanto para resumir los resultados observados como para variable. n ... + x n x1 +ms x2 + 1 es Las medidas de tendencia central informan acerca de cul el = valor representativo de una . x= x i determinada variable acerca o, dicho de forma equivalente, estos estimadores indican alrededor de qu realizar inferencias de los parmetros poblacionales correspondientes. A n i =1 n valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven 1.2.1 Media aritmtica tanto para resumir los resultados observados como para realizar inferencias acerca continuacin se describen los principales estimadores de la tendencia central de una de los La media es la medida de tendencia central ms utilizada y de ms fcil parmetros poblacionales correspondientes. A continuacin sede describen principales como la suma cada unolos de los La media aritmtica, denotada por x , se define estimadores variable. de la tendencia central de una variable. interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su
valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos
por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n,
1.2.1 Media principal limitacin es que est muy influenciada por los valores extremos y, en este 1.2.1 Media aritmtica aritmtica
La mediaaritmtica, aritmtica,caso, denotada define como la suma dede cada uno dede los La media denotada por ,, se define comode la cada uno de valores puede nox ser un fiel reflejo lasuma tendencia central lalos distribucin. muestrales dividida por por el nmero de observaciones realizadas. Si denotamos por n el tamao la media vendra dada valores y muestrales dividida por el para nmero de observaciones realizadas. Si denotamos muestral por xi el valor observado el sujeto i-simo, i = 1, ..., n, la media vendra dada por Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se n ... +el x1 + x 2 + xn por n el tamao muestral y por xi 1 el valor observado para sujeto i-simo, i = 1, ..., n, . x= xi = utilizarn los colesterol HDL obtenidos en los 10 primeros sujetos del n i= 1 valores del n la media vendra dada por La media es la medida de tendencia central ms on utilizada y de ms fcil interpretacin. estudio European Study Antioxidants, Myocardial Infarction and Cancer of Corresponde de gravedad de los datos ms de lautilizada muestra. y Su principal limitacin es que La media al escentro la medida de tendencia central de ms fcil ... +caso, x1 + x n puede no ser un fiel reflejo de la 1 n est muy influenciada por los valores extremos y, x en este 2 + the x (EURAMIC), un estudio multicntrico de casos y controles realizado . = xBreast i = tendencia central de la distribucin. n i =1 de gravedad n de los datos de la muestra. Su interpretacin. Corresponde al centro Ejemplo 1.4 En esteest y de en los influenciada sucesivos ejemplos estimadores muestrales, principal limitacin es muy por infarto los sobre valores extremos y, en en este se antioxidantes el que riesgo desarrollar unms primer agudo de miocardio La media es laen medida de tendencia central utilizada y de ms fcil
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio European Study on valores Antioxidants, Myocardial Infarction and 1,29, Cancer of 0,84, the Breast hombres adultos. obtenidos fueron 0,89, 1,58, 1,42, caso, puede no ser unLos fiel reflejo de la de tendencia central de la0,79, distribucin. interpretacin. Corresponde al centro gravedad de los datos de la muestra. Su (EURAMIC), un estudio multicntrico de casos y controles realizado entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los antioxidantes en el riesgo 1,06, 0,87, 1,96 y 1,53 La media de los niveles del colesterol en principal limitacin es que mmol/l. est muy influenciada por los valores extremos HDL y, en este de desarrollar un este primer infarto agudo de miocardio en hombres adultos. Los valores Ejemplo 1.4 En y en los sucesivos ejemplos sobre estimadores muestrales, se obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, 1,06, 0,87, 1,96 y 1,53 mmol/l. La caso, puede no ser un fiel es reflejo de la tendencia central de la distribucin. estos 10 participantes media de los niveles del colesterol HDL en estos 10 participantes es
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
1 10 0,sucesivos 89 + 1,58 + ... + 1,53sobre estimadores muestrales, se Ejemplo 1.4 x En yx en = los ejemplos = este = 1,223 mmol/l. and Cancer of estudio European Study Infarction i on Antioxidants, Myocardial 10 i =1 10
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

estudio European Study onsiguientes Antioxidants, Myocardial Infarction and Cancer of Pastor-Barriuso R. La media aritmtica presenta las propiedades: entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del
the Breast (EURAMIC), un Si estudio multicntrico de casos y controles realizado Cambio de origen (traslacin). se suma una constante a cada uno de los datos
i 1,06, 0,87,MEDIDAS 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en estimadores indican de una determinada variable o, dicho de forma estos 10TENDENCIA 10 DE CENTRAL i =1 antioxidantes 1.2 en el riesgo de desarrollar un primer de equivalente, miocardio en realizar inferencias acercainfarto de los agudo parmetros poblacionales correspondientes. A
estos 10 participantes es alrededor de qu valor se agrupan los datos Las medidas de tendencia hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, observados. 1,29, 1,42, 0,84, Estadstica descriptiva Las medidas de tendencia central informan acerca de estimadores cul es el valor ms representativo continuacin se describen los principales de la tendencia central de una La media aritmtica presenta las siguientes propiedades: central muestra sirven tanto para losHDL resultados observados como para 1,06, 0,87, 1,96 1,53 mmol/l. La media los niveles delresumir colesterol en estimadores + + +1 1de10la 0,89 de 1, 58 ...de ,53 de y una determinada variable o, dicho forma equivalente, estos indican variable. x x = 1,223 mmol/l. = = i Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos 10 10 La media aritmtica presenta las siguientes propiedades: i =1 realizar inferencias acerca de los parmetros poblacionales correspondientes. A estos 10 participantes es alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia yymuestra, Cambio de origen (traslacin). Si se suma una constante a cada uno de los de una la media de la muestra resultante es igual a la media inicial ms la datos de una 1.2.1 Media aritmtica muestra, la media de la muestra resultante es igual a la media inicial ms la constante continuacin se describen los principales estimadores de la tendencia central de una 10 la La mediacentral aritmtica presenta las siguientes propiedades: de muestra sirven tanto para resumir los resultados observados como para + + + 1 0 , 89 1 , 58 ... 1 , 53 = = mmol/l. Un cambio cambio de origen que se realiza si si yiy +c c,, entonces y + c. Un origen que constante utilizada; La media aritmtica, denotada por x ,+ se define como de la suma de cada uno de loscon i =xx i i+ x = utilizada; x = 1,223 i = 10 10 frecuencia es el centrado de la variable, que consiste en restar a cada valor de la muestra variable. i =1 Cambio de origen (traslacin). Side se los suma una constante a cada uno de los datos realizar inferencias acerca parmetros poblacionales correspondientes. A sucon media. Lamuestrales media decentrado una variable centrada ser, por tanto, igual a 0. valores dividida por el nmero de observaciones realizadas. Si denotamos se realiza frecuencia es el de la variable, que consiste en restar a
yy 1.2.1 Cambio escala (unidades). Si se multiplica cada de losms datos de unacontinuacin muestra, la Media media de la muestra resultante es igual a la media inicial la de sede describen los principales estimadores de la uno tendencia central deuna una muestra por aritmtica media aritmtica lasmuestra propiedades: el una valor observado el sujeto i = 1, ..., n, por nsiguientes el tamao muestral y por xide cada presenta valor de la media. La media variable centrada ser, por i-simo, una constante, la su media de la muestra resultante es igual a para la media inicial por la constante cx entonces = utilizada; si yx ci,, entonces = cx c.define Un cambio que constante utilizada; si y x .,+se comode la origen suma de cada uno de los La media aritmtica, denotadaypor variable. i= i+ i = Cambio de origen Si se suma una constante a cada uno de los datos media vendra dada por tanto, (traslacin). igual ala 0. yy Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de una valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos se realiza con frecuencia es el constante centrado de laresultado variable, que consiste en restar a la media muestra por una al se le suma otra constante, de la muestra de una muestra, la media de la muestra resultante es igual a la media inicial ms la 1.2.1 Media aritmtica Cambio de escala (unidades). Si seymultiplica cada uno de los datos de una n + + ... + x x x 1 1 2 n resultante es igual a la media inicial por la primera constante, ms segunda constante; si . la x= xi = por n el tamao muestral y por x valor observado para elcada sujeto i-simo, i eluna cada valor de la muestra su media. La media de variable centrada ser, por n n = c x + c , entonces = c + c . y y = + c , entonces y = x + c . Un cambio de origen que constante utilizada; si La media aritmtica, denotada por x , se define como la suma de uno de los i = 1, ..., n, = i 1 i constante, i i una 1 i 2 muestra por la media1 de la2muestra resultante es igual a la media
media vendra dada por tanto, igual ala 0. valores muestrales dividida por el devalores observaciones Si denotamos Ejemplo 1.5 Para transformar los del colesterol mmol/l a mg/dl se se realiza con frecuencia el la variable, que consiste en a HDL yi = cxtendencia y = restar cms x realizadas. . utilizada inicial por laes constante utilizada; si nmero i, entonces Lacentrado media esde la medida de central y de de ms fcil multiplica por el factor de conversin 38,8. As, utilizando la propiedad del cambio de Cambio de escala (unidades). Si se multiplica cada n uno de los datos de una valor observado para el sujeto i-simo, i de = 1, n, por n elescala, tamao muestral yCorresponde por x + + ... + x de x xde 1 la media del colesterol HDL encentrada mg/dl se calculara directamente a partir de i el cada valor la muestra su media. media de una variable por 2 ser, n interpretacin. al centro gravedad de los datos de la..., muestra. Susu de Cambio simultneo deLa origen y escala. Si se multiplica cada uno datos . los x= xi = 1 media en mmol/l como 1,22338,8 = 47,45 mg/dl. n i =1 resultante esn muestra una constante, lapor media de la muestra igual a la media la por media vendra dada tanto, igual auna 0. limitacin que est muy por los valores extremos y, en este muestra principal por una constante y es al resultado se leinfluenciada suma otra constante, la media cxtendencia y = c ms x . utilizada y de ms fcil inicial por la constante utilizada; si yi =de 1.2.2Mediana i, entoncescentral La media es multiplica la medida Cambio de escala (unidades). Si se uno de los datos de n caso, puede noigual ser un fiel reflejo la tendencia central de la distribucin. de la muestra resultante es acada la media inicial por la primera constante, ms la +x + ... + x1 de xuna 1 2 n . x = xi = La mediana es origen el valor un variable que deja por el 50% de los de la muestra n al n encima interpretacin. Corresponde de gravedad de los datos de ladatos muestra. Su Cambio simultneo de y de escala. Si multiplica cada uno los datos de =1 centro i se muestra por una lael media muestra resultante es igual lade media = cla c2, entonces y mediana, = c1 x +a ces segunda si yi de 1 xi + 2. necesario ordenar los valores de la y constante, por constante; debajo otro 50%. Para calcular la Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, muestra de menor a mayor. Si el tamao muestral n es impar, la mediana viene dada por el se principal limitacin es que est muy por los valores extremos y, en este unala muestra por una constante y de al resultado se suma constante, la media cx entonces y le =influenciada c xms . otra inicial por constante utilizada; si yi = i, La media es la medida tendencia central utilizada y de ms fcil valor (n + 1)/2-simo. Si n es par, la mediana viene dada por la media aritmtica de los utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del Ejemplo 1.5 Para los valores del colesterol HDL dede mmol/l a mg/dl se influenciada valores (n/2) y (transformar n /2 + 1)-simos. La inicial principal ventaja de la mediana es que caso, puede no ser un fiel reflejo de lapor tendencia central la distribucin. de la muestra resultante es igual a la media la primera constante, ms lano est interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de por los valores extremos. No obstante, se utiliza menos que la media como medida de estudio European Study on Antioxidants, Infarction and Cancer of multiplica por ely factor de conversin 38,8. estadstico As, utilizando la Myocardial propiedad del tendencia central porque su tratamiento es ms complejo. segunda constante; si i = c1xi + c2, entonces y = c1 x + c2. principal limitacin es que est muy influenciada por los valores extremos y, en muestrales, este una muestra por una constante y al resultado se le suma otra constante, la media Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores se the Breast (EURAMIC), unen estudio multicntrico de casos y controles realizado cambio de escala, la media del colesterol HDL mg/dl se calculara Ejemplo 1.6 Para obtener la mediana del colesterol HDL en la muestra del estudio puede ser un reflejo de la tendencia central de la distribucin. de la muestra caso, resultante esno igual a lafiel media inicial por la primera constante, ms la utilizarn valores del colesterol HDL obtenidos en los 10 primeros sujetos EURAMIC, se los ordena en primer lugar los valores de menor a mayor; esto es, 0,79, del 0,84, Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se entre 1991 y 1992 en ochocomo pases Europeos e 47,45 Israel para evaluar el efecto de los 38,8 = mg/dl. directamente a partir de su media en mmol/l 1,223 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Como el tamao muestral es par c1xi + c2 , European entonces y = c1on x + c2 . segunda constante; si yi = estudio Study Infarction and Cancer of 6), (el n= 10), la mediana la media de los dos valores centrales (en este caso, el se 5 y el multiplica por factor de conversin 38,8. As,Antioxidants, utilizando la Myocardial propiedad del Ejemplo 1.4 En este yser en los sucesivos ejemplos sobre estimadores muestrales, que corresponde a (1,06 + 1,29)/2 = 1,175 mmol/l. 5 6 the Breast (EURAMIC), unen estudio multicntrico de casos y controles realizado cambio de escala, la media del colesterol HDL mg/dl se calculara utilizarn los los 10 se primeros sujetos del Ejemplo 1.5 Para transformar losvalores valoresdel delcolesterol colesterolHDL HDLobtenidos de mmol/len a mg/dl Comparacin de la media aritmtica y la mediana. En las distribuciones simtricas entre 1991 y 1992 en ocho pases Europeos e Israeles para evaluar el efectoigual de losa la (ambas colas de la distribucin son semejantes), la = media aproximadamente 38,8 47,45 mg/dl. directamente a partir de su media en As, mmol/l como 1,223 estudio European Study on Antioxidants, Myocardial Infarction and Cancer of multiplica por el factor de conversin 38,8. utilizando la propiedad del mediana. En distribuciones sesgadas positivamente (la cola superior de la distribucin es mayor que la inferior), la media HDL tiende a ser mayor que la mediana; mientras querealizado en distribuciones the Breast colesterol (EURAMIC), un estudio multicntrico de casos y controles 5 cambio de escala, la media del en mg/dl se calculara 6 sesgadas negativamente (la cola inferior de la distribucin es mayor que la superior), la media tiende a ser menor que en la mediana. LaEuropeos comparacin de la media y la mediana entre 1991 y 1992 ocho pases Israel para evaluar el efecto permite de los evaluar, 38,8 = e 47,45 mg/dl. directamente a partir de su media en mmol/l como 1,223 por tanto, la asimetra de una distribucin. 6 Ejemplo 1.7 En la muestra del estudio EURAMIC la media del colesterol 5 HDL es ligeramente superior a la mediana (1,223 y 1,175 mmol/l, respectivamente). En consecuencia, la distribucin de estos 10 valores del colesterol HDL es aproximadamente simtrica con un leve sesgo positivo.
4 Pastor-Barriuso R.
de estos 10 nvalores del colesterol HDL es consecuencia, la distribucin xG = xi = x1 x 2 ... x n . i =1 aproximadamente simtrica con un leve sesgo positivo. Medidas de posicin: cuantiles 1.2.3 Media geomtrica En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en La media geomtrica, denotada por xG , se define como la raz n-sima del producto de 1.2.3 Media 1.2.3 Mediageomtrica geomtrica calcular primero el logaritmo de cada valor muestral, hallar a continuacin la media de
los valores de una muestra de tamao n,, se define La mediageomtrica, geomtrica, denotada por la xG la n-sima del producto La media denotada define como como laraz raz n-sima del producto los logaritmos y deshacer finalmente transformacin logartmica. Para calcular losdede los valores de una muestra de tamao n, los valores una muestra de tamao n, 1 / n y cuando el logaritmo y el logaritmos se de puede usar cualquier base, n siempre n xG = xi = x1 x 2 ... x n . 1 i= 1que /n antilogaritmo estn en la misma base. Notar la media geomtrica slo puede n xi = n x1 x 2media ... x ngeomtrica . En la prctica, la forma ms x sencilla calcular la consiste en calcular G = de = 1 i emplearse como medida de tendencia central en variables que toman valores primero el logaritmo de cada valor muestral, hallar a continuacin la media de positivos. los logaritmos y En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en deshacer finalmente la transformacin logartmica. Para calcular los logaritmos se puede usar cualquier base, siempre yms cuando el logaritmo y ella antilogaritmo estn en la misma base. Notar calcular primero el logaritmo de cada valor muestral, hallar a continuacin laen media de En la prctica, la forma sencilla de calcular media geomtrica consiste Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra que la media geomtrica slo puede emplearse como medida de tendencia central en variables que toman valores positivos. los logaritmos y deshacer finalmente transformacin logartmica. Para calcular los calcular primero el logaritmo de cadala valor muestral, hallar a continuacin la media de del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los Ejemplo 1.8 Para calcular la media geomtrica del colesterol HDL en la muestra del los logaritmos y deshacer finalmente la transformacin logartmica. Para calcular los logaritmos se puede usar cualquier base, siempre y cuando el logaritmo y el valores yEURAMIC, a continuacin se calcula suel media aritmtica, estudio se halla primero logaritmo natural de cada uno de los valores ya consecuencia, la distribucin de estos 10 valores del colesterol HDL es continuacin se calcula su media aritmtica, logaritmos seestn puede usar cualquier base, siempre y cuando el logaritmo y elpuede antilogaritmo en la misma base. Notar que la media geomtrica slo aproximadamente simtrica sesgo positivo. log(0 ,89) + ... + log(1,53) 1 10 con un leve log log x = x = antilogaritmo estn en la misma base. Notar que la media geomtrica slo puede i emplearse como medida deGtendencia central en variables 10 i =1 10que toman valores positivos. ,425 0,117central + ... + 0 emplearse como medida de tendencia en variables que toman valores positivos. = 0,155. 1.2.3 Media geomtrica= 10geomtrica del colesterol HDL en la muestra Ejemplo 1.8 Para calcular la media
La mediageomtrica, geomtrica es, por tanto, exp(0,155) = 1,168 mmol/l. La media denotada por xG ,=se define del como la raz n-sima del producto de Ejemplo 1.8 Para calcular media geomtrica colesterol en la muestra del estudio EURAMIC, se la halla primero el logaritmo naturalHDL de cada uno de los La media geomtrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l. Al igual que la la media geomtrica eslogaritmo til comonatural medidade decada tendencia central los valores demediana, una muestra dehalla tamao n, el del estudio EURAMIC, se primero uno de los para valores a continuacin seque calcula su media aritmtica, variables muyyasimtricas, en las un pequeo grupo de observaciones extremas tienen una excesiva influencia sobre la la media La media geomtrica tiene la ventaja adicional de valores continuacin se aritmtica. calcula su media aritmtica, Al igual que y laamediana, media geomtrica como medida de tendencia 1 / es n til n 10 sencillo presentar un tratamiento estadstico ms que la mediana. 0 1 = x log( n,89) + ... + log(1,53) x i i= log xG = x G log = x1 x 2 ... x n . central para variables muy asimtricas, en las que un pequeo de i =1 log(0,89 10 =1 ) + 10 ... +grupo log(1,53 ) observaciones 1 i10 log x G = log x i = 0,i117 + ... + 0,425 10 . =1 1.3 MEDIDAS DE POSICIN: = 10 CUANTILES = aritmtica. 0,155 extremas tienen una excesiva influencia sobre la media La media geomtrica En la prctica, la forma ms sencilla de calcular la media geomtrica consiste en 10 0,117 + ... + 0,425 . respecto al resto de la muestra. =relativa de una observacin = 0,155 Los cuantiles indican la posicin con 8 10 calcular primero el logaritmo de cadams valor muestral, hallar a continuacin la media de A continuacin se describen los cuantiles utilizados: La media geomtrica es, por tanto, xG = exp(0,155) = 1,168 mmol/l. yy Percentiles son los valores de una variable que dejan un determinado porcentaje de los los logaritmos y deshacer finalmente logartmica. Para calcular los La media geomtrica es, por tanto, la xGtransformacin = exp(0,155) = 1,168 mmol/l. datos por debajo de ellos. As, por ejemplo, el percentil 10 es el valor superior al 10% de las observaciones, perola inferior 90% restante. La mediana corresponde, por tanto, al Allogaritmos igual que se la mediana, media al geomtrica es til como medida de tendencia puede usar cualquier base, siempre y cuando el logaritmo y el percentil 50. En una muestra de tamao n, previamente ordenada de menor a mayor, el Al igual que la mediana, la media geomtrica es til como medida de tendencia percentil p-simo se define como: antilogaritmo estn en la misma base. que la media geomtrica slo puede central para variables muy asimtricas, enNotar las que un pequeo grupo de observaciones
Si np/100 es un nmero entero, la media deque las observaciones (np/100) y (np/100 + 1)-simas. central para variables muy asimtricas, en las un pequeo grupo de observaciones emplearse como medida de tendencia central en variables que toman valores positivos. extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica Si np/100 no es un nmero entero, el valor k-simo de la muestra, siendo k el menor extremas tienen una excesiva influencia sobre la media aritmtica. La media geomtrica entero superior a np/100. 8 Ejemplo 1.8 Para a calcular la media geomtrica del colesterol HDL en lapara muestra yy Deciles , corresponden los percentiles 10, 20, ..., 90. Los deciles se utilizan dividir 8 la muestra en 10 grupos de igual tamao. del estudio EURAMIC, se halla primero el logaritmo natural de cada uno de los yy Quintiles, corresponden a los percentiles 20, 40, 60 y 80, y dividen la muestra en 5 grupos de igual tamao. valores y a continuacin se calcula su media aritmtica, log(0,89) + ... + log(1,53) 1 10 log x G = log x i = 10 i =1 10 0,117 + ... + 0,425
Pastor-Barriuso R. 5
mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 25,
el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.
yy Cuartiles, corresponden a los percentiles 25, 50 y 75, y dividen la muestra en 4 grupos de Es importante recordar que, para calcular cuantiles, los valores de la muestra deben igual tamao. yy Terciles , corresponden a los 33,3 y 66,7, y dividen muestra 3 grupos estar previamente ordenados. Sipercentiles el tamao muestral es grande, la la forma msen rpida de de igual tamao. obtener los cuantiles manualmente es realizando un grfico de tallo y hojas (ver ms Ejemplo 1.9 Los 10 valores del colesterol HDL ordenados de menor a mayor son 0,79, 0,84, 0,87, 0,89, 1,06, 1,29, 1,42, 1,53, 1,58 y 1,96 mmol/l. Dado que 10p/100 = 1 es un adelante). nmero entero para p = 10, el percentil 10 es la media de la primera y segunda observacin, que corresponde a (0,79 + 0,84)/2 = 0,815 mmol/l. De igual forma, como 10p/100 = 2,5 no es un nmero entero para p = 25, el percentil 25 es el tercer valor de la muestra, que 1.4 MEDIDAS DE DISPERSIN corresponde a 0,87 mmol/l.
Las medidas de dispersin indican el grado de variabilidad de los datos y se Es importante recordar que, para calcular cuantiles, los valores de la muestra deben estar 1.2 MEDIDAS DE TENDENCIA CENTRAL previamente ordenados. Si el tamao muestral es grande, la forma ms rpida de obtener los complementan con las medidas de un tendencia la descripcin de una muestra. cuantiles manualmente es realizando grfico central de tallo en y hojas (ver ms adelante). Las medidas de tendencia central informan acerca de cul es el valor ms representativo En este apartado se presentan las principales medidas de dispersin. de una determinada variable o, dicho de forma equivalente, estos estimadores indican 1.4 MEDIDAS DE DISPERSIN
1.4.1 Varianza y desviacin tpica Las medidas de dispersin indican el grado Las de variabilidad los datos y se complementan con alrededor de qu valor se agrupan los datos observados. medidas de de tendencia las medidas de tendencia central en la descripcin de una muestra. En este apartado se presentan 2 La varianza muestral, denotada por s , se define como la suma de los cuadrados de las las principales medidas de dispersin. central de la muestra sirven tanto para resumir los resultados observados como para
diferencias entre valor de la muestra ycorrespondientes. su media, dividida realizar inferencias acerca de los parmetros poblacionales A por el tamao muestral 1.4.1 Varianza y cada desviacin tpica menos 1, muestral, varianza denotada por s2, se define como la suma de los cuadrados de las diferencias continuacin La se describen los principales estimadores de la tendencia central de una entre cada valor de la muestra y su media, dividida por el tamao muestral menos 1, variable. media, el nmero de valores independientes de la muestra (denominado grados de 1 n 1 n 2 2 2 ( xi x ) = s = x i nx 2 . 1 i =1 n 1 i =1 la media y n - 1 valores, el varianza libertad) para el clculo den la es n - 1 (conocida 1.2.1 Media aritmtica
Como puede apreciarse, cuanto ms dispersos estn los datos, mayores sern los cuadrados de valor restante se(por deducira automticamente). Una justificacin ms formal para esta La media aritmtica, denotada ,2 se define como la suma de uno de las los las desviaciones x y cuanto mayor ser la varianza s2cada . Notar que desviaciones cada valor Como puede apreciarse, ms dispersos estn los datos, mayores sern de los i x) respecto de la media se elevan al cuadrado para evitar que se compensen las desviaciones definicin de por la varianza se a aporta en el2Tema 5. positivas (valores laobservaciones media) las negativas inferiores la media). Cabe valores muestrales dividida el nmero de realizadas. Si denotamos y mayor ser la(valores varianza s2. Notaraque las cuadrados de lassuperiores desviaciones ( xi - x )con destacar tambin que, en la frmula de la varianza muestral, el denominador es n 1 en lugar de n. La muestral es observado difcil de interpretar como medida de dispersin, ya que sus de la por n el tamao muestral y por x valor para el sujeto inmero -simo, i = 1, ..., n, independientes Esto sevarianza debe ade que, una vez calculada lala media, el de valores i el desviaciones cada valor respecto de media se elevan al cuadrado para evitar que se muestra (denominado grados de libertad) para el clculo de la varianza es n 1 (conocida la unidades son las de la el variable originalse al deducira cuadrado.automticamente). La medida de dispersin ms la media vendra dada por media yn 1 valores, valorpositivas restante ms compensen las desviaciones (valores superiores a la media)Una con justificacin las negativas formal para esta definicin de la varianza se aporta en el Tema 5. utilizada es la desviacin tpica o desviacin estndar s, que se define como la raz (valores inferiores media). Cabe destacar tambin que, la frmula lasus varianza + ... + x n como x +de x 2interpretar 1a nlaes La varianza muestral difcil medida deen dispersin, yade que unidades . x = xi = 1 son las de la variable original al cuadrado. La medida de dispersin ms utilizada es la desviacin n i =1 n cuadrada de la varianza muestral, el denominador n-1 lugar de n.la Esto debe a que, vez calculada la tpica o desviacin estndar es s, que seen define como razse cuadrada de launa varianza
10 n de ms fcil La media es la medida de tendencia central ms utilizada 1 y 2 s= ( xi x ) n 1 i =1 interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su y, en consecuencia, presenta las mismas unidades que la variable original. Al igual que la media, principal limitacin es que tpica est muy influenciada por valores extremos y, (gran en este la est influenciada porlos valores muy extremos desviacin respecto y,desviacin en consecuencia, presenta las mismas unidades que la variable original. Al igual que de la
caso, puede no ser un fiel de la tpica tendencia de la distribucin. la media, lareflejo desviacin est central influenciada por valores muy extremos (gran
desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
desviacin respecto de la media), que inflaran la estimacin resultante, no siendo un buen reflejo de la dispersin global de los datos. realizar inferencias de los parmetros poblacionales correspondientes. A buen reflejo de acerca la dispersin global de los datos.
Ejemplo 1.10 Conocida la media del colesterol en los 10 primeros continuacin se describen los principales estimadores de laHDL tendencia central de una Ejemplo 1.10 Conocida la media del colesterol HDL en los 10 primeros mbio de origen (traslacin). Si se suma una constante a cada x uno de los mmol/l, datos la varianza vendra dada = 1,223 participantes del estudio EURAMIC, variable. media), que inflaran la estimacin resultante, no siendo un buen reflejo de la dispersin global participantes del estudio EURAMIC, x = 1,223 mmol/l, la varianza vendra dada de los datos. na muestra, la varianza pory la desviacin tpica no cambian; si yi = xi + c, 1.2.1 Media aritmtica por 2 2 1.10 Conocida la media del colesterol HDL en los 10 primeros participantes y sy = sEjemplo nces s y = s x x. define como suma cada uno los La media aritmtica, denotada por x , =se 1,223 mmol/l, varianza vendra por del estudio EURAMIC, ( 0,89 1,la 223 ) 2 + de ... + (1,53 dada 1de ,223 )2 1 10 2 2 s = ( xi x ) = 9 10 9 + (1,53 1,223) 2 (0,89 1,223 ) 2 + ... 1 i =1 mbio de escala (unidades). Si se multiplica cada uno datos de una 2de los valores muestrales dividida el nmero de observaciones realizadas. Si denotamos s 2 = por x x ( ) = 0, 111 +i ... + 0,094 9 92 i =1 DE TENDENCIA CENTRAL = = 0,156 (mmol/l) stra por una constante, la varianza a la varianza pori-simo, i = 1, ..., n, 9igual por n el tamao muestralresultante y por xi el valor parainicial el sujeto 0,111 ... 094 +es + 0,observado = = 0,156 (mmol/l) 2 9 valor tendencia central acerca de cules esigual el representativo onstante alla cuadrado y la desviacin tpica a lams desviacin tpica mediainforman vendra dada por y la la desviacin desviacin tpica por s = 0,156 = 0,395 mmol/l. y 2 2 nada variable o, dicho de forma estimadores indican yi = cxequivalente, sestos == c2 s0 y sy = . Unmmol/l. cambio ial por dicha constante; si i, entonces x = cs 0,395 y la desviacin tpica por y ns x ,156 + + ... + x x x 1 1 2 n Algunas propiedadesx de varianza = la x i = y la desviacin .tpica son: valor se agrupan los datos observados. Las medidas de tendencia n n valores Algunas propiedades de la varianza y la desviacin tpica son: i =1 de todos scala que se realiza frecuencia es (traslacin). la divisin los de una yy con Cambio de origen Si se suma una constante a cada uno de los datos de una muestra, Algunas propiedades de la varianza la desviacin la varianza y la desviacin tpica noycambian; si yi = tpica xi + c, son: entonces sy2 = sx2 y sy = sx. uestra sirven tanto para resumir los resultados observados como para stra por su desviacin tpica. La desviacin tpicacentral de la variable resultante La media es la medida de (unidades). tendencia ms utilizada y de ms yy Cambio de escala Si se multiplica cada uno de fcil los datos de una muestra por una constante, la varianza resultante es igual a la varianza inicial por la constante al cias acerca de los parmetros poblacionales correspondientes. A , por tanto, igual a 1. interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su dicha constante; cuadrado y la desviacin tpica es igual a la desviacin tpica inicial por 11 2 2 cxi, entoncesde sy2la =c sx y sy = csx. Un cambio si yi = estimadores e describen los principales tendencia central de una de escala que se realiza con frecuencia edades delprincipal cambio de origen y escala se emplean para la estandarizacin de limitacin es que est muy por los valores extremos y, en este La desviacin 11 es la divisin de todos los influenciada valores de una muestra por su desviacin tpica. tpica de la variable resultante ser, por tanto, igual a 1. que consiste en puede restarle a ser los un valores de una variable su media y dividirlos por caso, no fiel reflejo de la tendencia central de la distribucin. Las propiedades del cambio de origen y escala se emplean para la estandarizacin de variables, que consiste en restarle a los valores de una0variable su media y dividirlos por su desviacin itmtica cin tpica. La variable estandarizada resultante tiene media y desviacin 1.2tpica. MEDIDAS DE TENDENCIA CENTRAL La 1.4 variable estandarizada resultante tiene media y desviacin tpica 1; es Ejemplo En este y en los sucesivos ejemplos sobre 0 estimadores muestrales, sedecir, si zi = tica, denotada x , se define como la suma de cada uno de los s decir, si zi = (x x )/ s , entonces z = 0 y s = 1. (por x )/ s , entonces = 0 y s = 1. ii xx zz utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del Las medidas de tendencia central informan acerca de cul es el valor ms representativo ales dividida por el nmero de observaciones realizadas. Si denotamos 1.4.2 Rango intercuartlico go intercuartlico estudio European Study o, ondicho Antioxidants, Infarction and Cancer of de una determinada variable de formaMyocardial equivalente, estos estimadores indican muestral y porEl xi rango el valor observado para el sujeto i -simo, i = 1, ..., n , intercuartlico se define la diferencia entre el tercer y el primer cuartil (percentiles ntercuartlico se define como la diferencia entrecomo el tercer y el primer cuartil the Breast (EURAMIC), un estudio multicntrico de casos controles realizado alrededor derespectivamente). qu valor se agrupan los datos observados.indica Las medidas de tendencia 75 y 25, El rango intercuartlico layamplitud del 50% central de la a dada por muestra y se usa como medida de dispersin cuando la variable presenta valores extremos. En es 75 y 25, respectivamente). El rango intercuartlico indica la amplitud del entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los central de la muestra sirven tantode para resumir los resultados como para tal caso, suele ir acompaado la mediana como medida observados de tendencia central. n al de la muestra y1se usa como dexdispersin cuando la variable x +medida x 2 + ... + n . parmetros x= x i = 1 1.11 realizar inferencias acerca de los poblacionales correspondientes. A Ejemplo A partir de los 10 valores del colesterol HDL ordenados de menor a 5 n i =1 n mayor, percentiles 25 y 75de vienen determinados alores extremos. En tal caso,los suele ir acompaado la mediana como por la tercera (0,87 mmol/l) y octava continuacin se describen principales estimadores El de rango la tendencia central de observacin (1,53los mmol/l), respectivamente. intercuartlico se una calcula entonces la medida de tendencia central ms utilizada y de ms fcil tendencia central. como la diferencia entre ambos percentiles, 1,53 0,87 = 0,66 mmol/l. variable. Corresponde al centro de gravedad de los datos de la muestra. Su 1.4.3 Coeficiente de variacin mplo 1.11 A 1.2.1 partirMedia de los 10 valores del colesterol HDL ordenados de menor a aritmtica cin es que est muy influenciada por los extremos y, en este El coeficiente de variacin sevalores define como el cociente entre la desviacin tpica y la media aritmtica, or, los percentiles 25 y 75 vienen determinados por ladefine tercera (0,87 mmol/l) y cada Laexpresado media aritmtica, denotada por se como la suma de uno de losde escala ya que, .,Este estimador no est afectado por cambios como porcentaje, 100 s/ x ser un fiel reflejo de la tendencia central de la distribucin. al multiplicar los valores de una variable por un mismo factor, tanto la media como la desviacin va observacin (1,53 mmol/l),por respectivamente. El se tpica cambian dicho por factor su rango cociente permanece inalterable. valores muestrales dividida el y nmero de intercuartlico observaciones realizadas.El Si coeficiente denotamosde variacin
Medidas de dispersin
relaciona la desviacin tpica con la media y es til para comparar la variabilidad de diferentes 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se variables con distintas por ejemplo, una desviacin tpica de 10 en una por n el tamao muestralmedias. y por xiAs, el valor observado para el sujeto i-simo, i kg = 1, ..., n, muestra de adultos con un peso medio de 70 kg indicara un mismo grado de dispersin que una desviacin los valores del colesterol HDL obtenidos en los 10 primeros sujetos del la media vendra dada por 12
Pastor-Barriuso R.
European Study on Antioxidants, Myocardial Infarction and Cancer of x + x 2 + ... + x n 1 n = = 1 x x i controles t (EURAMIC), un estudio multicntrico de casos y realizado. n i =1 n
realizar inferencias acerca de los parmetros poblacionales correspondientes. A

continuacin se describen los principales estimadores de la tendencia central de una variable. tpica de 0,5 kg en una muestra de recin nacidos con un peso medio de 3,5 kg (ambos coeficientes de variacin son 10010/70 = 1000,5/3,5 = 14,3%). 1.2.1 Media aritmtica Ejemplo 1.12 El coeficiente de variacin de los 10 primeros valores del colesterol HDL =se 1000,395/1,223 32,3%; es decir, en estudio EURAMIC sera 100 s/ x , Lael media aritmtica, denotada por define como la = suma de cada uno la dedesviacin los tpica es aproximadamente un tercio de la media. valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos 1.5 REPRESENTACIONES GRFICAS por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, En el anlisis e interpretacin de los datos de un estudio, es importante no limitarse a realizar medidas la media vendra dada por de resumen numricas. Las medidas de tendencia central y dispersin deben completarse con grficos que permitan observar directamente las caractersticas y relaciones de las variables estudiadas. En esta seccin se revisan los principales mtodos ... + x n y resumir una variable. x +para x 2 +presentar 1 n grficos . x = xi = 1 n i =1 n 1.5.1 Diagrama de barras
La media es la medida de tendencia ms utilizada de ms fcil Los diagramas de barras son adecuados para central representar variables y cualitativas y cuantitativas discretas. En estos diagramas se representan las categoras de la variable en el eje horizontal y sus interpretacin. de gravedad los datos devariable la muestra. Su frecuencias (absolutas Corresponde o relativas) enal elcentro eje vertical. Para cada de categora de la se construye un rectngulo de anchura constante y altura proporcional a la frecuencia. Los rectngulos estn principal limitacin est muy influenciada por valores extremos y, en este separados unos de otros pores la que misma distancia para reflejar lalos discontinuidad de la variable. caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. Ejemplo 1.13 La representacin del diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC se ilustra en la Figura 1.1. De los 700 controles del estudio que no haban padecido miocardio, todos salvo uno presentaban informacin Ejemplo 1.4 un Eninfarto este y agudo en los de sucesivos ejemplos sobre estimadores muestrales, se sobre el consumo de tabaco. De stos, un 27,2% (190/699) eran nunca fumadores, un 35,3% (247/699) eran exlos fumadores, y elcolesterol restante 37,5% fumadores actuales. utilizarn valores del HDL (262/699) obtenidoseran en los 10 primeros sujetos del
40 estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

30 entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los Frecuencia relativa (%)
5
20
10
0 Nunca fumador Ex fumador Fumador actual
Figura 1.1 Diagrama de barras del hbito tabquico en el grupo control del estudio EURAMIC. Figura 1.1
Representaciones grcas
1.5.2 Histograma y polgono de frecuencias El histograma es el principal mtodo grfico para la representacin de variables cuantitativas continuas. En primer lugar, los valores de la variable continua se agrupan en categoras exhaustivas (cubren todo el rango de la variable) y mutuamente excluyentes (no se solapan). En el eje horizontal del histograma se representan las categoras o intervalos y en el eje vertical las frecuencias (absolutas o relativas) de cada intervalo. Posteriormente, se construye un rectngulo para cada categora, cuya anchura es igual a la longitud del intervalo y cuyo rea es proporcional a la frecuencia (si los intervalos tienen distinta longitud, las alturas de los rectngulos del histograma no sern proporcionales a las frecuencias). El polgono de frecuencias se construye uniendo con lneas rectas los puntos medios de las bases superiores de los rectngulos que conforman un histograma. Tanto el histograma como el polgono de frecuencias sirven para representar grficamente la distribucin de una variable continua. Ejemplo 1.14 El histograma de la distribucin del colesterol HDL en el grupo control del estudio EURAMIC se presenta en la Figura 1.2. En este caso, se representa la frecuencia absoluta en el eje vertical e intervalos de distinta longitud en el eje horizontal. Para los intervalos de menor longitud (0,2 mmol/l), la altura de los rectngulos es igual a la frecuencia; as, por ejemplo, la altura del rectngulo en el intervalo 1,2-1,4 mmol/l es igual a los 86 sujetos con niveles del colesterol HDL dentro de este rango. Sin embargo, para los intervalos de mayor longitud, la altura de la barra es igual a la frecuencia dividida por el incremento relativo de la longitud del intervalo; as, por ejemplo, para el intervalo 1,4-1,7 mmol/l, cuya frecuencia es 55 y su longitud es 1,5 veces la longitud mnima, la altura de la barra es 55/1,5 = 36,7. La Figura 1.2 se completa con el polgono de frecuencias, que muestra una distribucin del colesterol HDL aproximadamente simtrica con la cola superior ligeramente mayor que la inferior.
150
125
Frecuencia absoluta
100
75
50
25
0 0 0,3 0,6 0,8 1 1,2 1,4 1,7 2 2,5
Colesterol HDL (mmol/l)
Figura 1.2
Figura 1.2 Histograma y polgono de frecuencias del colesterol HDL en el grupo control del estudio EURAMIC.
1.5.3 Grfico de tallo y hojas Este grfico tiene la ventaja de reflejar los datos originales de la muestra, a la vez que permite visualizar la distribucin de frecuencias. En primer lugar, para cada observacin de la variable, se separa el ltimo dgito significativo (hoja) de los restantes dgitos del valor de la variable (tallo). A continuacin, todos los posibles tallos se colocan ordenados en una misma columna. Finalmente, para cada valor de la variable, se coloca su hoja a la derecha del tallo correspondiente. Las hojas de un mismo tallo suelen colocarse en orden creciente. El resultado se conoce con el nombre de grfico de tallo y hojas. Ejemplo 1.15 La Figura 1.3 muestra el grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC con datos para esta variable. Los 2 valores ms bajos del colesterol HDL son 0,21 y 0,26 mmol/l, cuyo tallo comn es 0,2 y sus respectivas hojas son 1 y 6, que aparecen a la derecha de la primera lnea del grfico. El siguiente tallo es 0,3, que no tiene ninguna hoja ya que no hay valores entre 0,30 y 0,39 mmol/l, y lo mismo sucede con el tallo 0,4. En el tallo 0,5 hay una hoja igual a 7, que corresponde al valor 0,57 mmol/l. En el tallo 0,6 hay 5 hojas (35558), que corresponden a los 5 valores del colesterol HDL entre 0,60 y 0,69 mmol/l y que son 0,63, 0,65, 0,65, 0,65 y 0,68 mmol/l. El resto de los tallos se interpreta de la misma manera. A partir de este grfico resulta sencillo calcular los cuantiles; as, por ejemplo, la mediana se obtendra como la media de los valores ordenados en las posiciones 50 y 51, (1,10 + 1,12)/2 = 1,11 mmol/l.
Frecuencia 2 0 0 1 5 3 12 13 13 9 15 7 6 6 2 2 2 1 1 Tallo 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 Hoja 16 7 35558 467 002344455579 0013334566779 0111123455559 023456789 000023356689999 1223778 345789 133689 44 34 36 0 9
Figura 1.3 Grfico de tallo y hojas del colesterol HDL en los 100 primeros controles del estudio EURAMIC.
Figura 1.3
10
Pastor-Barriuso R.
Representaciones grcas
1.5.4
Diagrama de caja
El diagrama de caja permite evaluar la tendencia central, la dispersin y la simetra de la distribucin de una variable, as como identificar valores extremos. Los lmites inferior y superior de la caja corresponden a los percentiles 25 y 75; es decir, la altura de la caja representa el rango intercuartlico e indica la dispersin de la muestra. La lnea horizontal dentro de la caja corresponde a la mediana y representa la tendencia central de la muestra. El grfico se completa con barras verticales a ambos lados de la caja de longitud 1,5 veces el rango intercuartlico. Los valores extremos, aquellos distanciados de los lmites de la caja entre 1,5 y 3 veces el rango intercuartlico, se representan con un crculo y los valores muy extremos, aquellos alejados de la caja ms de 3 veces el rango intercuartlico, se denotan mediante un asterisco. En este grfico, si la distribucin es simtrica, los lmites superior e inferior de la caja estarn aproximadamente a la misma distancia de la mediana, mientras que si la distribucin est sesgada positivamente, el lmite superior estar ms alejado de la mediana que el inferior y si la distribucin est sesgada negativamente, el lmite inferior estar ms alejado de la mediana que el superior. Ejemplo 1.16 La Figura 1.4 muestra el diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC. Como puede observarse, esta distribucin presenta un leve sesgo positivo ya que el lmite superior de la caja est ligeramente ms alejado de la mediana que el lmite inferior.
2,5
1,5
0,5
Figura 1.4 Diagrama de caja del colesterol HDL en el grupo control del estudio EURAMIC.
Figura 1.4
Pastor-Barriuso R.
11
1.6 REFERENCIAS 1. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. 2. Glantz SA. Primer of Biostatistics, Fifth Edition. New York: McGraw-Hill/Appleton & Lange, 2001. 3. Pagano M, Gauvreau K. Principles of Biostatistics, Second Edition. Belmont, CA: Duxbury Press, 2000. 4. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 2006.
12
Pastor-Barriuso R.
TEMA 2 PROBABILIDAD
2.1INTRODUCCIN Se denominan experimentos estocsticos, aleatorios o no determinsticos a aquellos en los que pueden obtenerse resultados distintos cuando se repiten en idnticas circunstancias. Los fenmenos biolgicos tienen en este sentido una componente aleatoria importante. La herramienta matemtica que constituye la base para el estudio de fenmenos con una componente aleatoria es la teora de la probabilidad, que proporciona modelos tericos aplicables a la frecuencia de los distintos resultados de un experimento. A continuacin, se revisan algunos conceptos previos que van a ser necesarios para sistematizar la nocin de probabilidad. yy Espacio muestral, denotado por W, es el conjunto de los posibles resultados de un experimento aleatorio. yy Se denomina suceso a cualquier subconjunto del espacio muestral W. Los sucesos pueden ser elementos simples de W o conjuntos de elementos. Dos sucesos particulares son el suceso seguro W, que contiene todos los elementos del espacio muestral, y el suceso imposible o conjunto vaco , que no contiene ningn elemento. Ejemplo 2.1 Si el experimento consiste en observar el nmero de supervivientes a los 6 meses de 4 pacientes con cncer sometidos a tratamiento, el espacio muestral ser W = {0, 1, 2, 3, 4}. Si el experimento consiste en medir los niveles de colesterol HDL de una persona, el espacio muestral ser W = (0, ). En el primer experimento, algunos sucesos podran ser: no observar ningn superviviente A = {0}, observar 1 2 supervivientes B = {1, 2} u observar al menos 2 supervivientes C = {2, 3, 4}. En el segundo experimento, algunos de los posibles sucesos incluiran: tener un colesterol HDL 1 mmol/l A = (0, 1] o tener un colesterol HDL > 1,5 mmol/l B = (1,5, ). yy El suceso unin AB es el evento constituido por los elementos que pertenecen a A o B, o a ambos a la vez. yy El suceso interseccin AB es el evento formado por los elementos que pertenecen simultneamente a A y B. yy Sucesos disjuntos, incompatibles o mutuamente excluyentes son aquellos que no pueden ocurrir simultneamente; es decir, su interseccin es el conjunto vaco, AB = . yy El suceso complementario del suceso A, denotado por Ac, es el evento que ocurre cuando no se realiza A. Estos sucesos estn representados en los diagramas de la Figura 2.1. En general, las operaciones entre sucesos se rigen por la teora de conjuntos, de la cual pueden derivarse algunas propiedades importantes como A(BC) = (AB)(AC), A(BC) = (AB)(AC), (AB)c = AcBc y (AB)c = AcBc.
Probabilidad
su interseccin es colesterol HDL de una A BC = {2}. Al medir los niveles deA persona, los sucesos (0, 1] y B = (1,5, ) son mutuamente excluyentes ya que (a)A A= B (b) AB AB = . Asimismo, en este experimento el complementario de A es el suceso Ac = (1, ).
B
En este tema se define el concepto de probabilidad y se introducen las reglas bsicas

A A
para operar con probabilidades. Estas reglas constituyen la base para el clculo e
(c) AB = (d) Ac
interpretacin de los procedimientos de inferencia estadstica (por ejemplo, el valor P

Figura 2.1 Diagramas de los sucesos unin (a), interseccin (b), sucesos mutuamente excluyentes (c) y Figura 2.1 suceso (d). de un complementario contraste de hiptesis vase Tema 5) y permiten tambin evaluar la
sensibilidad, la 2.2 especificidad y los valores predictivos de las diagnsticas. Ejemplo En el experimento de supervivencia a pruebas los 6 meses de 4 pacientes con cncer, la unin de los sucesos B = {1, 2} y C = {2, 3, 4} es BC = {1, 2, 3, 4} y su interseccin es BC = {2}. Al medir los niveles de colesterol HDL de una persona, los 2.2 CONCEPTO Y 1] DEFINICIONES DE PROBABILIDAD sucesos A = (0, y B = (1,5, ) son mutuamente excluyentes ya que AB = . Asimismo, en este experimento el complementario de A es el suceso Ac = (1, ). El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: En este tema se define el concepto de probabilidad y se introducen las reglas bsicas para operar con probabilidades. Estas reglas constituyen la paraocurra, el clculo e interpretacin de la probabilidad de un suceso refleja la verosimilitud debase que ste de forma que los procedimientos de inferencia estadstica (por ejemplo, el valor P de un contraste de hiptesis vase Tema 5) y permiten tambin la sensibilidad, lamenos especificidad y los los sucesos ms probables se darn con evaluar mayor frecuencia que los probables. Sinvalores predictivos de las pruebas diagnsticas. embargo, para abordar la probabilidad de forma sistemtica, es necesaria una definicin 2.2 CONCEPTO Y DEFINICIONES DE PROBABILIDAD rigurosa, a la vez que compatible con nuestra intuicin. Dos definiciones de El concepto de probabilidad es intuitivo, tal y como se refleja en el lenguaje cotidiano: la probabilidad de de un usosuceso comn son: la verosimilitud de que ste ocurra, de forma que los sucesos probabilidad refleja ms probables se darn con mayor frecuencia que los menos probables. Sin embargo, para Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente, abordar la probabilidad de forma sistemtica, es necesaria una definicin rigurosa, a la vez que compatible con nuestra intuicin. Dos definiciones de probabilidad de uso comn son: la probabilidad de un suceso es el lmite del cociente entre el nmero de veces que yy Definicin frecuentista (von Mises). Al repetir un experimento indefinidamente, la probabilidad un suceso es el lmite del cociente entre el nmero de veces que ocurre ocurre dicho de suceso y el nmero de experimentos realizados, dicho suceso y el nmero de experimentos realizados, P(A) = lim
#A , n n
donde #A es el nmero de veces que se realiza A en los n experimentos. donde #A es el nmero de veces que se realiza A en los n experimentos.
indefinidamente los registros anuales, el lmite de estos cocientes 0,4850, 0,4845,

Concepto y deniciones de probabilidad 0,4845, ... determinara la probabilidad de ser mujer. En la prctica, sin embargo,
no es posible realizar infinitos experimentos y las probabilidades tericas se Ejemplo 2.3 Supongamos que se desea conocer la probabilidad de ser mujer entre todos estiman mediante empricas obtenidas a Instituto partir de Nacional un nmero los recin nacidos probabilidades vivos en Espaa. Segn los datos del definito Estadstica, se registraron 226.170 nias de 466.371 nacimientos en 2005, 233.773 de 482.957 en de experimentos. utilizando losLa datos disponibles de nacimientos en 2005 2006 y 238.632 deAs, 492.527 en 2007. proporcin acumulada de nias es 226.170/466.371 = 0,4850 en 2005, 459.943/949.328 = 0,4845 en 2005-2006 y 698.575/1.441.855 = 0,4845 2007, se estimara una probabilidad de ser mujer deregistros 0,4845. anuales, el lmite de estos en 2005-2007. Aumentando indefinidamente los cocientes 0,4850, 0,4845, 0,4845, ... determinara la probabilidad de ser mujer. En la prctica, sin embargo, no es posible realizar infinitos experimentos y las probabilidades Definicin (Kolmogorov). La probabilidad una funcin quede asigna tericas se axiomtica estiman mediante probabilidades empricas es obtenidas a partir un nmero finito de experimentos. As, utilizando los datos disponibles de nacimientos en 20052007, a cada posible suceso de un experimento un valor numrico, de tal forma que se se estimara una probabilidad de ser mujer de 0,4845.
cumplan los siguientes axiomas: yy Definicin axiomtica (Kolmogorov). La probabilidad es una funcin que asigna a cada posible suceso de un experimento un valor numrico, de tal forma que se cumplan los (i) Noaxiomas: negatividad: P(A) 0, siguientes
(i) negatividad: P P( ( A)) (ii)No Normatividad: = 0, 1, (ii) Normatividad: P(W) = 1, ,A , ... son sucesos mutuamente excluyentes, entonces (iii) Aditividad: Si (iii) Aditividad: Si AA , 1A , 2... son sucesos mutuamente excluyentes, entonces
1 2
axiomtica se derivan de algunas propiedades importantes de la funcin P A = P ( A A ...) = P ( A ) + P ( A ) + ... = P ( Ai ) . i 1 2 1 2 algunas propiedades importantes de la funcin de axiomtica se derivan i =1 i =1 probabilidad: Notar que esta definicin de probabilidad tan slo especifica las propiedades generales probabilidad: ) tener =esta 0, una - P ( Notar que definicin probabilidad tan slo especifica las propiedades que debe funcin de probabilidad, pero no permite la asignacin de probabilidades a suceso ) = 0, concreto. No obstante, de la definicin axiomtica se derivan algunas - un P( 1importantes - debe P(A),tener de - P(Ac) = generales que una propiedades lafuncin funcinde deprobabilidad, probabilidad:pero no permite la
c ) =)1 P(A), - P(A (iv) P( =-0, asignacin de probabilidades a un concreto. No obstante, de la definicin B, suceso entonces P(A) P (B), - Si A est incluido en B, A c (v) P(est A)= 1 P(Aen ), B, A B, entonces P(A) P(B), Si A incluido - 0 P(A) 1, (vi) Si A est incluido en B, AB, entonces P(A) P(B), - 0 P(A) 1, - Sub-aditividad: (vii) 0 P(A) 1, Para cualquier coleccin de sucesos A1, A2, ..., 4 - Sub-aditividad: Para cualquier coleccin de sucesos A1, A2, ..., (viii) Sub-aditividad: Para cualquier coleccin de sucesos A , A , ..., 1 2 P Ai P( Ai ) , =1 =1 i i P Ai P( Ai ) , i =1 i =1 , ..., AkA sucesos cualesquiera, - Principio de de inclusin-exclusin: Sean A1, (ix) Principio inclusin-exclusin: Sean AA,2A , ..., sucesos cualesquiera,
- Principio de inclusin-exclusin: Sean A1, A2, ..., Ak sucesos cualesquiera, k k P A P ( Ai ) P( Ai A j ) + ... i = =1 1 i < j k =1 ik ik P A ) P( Ai A j ) + ... Ai = P( k +1i P( A = 1 1) 1 j A k 2 ... Ak ). i =1 + i( 1i <
Del tercer de axioma de la probabilidad se deduce que, si dos sucesos son mutuamente principio inclusin-exclusin generaliza este resultado para sucesos no necesariamente excluyentes, la probabilidad de la unin es la suma de sus probabilidades por separado. excluyentes, la probabilidad de la unin es la suma de sus probabilidades por separado. El principio de inclusin-exclusin generaliza este resultado para sucesos no Pastor-Barriuso R. El principio de inclusin-exclusin generaliza este resultado para sucesos no necesariamente excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es
+ (1) k +1 P( A1 A2 ... Ak ). Del tercer axioma de la probabilidad se deduce que, si dos sucesos son mutuamente Del tercer axioma de la probabilidad se deduce si de dos sucesos son mutuamente excluyentes, la probabilidad de la unin es la que, suma sus probabilidades por separado. El
15
El principio de inclusin-exclusin generaliza este resultado para sucesospor no separado. excluyentes, la probabilidad de la unin es la suma de sus probabilidades necesariamente excluyentes: la probabilidad de la unin de dos sucesos cualesquiera El principio de inclusin-exclusin generaliza este resultado para sucesos no Probabilidad es Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada la suma de sus probabilidades separado, menos la probabilidad de lacualesquiera interseccin,es necesariamente excluyentes: lapor probabilidad de la unin de dos sucesos poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la excluyentes: la probabilidad de la unin de dos sucesos cualesquiera es la suma de sus la suma de sus probabilidades por separado, probabilidad de la interseccin, B ) probabilidad = P(A) +menos P(Bde ) -la P( AB). P(A probabilidades por separado, menos la la interseccin, probabilidad de ser simultneamente bebedor y diabtico es 0,01. Si se denota por P(A B) D =P (A ) +con P(B ) -diabtico, Pde (A B).sucesos. B al suceso ser aplicarse bebedor y por al suceso ser la probabilidad que un Este principio puede a colecciones ms dos As, por de ejemplo,
Este principio puede aplicarse a colecciones con ms de dos sucesos. As, por ejemplo, para tres individuo de esta poblacin sea bebedor, diabtico o ambos a laAs, vez por viene para principio tres sucesos cualesquiera, cumple que Este puede ase colecciones con ms de dos sucesos. ejemplo, sucesos cualesquiera, se aplicarse cumple que
Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada determinada por para tres sucesos cualesquiera, C)cumple = P(A) que + P(B) + P(C) P(ABse
- P(AB) - P(AC ) - P(BC ) )A = P ( B) P( D )B( )= 0,20 P(BD B C+ )= P (A )P +(P BD )+ P( C) + 0,03 - 0,01 = 0,22. P( probabilidad de ser simultneamente bebedor y diabtico es 0,01. Si se denota por + P(ABC). - P(AB) - P(AC) - P(BC) B al suceso ser bebedor y por D al suceso ser diabtico, la probabilidad de que un Ejemplo 2.4 Supongamos que la probabilidad de ser bebedor en una determinada 2.3poblacin PROBABILIDAD CONDICIONAL E INDEPENDENCIA DE SUCESOS de adultos 0,20, lasea probabilidad es 0,03 y la probabilidad +P (ABdiabtico Cde ). ser diabtico 5 de individuo de esta es poblacin bebedor, o ambos a la vez viene ser simultneamente bebedor y diabtico es 0,01. Si se denota por B al suceso ser bebedor La y probabilidad de un suceso puede de la realizacin de otrode suceso. As, por sea por D al suceso ser diabtico, la depender probabilidad de que un individuo esta poblacin determinada por 5 bebedor, diabtico o ambos a la vez viene determinada por ejemplo, la probabilidad de tener un infarto de miocardio es diferente en los hombres -
poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la
P(BD) = P(B) + P(D)
P(BD) = 0,20 + 0,03
0,01 = 0,22.
que en las mujeres; es decir, la probabilidad del suceso tener un infarto de miocardio depende del suceso serCONDICIONAL hombre o ser mujer. El concepto matemtico que permite 2.3 PROBABILIDAD E DE SUCESOS 2.3 PROBABILIDAD CONDICIONAL E INDEPENDENCIA INDEPENDENCIA DE SUCESOS
La probabilidad de un suceso puede depender de de la realizacin defuncin otro suceso. As, por ejemplo, formalizar cmo se modifica la probabilidad unrealizacin suceso en de otro es la La probabilidad de un suceso puede depender de la de otro suceso. As, por la probabilidad de tener un infarto de miocardio es diferente en los hombres que en las mujeres; es decir, la probabilidad del suceso tener un de miocardio depende del suceso ser probabilidad condicional. En general, lainfarto probabilidad del B condicionada al hombre ejemplo, la probabilidad de tener un infarto de miocardio essuceso diferente en los hombres o ser mujer. El concepto matemtico que permite formalizar cmo se modifica la probabilidad de un suceso en funcin de otro la esprobabilidad la probabilidad condicional. En general, la probabilidad del suceso Alas se define como que en mujeres; es decir, del suceso tener un infarto de miocardio suceso B condicionada al suceso A se define como
depende del suceso ser hombre o ser mujer. El P(concepto A B) matemtico que permite
(A ) formalizar cmo se modifica la probabilidad deP un suceso en funcin de otro es la

De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este suceso. probabilidad condicional. En general, la probabilidad del suceso B condicionada al As, (infarto|hombre) es equivalente a seleccionar en primer lugar a los y DePforma intuitiva, condicionar por el suceso A es equivalente a seleccionar porhombres este posteriormente determinar su probabilidad de tener un infarto de miocardio. suceso A se define como c es el riesgo a relativo de la en enfermedad entre los no suceso. expuestos y RR = P(D|E)/P(D|E As, P(infarto|hombre) es) equivalente seleccionar primer lugar a los El concepto de probabilidad condicional tiene numerosas aplicaciones en epidemiologa y salud pblica. Por ejemplo, si D es el suceso enfermedad y E es el suceso estar P(tener A Buna ) de expuestos yy los no expuestos. hombres posteriormente su probabilidad tener un infarto de miocardio. . de la P B|A )= expuesto a un factor de riesgo,determinar P(D|E )(es la probabilidad enfermedad entre los expuestos, P ( A ) c P(D|E ) es la probabilidad de la enfermedad entre los no expuestos y = P(D|E)/P(D|Ec) es el El concepto de probabilidad condicional tiene y numerosas aplicaciones en riesgoEjemplo relativo de enfermedad entre expuestos losla no expuestos. 2.5la Continuando con ellos ejemplo anterior, probabilidad de que un
P(B|A) =
epidemiologa y salud pblica. Por ejemplo, si D es el suceso tener una enfermedad y E Ejemplo 2.5 Continuando con como el ejemplo anterior, la probabilidad de que un bebedor bebedor sea diabtico se calcula suceso. As, P(infarto|hombre) es equivalente a seleccionar en primer lugar a los sea diabtico se calcula como es el suceso estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la hombres y posteriormente determinarP su probabilidad de tener un infarto de miocardio. ( B D) 0,01 c = 0,05 P ( D | B ) = = de la enfermedad entre los enfermedad entre los expuestos, P(D|E ) es la probabilidad P( B) 0,20 El concepto de probabilidad condicional tiene numerosas aplicaciones en 6
epidemiologa y salud Por ejemplo, si D es el suceso tener una enfermedad y E y la probabilidad de pblica. que un no bebedor sea diabtico como
16
De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este
es el suceso Pastor-Barriuso R.
P( B c D) P( D) P( B D) 0,03 0,01 c ) = = 0,025. P ( D | B = c = de la enfermedad laP probabilidad entre los enfermedad entre los expuestos, 1 ( B) 1 0,20 P( B c ) P(D|E ) es
estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la
As, el riesgo de diabetes es el doble en los bebedores que en los no bebedores, P( B D) 0,01 c P (( B 0,03 0,01 P D |B )D = ) P( D) P = (B D =)0,05 c c ) = = 0,025. = = P ( D | B P ( B) 0,20 c = 2. RR = P(D|B)/P(D|B ) = 0,05/0,025 Probabilidad 1 P( B) 1condicional 0,20 e independencia de sucesos P( B ) la probabilidad de que un no bebedor seasi diabtico comode uno no afecta a la Se y dice que dos sucesos son independientes la bebedores ocurrencia As, el riesgo de diabetes es el doble en los que en los no bebedores, y la probabilidad de que un no bebedor sea diabtico como
cc A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, probabilidad del es decir, = RR = P(otro; D|B P|(B B) 0,05/0,025 D) P( D)= 2. P( B D) 0,03 0,01 c)/P(D P(D|B ) = = 0,025. = = c 1 P( B) 1 0,20 P( B ) c de forma equivalente, si P(A|B) = P(A|B ) = P(A). En consecuencia, si dos sucesos son Se dice que dos son independientes si la ocurrencia de uno no afecta a la As, el riesgo desucesos diabetes es el doble en los sujetos bebedores que en los no bebedores, c independientes, puede probarse que As, el(D|B riesgo diabetes es el doble en los bebedores que en los no bebedores, =P )/Pde (D|B ) = 0,05/0,025 = 2. probabilidad del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, RR = P(D|B)/P(D|Bc) = 0,05/0,025 = 2. P(Aindependientes B) = P(A)P(B|si A)la =ocurrencia P(A)P(B).de uno no afecta a la probabilidad Se dice que dos sucesos son si dos sucesos son de forma equivalente, si P(A|B) = P(A|Bc) = P(A). En consecuencia, del otro; es decir, A y B son independientes si P(B|A) = P(B|Ac) = P(B) o, de forma equivalente, c riesgo relativo es distinto de la unidad, RR = 2 1. Esta dependencia decir, el )sucesos = P(A). son En consecuencia, si dosla sucesos son independientes, puede si P (A|B )es =que P(A|B Se dice dos independientes ocurrencia de unosi no a la probarse Por tanto, dos sucesos tambin pueden como independientes laafecta probabilidad independientes, puede probarse que definirse si que se refleja tambin en el de que la probabilidad de P(B) o, probabilidad del otro; es decir, Ahecho y B son Pcada (B |Aser )suceso = simultneamente P(B|por Ac) = de su interseccin es igual al producto de independientes la probabilidad si de separado. P(AB) = P(A)P(B|A) = P(A)P(B). c bebedor y diabtico esP el producto de sus ) = P(A ).como En probabilidades, consecuencia, si dos sucesos son de su de forma P(A|no B) pueden = (A |Bdefinirse Por tanto,equivalente, dos sucesossi tambin independientes si la probabilidad Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que Por tanto, dos sucesos tambin pueden definirse como independientes si la probabilidad interseccin es igual al producto de es la probabilidad cada suceso es decir, el riesgo relativo distinto de la de unidad, RR = 2 por 1.separado. Esta dependencia independientes, puede probarse P(que BD) = 0,01 0,200,03 = P(B)P(D). los sucesos padecer diabetes y serde bebedor no son independientes dado que la de Ejemplo su interseccin es igual al de lala probabilidad de cada por separado. se refleja ende el producto hecho que probabilidad de ser suceso simultneamente 2.6tambin A partir los resultados del ejemplo anterior, puede concluirse que los sucesos padecer diabetes yBser dado que la probabilidad P(A ) = bebedor P(A)P(Bno |A) son = P(independientes A)P(B). probabilidad de ser diabtico esinterseccin diferente de ende bebedores que cualesquiera en no bebedores, Notar que lael la dos sucesos bebedor yprobabilidad diabtico node esen el producto sus probabilidades, es decir, riesgo relativo es distinto de la unidad, RR = 2 1. Esta dependencia de ser diabtico es diferente bebedores que en no bebedores, Ejemplo 2.6 A partir de los resultados del ejemplo anterior, puede concluirse que es decir, el riesgo relativopueden es distinto de la como unidad, RR =c2 1. Esta dependencia Por tanto, dos sucesos tambin definirse independientes si la probabilidad P ( D | B ) = 0,05 0,025 = P ( D | B ); se refleja tambin en el hecho de que la probabilidad de ser simultneamente P ( A B ) = P ( A ) P ( B | A ) P(BD)y= 0,01 0,20no 0,03 =independientes P(B)P(D). los sucesos padecer diabetes ser bebedor son dado que la se refleja tambin en el hecho de que la probabilidad de ser simultneamente de su interseccin es igual al producto de lade probabilidad de suceso por separado. es decir, el riesgo relativo la unidad, = cada 2 1. Esta dependencia se refleja bebedor y diabtico no es es distinto el producto de sus probabilidades, probabilidad de ser diabtico es diferente en bebedores que en no bebedores, no equivale al producto que ambos sucesosbebedor sean y diabtico tambin en el hecho de sus que probabilidades, la probabilidad salvo de ser simultneamente bebedor y diabtico no es el de sus de probabilidades, Notar que la probabilidad deproducto la interseccin dos sucesos cualesquiera no es el producto de sus probabilidades, 7 Ejemplo 2.6 A de P los resultados del ejemplo anterior, (B D ) = 0,01 0,20 0,03 = P(B)P ( D ).A2,concluirse independientes. Enpartir general, para cualquier conjunto de sucesos A ..., Ak, la que c puede 1, P(D|B) = 0,05 0,025 = P(D|B ); P(BD) = 0,01 0,03 = P P( AB ) 0,20 = P(A )P(B |A )(B)P(D). los sucesos padecer diabetes es y ser bebedor no son independientes dado que la probabilidad de su interseccin Notar que la probabilidad de la interseccin de dos sucesos cualesquiera Notar que la al probabilidad de la probabilidades, interseccin sucesos cualesquiera noprobabilidad equivale producto de sus salvo que ambos sean de ser diabtico es diferente de en dos bebedores que ensucesos no bebedores, Notar que probabilidad de la interseccin de dos sucesos cualesquiera 7 A ... A ) = P ( A ) P ( A ... A | A ) P(Ala 1 2 k 1 2 k 1 (AB) = conjunto P(A)P(B|de A) sucesos A , A , ..., A , la independientes. En general, para P cualquier 1 2 k c );2) = ... |(B ) 0,05 0,025 =)A Pk(|D |B P1 A B2 )|A =1) P (( A )3 P (B |A ) P (= A P A ... A1 A =P P( (D A no equivale al producto de sus probabilidades, salvo que ambos sucesos sean independientes. En probabilidad su interseccin es no equivale alde producto de susde probabilidades, ambos sucesos sean general, para cualquier conjunto sucesos A1, A2salvo , ..., Aque k, la probabilidad de su interseccin es ) P ( A | A ) P ( A | A A ) P(A ...Ak-1). = P ( A 1 2 1 3 1 2 k|A1A2 no equivale al producto de sus probabilidades, salvo que ambos sucesos sean independientes. general, cualquier conjunto 7 P(A1A2En ... Ak) = para P(A1) P(A2... Ak|A1) de sucesos A1, A2, ..., Ak, la independientes. En general, para cualquier conjunto de sucesos A , A , ..., A , la 1 2 k En el caso de que estos sucesos sean mutuamente independientes, las probabilidades = P(Aes probabilidad de su interseccin 1)P(A2|A1)P(A3...Ak|A1A2) = ... probabilidad de su es condicionales deinterseccin la frmula se reducen a probabilidades no condicionales y, en = anterior P (A1)P(A 2|A1)P(A3|A1A2)P(Ak|A1A2...Ak 1). P(A1A2...Ak) = P(A1)P(A2...Ak|A1) la de la interseccin es igual al producto de sus Enconsecuencia, el P caso que estos sucesos mutuamente independientes, las probabilidades A2 ...probabilidad A (A1) P(A ...A (A1de k) = P 2 sean k|A1) Ak|A1A2) = ... no condicionales y, en = anterior P(A )P(A condicionales de la frmula se a probabilidades 2|Areducen 1)P(A3... En el caso de que estos sucesos 1sean mutuamente independientes, las probabilidades probabilidades, consecuencia, la probabilidad de la interseccin es igual producto de sus probabilidades, = P(A1)P(A2|A1)P(A3...Ak|Aal 1A2) = ... =P (A1)P(Ase 2|A1)P(A3|A1A2)P(Ak|A1A2...Ak-1). condicionales de la frmula anterior reducen a probabilidades no condicionales y, en k k ...Ak-1). = P(A1)P(A2|A1)P(A3|A1A2)P(Ak|A1A2 P A = P ( A A ... A ) = P ( A ) P ( A ) P ( A ) = P( Ai ) . 1 2 k 1 2 k i consecuencia, la de la interseccin es igual al producto de sus En el caso de estos sean mutuamente independientes, las probabilidades i =1 i= 1 probabilidad que sucesos
En el caso de que estos sucesos sean mutuamente independientes, las probabilidades probabilidades, condicionales de la frmula anterior se reducen a probabilidades no condicionales y, en condicionales de la frmula anterior se reducen a probabilidades no condicionales y, en 2.4 REGLA DE LA PROBABILIDAD TOTAL consecuencia, la sus Pastor-Barriuso R. k probabilidad de la interseccin es igual al producto de k P Ai A2interseccin ...Ak) = Pes (A1 )P(A2 ) P(Ak) = P( Ai ) . 1la consecuencia, la igual al producto de sus probabilidad = P(Ade i =1 i = 1 La probabilidad no condicional de un suceso B se relaciona con su probabilidad probabilidades,
17
i =1 i =1 espacio muestral; es decir, A y Ac son sucesos exhaustivos AAc = y mutuamente

Probabilidad
excluyentes AAc = . 2.4 REGLA DE LA PROBABILIDAD TOTAL
As, probabilidad no condicional de B es media ponderada de las probabilidades exhaustivos y En la general, para un conjunto de sucesos Ala 1, A 2, ..., A k globalmente 2.4 REGLA DE LA PROBABILIDAD TOTAL La probabilidad no condicional de un suceso B se relaciona con su probabilidad descomposicin de la probabilidad del sucesoque B en condicionales de B dadoque A yformen Ac. Esta mutuamente excluyentes una particin del espacio muestral, se verifica La probabilidad no condicional de un suceso B se relaciona con su probabilidad condicionada condicionada en la ocurrencia o no de otro suceso A mediante la frmula en la ocurrencia o nocde otro suceso A mediante la frmula porque estos sucesos constituyen una particin del trminos de A y A es aplicable k k PP ( Ai c B) = P( Ai ) P( B | Ai )c,)P(B|Ac). PP (B ) =B P(B) = (A )+ c (A B) = P(A)P(B|A) + P(A c i = 1 =1 AA = y mutuamente espacio muestral; es decir, A y A son sucesos iexhaustivos As, la probabilidad no condicional de B es la media ponderada de las probabilidades c 8 excluyentes AB Ac = de . Esta descomposicin la probabilidad del sucesotil B en trminos condicionales de dado A .y conocida como regla laA probabilidad total. Esta de frmula es particularmente en c de A y A es aplicable porque estos sucesos constituyen una particin del espacio muestral; es c ,A Ak globalmente exhaustivos y. En para un conjunto sucesos A1 exhaustivos A Ac = W y mutuamente excluyentes AAal = decir, A ygeneral, Ac son sucesos 2, ..., epidemiologa, donde se emplean de con frecuencia las particiones. Por ejemplo, dividir
En general, para un conjunto de sucesos A1, A2, ..., Ak globalmente exhaustivos y mutuamente mutuamente excluyentes que formen una particin del espacio muestral, se verifica que la poblacin en gruposuna de edad y sexo se estn empleando categoras globalmente excluyentes que formen particin del espacio muestral, se verifica que
exhaustivas y mutuamente excluyentes. En general, siempre que se divide la poblacin k k P(B) = P( Ai B) = P( Ai ) P( B | Ai ) , i =1 i =1 en estratos se aplica una particin a esa poblacin. conocida como regla de la probabilidad total. Esta frmula es particularmente til en conocida como regla de la probabilidad total. Esta es particularmente en epidemiologa, donde se emplean con frecuencia lasfrmula particiones. Por ejemplo, til al dividir la Ejemplo 2.7 En una poblacin de mayores de 65 aos, los individuos con edades poblacin en grupos de edad y sexo se estn empleando categoras globalmente exhaustivas y epidemiologa, donde se emplean con frecuencia las particiones. Por ejemplo, al dividir mutuamente excluyentes. En general, siempre que se divide la poblacin en estratos se aplica entre 6574, 7584 y 85 aos constituyen el 60, 30 y 10% de la poblacin. La una particin a esa poblacin. la poblacin en grupos de edad y sexo se estn empleando categoras globalmente prevalencia de la enfermedad de Alzheimer en estos grupos de edad es Ejemplo 2.7 En una poblacin de mayores de 65 aos, los individuos con edades entre exhaustivas y mutuamente excluyentes. general, siempre que se divideLa la prevalencia poblacin de 65-74, 75-84 y 85 aos constituyen En el 60, 30 y 10% de la poblacin. respectivamente de 20, 75 y 300 casos por 1000. La prevalencia global de la la enfermedad de Alzheimer en estos grupos de edad es respectivamente de 20, 75 y 300 en casos estratos se1000. aplica una particin a esa poblacin. por La prevalencia global de la enfermedad de Alzheimer en esta poblacin enfermedad de Alzheimer en esta poblacin de mayores de 65 aos se calculara de mayores de 65 aos se calculara
Ejemplo 2.7 En una3poblacin de mayores de 65 aos, los individuos con edades P(A) = P( E i ) P( A | E i ) 1 85 aos constituyen el 60, 30 y 10% de la poblacin. La entre 6574, 7584i = y 2.5 TEOREMA DE BAYES = 0,600,020 + 0,300,075 + 0,100,300 = 0,0645, prevalencia de la enfermedad de Alzheimer en estos grupos de edad es resultando 64,5 casos por 1000 personas. El teorema de Bayes permite obtener la probabilidad condicional de A dado B a partir respectivamente de 20, 75 y 300 casos por 1000. La prevalencia global de la resultando 64,5 casos por 1000 personas. de la probabilidad de A y de las probabilidades condicionales inversas de B dado A y Ac. 2.5 TEOREMA DE BAYES enfermedad de Alzheimer en esta poblacin de mayores de 65 aos se calculara Aplicando definicin de probabilidad condicionalcondicional y la regla de laA probabilidad total,de la El teorema dela Bayes permite obtener la probabilidad de dado B a partir 3 c probabilidad de A y de las probabilidades condicionales inversas de B dado A y A . Aplicando 9 P( E i ) P( A | E i ) P(A) = se obtienede que la definicin probabilidad condicional y la regla de la probabilidad total, se obtiene que i =1
P( A B) 0,300,075 P( ) P( B | A) = 0,0645, +A0,10 0,300 P(A|B) = = 0,600,020 + . = P( B) P( A) P( B | A) + P( A c ) P( B | A c ) resultando 64,5 casos porfrecuencia 1000 personas. El teorema de Bayes se usa con en la evaluacin de pruebas diagnsticas. Cuando El teorema Bayes se usa con y frecuencia en lasus evaluacin de con pruebas diagnsticas. se desarrolla una de prueba diagnstica se comparan resultados los de un patrn oro (mtodo de referencia en el diagnstico de la enfermedad), suelen determinarse los siguientes Cuando se desarrolla una propias prueba diagnstica se comparan sus resultados con los de un parmetros o caractersticas de la pruebaydiagnstica:
patrn oro (mtodo de referencia en el diagnstico de la enfermedad), suelen determinarse los siguientes parmetros o caractersticas propias de la prueba
Teorema de Bayes
En la aplicacin clnica de una prueba ( D c ) P( | Dac una ) determinada poblacin (1 P ) E interesa conocer, Pdiagnstica c = Psiguientes ( D | ) = parmetros: = . VP los sin embargo, c c + (1 P) E P(1 S )PS |( ))+ (D P( D) P (P D P + | D) D P( c c P( | D ) ( D ) P( | D de ) tener la = (1 P ) E las personas Pprobabilidad + = P( D , |+ )= VP yy Valor predictivo positivo la enfermedad entre que c = ) = P( Des = P( D c | VP PS + (1 P)(1 E ) . ) P(+ | D) + P( D c c ) P(+ | D c ) ( 1 ) ( 1 ) + P S P E ( ) ( | ) ( ) ( | ) + P D P D P D P D tienen un resultado positivo, VP+ = P(D|+). P( D) P(+ | D) PS yy Valor negativo es de la probabilidad de no tener + =2.8 = la enfermedad entre,las personas )= VPpredictivo P( D Ejemplo La| + sensibilidad la prueba ELISA para c c detectar seropositividad c (+ | D ) PS + (1 P)(1 E ) )c+ P ( D (D )P P(negativo, D) P(+ | D que tienen un resultado VP ) P= (P | D c | ) ). (1 P ) E P( D c =virus |sensibilidad )= = y su especificidad . del VP P( D Ejemplo 2.8 La de la prueba ELISA para seropositividad c es del c detectar frente al de inmunodeficiencia humana 99% es Aplicando el teorema de Bayes, pueden calcularse los valores predictivos funcin de la S ) + (1 en P) E ( | D) + |D ) P(1 P( D) P P( D ) P( prevalencia de la enfermedad en la poblacin y de la sensibilidad y especificidad de la prueba ( | D c de ) (1virus P) E P( D c ) P frente al virus de inmunodeficiencia humana es infeccin del 99% ypor su especificidad del c 96%. En el de es diagnstica, | ) = con una prevalencia = una = . VP P( Dpoblacin c c P( D) P ( | D) + P( D ) P( | D ) P(1 S ) + (1 P) E Ejemplo 2.8 La sensibilidad de0,3%, la para detectar 96%. En una poblacin con del una prevalencia por elseropositividad virus P (prueba D) P (+ |ELISA Dde ) infeccin PS de con un inmunodeficiencia humana nicamente el 6,9% de las personas VP + = P ( D | + ) = = , P( D) P(+ | D) + P( D c ) P(+ | D c ) PS + (1 P)(1 E ) frente al virus de inmunodeficiencia humana es del sulas especificidad es un del inmunodeficiencia humana del 0,3%, nicamente el 99% 6,9%yde personas con resultado positivo del test ELISA estarn realmente infectadas, Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad P ( D c ) P( | D c ) (1 P ) E c . VP = P( D | ) =test = por el virus de 96%. En una poblacin con una prevalencia de infeccin resultado positivo del ELISA estarn realmente infectadas, c c (1especificidad S ) + (1 P)es E del PS 0 ,003 0,) 99y P P( D) P ( | D)humana + P( D ) P (del | D frente al virus de inmunodeficiencia es 99% su VP+ = = = 0,069, PS + (1 Pdel )(1 E ) nicamente 0,003 0,99 el +0 ,997 0,04 inmunodeficiencia humana 0,3%, 6,9% de las personas con un PS una prevalencia de 0,003 0,99 por el virus de 96%. En una con infeccin VP+poblacin = = = 0,069, Ejemplo 2.8 LaPS sensibilidad la) prueba ELISA para detectar + test (1 ELISA P)(1de E 0,003 0,99 + 0 ,997 0,04 seropositividad frente al resultado positivo del estarn realmente infectadas, virus de inmunodeficiencia humana del 99% y su especificidad esestarn delcon 96%. mientras que prcticamente todas las es personas con resultado inmunodeficiencia humana del 0,3%, nicamente el 6,9% de negativo las personas un En una Ejemplo 2.8 La sensibilidad de la prueba ELISA para detectar seropositividad poblacin con una prevalencia de infeccin por el virus de inmunodeficiencia humana del mientras que prcticamente todas las personas resultado negativo 0con ,003 infectadas, 0,99 positivo 0,3%, nicamente el 6,9% de las personas con un resultado del estarn test ELISA estarn libres de la infeccin, resultado positivo del testPS ELISA estarn realmente VP + = = = 0,069, es del frente al virus de inmunodeficiencia humana es del 99% y su especificidad realmente infectadas, PS + (1 P)(1 E ) 0,003 0,99 + 0,997 0,04 libres de la infeccin, (1 P) E 0 , 0, ,99 96 por el virus de PS 0 ,997 003 0 96%. En una poblacin con una prevalencia de infeccin VP -= = = = 1,000. 0,069, VP + = = P (1 S +P (1 P) E 0 , 003 0, ,con 01 + 0 , 997 0 , 96 mientras que prcticamente todas las personas resultado negativo estarn PS +(1 (1) )( 1 E ) 0 , 003 0 99 + 0 , 997 0 , 04 P) E 0,997 0,96 inmunodeficiencia humana del 0,3%, VP- = = nicamente el 6,9% de las =personas 1,000. con un P(1 S ) + (1 P) las E personas 0,003 0con ,01 + 0,997 0,negativo 96 mientras prcticamente todas resultado estarn libres de la libres de que la infeccin, Sin embargo, en una poblacin de alto riesgo con una prevalencia del virus de mientras que prcticamente todas las personas con resultado negativo estarn infeccin, resultado positivo del test ELISA estarn realmente infectadas,
yy Sensibilidad es la probabilidad de obtener un resultado positivo de la prueba diagnstica (+ P( D) P D() PS entre los sujetos enfermos, S =| P +|D). += +) = = , VP P ( D | realmente c c P( D) P(+ | D) + P( D ) P(+ | D ) PS + (1 P)(1 E ) yy Especificidad es la probabilidad de obtener entre los sujetos | D) un resultado negativo P( D) P(+ PS + = + = = , ( | ) VP P D c c c realmente sanos, E = P (|D (.+ | D) + P( D ) P(+ | D ) PS + (1 P)(1 E ) P( D) P)
Sin embargo, en una poblacin de alto con una prevalencia del virus de (1 Pdel ) E 10%, 0de ,997 0 , 96 inmunodeficiencia humana elriesgo 73,3% los sujetos con resultado libres de la infeccin, VP = = = 0 ,003 ,0 ,99 0,96 1,000. P(1 S ) +PS (1 P) E = 0,003 0, 01 +0 997 VP + = = 0,069, inmunodeficiencia humana del 10%, los positivo estarn realmente infectados, PS + (1 P)(1 E )el 73,3% 0,003 de 0,99 +sujetos 0,997 con 0,04resultado (1 P) E 0,997 con 0,96 una prevalencia del virus de Sin embargo, en una poblacin de alto riesgo VP- = = = 1,000. inmunodeficiencia humana del el 0 73,3% de los positivo Sin embargo, enrealmente una de alto riesgo con una prevalencia del virus de estarn positivo estarn P (1 poblacin S ) + infectados, ( 1 10%, P )E ,003 0 ,01 + sujetos 0,997 con 0,96resultado PS 0 , 10 0 , 99 mientras infectados, que todas las=personas con resultado negativo estarn realmente VP +prcticamente = = 0,733, + (1 del P)(1 E ) el 73,3% 0,10 0, 99los + 0sujetos ,90 0,04 inmunodeficienciaPS humana 10%, de con resultado PS 0,10 0,99 Sin embargo, en del virus de libres de VP la infeccin, + =una poblacin de alto=riesgo con una prevalencia = 0,733, PS + ( 1 P )( 1 E ) 0 , 10 0 , 99 + 0 , 90 0 , 04 positivo estarn realmente infectados, siendo muy improbable la infeccin aquellos sujetos con resultado negativo, inmunodeficiencia humana del 10%,entre el 73,3% de los sujetos con resultado P) E siendo muy improbable(1 lainfeccin entre aquellos sujetos 0,997 0,96 con resultado negativo, VP -= = aquellos sujetos con resultado = 1,000. siendo muy improbable la infeccin entre negativo, PS 0 ,10 + 0,0 99 P ( 1 S ) + ( 1 P ) E 0 , 003 0 , 01 , 997 0 , 96 positivo estarn realmente infectados, (1 P) E 0,90 0,96 VP+ = = = 0,733, VP = PS + (1 P)(1 E ) = 0,10 0,99 + 0,90 0,04 = 0,999. P(1 S ) + (1 P) E 0,10 0,01 + 0,90 0,96 (1 P) E 0,,90 0 PS 10 una 0,,96 99 Sin embargo, en una poblacin de alto riesgo0con prevalencia del virus de VP+ -= VP = P(1 S ) + (1 P) E = = 0,10 0,01 + 0,90 0,96 = = 0,999. 0,733, siendo muy improbable lainfeccin aquellos PS + (1 P)(1 E )entre 0,10 0,99 +sujetos 0,90 0con ,04 resultado negativo, inmunodeficiencia humana del 10%, el 73,3% de los sujetos con resultado (1 P) E 0,90 0,96 Pastor-Barriuso siendo muy improbable lainfeccin entre 11 R. positivo estarn infectados, VP - = realmente = aquellos sujetos con resultado = 0,999. negativo, P(1 S ) + (1 P) E 0,10 0,01 + 0,90 0,96 11 (1 P )E 0,0 90 0 96 PS ,10 ,0 ,99
19
Como puede apreciarse, el valor predictivo positivo de esta prueba vara

Probabilidad
enormemente funcin de la prevalencia poblacional de la infeccin. Como puede en apreciarse, el valor predictivo positivo de esta prueba vara
enormemente en funcin de la prevalencia poblacional de la infeccin. , A2, ..., Ak el son sucesos globalmente exhaustivos y mutuamente EnComo general, si A1 puede apreciarse, valor predictivo positivo de esta prueba vara enormemente en funcin de la prevalencia poblacional de la infeccin. excluyentes, el teorema Bayes puede generalizarse como , ..., Ak son sucesos globalmente exhaustivos y mutuamente En general, si A1, A2de
En general, si A1, A2, ..., Ak son sucesos globalmente exhaustivos y mutuamente excluyentes, el teorema degeneralizarse BayesP puede generalizarse ( Ai B) P ( Ai )como P( B | Ai ) elexcluyentes, teorema de Bayes puede como = k P(Ai|B) = . P( B) P( A ) P( B | A ) P( Ai B) P ( Aij) P( B | Ai j) = 1 j = k P(Ai|B) = . P( B) P( A j ) P( B | A j )
j =1
Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribucin de los casos de la Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribucin de los casos de la enfermedad de Alzheimer por por grupo de edad edad viene dada por por de los casos de la Ejemplo 2.9 Continuando con el Ejemplo 2.7, la distribucin enfermedad de Alzheimer grupo de viene dada
enfermedad de Alzheimer P por grupo viene E1edad ( E1 ) P( A |de ) 0,60 dada 0,020por P(E1|A) = 3 = 0,186, = 0,0645 P( E i ) P( A | E i ) P ( E 1 ) P ( A | E1 ) 0,60 0,020 P(E1|A) = i =13 = = 0,186, 0,0645 P2() E )P i( |A ) i ) 0,30 0,075 P( E P A( E |2 E i = 1 | A ) = = 0,349, P(E2 = 3 0,0645 P( E i ) P( A | E i )
P( E 2 ) P( A | E 2 ) 0,30 0,075 = 0,349, P(E2|A) = 3 = P( E 3 ) P( A | E 3 ) 0,10 0,300 0645 0, = 0,465. P(E3|A) = 3 P ( E i ) P( A | E i )= 0,0645 i =1 P( E i ) P( A | E i )
i =1 i =1
P( E 3 ) P( A | E 3 ) 0,10 0,300 de Alzheimer tienen edades Esto es, el 18,6, P 34,9 46,5% A) = 3 de los casos de la 0,465. (E3|y = enfermedad = 0,0645 entre 65-74, 75-84 y 85 aos, ( respectivamente. ( A | Ede Esto es, el 18,6, 34,9 y 46,5% deE los casos i )P i ) la enfermedad de Alzheimer tienen P
i =1
2.6REFERENCIAS edades entre 6574, 7584 y 85 respectivamente. Esto es, el 18,6, 34,9 y 46,5% de aos, los casos de la enfermedad de Alzheimer tienen 1. Billingsley P. Probability and Measure, Third Edition. New York: John Wiley & Sons, 1995. edades entre 6574, 7584 y 85 aos, respectivamente. 2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002. 2.6 REFERENCIAS 3. Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third Edition. New York: John Wiley & Sons, 1968. 2.6 REFERENCIAS Billingsley P. Probability and Measure, Third Edition . New York: John Wiley & 2006. 4. 1.Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press,
1995. P. Probability and Measure, Third Edition. New York: John Wiley & 1. Sons, Billingsley Sons, 1995.
12 12
20
Pastor-Barriuso R.
TEMA 3 VARIABLES ALEATORIAS Y DISTRIBUCIONES DEPROBABILIDAD

3.1INTRODUCCIN En el tema de estadstica descriptiva se revisaron las tcnicas necesarias para la realizacin de un anlisis descriptivo de las variables recogidas en una muestra. El presente tema se centra en describir algunos modelos tericos de probabilidad que permiten caracterizar la distribucin poblacional de determinadas variables y que, a su vez, son aplicables a mltiples situaciones prcticas. Cuando se realiza un estudio o un experimento aleatorio, es frecuente asignar a los resultados del mismo una cantidad numrica. A la funcin que asocia un nmero real a cada resultado de un experimento se le denomina variable aleatoria. Aunque el concepto de variable se ha introducido con anterioridad, una definicin ms formal de variable aleatoria es, por tanto, la de una funcin definida sobre el espacio muestral W que asigna a cada posible resultado de un experimento un valor numrico. Aunque en general pueden definirse mltiples variables aleatorias para un mismo experimento, es aconsejable seleccionar en cada caso aquellas variables que recojan las caractersticas fundamentales del experimento. Las variables aleatorias suelen denotarse por letras maysculas del final del alfabeto, tales como X, Y o Z, mientras que los valores que pueden tomar se representan por sus correspondientes letras minsculas, x, y o z. Ejemplo 3.1 A continuacin se definen algunas variables aleatorias para los experimentos del Ejemplo 2.1 del tema anterior. En el experimento consistente en observar la supervivencia a los 6 meses de 4 pacientes con cncer sometidos a tratamiento, una variable aleatoria X podra ser el nmero de supervivientes, que tomara los valores X = 0, 1, 2, 3 4 en funcin del nmero de pacientes que hayan sobrevivido a los 6 meses. Alternativamente, podra definirse otra variable aleatoria Y como el nmero de muertes, cuyos valores seran Y = 0, 1, 2, 3 4 en funcin del nmero de muertes observadas. Para el experimento de medir el colesterol HDL de una persona, la variable aleatoria X ms natural sera el nivel de colesterol HDL en mmol/l, que podra tomar cualquier valor positivo. Si el inters se centra en saber si los niveles de colesterol HDL son superiores o inferiores al umbral de 0,90 mmol/l, otra variable aleatoria Y podra definirse como Y = 0 si el nivel observado es inferior a 0,90 mmol/l y 1 en caso contrario. La eleccin de los valores 0 y 1 es arbitraria, bastara con asignar dos valores distintos para diferenciar ambos tipos de resultados. Como las variables aleatorias son funciones definidas sobre el espacio muestral, sus posibles valores tendrn asociada una probabilidad, que corresponder a la probabilidad del suceso constituido por aquellos resultados del experimento que toman dichos valores. Los diferentes valores de una variable aleatoria y las probabilidades asociadas constituyen la distribucin de probabilidad de la variable. Ejemplo 3.2 En el primer experimento del ejemplo anterior, el nmero de supervivientes es una variable aleatoria que toma los valores X = 0, 1, 2, 3 4. La probabilidad asociada al valor 0 P(X = 0) sera la probabilidad del suceso ninguno de los 4 pacientes sobrevive
Variables aleatorias y distribuciones deprobabilidad
a los 6 meses, la probabilidad asociada al valor 1 P(X = 1) sera la probabilidad del suceso slo 1 de los 4 pacientes sobrevive a los 6 meses, y as sucesivamente. En el segundo experimento, el nivel de colesterol HDL es una variable aleatoria X que puede tomar cualquier valor en el intervalo (0, ). En este caso no tiene sentido preguntarse, por ejemplo, cul es la probabilidad de tener exactamente un nivel de colesterol HDL de 1 mmol/l, ya que si esta variable se pudiera determinar con una precisin infinita, la probabilidad P(X = 1) = 0. En tal caso, deberamos preguntarnos por la probabilidad de un determinado intervalo de valores. As, por ejemplo, la probabilidad P(X 1) sera la probabilidad del suceso tener niveles de colesterol HDL menores o iguales a 1 mmol/l. En general, se distinguen dos grandes grupos de variables aleatorias: yy Variables aleatorias discretas son aquellas que tan slo puede tomar un nmero discreto (finito o infinito) de valores. Cada uno de estos valores lleva asociada una probabilidad positiva, mientras que la probabilidad de los restantes valores es 0. yy Variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un intervalo. En este caso, la probabilidad un valor concreto 0, por lo que las ..., de la variable discreta X de su obtener probabilidad P(X = xi) se es conoce como valor xi, i = 1, 2, probabilidades se asignan a intervalos de valores. funcin dede probabilidad . Esta funcin debe cumplir las i = masa 1, 2, la variable discreta X su probabilidad P(variables X =siguientes xi) sealeatorias conoce como valor xi, de A continuacin se..., describen las principales caractersticas de las discretas y continuas, as como algunas distribuciones tericas de probabilidad que sern aplicables a propiedades: la probabilidad deutilizadas cada valor ha estar 0 y las 1, 0 < P(X = xi) 1, y la funcin de variables masa de aleatorias probabilidad . Esta funcin debeentre cumplir siguientes muchas de las en lade prctica. suma de las probabilidades para todosvalor los valores debeentre ser igual a 1, propiedades: la probabilidad de cada ha de estar 0 y 1, 0 < P(X = xi) 1, y la 3.2 DISTRIBUCIONES DE PROBABILIDAD DISCRETAS valor xi, i = 1, 2, ..., de la variable discreta X su probabilidad P(X = xi) se conoce como suma de las probabilidades para todos P los debe igual a 1, ( Xvalores = xi ) = 1. ser Las variables aleatorias discretas toman un nmero discreto de valores con probabilidad no nula i 1 funcin de masa de probabilidad . Esta funcin debe cumplir las siguientes y, en consecuencia, estarn completamente caracterizadas si se conoce la probabilidad asociada P( Xasigna = xi ) a = cada 1. posible valor x , i = 1, 2, ..., de la a cada uno de estos valores. La funcin que i i 1 propiedades: la probabilidad deP cada ha de estar entre y 1, 0 masa < P(Xde = que x 1, y la . Una vez conocida la funcin de deconoce probabilidad, la 0 probabilidad i) una como funcin de de probabilidad variable discreta X su probabilidad (Xmasa = valor xi) se Esta funcin debe cumplir las siguientes propiedades: la probabilidad de cada valor ha de estar variable aleatoria Xpara est comprendida en cualquier subconjunto Ade se calcula suma las probabilidades todos losde valores debe serla igual atodos 1, los 1, y la suma de las probabilidades para valores debe ser entre 0 yde 1, 0< P(X discreta = xi) Una vez conocida lafuncin de masa probabilidad, probabilidad que una igual a 1, como la suma de las probabilidades de aquellos valores xi incluidos dentro de calcula ese variable aleatoria discreta X est comprendida cualquier subconjunto A se P( X = x en ) = 1.
i 1
subconjunto, como la suma de las probabilidades de aquellos valores xi incluidos dentro de ese Una vez conocida la funcin de masa de probabilidad, la probabilidad de que una variable Una vez conocida funcin de masa de probabilidad, la probabilidad que la una aleatoria discreta X est la comprendida en cualquier subconjunto A se calculade como suma de subconjunto, P ( X A ) = . P ( X = x ) i dentro de ese subconjunto, las probabilidades de aquellos valores xi incluidos xi A variable aleatoria discreta X est comprendida en cualquier subconjunto A se calcula P(X A) = P( X = x i ) . x A como la suma la defuncin las probabilidades de aquellos valores xi incluidos dentro dedefine ese En particular, de distribucin Fi(x) de una variable aleatoria X se En particular, la funcin de distribucin F(x) de una variable aleatoria X se define como la subconjunto, como la probabilidad de un valor menor igual a x, aleatoria X se define probabilidad de observar unobservar valor menor o igual a de x, o En particular, la funcin de distribucin F ( x) una variable F(x) P (X = x)menor =P ., ( igual X como la probabilidad de observar un valor o= i )x P= (X A) ( XP xi= ) .xa F(x) = P(X discreta x) = ser P ( Xuna = xfuncin La funcin de distribucin de una variable escalonada creciente con i ). La funcin de distribucin de una variable discreta xi x ser una funcin escalonada saltos en los valores x con probabilidad no nula. i En particular, la funcin de distribucin F(x) de una variable aleatoria X se define creciente con en los valores xi con probabilidad nouna nula. La funcin desaltos distribucin de una variable discreta ser funcin escalonada como la probabilidad de observar un valor menor o igual a x,
xi A xi x
creciente con saltos en los valores xi con probabilidad no nula. F(x) que = P(por X estudios x) = previos P ( X = xse Ejemplo 3.3 Supongamos estima que, despus de 6 i ).
xi x
meses de tratamiento en 4 pacientes con cncer, la probabilidad de que sobrevivan
0, 1, 2, 3 y 4 con probabilidad no nula.

Distribuciones de probabilidad discretas
[Tabla 3.1 aproximadamente aqu] Ejemplo 3.3 Supongamos que por estudios previos se estima que, despus de 6 meses de tratamiento en 4 pacientes con cncer, la probabilidadaqu] de que sobrevivan 0, 1, 2, 3 4 [Figura 3.1 aproximadamente pacientes viene determinada por la segunda columna de la Tabla 3.1. Estos valores y sus probabilidades constituyen la funcin de masa de probabilidad de la variable nmero de supervivientes, que seestadstica muestra endescriptiva, la Figura 3.1( a). Los valores de la funcin de distribucin En el primer tema de se definieron la media y la varianza en 0, 1, 2, 3 y 4 aparecen en la tercera columna de la Tabla 3.1; as, por ejemplo, la funcin de distribucin en 1 es Ftendencia (1) = P(X 1) = Py (X = 0) + P(X = una 1) =variable 0,1296 + 0,3456 muestral como medidas de central dispersin de en una = 0,4752. La funcin de distribucin de esta variable se representa en la Figura 3.1(b). Notar que F(x) est definida sobre cualquier nmero real, aun cuando la variable tome slo los muestra. A continuacin, se definen medidas anlogas para la distribucin poblacional valores 0, 1, 2, 3 y 4 con probabilidad no nula. de una variable aleatoria. La esperanza o media poblacional de una variable aleatoria En el primer tema de estadstica descriptiva, se definieron la media y la varianza muestral como medidas de tendencia central de una en una muestra.de A continuacin, discreta X, denotada por o E(Xy ),dispersin se define como lavariable suma de los productos cada se definen medidas anlogas para la distribucin poblacional de una variable aleatoria. La esperanza o media poblacional de= una valor xi por su probabilidad P(X xi),variable aleatoria discreta X, denotada por o E(X), se define como la suma de los productos de cada valor xi por su probabilidad P(X = xi),
= E(X) =
x P( X = x ) .
i 1 i i
Tabla 3.1 Funcin de masa de probabilidad y La esperanza es la media de los valores x i ponderados por su probabilidad y representa funcin de distribucin del nmero de supervivientes a los de 6 meses de4aleatoria. pacientes con cncer sometidos a se puede as el valor promedio la variable Notar que la media muestral tratamiento. calcular de forma similar, multiplicando cada valor observado de la variable por su Nmero Funcin Funcin frecuencia relativa.
0 2 abreviada por o var(X), 1 se define 2 3 la variable respecto de su media, 4 de supervivientes de masa ( x ) P (X de = x) La varianza poblacional una 0,1296 0,3456 la esperanza 0,3456 0,1536 0,0256
i
de distribucin F(x) = aleatoria P(X x) variable
como
del
0,1296 0,4752 cuadrado 0,8208 0,9744 1,0000
discreta X,
de la desviacin de
0,4 0,3
2 = var(X) = E(X - )2 =
=
(x
i 1
) 2 P( X = xi )
1 0,8 0,6 0,4 0,2 0
x
i 1
2 i
P( X = x i ) 2 = E(X2) - 2.
F (x )
P(X = x) 0,2
0,1 0 0 1 2 3 4
x (a )
x (b)
Figura 3.1 Funcin de masa de probabilidad (a) y funcin de distribucin (b) del nmero de supervivientes a los 6 meses de 4 pacientes con cncer sometidos a tratamiento.
Figura 3.1
Pastor-Barriuso R.
23
as el valor promedio de la variable aleatoria. Notar que la media muestral se puede

calcular de forma similar, multiplicando cada valor observado de la variable por su
frecuencia relativa. La varianza poblacional de una variable aleatoria discreta X, La esperanza es la ponderada media de los xi ponderados por su probabilidad y representa as el s, la varianza resulta ser la media del valores cuadrado de las desviaciones en los valor promedio de la2variable aleatoria. Notar que la media muestral se puede calcular de forma abreviada por o var(X), se define como la esperanza del cuadrado de la desviacin de multiplicando cada observado la variable por su frecuencia relativa. La cuadrada de la varianza es lavalor desviacin tpica de poblacional , que lores xi. La razsimilar, As, la varianza resulta lavariable media ponderada del cuadrado de las desviaciones en ), los se define varianza poblacional deser una aleatoria discreta X, abreviada por 2 o var(X la variable respecto de su media, como la esperanza del cuadrado de la desviacin depoblacional. la variable respecto de su media, presenta la dispersin la variable aleatoria respecto de su media As, lade varianza resulta ser lade media ponderada del cuadradotpica de las desviaciones los valores x . La raz cuadrada la varianza es la desviacin poblacional , en que
2 = var(X) = E(X )2 = ( xi ) 2 P( X = xi ) valores x . La raz cuadrada de la varianza es la desviacin tpica poblacional , que i dispersin la variable aleatoria respecto de su media poblacional. i 1 Ejemplo 3.4 representa A partir dela los datos del de ejemplo anterior, el valor esperado del
= xrespecto = E( X ) . representa la dispersin de la variable aleatoria de media poblacional. i P( X = x i ) su nmero de supervivientes a los 6 meses de 4 pacientes con i 1 cncer sometidos a Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del
2 2
varianza3.4 resulta ser la media ponderada del cuadrado las desviaciones en los valores tratamiento As, seralaEjemplo A partir de losadatos del ejemplo anterior,de el valor esperado del nmero de supervivientes los meses de 4 pacientes con cncer sometidos a cuadrada de la varianza es6la desviacin tpica poblacional , que representa xi. La raz 5la dispersin de la variable aleatoria de su poblacional. 4 nmero de supervivientes a respecto los 6 meses demedia 4 pacientes con cncer sometidos a tratamiento sera = kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60, k = 0 Ejemplo 3.4 A partir de los datos del ejemplo anterior, el valor esperado del nmero de tratamiento sera supervivientes a4 los 6 meses de 4 pacientes con cncer sometidos a tratamiento sera = kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60, y la varianza k =0 4 = kP( X = k ) = 00,1296 + 10,3456 + ... + 40,0256 = 1,60,
y 4la varianza = (k ) 2 P( X = k ) y la varianza k =0 y la varianza

2
4
k =0
2 = k) 2 =+ k(4 ) 2 P( X = (0 - 1,60) 0,1296 ... ( + - 1,60) 0,0256 = 0,96. 2
k =0 Es decir, el nmero esperado de supervivientes a los 6 meses es 1,60 y la Es decir, el nmero esperado 2 de supervivientes a los 62meses es 1,60 y la desviacin tpica = (0 1,60) 0,1296 + ... + (4 - 1,60) 0,0256 = 0,96. = decir, 0,96 el =nmero 0,98. esperado desviacin tpica Es de supervivientes a los 6 meses es 1,60 y la
2 = (k1,60) )220,1296 P( X =+ k) ... + (4 1,60)20,0256 = 0,96. = (0
k =0 4
Es decir, el nmero esperado de supervivientes a los 6 meses es 1,60 y la = 0,96 = 0,98. tpica 3.2.1 desviacin Distribucin binomial 2.1 Distribucin binomial La distribucin binomial es modelo terico de distribucin de probabilidad discreta aplicable =un 0 ,96 = 0,98. desviacin tpica a aquellos experimentos en los que se realizan nprobabilidad pruebas independientes, cada una de ellas con distribucin binomial es un modelo terico de distribucin de discreta 3.2.1 Distribucin binomial slo dos resultados posibles (xito o fracaso) y la misma probabilidad de xito . En tal caso, se dice que la variable aleatoria X nmero de xitos en las n pruebas licable a aquellos experimentos en los que se realizan n pruebas independientes, cada sigue una distribucin 3.2.1 Distribucin binomial La distribucin binomial es un modelo terico de distribucin de probabilidad(vase discreta binomial con parmetros n y . A partir de los resultados del tema de probabilidad Ejemplo 3.5), puede probarse que la distribucin binomial toma valores en k = 0, 1, ..., n con probabilidad a de ellas con slo dos resultados posibles o fracaso) y la misma probabilidad La distribucin binomial es(xito un modelo terico de distribucin de probabilidad discreta aplicable a aquellos experimentos en los que se realizan n pruebas independientes, cada n nk (1k ) n k , nk P(X = ) se dice que la variable aleatoria X= de xitos en n xito . En tal caso, (1 fracaso) ) , las P( Xk= knmero )que aplicable a aquellos experimentos en los se realizan n pruebas cada = una de ellas con slo dos resultados posibles (xito o y la independientes, misma probabilidad k k
A partir de los y la misma probabilidad uebas sigue una distribucin binomial con parmetros n y .(xito una de ellas con slo dos resultados posibles o fracaso) . En tal caso, se dice que la variable aleatoria X nmero de xitos en las n de xito n n n! n! donde es el nmero de combinaciones de n elementos tomados de k en , con es el nmero de combinaciones elementos = es el nmero de combinaciones de n elementos tomados de kk en donde = k k!tal sultados del tema de probabilidad (vase Ejemplo 3.5), puede probarse que la (n k )!kse . En caso, dice que la variable aleatoria X nmero de xitos en las n de xito k k ! ( n )! pruebas sigue una distribucin binomial con parmetros n y . A partir de los n! = n(n 1)1 y 0! = 1. Por supuesto, estas probabilidades constituyen una funcin de stribucin binomial toma valores en k1 =y 0, 1,= ..., n con probabilidad .A partir de losigual pruebas sigue una distribucin binomial con parmetros n y masa de ya que, n y , su suma es exactamente a 1. En la k ,resultados con n! probabilidad = (nn1) 0! 1. Por supuesto, estas probabilidades constituyen k, con n !ndel = ( n - 1) 1 y 0!para = 1. cualquier Por supuesto, estas probabilidades constituyen una tema de probabilidad (vase Ejemplo 3.5), puede probarse que launa prctica, resulta tedioso calcular las probabilidades de una distribucin binomial mediante la resultados del tema de probabilidad probabilidad (vase Ejemplo puede que la , su suma es exactamente funcin de de masa de de probabilidad ya ya que, cualquier ny ,probarse su suma es exactamente funcin masa para cualquier ny distribucin binomial toma valores enque, k para = 0, 1, ..., n3.5), con probabilidad
24
distribucin binomial toma valores en kcalcular = 0, 1, ..., n con probabilidad igual a 1. la prctica, resulta tedioso las probabilidades de de una distribucin igual a En 1. En la prctica, resulta tedioso calcular las probabilidades 6 una distribucin
Pastor-Barriuso R.
binomial mediante la frmula anterior. Por ello, en en la Tabla 1 del Apndice se facilitan binomial mediante la frmula anterior. Por ello, la Tabla 1 del Apndice se facilitan 6
caractersticas sometidos a una misma terapia.

Distribuciones de probabilidad discretas
Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de
observar la Por supervivencia (o muerte) en pacientes con un determinado cncer binomiales frmula anterior. ello, en la Tabla 1 del Apndice se facilitan las probabilidades para n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50. sometidos al mismo tratamiento. Si por estudios previos se sabe que la En general, la distribucin binomial se aplica al estudio de observaciones repetidas e independientes de una misma variable dicotmica (con slo dos resultados posibles), tal como supervivencia a los 6 meses en dichos pacientes es del 40%, el nmero de el resultado de un tratamiento (xito o fracaso) en pacientes de similares caractersticas sometidos a una misma terapia. supervivientes a los 6 meses en una muestra de 4 pacientes seguir una dado que el resultado en cada paciente es independiente y todos tienen una misma Ejemplo 3.5 En los ejemplos anteriores, el experimento de observar considerado = 0,4. distribucin binomial X de parmetros n = se 4 yha probabilidad de supervivencia del 0,4. En general, la probabilidad desometidos que la supervivencia (o muerte) en pacientes con un determinado cncer al mismo tratamiento. Si por estudios previos se sabe que la supervivencia a los 6 meses en dichos suceso de que Utilizando las leyes de la probabilidad, si denotamos por Si al dado que el resultado en cada paciente es independiente y todos tienen una misma sobrevivan 2 pacientes cualesquiera puede descomponerse, en funcin de qu pacientes es del 40%, el nmero de supervivientes a los 6 meses en una muestra de 4 pacientes seguir una distribucin binomial X de de que parmetros n=4 y = 0,4. los sobreviva el i-simo paciente, sobrevivan nicamente probabilidad de supervivencia del 0,4. En general, la probabilidad de que pacientes sobrevivan, como la probabilidad Utilizando las leyes de la probabilidad, si denotamos por Si al suceso de que sobreviva el dado que el resultado en cada paciente es independiente y todos tienen una misma dos primeros pacientes vendra dada por i-simo paciente, la probabilidad de que sobrevivan nicamente los dos primeros pacientes sobrevivan 2 pacientes cualesquiera en cpuede c descomponerse, c c funcin de qu P(X = 2) = P{(S1S2 S 3 S 4 )(S1 S 2 S3 S 4 ) vendra dada por probabilidad de supervivencia del 0,4. En general, la probabilidad de que c c c pacientes sobrevivan, S4 ) = P(S1)P(S2)P( S 3c )P( S 4 ) = 0,42(1 0,4)2, P(S 1S2 S 3 como c c (S1 S 2 S 3c S4)( S1c S2Sen 3 S 4 ) sobrevivan 2 pacientes cualesquiera puede descomponerse, funcin de qu dado que el resultado en cada paciente es independiente y todosctienen una misma probabilidad c c c P ( X = 2) = P {( S S S S ) ( S S S S ) 1 2 1 3 4 4 de supervivencia del 0,4. En general, la 3 probabilidad de2 que sobrevivan 2 pacientes c S3S4)}. pacientes sobrevivan, como( S1c S2 S 3c S4)( S1c S 2 cualesquiera puede descomponerse, en funcin de qu pacientes sobrevivan, como c c (S1 S 2 S 3c S4)( S1c S2S3 S 4 ) c c c c P(Xest = 2)constituida = P{(S1Spor S 4 ) (Stantos S3 S 4 como ) 2 S 1 S 2 Esta probabilidad la unin de sucesos posibles 7 3 c c c S c ( S c S c Sc S )}. ( S12 S S( 4) S23c S ) S S 43 ) 4 (S 34 12 S3 2 1 1 S 4 4! 24 c c 2 en 2; es c decir, c combinaciones de 4 pacientes tomados de = )}. = S S S ) ( S S S S ( S 2 4 3 4 1 3 1 2 2 2! (4 2)! 4 Esta probabilidad est constituida por la unin de tantos sucesos como posibles Esta probabilidad est constituida por la unin de tantos sucesos como posibles = 6 sucesos. Adems, estos sucesos son mutuamente excluyentes y todos ellos 4 4! 24 combinaciones depacientes 4 pacientes tomados en2; 2;es es decir, decir, = = combinaciones de 4 tomados dede 22 en =6 2 2 (4 2)! Esta probabilidad constituida la unin de(1 tantos sucesos como 2 2!posibles - 0,4) . En consecuencia, la 4 tienen una misma est probabilidad de por ocurrir de 0,4 sucesos. Adems, estos sucesos son mutuamente excluyentes y todos ellos tienen una 2 son mutuamente 2 4 24 de que = 6 probabilidad sucesos. Adems, estosde sucesos excluyentes y! todos ellos probabilidad de que sobrevivan 2 0,4 pacientes cualesquiera es 4 la probabilidad (1 0,4) . En consecuencia, misma de ocurrir combinaciones de 4 pacientes tomados de 2 en 2; es decir, = = sobrevivan 2 pacientes cualesquiera es 2 2! (4 2)! 4 tienen una misma probabilidad de ocurrir de 0,42(1 - 0,4)2. En consecuencia, la 4 2 (X =sucesos 2) = (1 0,4) 2 =excluyentes 0,3456, = 6 sucesos. Adems, P estos y todos ellos 2 son 0,4mutuamente probabilidad de que sobrevivan 2 pacientes cualesquiera es - 0,4)2. En la4 y = 0,4 tienen una misma dede ocurrir de 0,42(1 binomial que corresponde a probabilidad la probabilidad la distribucin deconsecuencia, parmetros n = n =4 que corresponde a la probabilidad de la distribucin binomial de parmetros 4 probabilidades 2 para k = 2. Aplicando esta frmula, las para k = 0, 1, 2, 3 4 supervivientes 2 P ( X = 2) = 0,4 ( 1 0 , 4 ) = 0,3456, probabilidad sobrevivan cualesquiera es 2 3.1( aparecen en de la que Tabla 3.1 y en 2 lapacientes Figura a). Estas probabilidades tambin pueden = 0,4 para k = 2. Aplicando esta frmula, las probabilidades para k = 0, 1, 2, 3 y obtenerse directamente de la Tabla 1 del Apndice. 4 2 2 n=4 que corresponde a la probabilidad de la distribucin binomial de parmetros P ( X = 2) = 0,4 ( 1 ,4)la = 0,3456, 4 supervivientes aparecen en la 3.1 y0 en 3.1(a). Tabla A partir de las frmulas generales para la esperanza yFigura la varianza deEstas una variable aleatoria 2 discreta, puede probarse que la esperanza de una distribucin binomial de parmetros n y es = 0,4 para k = 2. Aplicando esta frmula, las probabilidades para y probabilidades tambin pueden obtenerse directamente de la Tabla 1 del k = 0, 1, 2, 3 n n n k binomial que corresponde a la probabilidad de la distribucin de parmetros n = 4 E ( X ) = ( = ) = (1la ) nk = n kP X k k a). Estas 4 supervivientes aparecen en la Tabla 3.1 y en Figura 3.1( Apndice. k =0 k =0 k y = 0,4 para k = 2. Aplicando esta frmula, las probabilidades para k = 0, 1, 2, 3 probabilidades tambin pueden obtenerse directamente de la Tabla 1 del A partir de las generales para la esperanza y la varianza de una variable y su varianza esfrmulas 4 supervivientes aparecen en la Tabla 3.1 y en la Figura 3.1(a). Estas Apndice. Pastor-Barriuso R. aleatoria discreta, puede probarse que la esperanza de una distribucin binomial de n probabilidades tambin pueden obtenerse directamente de la Tabla 1 del var(X) = (k n ) 2 P( X = k ) A partir las frmulas para la esperanza y la varianza de una variable 0 k =generales n y de es parmetros Apndice.
25
kP( X = k ) = k k Variables aleatorias y distribuciones deprobabilidad

E(X) =
k =0 k =0 n n
k =0
(1 ) n k = n
As, el nmero esperado de xitos es igual al n
y su varianza es y su varianza es var(X) =
probabilidad individual de xito. La varianza n
que = 0 1, la varianza ser 0 ya que todas la n IA de la enfermedad cumplen las siguientes hiptesis respecto a la incidencia acumulada n k nk = (k n ) 2 ( 1 ) = n (1 ). k o xitos. k =0 (esto es, la probabilidad de desarrollar un nuevo caso en un periodo de tiempo
k =0
(k n )
P( X = k )
nmero de pruebas y ms extrema sea la probab
As, el nmero esperado de xitos es igual al nmero de pruebas realizadas por la probabilidad determinado): As, el de nmero de xitos es igual al nmero de pruebas realizadas por la pruebas con el ejemplo 3.6 Continuando individual xito.esperado La varianza n(1 ) disminuye cuanto menor Ejemplo sea el nmero de y ms extrema sea la probabilidad de xito. En el caso particular de que = 0 1, la varianza La probabilidad de observar un casoo es aproximadamente supervivientes a los 6 meses de 4 pacient ser 0yaProporcionalidad: que todas las pruebas sern respectivamente fracasos xitos. probabilidad individual de xito. La varianza n(1 - ) disminuye cuanto menor sea el proporcional al tiempo transcurrido, de tal forma que en un n intervalo de 1,60, tiempo = 40,4 la varianza n(1 - ) = Ejemplo 3.6 Continuando con el ejemplo anterior, el nmero esperado de= supervivientes nmero de pruebas y ms extrema sea la probabilidad de xito. En el caso particular de la a los 6 meses de 4 pacientes con cncer sometidos a tratamiento es n = 40,4 = 1,60, arbitrariamente corto, la probabilidad de observar un caso es muy pequea y la varianza n(1 ) = 40,40,6 = 0,96 y la desviacin tpica n (1 ) = 0,98. Estos resultados coin = 0 1, la varianza 0 ya que todas pruebas sern respectivamente fracasosse que resultados coinciden conser los obtenidos en el las Ejemplo 3.4, donde la media y la varianza probabilidad de observar ms de un caso es esencialmente nula. calculaban a partir de las frmulas generales para variables discretas. 3.4, donde la media y la varianza se calcu o xitos. Estacionaridad: El nmero de casos por unidad de tiempo permanece para variables discretas. 3.2.2 Distribucin de Poisson t. Notar aproximadamente constantecon a loel largo de todo el periodo de tiempo Ejemplo 3.6 Continuando ejemplo anterior, el nmero esperado de que, La distribucin de Poisson es otro modelo terico de distribucin discreta particularmente til para el estudio epidemiolgico la ocurrencia de determinadas enfermedades. Se dice que sisupervivientes se produjera un cambio substancial de la incidencia de laDistribucin enfermedad en el 3.2.2 de Poisson a los 6de meses de 4 pacientes con cncer sometidos a tratamiento es la variable aleatoria X nmero de casos de una determinada enfermedad a lo largo de un periodo de tiempo ,= donde tasuncin es un la intervalo de tiempo largo, como 1 10 aos, distribucin de Poisson es otro modelo teri tiempo, no sera aplicable. nt 4esta 0,4 = 1,60, varianza n (1 - ) arbitrariamente = 40,40,6 =La 0,96 y la tal desviacin tpica sigue una distribucin de Poisson si se cumplen las siguientes hiptesis respecto a la incidencia acumulada IA de la enfermedad (esto es, la probabilidad de desarrollar un nuevo casoel un epidemiolg Independencia: ocurrencia de un caso en un determinado instante aen la particularmente til para estudio n (1 ) = La 0,98. Estos resultados coinciden con los obtenidos enno el afecta Ejemplo periodo de tiempo determinado): probabilidad de observar nuevosde casos en periodos posteriores. As, por ejemplo, enfermedades. Se dice que la variable aleatoria yy Proporcionalidad : La probabilidad observar un caso es aproximadamente proporcional 3.4, donde la media y la varianza se calculaban a partir de las frmulas generales al tiempo transcurrido, de tal forma que en un intervalo de tiempo arbitrariamente corto, enfermedad a loobservar largo de ms un periodo de tiempo esta hiptesis independencia se cumplir en epidmicos. la probabilidad dede observar un caso no es muy pequea y brotes la probabilidad de de para variables discretas. un caso es esencialmente nula. largo, tal como 1 10 aos, sig Aunque la distribucin de Poisson se emplea habitualmentearbitrariamente en el estudio de la morbiyy Estacionaridad: El nmero de casos por unidad de tiempo permanece aproximadamente constante a lo largo de todo el periodo de tiempo t. distribucin Notar que, sies se produjera 3.2.2 Distribucin de Poisson mortalidad debida a determinadas enfermedades, esta en general un cambio substancial de la incidencia de la enfermedad en el tiempo, esta asuncin no sera aplicable. distribucin de Poisson estiempo otrode modelo terico de determinado distribucin discreta aplicable a la ocurrencia en el de aleatorios que satisfagan las a la y yLa Independencia : La ocurrencia un aquellos caso en sucesos un instante no afecta probabilidad de observar nuevos casos en periodos posteriores. As, por ejemplo, esta particularmente til para el estudio epidemiolgico deepidmicos. la ocurrencia de determinadas hiptesis anteriores (por ejemplo, los accidentes de trfico). hiptesis de independencia no se cumplir en brotes Aunque la distribucin de Poisson se emplea habitualmente en de elde estudio de morbi-mortalidad X nmero casos dela una determinada enfermedades. Se dice que variable aleatoria k sucesos, k= Bajo estas asunciones, se la establece que la probabilidad que ocurran debida a determinadas enfermedades, esta distribucin es en general aplicable a la ocurrencia en el tiempo sucesos aleatorios satisfagan las hiptesis anteriores (por ejemplo, t, donde t es un de tiempo enfermedad a lo largo de un periodo deque tiempo t para una variable aleatoria Xintervalo que sigue una 0, 1, 2, ...,de enaquellos un perodo de tiempo los accidentes de trfico).
arbitrariamente largo, tal como 1que 10 sigue una de Poisson se 1, 2, ..., distribucin de Poisson es Bajo estas asunciones, se establece laaos, probabilidad dedistribucin que ocurran k sucesos, k si = 0, en un periodo de tiempo t para una variable aleatoria X que sigue una distribucin de Poisson es 9 k e P(X = k) = , k! donde el parmetro es el nmero esperado de sucesos en el perodo de tiempo t. A
26
Pastor-Barriuso R.
diferencia de la distribucin binomial, donde el nmero de xitos k no puede exceder el
nmero finito de pruebas realizadas, en la distribucin de Poisson el nmero de pruebas Una caracterstica importante de la distribucin de Poisson es que tanto su media grande, aunque se considera infinito y el nmero de sucesos k puede ser arbitrariamente Distribuciones de probabilidad discretas como su varianza son iguales al parmetro , la probabilidad P(X = k) decrecer al aumentar k hasta hacerse esencialmente nula. Para
k e donde el parmetro es el nmero esperado de sucesos en el periodo de tiempo t. A diferencia 0, probabilidades son positivas cualquier parmetro kP X k k E(> X) =estas = = = , y suman 1, constituyendo ( ) de la distribucin binomial, donde el nmero de xitos k no puede exceder el nmero finito de k! k 0 k 0 pruebas realizadas, en la de distribucin de Poisson el nmero pruebasse sepresentan consideralas infinito y el una funcin de masa probabilidad. En la Tabla 2 del de Apndice nmero de sucesos k puede ser arbitrariamente grande, aunque la P(X = k) decrecer probabilidad k e ) 2 P( X = k ) = X) hacerse = (k )2 . (kPara al aumentar k var( hasta esencialmente nula. cualquier=parmetro > 0, estas de 0,5 a 20 en intervalos de probabilidades de Poisson para k! 0,5. k 0 y suman 1, constituyendo k 0 probabilidades son positivas una funcin de masa de probabilidad. En la Tabla 2 del Apndice se presentan las probabilidades de Poisson para de 0,5 a 20 en Una caracterstica importante de la distribucin de Poisson es que tanto su media intervalos de 0,5. Ejemplo 3.7 Segn el ltimo Atlas de Mortalidad por Cncer en tanto Espaa, tasa de Una caracterstica importante de la distribucin es que su la media como su , de Poisson como su varianza son iguales al parmetro
varianza son iguales al parmetro , mortalidad por cncer de vescula en hombres es de I = 1,80 casos por 100.000 e k kP X k k E ( X ) = = = = , ( ) personas-ao. Partiendo de esta informacin, kse pretende k! determinar la k 0 0
k 2 por cncer de vescula 2 e distribucin del nmero de muertes en un periodo var(X) = (k ) P( X = k ) = (k ) = . de 1 2 k ! k 0 k 0 aos en una poblacin de 140.000 hombres. Las asunciones de estacionaridad e
Ejemplo 3.7 Segn el ltimo Atlas de Mortalidad por Cncer en Espaa, la tasa de independencia parecen razonables por tratarse de casos de mortalidad por cncer mortalidad por cncer de vescula en hombres es de I = 1,80 casos por 100.000 personasEjemplo 3.7 Segn el ltimo Atlas Mortalidad por Cncer en Espaa, lanmero tasa de de ao. Partiendo de esta informacin, se de pretende determinar la distribucin del en periodos cortos de tiempo. Adems, como la tasa de mortalidad I es baja y se muertes por cncer de vescula en un periodo de 1 2 aos en una poblacin de 140.000 porrazonables 100.000 por mortalidad cncer de vescula en hombres es de I = 1,80 casos hombres. Las por asunciones de estacionaridad e independencia parecen asume constante en el tiempo, puede probarse que la incidencia acumulada en un tratarse de casos de mortalidad por cncer en periodos cortos de tiempo. Adems, como personas-ao. Partiendo de y esta se pretende determinar la tasa de mortalidad I es baja se informacin, asume constante en el tiempo, puedela probarse que la periodo de tiempo t es incidencia acumulada en un periodo de tiempo t es distribucin del nmero de muertes por cncer de vescula en un periodo de 1 2 IAt = 1 exp(It ) It; aos en una poblacin de 140.000 hombres. Las asunciones de estacionaridad e es decir, la probabilidad de que un individuo de esta poblacin muera por cncer de es decir, la derazonables queproporcional un individuo detiempo esta muera por por cncer vescula es probabilidad aproximadamente al transcurrido, cumplindose as la independencia parecen por tratarse de poblacin casos de mortalidad cncer hiptesis de proporcionalidad. La incidencia acumulada en 1 ao es IA1 = 0,000018 y en de vescula es aproximadamente proporcional al tiempo transcurrido, 0,0000182 0,000036. En consecuencia, nmero de muertes por cncer 2 aos IA2 = I es baja y se en periodos cortos de = tiempo. Adems, como la tasa el de mortalidad de vescula en un periodo de tiempo t seguir una distribucin de Poisson con un nmero esperado casos igual al tiempo, producto del tamao poblacional por la probabilidad asumede constante en el puede probarse que la incidencia acumulada individual en un 11 de muerte en dicho periodo, = 140.0000,000018 = 2,52 muertes esperadas en 1 ao y 140.0000,000036 = 5,04 t es en 2 aos. periodo de tiempo Estas distribuciones de probabilidad se muestran en la Tabla 3.2 y en la Figura 3.2. Por ejemplo, la probabilidad de que no IAtse = produzca 1 - exp(-Itninguna ) It; muerte por cncer de vescula durante 1 ao en esta poblacin se calcula a partir de la distribucin de Poisson de parmetro = 2,52 como P(X = 0) = e 0/0! = e2,52 = 0,0805. Estas distribuciones tambin es decir, la probabilidad de que un individuo de esta poblacin cncer pueden aproximarse mediante las probabilidades de Poisson de lamuera Tabla por 2 del Apndice para = 2,5 y 5. En la Figura 3.2 puede observarse como, al aumentar el nmero esperado de vescula es aproximadamente al tiempo transcurrido, de muertes, la distribucin tiende a proporcional ser ms simtrica alrededor del valor esperado y su varianza aumenta. 11
Pastor-Barriuso R.
27
Tabla 3.2 Distribucin de probabilidad del nmero de muertes por cncer de vescula en periodos de 1 y 2 aos en una poblacin de 140.000 hombres.
Nmero de muertes (k) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 P(X = k) 1 ao 0,0805 0,2028 0,2555 0,2146 0,1352 0,0681 0,0286 0,0103 0,0032 0,0009 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 2 aos 0,0065 0,0326 0,0822 0,1381 0,1740 0,1754 0,1474 0,1061 0,0668 0,0374 0,0189 0,0086 0,0036 0,0014 0,0005 0,0002 0,0001 0,0000
0,25 0,2
0,25 0,2 0,15 0,1 0,05 0 0 5 10 15 20 0 5 10 15 20
P (X = k )
0,15 0,1 0,05 0
k (a )
k (b )
Figura 3.2 Distribucin de probabilidad del nmero de muertes por cncer de vescula en un periodo de 1 ao (a) y de 2 aos (b) en una poblacin de 140.000 hombres.
Figura 3.2
28
Pastor-Barriuso R.
Este resultado es particularmente til en la prctica, ya que el clculo de las probabilidades binomiales para n grande y pequea es muy laborioso, en cuyo caso las probabilidades de Poisson son ms fciles de manejar y facilitan resultados
3.2.3 Aproximacin virtualmente idnticos. de Poisson a la distribucin binomial Bajo determinadas circunstancias, la distribucin de Poisson puede utilizarse como aproximacin a la distribucin binomial. Supongamos que,anterior en una distribucin binomial,X el nmero de pruebas Ejemplo 3.8 Retomemos del ejemplo la variable aleatoria n es grande y la probabilidad individual de xito es pequea. En tal caso, el nmero de xitos de la distribucin binomial puedede ser muy grande y su varianza seren aproximadamente correspondiente al nmero muertes por cncer de vescula un periodo de 2 igual al valor esperado, n(1 ) n. Como se vio en el apartado anterior, estas dos caractersticas son propias de en una distribucin lo que sugiere la validez del siguiente resultado: si el aos una poblacin de de Poisson, 140.000 hombres. El experimento subyacente consistira nmero de pruebas n es grande y la probabilidad de xito es pequea, la distribucin binomial se aproxima a una distribucin de los Poisson con parmetro n. Por regla general, n = 140.000 hombres, la = ocurrencia o no de una esta en observar, para cada uno de aproximacin se considera suficientemente precisa cuando n 100 y 0,01.
Distribuciones de probabilidad continuas
muerte por cncer de vescula durante un periodo ya de que 2 aos. El resultado cada Este resultado es particularmente til en la prctica, el clculo de las en probabilidades binomiales para n grande y pequea es muy laborioso, en cuyo caso las probabilidades de sujeto independiente y la probabilidad de que un virtualmente individuo promedio de esta Poisson son es ms fciles de manejar y facilitan resultados idnticos. Utilizando la aproximacin de Poisson a la distribucin binomial, el nmero de Ejemplo 3.8 Retomemos ejemplo en anterior la variable X correspondiente = IA2 aleatoria = 0,000036. Por poblacin muera por cncerdel de vescula 2 aos es al nmero de muertes por cncer de vescula en un periodo de 2 aos en una poblacin muertes por cncer de vescula en un periodo de 2 aos seguir aproximadamente de 140.000 hombres. El experimento subyacente consistira en observar, para cada tanto, el nmero de muertes por cncer de vescula en esta poblacin a lo largo de uno de los n = 140.000 hombres, la ocurrencia o no de una muerte por cncer de vescula = n = 140.000 0,000036 = 5,04. En una distribucin dede Poisson conEl parmetro durante un periodo 2 aos. resultado en cada es independiente y la nsujeto = 140.000 y= 2 aos seguir una distribucin binomial con parmetros probabilidad de que un individuo promedio de esta poblacin muera por cncer de consecuencia, la es probabilidad de observar 2 muertes puede aproximarse por 0,000036. Por tanto, el nmero de muertes vescula en 2 aos = IA 0,000036. As, por ejemplo, la probabilidad de que ocurran exactamente 2 por cncer 2 = de vescula en esta poblacin a lo largo de 2 aos seguir una distribucin binomial con 5 , 04 por parmetros muertes es n = 140.000 y = 0,000036. e As, 5,04 2 ejemplo, la probabilidad de que ocurran P ( X = 2) = 0,082222, exactamente 2 muertes es Utilizando la aproximacin de Poisson a la2! distribucin binomial, el nmero de 140.000 2 139.998 Pcncer (X = 2)de = vescula 000036 0,999964 = 0,082220. 0,un muertes por en periodo de 2 aosbinomial seguir aproximadamente que coincide casi perfectamente con la probabilidad exacta. 2
Utilizando la aproximacin Poisson a la distribucin binomial, el nmero de muertes = n = 140.000 0,000036 = 5,04. En una distribucin de Poisson de con parmetro por cncer de vescula en un periodo de 2 aos seguir aproximadamente una distribucin Poisson con de = n = 140.0000,000036 5,04. En consecuencia, la 3.3de DISTRIBUCIONES DE PROBABILIDAD CONTINUAS consecuencia, la parmetro probabilidad observar 2 muertes puede=aproximarse por probabilidad de observar 2 muertes puede aproximarse por 13 5 , 04 2 Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro 5,04 e P(X = 2) = 0,082222, 2! de un intervalo. La probabilidad de que estas variables tomen exactamente un valor que coincide casi perfectamente con la probabilidad binomial exacta. que coincide perfectamente con la probabilidad binomial exacta. determinado es 0casi y, en consecuencia, carece de sentido definir una funcin de masa de 3.3 DISTRIBUCIONES DE PROBABILIDAD CONTINUAS probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a Las variables aleatorias continuas son aquellas que pueden tomar cualquier valor dentro de un 3.3intervalos DISTRIBUCIONES DE PROBABILIDAD CONTINUAS de densidad de probabilidad denotada es 0 de valores mediante una funcin intervalo. La probabilidad de que estas variables tomen exactamente un valor , determinado y, en consecuencia, carece de sentido definir una funcin de masa de probabilidad. Para las f(x). Esta funcin ha de ser negativa cualquier valor x, f ( x) 0, y eldentro rea por Las variables aleatorias continuas son aquellaspara que pueden tomar cualquier valor variables aleatorias continuas, las no probabilidades se asignan a intervalos de valores mediante una funcin de densidad de probabilidad, denotada por f(x). Esta funcin ha de ser no negativa de total un intervalo. La probabilidad de que estas variables tomen exactamente un bajo lavalor curva esta funcin dela densidad debe ser igual 1, valor para cualquier x,definida f(x) 0, por y el rea total bajo curva definida por esta a funcin de densidad debe ser igual a 1, determinado es 0 y, en consecuencia, carece de sentido definir una funcin de masa de f ( x) dx = 1. probabilidad. Para las variables aleatorias continuas, las probabilidades se asignan a
Pastor-Barriuso R. A partir de la funcin de densidad, la probabilidad una variable aleatoria de densidadde deque probabilidad , denotada intervalos de valores mediante una funcin 29
X funcin tome valores de cualquier (a , b) puede como el continua f(x). Esta ha de dentro ser no negativa paraintervalo cualquier valor x, f(x)calcularse 0, y el rea por

Variables aleatorias y distribuciones deprobabilidad A partir de la funcin de densidad,
la probabilidad de que una variable aleatoria
continua X tome valores dentro de cualquier intervalo (a, b) puede calcularse como el
A partir de la funcin de densidad, la probabilidad de que una variable aleatoria continua X a ycalcularse b, rea bajo la funcin densidad entre los tome valores dentro de de cualquier intervalo (a,puntos b) puede como el rea bajo la funcin de densidad entre los puntos a y b, en regiones de baja probabilidad. La funcin debdistribucin F(x) corresponde a la P(a < X < b) = f ( x) dx . a probabilidad de que la variable tome un valor igual o inferior a x y, en el caso de una As, aun cuando la probabilidad de obtener un valor concreto es 0, la funcin de densidad tomar valores elevados en regiones alta probabilidad y valores en de As, aun cuando la probabilidad de de obtener un valorbajo concreto 0,pequeos la funcin deregiones variable aleatoria continua, se calcula como el rea de la es curva de la funcin de baja probabilidad. La funcin de distribucin F(x) corresponde a la probabilidad de que la variable tome un valor igual o x y, en el de una variable aleatoria continua, se tomar valores elevados ena regiones decaso alta probabilidad y valores pequeos x, inferior densidad a la izquierda de calcula como el rea bajo de la curva de la funcin de densidad a la izquierda de x,
F(x) = P(X x) =
f (t ) dt .
14
La funcin de distribucin de una variable aleatoria continua es una funcin que, partiendo de 0, crece formade continua hasta alcanzar el valoraleatoria 1. La de funcin distribucin de una variable continua es una funcin que,
partiendo de 3.9 0, crece formade continua hasta alcanzar el valorHDL 1. en hombres adultos se Ejemplo La de funcin densidad para el colesterol representa en la Figura 3.3(a). Notar que, aunque el rea bajo la curva ha de ser igual a 1, la funcin de densidad puede tomar valores superiores a 1. Los niveles de colesterol HDL Ejemplo La funcin de densidad para elprobabilidad colesterol HDL en hombres adultos prximos a 13.9 mmol/l son los que tienen mayor de ocurrir, mientras que para niveles inferiores y superiores esta probabilidad decrece. As, por ejemplo, la probabilidad de a).de Notar que, aunque el rea curva(niveles ha de ser se representa en la tenga Figura 3.3( que un hombre adulto un nivel colesterol HDL inferior a bajo 0,90 la mmol/l bajos segn las recomendaciones del National Cholesterol Education Program) corresponde al igual a 1, la funcin de densidad puedede tomar superiores 1. niveles rea sombreada bajo la curva a la izquierda 0,90 valores mmol/l y es igual a a P( X Los 0,90) = 0,3274. esperanza o media poblacional de una Al igual que para variables discretas, la Esta probabilidad tambin puede obtenerse a partir de la funcin de distribucin del colesterol de colesterol HDL prximos a 13.3( mmol/l sonfuncin los quepresenta tienen mayor probabilidad de de HDL, que se representa en la Figura b). Esta el aspecto caracterstico variable aleatoria representa el valor promedio de esa variable, y se define las funciones decontinua distribucin para variables continuas aproximadamente simtricas. ocurrir, mientras que para niveles inferiores y superiores esta probabilidad como Al igual que para variables discretas, la esperanza o media poblacional de una variable por ejemplo, la promedio probabilidad de que un hombre adulto tenga un nivel aleatoria decrece. continuaAs, representa el valor de esa variable, y se define como
a=0,90 E(X) = x(niveles f ( x) dxbajos . de colesterol HDL inferior mmol/l segn las
Program) corresponde al recomendaciones del National Cholesterol Education 1,5 1 La varianza poblacional de una variable aleatoria continua es la esperanza de las rea sombreada bajo la curva a la izquierda de 0,90 mmol/l y es igual a P(X 0,75 desviaciones al cuadrado de los valores de la variable respecto de su media, y se calcula 1 0,90) = 0,3274. Esta probabilidad tambin obtenerse a partir de la funcin f( x ) F(x) puede 0,5 como 0,5 de distribucin del colesterol HDL, que se representa en la Figura 3.3( b). Esta
2 = var(X) = E(X - )2 = ( xde ) 2 f ( x) dx funcin presenta el aspecto caracterstico las funciones de distribucin para
0
0,25
variables continuas aproximadamente simtricas. 2 2 0 0,5 1 1,5 2 2,5 = E(X2) 1 - 2. 1,5 x f ( x) dx 0 =0,5
2,5
La raz cuadrada de la varianza es la desviacin tpica poblacional 3.3 aproximadamente aqu] , que (a) [Figura (b)representa la
Figura 3.3 Funcin de densidad de probabilidad (a) y funcin de distribucin (b) del colesterol HDL en dispersin de la variable aleatoria respecto de su media poblacional. Estas expresiones hombres adultos. Figura 3.3
para la media y la varianza poblacional de una variable continua son similares a las facilitadas para variables discretas, salvo que la suma sobre el nmero discreto de 15
= x 2 f ( x) dx 2 = E(X2) - 2. aleatoria continua es la esperanza de las La varianza poblacional de una variable , que representa la continuas La raz cuadrada de la varianza es la desviacin tpica poblacional Distribuciones de probabilidad alde cuadrado de los valores de la variable respecto de media, y se calcula ,su que representa la Ladesviaciones raz cuadrada la varianza es la desviacin tpica poblacional dispersin de la variable aleatoria respecto de su media poblacional. Estas expresiones como La varianza de una variable aleatoria continua es la esperanza de las desviaciones dispersin de poblacional la variable aleatoria respecto de su media poblacional. Estas expresiones para la media la varianza poblacional una variable continua son similares a las al cuadrado deylos valores de la variablede respecto de su media, y se calcula como para la media y la varianza poblacional de 2 2 unavariable 2continua son similares a las facilitadas para variables discretas, nmero discreto de = var( X ) = E(Xsalvo ) que = la( suma x )sobre f ( x)el dx Existen muchos modelos tericos de distribuciones continuas, cada una de ellas facilitadas para variables discretas, salvo que la de suma sobre el nmero2discreto 2 2 la integral 2sobre todos los valores con probabilidad no nula se reemplaza por posibles = x f ( x ) dx = E ( X ) . caracterizada por una frmula o expresin concreta para la funcin de densidad. A valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles valores de la variable continua. La raz cuadrada de la varianza es la desviacin tpica poblacional , que representa la dispersin continuacin se revisa en detalle la distribucin normal, que es la utilizada con mayor de la variable aleatoria respecto de su media poblacional. Estas expresiones para la media y la valores de la variable continua. , que representa la La raz poblacional cuadrada de de la varianza es la desviacin tpica poblacional varianza una variable continua son similares a las facilitadas para variables t de Student, chifrecuencia en estadstica. Otras distribuciones continuas, como la Ejemplo la funcin de densidad ejemplo anterior, el valor discretas, salvo3.10 que Utilizando la suma sobre el nmero discreto del de valores con probabilidad no nula se reemplaza por la sobre todos los posibles valores la variable continua. dispersin de laintegral variable aleatoria respecto de su media poblacional. Estas expresiones Ejemplo Utilizando la funcin de densidad del de ejemplo anterior, el valor F decolesterol Fisher, seHDL discutirn segn vayande surgiendo lo largo del texto. cuadrado o 3.10 esperado del en una poblacin hombresaadultos sera para la mediadel y la varianza poblacional una variable continua son similares a las esperado Ejemplo 3.10 Utilizando laen funcin de densidad del ejemplo anterior, esperado colesterol HDL una de poblacin de hombres adultos sera el valor 3.3.1 Distribucin normal del colesterol HDL en una poblacin de hombres adultos sera = salvo x f (x ) dxla=suma 1,10 sobre mmol/l, facilitadas para variables discretas, que el nmero discreto de 0 La distribucin normal, tambin denominada distribucin Gaussiana, es el modelo = x f ( x) dx = 1,10 mmol/l, 0 valores con probabilidad no nula se reemplaza por la integral sobre todos los posibles y la desviacin tpica terico de distribucin y la desviacin tpicacontinua ms utilizado en la prctica. Muchas mediciones valores de la variable continua. y la desviacin tpica 1 / 2 similares al modelo terico normal epidemiolgicas y clnicas presentan distribuciones 2 = ( x 1,10) f ( x) dx = 0,30 mmol/l. 0 1/ 2 2 Ejemplo 3.10 Utilizando la funcin ejemplo anterior, valor (presin arterial, colesterol ndice masa o bien pueden el transformarse = (x 1,10 ) f de (de x)densidad dx = del 0,30 mmol/l. 0srico, corporal) Existen muchos modelos tericos de continuas, cada una de ellas caracterizada del colesterol HDL endistribuciones una poblacin de hombres adultos sera para esperado conseguir distribuciones aproximadamente normales (tpicamente mediante por una frmula o expresin concreta para la funcin de densidad. A continuacin se revisa 16 en detalle la distribucin normal, que es la utilizada con mayor frecuencia en estadstica. Otras transformaciones logartmicas de los datos originales). No obstante, como se ver en los 16 distribuciones continuas, como la de Student, chi-cuadrado o F de Fisher, se discutirn segn t= x f ( x) dx = 1,10 mmol/l, 0 vayan surgiendo a lo largo del texto. temas posteriores, la utilidad fundamental de la distribucin normal surge dentro de las y la de desviacin tpica 3.3.1 Distribucin normal tcnicas inferencia estadstica: incluso cuando la distribucin poblacional de una
La distribucin normal, tambin denominada distribucin Gaussiana, es el modelo terico de 1 / que, 2 variable diste mucho de ser normal, puede probarse bajo ciertas condiciones, la 2 distribucin continua ms utilizado la1prctica. epidemiolgicas y clnicas = (x ,10) f ( xMuchas ) dx = 0,30 mmol/l. 0 en mediciones al modelo terico normal (presin arterial, colesterol srico, ndice presentan distribuciones similares distribucin de los valores medios de dicha variable seguir un modelo de masa corporal) o bien pueden transformarse para conseguir distribuciones aproximadamente normales (tpicamente mediante transformaciones logartmicas de los datos originales). No obstante, aproximadamente normal. como se ver en los temas posteriores, la utilidad fundamental de la distribucin normal surge dentro 16 de las tcnicas de inferencia estadstica: incluso cuando la distribucin poblacional de una variable Una variable aleatoria continua X sigue una distribucin normal si su funcin de diste mucho de ser normal, puede probarse que, bajo ciertas condiciones, la distribucin de los valores medios de dicha variable seguir un modelo aproximadamente normal. densidad es Una variable aleatoria continua X sigue una distribucin normal si su funcin de densidad es
f (x) =
(x ) 2 exp 2 2 2 1
para cualquier valor x en la recta real, < x < . Esta funcin de densidad depende de los parmetros y , donde para cualquier valor x en la recta real, - < x < . Esta funcin de densidad depende de yy representa la esperanza o media poblacional de la distribucin y aysu ,desviacin donde los y y parmetros corresponde tpica poblacional.
representa la esperanza o media poblacional de la distribucin y
Pastor-Barriuso R.
31
17
1 2
corresponde a su desviacin tpica poblacional.
La distribucin normal o Gaussiana con media y varianza 2 se denota abreviadamente por N(, 2). Para cualquier y > 0, la funcin de densidad normal f(x ) es positiva y el rea total bajo la curva es igual a 1. Esta funcin de densidad, que aparece representada en la Figura 3.4, tiene forma de campana, es simtrica alrededor
corresponde a su tpica poblacional. en + y - desviacin . Al tratarse de una de la media y tiene dos puntos de inflexin
0
La distribucin normal o valor Gaussiana con media y varianza 2 se denot distribucin simtrica, la media y la mediana coinciden. El ms frecuente
- 3 - 2 -
x
N(, del ). Para cualquier y > 0, la funcin de de abreviadamente por y su dispersin alrededor valor medio aumenta 1/( 2 ) se alcanza en la media
Figura 3.4
+ 2
+ 3
positiva y el rea total la curva igual a 1. Esta funcin de dens distribucin .es As, puede probarse que bajo el68,27% deles rea bajo al aumentar la desviacin Figura 3.4 Funcin de densidadtpica de una normal con media y desviacin tpica . una
estandarizada , y suele denotarse por Z o se N(0, 1). La funcin de densidad de una distribucin una distribucin normal estandarizada reduce a 3. 99,73% entre normal estandarizada se reduce a
aparece representada 3.4, tiene forma de campana, es simt , la el Figura 95,45% entre 2 y el funcin de densidad normal est comprendido entre en 2 La distribucin normal o Gaussiana con media y varianza se denota abreviadamente y tiene dos puntos de es inflexin enyel + rea y - . Al tratars ). Para cualquier y > de 0, la la media funcin de densidad normal positiva por99,73% N(, 2entre 3. total bajo la curva es igual a 1. Esta funcin de densidad, que aparece representada en la media y la mediana Figura 3.4, tiene forma de campana, distribucin es simtricasimtrica, alrededorla de la media y tiene coinciden. dos puntosEl valor ms fre de inflexin en + y . Al tratarse deaproximadamente una distribucin simtrica, la media y la mediana [Figura 3.4 aqu] en la la media y suydispersin alrededor del valor se alcanza alcanza en media su dispersin coinciden. El valor ms frecuente 1/( 2 ) se alrededor del valor medio aumenta al aumentar la desviacin tpica . As, puede probarse distribucin normal con funcin media 0 de y desviacin tpica 1 est se denomina que elLa 68,27% del rea bajo una densidad normal comprendido entre que , el 68,27% d . As, distribucin puede probarse al aumentar la desviacin tpica el 95,45% entre 2 y el 99,73% entre 3. normal estandarizada, y suele denotarse por Z o N(0, normal 1). La funcin de densidad de , el 95,45% en funcin de densidad est comprendido entre La distribucin normal con media 0 y desviacin tpica 1 se denomina distribucin normal
f (z) =
1 exp z 2 , 2 2 1
[Figura 3.4 aproximadamente aqu]
para cualquier < z < , que se representa en la Figura 3.5(a). Como puede observarse, La distribucin normal media 0 y desviacin tpica se trata de una funcin simtrica de obtener probabilidades bajo la 1 se denomin , que sealrededor representa en0. la Para Figura 3.5(con a).las Como puede para cualquier - < z < funcin de densidad normal estandarizada, no se recurre al clculo integral, ya que estas estandarizada y Para suele denotarse por Z facilitan o N(0, 1). La funcin de probabilidades estn tabuladas y son normal fcilmente accesibles. En general, estas tablas observarse, se trata de una funcin simtrica alrededor de ,0. obtener las la funcin de distribucin; es decir, la probabilidad de que la variable normal estandarizada una estandarizada se reduce tome un valor igual z.densidad La distribucin funcin de normal distribucin normal estandarizada se probabilidades bajoolainferior funcin a de normal estandarizada, no se recurre al a denota por F(z) = P(Z z), y se ilustra en la Figura 3.5(b). En la Tabla 3 del Apndice se facilita la funcin F(z) para valores de z no negativos. clculo integral,de yadistribucin que estas probabilidades estn tabuladas y son fcilmente 1 1 f ( z) = exp z 2 , 2 2 la accesibles. En general, estas tablas facilitan la funcin de distribucin; es decir,
z. probabilidad de que la variable normal estandarizada un valor o inferior z< , que se igual representa en laaFigura 3.5(a). Como p para cualquier - <tome
observarse, se trata de una funcin simtrica alrededor de 0. Para obtene 18
f(z)
(z)
1
0,5
-3
-2
-1
-3
-2
-1
z (a)
z (b )
Figura 3.5 Funcin de densidad (a) y funcin de distribucin (b) de una variable aleatoria normal estandarizada.
Figura 3.5
El percentil 97,5 de una distribucin normal estandarizada se denota por z0,975 y corresponde al valor z que deja por debajo una probabilidad del 0,975. De la Tabla 3 del Apndice, se distribucin y El calculo de probabilidades cualquier distribucin normal con media = 1,96. Por tratarse de una tiene que F (1,96) = 0,9750 para y, por tanto, z0,975 simtrica en 0, el percentil 2,5 corresponde al percentil 97,5 con signo opuesto; es decir, = tablas z0,975 especficas, = 1,96. As, los que valores 1,96 abarcan el 95% el percentil es z0,025 2 no2,5 requiere de sino puede realizarse a partir decentral las de varianza la distribucin normal estandarizada. Este resultado ser particularmente til en los temas de inferencia estadstica. tablas de la distribucin normal estandarizada. Para ello, se hace uso del siguiente
Ejemplo 3.11 La probabilidad de obtener un valor inferior a 0,50 en una distribucin normal estandarizada se obtiene directamente de la Tabla 3 del Apndice como el valor de la funcin de distribucin en 0,50; es decir, P(Z 0,50) = F(0,50) = 0,6915. Asimismo, aunque en la Tabla 3 del Apndice no aparecen las probabilidades acumuladas para valores negativos, la probabilidad de obtener un valor inferior a 0,25 en una distribucin normal estandarizada puede calcularse fcilmente a partir de dicha tabla. Como la distribucin normal estandarizada es simtrica alrededor de 0, la probabilidad a la izquierda de 0,25 es igual a la probabilidad a la derecha de 0,25 y, en consecuencia, P(Z 0,25) = P(Z 0,25) = 1 P(Z 0,25) = 1 F(0,25) = 1 0,5987 = 0,4013. A partir de los resultados anteriores, la probabilidad de que un valor de la distribucin normal estandarizada. Este resultado ser particularmente til en los temas de inferencia estandarizada se encuentre entre 0,25 y 0,50 viene dada por P(0,25 Z 0,50) = P(Z 0,50) P(Z 0,25) = 0,6915 0,4013 = 0,2902. estadstica.
resultado la estandarizacin de una distribucin normal: si con una variable El clculosobre de probabilidades para cualquier distribucin normal media aleatoria y varianza 2 no requiere de tablas especficas, sino que puede realizarse a partir de las tablas de la distribucin 2 X sigue una distribucin normal con media siguiente y varianza 2, X ~ sobre N(, ), entonces la de normal estandarizada. Para ello, se hace uso del resultado la estandarizacin una distribucin normal: si una variable aleatoria X sigue una distribucin normal con media 2 , X ~ N( , ),-entonces la una variable aleatoria Z = (Xestandarizada, )/ sigue una distribucin y varianza Z =(2 X )/ sigue distribucin normal variable aleatoria normal estandarizada,
Z=
~ N(0, 1),
donde el smbolo ~ significa estar distribuido como. Como ya se coment en el Tema R. Pastor-Barriuso 1, al restar a los valores de una variable su media y dividirlos por su desviacin tpica,
33
procedimiento de estandarizacin de variables normales permite utilizar las tablas

Variables aleatorias y distribuciones deprobabilidad correspondientes a la distribucin normal estandarizada.
Ejemplo 3.12 Supongamos que el colesterol HDL en una poblacin donde el smbolo ~ significa estar distribuido como. Como ya se coment de en hombres el Tema 1, al restar a los valores de una variable su media y dividirlos por su desviacin tpica, la variable resultante X con media = 1,10 mmol/l y desviacin una distribucin tiene adultos media sigue 0 y desviacin tpica normal 1. El resultado anterior garantiza adems que la variable estandarizada conserva la distribucin normal. Este procedimiento de estandarizacin de variables = 0,30 mmol/l. Utilizando la estandarizacin de variables normales, el tpica normales permite utilizar las tablas correspondientes a la distribucin normal estandarizada. Ejemplo 3.12 Supongamos el colesterol HDLniveles en una de poblacin de HDL hombres adultos porcentaje de hombres de estaque poblacin que tienen colesterol sigue una distribucin normal X con media = 1,10 mmol/l y desviacin tpica = 0,30 mmol/l. Utilizando la estandarizacin entre 0,90 y 1,20 mmol/l corresponde ade variables normales, el porcentaje de hombres de esta poblacin que tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l corresponde a
0,90 1,10 X 1,10 1,20 1,10 P(0,90 X 1,20) = P 0,30 0,30 0,30 = P ( 0,67 Z 0,33) = P(Z 0,33) P(Z 0,67).
Utilizando la Tabla 3 del Apndice, se obtiene que P(Z 0,33) = F(0,33) = 0,6293 y P(Z 20 0,67) = F(0,67) = 1 F(0,67) = 1 0,7486 = 0,2514. As, resulta que P(0,90 X 1,20) = 0,6293 0,2514 = 0,3779; es decir, el 37,79% de los hombres de esta poblacin tienen niveles de colesterol HDL entre 0,90 y 1,20 mmol/l. Para obtener el percentil 90 de la distribucin del colesterol HDL en esta poblacin, se calcula primero el percentil 90 en la distribucin normal estandarizada, que corresponde a z0,90 = 1,28, ya que F(1,28) 0,90. Para pasar este percentil estandarizado al correspondiente percentil del colesterol HDL basta resolver z0,90 = (x0,90 )/. Por tanto, el percentil 90 del colesterol HDL es x0,90 = + z0,90 = 1,10 + 1,280,30 = 1,484 mmol/l. 3.3.2 Aproximacin normal a la distribucin binomial El clculo de las probabilidades binomiales es muy laborioso cuando el nmero de pruebas n en muy elevado. Como se vio anteriormente, si n es grande y la probabilidad de xito es muy pequea, la distribucin binomial puede aproximarse mediante una distribucin de Poisson. En este apartado, se revisa el comportamiento de una distribucin binomial para un nmero de pruebas n grande y una probabilidad individual de xito no excesivamente extrema. En la Figura 3.6 se muestran las distribuciones binomiales para los parmetros = 0,10 y n = 10, 25, 50 y 100. Al aumentar el nmero de pruebas, la distribucin binomial tiende a ser ms simtrica y se aproxima progresivamente a una distribucin normal con la misma media n y varianza n(1 ) que la distribucin binomial (Figura 3.6(d)). En general, puede probarse que si el nmero de pruebas n es elevado y la probabilidad de xito no es excesivamente extrema, de forma que n(1 ) 5, la distribucin binomial con parmetros n y se aproxima a una distribucin normal con media n y varianza n(1 ). Este resultado es un caso particular del llamado teorema central del lmite, que se presentar ms adelante (vase Tema 4), y se utiliza para aproximar las probabilidades binomiales mediante la distribucin normal. As, para una variable binomial X con parmetros n y que cumpla las condiciones anteriores, la probabilidad P(k1 X k2) se aproxima mediante el rea bajo la curva de la distribucin normal N(n, n(1 )) entre k1 1/2 y k2 + 1/2, donde k1 k2 son nmeros enteros cualesquiera. Notar que, al utilizar la aproximacin normal, los lmites del intervalo se amplan en 1/2 para incluir las probabilidades de obtener exactamente k1 o k2 xitos. Este ajuste se conoce como correccin por continuidad y se deriva del hecho de aproximar una distribucin binomial discreta mediante una distribucin normal continua.
extrema, de forma que n(1 - ) 5, la distribucin binomial con parmetros n y se aproxima a una distribucin normal con media n y varianza n(1 - ).
0,4 0,3 0,4 aqu] [Figura 3.6 aproximadamente 0,3
Este resultado central del lmite, que se P (X = k) 0,2 es un caso particular del llamado teorema 0,2
0,1 0,1 presentar ms adelante (vase Tema 4), y se utiliza para aproximar las probabilidades
binomiales mediante la distribucin normal. As, para una variable binomial X con
0 5 10 15 20 0 5 10
15
20
anteriores, la probabilidad P((k parmetros n y que cumpla las condiciones (a) b1 ) X k2 ) se aproxima mediante el rea bajo la curva de la distribucin normal N(n, n(1 - ))
0,3 0,2 0,3 0,2 0,4 0,4
k - 1/2 y k2 + 1/2, donde k1 k2 son nmeros enteros cualesquiera. Notar que, al entre P(X1= k)
0,1 0,1 se amplan en 1/2 para incluir utilizar la aproximacin normal, los lmites del intervalo
las probabilidades de obtener exactamente k1 o k2 xitos. Este ajuste se conoce como

correccin por continuidad y se deriva del hecho de aproximar una distribucin k k
0 5 10 15 20 0 5 10 15 20
binomial discreta mediante una distribucin normal continua.
(c)
(d )
Figura 3.6 Distribuciones binomiales con parmetros = 0,10 y n = 10 (a), 25 (b), 50 (c) y 100 (d). En el panel d, se representa adems la funcin de densidad de una distribucin normal con media n = 1000,10 = 10 Ejemplo 3.13 y varianza n(1 ) = La 100probabilidad 0,100,90 = 9. de obtener entre 12 y 14 xitos sobre un total de
100 pruebas con una probabilidad individual de xito del 0,10 se obtiene a partir Ejemplo 3.13 La probabilidad de obtener entre 12 y 14 xitos sobre un total de 100 pruebas con una binomial probabilidad individual de secomo obtiene a partir de la X con parmetros n xito = 100 del y 0,10 = 0,10 de la distribucin distribucin binomial X con parmetros n = 100 y = 0,10 como
P(12 X 14) =
100 0,10 k (1 0,10)100 k k =12 k
14
= 0,0988 + 0,0743 + 0,0513 = 0,2244,

cuyo clculo es bastante laborioso. Sin embargo, como n(1 ) = 1000,100,90 = 9 5, una razonable a esta probabilidad puede partir de la distribucin n(1 - )a= 1000,10 0,90 cuyoaproximacin clculo es bastante laborioso. Sin embargo, comoobtenerse normal Y con media n = 1000,10 = 10 y varianza n(1 ) = 9 mediante = 9 5, una aproximacin razonable a esta probabilidad puede obtenerse a partir 11,5 10 Y 10 14,5 10 P(11,5 < Y < 14,5) = P < < de la distribucin normal Y con media 3 1000,103= 10 y varianza 3 n = n(1 - ) = 9 = P(0,5 < Z < 1,5) = (1,5) (0,5) mediante = 0,9332 0,6915 = 0,2417. Esta probabilidad corresponde al rea sombreada en la Figura 3.6(d).
Esta probabilidad corresponde al rea sombreada en la Figura 3.6(d).
22
3.3.3 Aproximacin normal a la distribucin de Poisson
Pastor-Barriuso R.
35
La distribucin normal tambin puede emplearse como aproximacin a la distribucin
moderadamente elevado, tpicamente 10. As, para una variable aleatoria X que siga
a una distribucin de Poisson con parmetro moderadamente grande, la probabilidad
P ( k1 X k2) puede aproximarse mediante el rea bajo la curva de la distribucin 3.3.3 Aproximacin normal a la distribucin de Poisson
La distribucin normal tambin puede emplearse como aproximacin a la distribucin de Poisson normal N(, ) entre k1 - 1/2 y k2 + 1/2. cuando el nmero esperado de casos es moderadamente grande. En la Figura 3.7 se representan las distribuciones de Poisson con parmetros = 1, 2,5, 5 y 10, donde puede apreciarse que, al aumentar el nmero esperado de casos, las probabilidades de Poisson tienden a distribuirse de forma normal. En [Figura 3.7 aproximadamente aqu] trminos generales, una distribucin de Poisson con parmetro se aproxima a una distribucin normal con media y varianza iguales a , cuando el nmero esperado de casos es moderadamente elevado, tpicamente 10. As, para una variable aleatoria X que siga a una distribucin de Poisson lo k2)largo puede aproximarse con parmetro moderadamente grande, la probabilidad P(k1 X a Ejemplo3.14 Si el nmero de casos de una enfermedad de un ao en mediante el rea bajo la curva de la distribucin normal N(, ) entre k1 1/2 y k2 + 1/2. una determinada poblacin sigue una distribucin de Poisson X de parmetro = Ejemplo 3.14 Si el nmero de casos de una enfermedad a lo largo de un ao en una determinada poblacin sigue distribucin de Poisson parmetro = 10, la 10, la probabilidad de tener 15 una o ms casos en un mismo aoX esde exactamente probabilidad de tener 15 o ms casos en un mismo ao es exactamente
e 10 10 k P(X 15) = = 0,0835, k! k 15 que puede aproximarse mediante la distribucin normal Y ~ N(10, 10) como que puede aproximarse mediante la distribucin normal Y ~ N(10, 10) como
23
Y 10 14,5 10 P(X 15) P(Y > 14,5) = P > 10 10 = P(Z > 1,42) = 1 (1,42) = 1 0,9222 = 0,0778.
Esta aproximacin corresponde al rea sombreada bajo la curva normal en la Figura 3.7(d). Esta aproximacin corresponde al rea sombreada bajo la curva normal en la
Figura 3.7(d).
0,3
0,4
0,4 0,3 0,2
P(X = k) 0,2
0,1 0,1 3.4 COMBINACIN LINEAL DE VARIABLES ALEATORIAS
En este apartado se introducen algunas propiedades de la combinacin lineal de

0 5 10 15 20 0 5 10
15
20
(a ) (b ) e variables aleatorias (discretas o continuas) que sern tiles para la estimacin

0,4 0,4
inferencia estadstica. En particular, se pretende derivar el valor esperado y la varianza 0,3 0,3
P(combinacin X = k) 0,2 0,2 ck son constantes arbitrarias y X1, de la lineal c1X1 + ... + ckXk, donde c1, ...,
..., Xk son variables aleatorias con esperanzas 1, ..., k y varianzas 12 , ..., k2 . Como el
0 0
0,1
0,1
valor esperado de la de variables aleatorias la suma respectivas 0 suma 5 10 15 20es igual a0 5 de sus 10 15 esperanzas, se tiene que
k (c ) k (d )
20
Figura 3.7 Distribuciones de Poisson con parmetros k = 1 (a), 2,5 (bk ), 5 (c) y 10 (d). En el panel d, se re k de densidad k de una distribucin presenta adems la funcin normal con media y varianza iguales a = 10.
E c i X i = E (c i X i ) = c i E ( X i ) = c i i , i =1 i =1 i =1 i =1
ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinacin lineal de variables
k k 2 2 2 2 ci i + 2 ci c j i j = c E ( X ) + 2 c c E ( X X ) N LINEAL DE VARIABLES ALEATORIAS i i i j i j variables aleatorias (discretas o continuas) que sern1 tiles i =1 i < j k para la estimacin 1 i < j k i =1 e
introducen algunas propiedades de la combinacin lineal = cde {E ( X derivar ) }el + valor 2 c i j } inferencia estadstica. En particular, se pretende esperado laj ) varianza i c j {E ( X y iX
i =1 k k k 2 i 2 i 2 i 1 i < j k
Combinacin lineal de variables aleatorias
(discretas o continuas) que sern tiles para la estimacin + VARIABLES c Xk,2edonde c1,ALEATORIAS ..., ck son constantes arbitrarias y X1, de COMBINACIN la combinacin lineal 2 2 3.4 k c1X1 + 2... = k LINEAL DE c i i + 2 c i c j {E ( X i X j ) i j }. var ci X i = E ci X i i =1 c i i 1 i < j k ca. En particular, pretende derivar el valor esperado y varianza i = 1 i = 1 i =1 la 1, ..., Ense este apartado se introducen algunas propiedades de la combinacin lineal variables varianzas 12 , ..., k2 . de Como el ..., Xk son variables aleatorias con esperanzas ky aleatorias (discretas o continuas) que sern tiles para la estimacin e inferencia estadstica. k k En 2 2 2 2 + ckXk, donde c1, ..., c son constantes arbitrarias y X , lineal c1X1 + ... particular, As, la varianza de una combinacin lineal no depende slo de la varianza especfica de kderivar 1 X se pretende el valor esperado y la varianza de la combinacin lineal c = c E ( X ) + 2 c c E ( X X ) c + 2 c c i i j ies igual j i i de sus i j i j1 1 + ... a valor esperado de la suma de ivariables aleatorias la suma respectivas i = 1 1 i < j k i = 1 1 i < j k + ckXk, donde c1, ..., ck son constantes arbitrarias y X1, ..., Xk son variables aleatorias con 2 aleatorias con esperanzas varianzas , ..., 2 el los cada .. Comode valor esperado de de variables 1 sino tambin trminos E(X ) - suma ij, que se conocen como variable 1,, ..., k yk iXjla k 2 2 1 2 k esperanzas, se tiene que = c { E ( X ) } + 2 c c { E ( X X ) } aleatorias es igual a la suma esperanzas, que i j sei tiene i de sus i respectivas i j i j i =1 1 i < j k a suma de variables aleatorias es igual a la suma de sus covarianzas entre las respectivas variables X la covarianza poblacional entre dos i y Xj. En general, k k k k2 2 k = +i 2 = cE E( X=i X ) i . ci i , E c ci X (c E (X = i ic j{ jc i j} i) iX i) e que X e Y con esperanzas x yi = variables 1 y se define como i =1 i =1 aleatorias 1i <i = i =1 j1 k
ya que E(ciXi) = ciE(Xi). Es decir, la esperanza de una combinacin lineal de variables aleatorias 2 k k kk i) =lineal k k yacombinacin que E( ci E(Xde ). decir, esperanza de una lineal deespecfica k es cov( Xno , Y2) =E {(Xcombinacin -slo x)(Y - la y)} = E(XY )variables - xy, de la sus esperanzas. icombinacin As, la varianza de una lineal depende de varianza ciX Es , la E ci X i = E (c X ) = c E ( X ) = c ci iX i =i E ci iX ii ci i i var i = 1 i =1 i =1 A partir de este resultado, y recordando 1 11 ii= ii== i =1que var( X) = E(X2) 2, puede calcularse la varianza aleatorias es la combinacin lineal de sus esperanzas. 2 2 2 k variable los trminos E(XiX - se conocen como cada de combinacin lineal variables aleatorias es una medida de la relacin como lineal entre variables. Si valores altos (o bajos) de j) ij, que ktambin k ambas una i k,ysino de k 2de 2 2 2 var ci X i = E ci= X c X i )i + i2 ci c j E ( X i X j ) c + 2 c c i c i E ( i i i j i j 2 2 la E(Xi). Es decir, la esperanza una de variables i =1 A partir i =1 combinacin =1lineal de este k iy Ei( de resultado, recordando var(X) = 2 i =1 1 i <kj k que 2 =X 1 ) - , puede 1 i < j k calcularse ser positiva; k X tienden a asociarse con valores altos (o bajos) de Y , la covarianza covarianzas entre variables Xiy Xj . Encgeneral, la covarianza poblacional entre dos k k k var ci X2las E c X = i i i2 i i 2 2 2 2 2 mbinacin lineal de sus esperanzas. = cicombinacin E X )c+ 2E ( E X + 2 { X ic j de } 2j) c j {c E X c i =1 ii =1 =1+ (= ) i(ivariables c varianza de una lineal aleatorias como i ic iX i( iiX ic j i j i j) i j} mientras que si altos una variable se con valores bajos de la otra i =1 1 i de < j k i =1 1 i < j valores k i =1 define 1 i <relacionan j k Xe Y con esperanzas y se como variables aleatorias x y k k 2 2 2 2 2 2 k k X) = = E( X ) - ( , puede calcularse la resultado, y recordando que var( c2 X i E2 i ) + 2 c i c j E ( X i X j ) c i i + 2 c i c j i j 2 2 2 = c la icovarianza + 2 c E ( negativa. X (X } .i =1j } ser resulta complicado = ci variable, {E (X c c X ji ) Xj )No ic jj{ i jobstante, i =1 1 i< k j {E i 1 i < j k i )i i }+ 2 i i determinar el i =1 1 i <1j k i =1 i < j k cov( k X, Y) = E{(X - x)(Y - y)} = E(XY) - xy, mbinacin lineal de variables aleatorias como k grado de relacin dos a partir de la magnitud de la covarianza, ya = ci2 {E ( X i2 )lineal i2 }entre +2 civariables c {E ( X i X j ) i j } = c i2 i2 + 2 c c { E ( X i X j ) 1 }. j i j i j i = 1 i < j k As, la varianza de una1combinacin lineal no depende slo de la varianza especfica de i =1 de la relacin i < j k lineal entre ambas variables. Si valores altos (o bajos) de y es una medida k que sta depende de las unidades de medida de las variables. Una medida alternativa del 2 2 2 = c i i + 2 c i c j {E ( X i X j ) i j }. tambin de los trminos E(XiXj) - ij, que se conocen como cada variable i , sino i =1 valores altos 1 i < j k (o bajos) de Y, la covarianza ser positiva; tienden de a asociarse con XeY es el coeficiente de grado de asociacin entre dos variables aleatorias As, laX varianza una combinacin lineal nolineal depende slo de la varianza especfica de 24 As, covarianzas la varianza de una combinacin lineal no depende slo de la varianza especfica de entre las variables Xi y Xj. En general, la covarianza poblacional entre dos cada 2 mientras si valores altos de una variable se relacionan con bajos de la otra correlacin poblacional , j) que se como As, laique varianza de una combinacin lineal no slo devalores la varianza especfica de , sino tambin de los trminos E (X depende se conocen como covarianzas entre xy sino tambin de los trminos E (X ,define que se conocen como cada variable iX i iX j) i j, jque la covarianza dos variables aleatorias X e Y las variables i y Xj. En general, X e Y con esperanzas x poblacional y y se defineentre como variablesXaleatorias 2 variable, la covarianza ser negativa. No obstante, resulta complicado determinar el y se define como con esperanzas , sino los trminos E(XiXj) ij,X que conocen cada variable 24 x i y covarianzas entre las variables Xitambin y Xj. Ende general, la covarianza poblacional doscomo cov( , Y )se entre xy = , y)} yx yde X, Ydos ) =E {(X x)( =la E(magnitud XY )x , la covarianza, ya cov( grado de relacin lineal entre variables aYpartir de lasesperanzas variables X yyX general, la covarianza poblacional entre dos e Y con se define como variables covarianzas aleatorias X entre ix j.yEn y es una medida de la relacin lineal entre ambas variables. Si valores altos (o bajos) de X quevariables sta depende de las unidades de medida de las variables. Una medida alternativa del y es una medida de la relacin lineal entre ambas variables. Si valores altos (o bajos)de decorrelacin las desviaciones tpicas X e Y.positiva; El coeficiente carece donde X e xYycon esperanzas definede como aleatorias tienden a asociarse con valores altos (o bajos) de Y, la covarianza ser mientras que si y son xy y se cov(X, Y) = E{(X - x)(Y - y)} = E(XY) - xy, valores altos de una variable se relacionan con valores bajos de la otra variable, la covarianza X tienden a asociarse conentre valores altos (o bajos) de Y, la covarianza positiva; de X etal Y es elser coeficiente grado de asociacin lineal dos variables aleatorias ser negativa. No obstante, resulta complicado determinar el grado de relacin entre dos xy = 1, las variables de unidades y toma valores entre -1 y 1; de forma que si lineal cov(X, Y) = E{(X - x)(Y - y)} = E(XY) - xy, y es una medida de la relacin lineal entre ambas variables. Sique valores altos (o bajos) deunidades de variables a partir de la magnitud de la covarianza, ya sta depende de las mientras que si valores altos de una variable se relacionan con valores bajos de la otra xy , que se define como correlacin poblacional medida de las variables. Una medida alternativa del grado de asociacin lineal entre dos las variables presentan una presentan una relacin lineal positiva perfecta, y si xy = -1, X tienden a asociarse con valores altos (o bajos) de Y , la covarianza ser positiva; y es una medida de la relacin lineal entre ambas variables. Si valores altos (o bajos) de , que se define como variables aleatorias X e Y es el coeficiente de correlacin poblacional xy variable, la covarianza ser negativa. No obstante, resulta complicado determinar el 25 cov( X , Y ) se mientras que si valores altos de una variable relacionan con valores bajos de la otra , xy = X tienden a asociarse con valores altos (o bajos) de Y , la covarianza ser positiva; grado de relacin lineal entre dos variables a partir de la magnitud de la covarianza, ya
x y
variable, la covarianza ser negativa. No resulta complicado determinar el de la mientras que si valores de obstante, una variable se relacionan con valores bajos otra que las altos unidades de medida de Una medida alternativa del de donde xsta y depende desviaciones tpicas de X elas Y . variables. El coeficiente de correlacin carece y son lasde unidades valores entre 1 y 1; de tal de forma que sicoeficiente xy = 1, las de variables presentan una xyytoma las desviaciones tpicas X emagnitud Y . El correlacin carece donde y son gradorelacin de relacin entre dos variables partir de la la covarianza, ya variable, la covarianza ser negativa. Nolas obstante, resulta complicado determinar el X ede Y es el coeficiente de negativa grado delineal asociacin lineal entre aleatorias =variables 1, variables presentan una relacin lineal lineal positiva perfecta, y si dos xya perfecta. Cuando xy = 0, se dice que las variables estn incorrelacionadas. Notar que si dos 1, las variables de depende unidades y toma valores entre y 1;las de tal forma que si xy = alternativa que sta las unidades medida de variables. Una del grado dede relacin lineal de entre dos variables aque partir la medida magnitud de la covarianza, yauna correlacin poblacional , que se define como xy variables son independientes, en el-1 sentido de el de conocimiento del valor que toma e Y es coeficiente de presentan grado presentan de asociacin lineal entre dos variables aleatorias que sta depende de las unidades de perfecta, medida de las variables. Una medida alternativa del =el -1, las variables una una relacin lineal positiva yX si Pastor-Barriuso R. cov( X , Y ) xy xy = , x y X e Y es el coeficiente de grado de asociacin lineal dos variables aleatorias correlacin poblacional xy, que se entre define como 25
37
xy
implica necesariamente ya en que variables correlacin se discutirnindependencia, en mayor detalle ellas Tema 10. podran presentar una = 0. de Este y otros aspectos sobre elentonces coeficiente de dependencia node lineal cuando xy La varianza una aun combinacin lineal variables aleatorias queda
correlacin se discutirn mayor detalle en el variable no aporta ningunaen informacin sobre elTema valor10. de la otra variable, entonces estn determinada por incorrelacionadas; pero que la incorrelacin no implica necesariamente independencia, ya que La varianza de una combinacin lineal de variables aleatorias queda entonces = 0. Este y otros las variables podran presentar una dependencia no lineal aun cuando xy k k 2 2 aspectos sobre el coeficiente correlacin se discutirn en mayor detalle en el Tema 10. ci X var de i = c i i + 2 c i c j cov( X i , X j ) determinada por 1 i < j k i =1 i =1 La varianza de una combinacin aleatorias queda E(X1 - X2) lineal = 1k - de 2 variables = 130 - 80 = 50 mm Hg entonces determinada por 2 2 = k ci i + 2 ci c j i j ij , k i =1 2 2 i < j k c iX X c + 21c X j) var i ic j cov( i, E (X == i2=i 130 80 = 50 mmX Hg 1 correlacin 2) 1 - entre y, teniendo en cuenta la ambas variables, la varianza de la 1 i < j k i =1 i =1
2 ij es elpulso coeficiente de correlacin entre Xi y X el caso de que las variables donde presin del vendra dada por = entre c i2 +2 cji.cEn y, teniendo en cuenta la correlacin la variables, i ambas j i j ij , varianza de la k i =1 1 i < j k
sean mutuamente independientes (bastara la condicin menos restrictiva de que 2 presin del pulso vendra dada2por var( X 1 - X2) = 1 + 2 - 21212 donde ij es el coeficiente de correlacin entre Xi y Xj. En el caso de que las variables sean donde ij es el coeficiente de correlacin entre dees que de las que variables i y Xj. En el caso estuvieran incorrelacionadas), la varianza de laX combinacin lineal mutuamente independientes (bastara la condicin menos restrictiva estuvieran 2 2 2 2 2 + 10 20 10 0,60 = 260 (mm Hg) , 20 var( X1 - X2) = la 2 - 2 incorrelacionadas), la varianza de lineal es 1 2 12 1 combinacin sean mutuamente independientes (bastara la condicin menos restrictiva de que k k 2 2 2 2 var c X ci = = += 10 -i 2mm 20 10 0,60 260 (mm Hg)2, i i . para una incorrelacionadas), desviacin tpica= 20 260 16,1 Hg. estuvieran la varianza de la combinacin lineal es i =1 i =1
Ejemplo 3.15 Supongamos que la media yk la desviacin tpica de la presin arterial para una desviacin tpica 260 16,1 mm k =para Hg. 2 2 Lossistlica resultados anteriores son vlidos cualquier Nomm obstante, poblacin 1 = 130 mm aleatoria. Hg y 1 = 20 Hg, y la media X1 en una determinada var cvariable ci X i son = i i . Ejemplo 3.15 Supongamos que la media y la desviacin tpica de la presin = 1 = 1 i i son = 80 mm Hg y 2 = 10 mm y la desviacin tpica de la presin arterial diastlica X E(X1 - X2) = 1 - 2 = 130 - 80 = 50 2 mm Hg 2 X , ..., X siguen una distribucin normal, puede probarse que la si las variables 1 anteriores kadems Supongamos que el coeficiente de entre arterial sistlica Los Hg. resultados son vlidos para cualquier aleatoria. No obstante, EX (X -X - correlacin 80variable = 50 mm Hg la presin 2) = 1 - 2 = 130 en una determinada poblacin son arterial sistlica 11 1 = 130 mm Hg y 1 = 20 El valor esperado de la presin del y diastlica de los sujetos de esta poblacin es 12 = 0,60. y, teniendo en la correlacin entre ambas variables, la varianza de la c1cuenta X + ... cuna seguir una distribucin normal con la sera combinacin lineal kXk tambin pulso, definida como la+diferencia la presin arterial diastlica, X1, ..., X1 siguen distribucin normal, puede sistlica probarse que si las variables k Ejemplo 3.15 Supongamos queentre la media y la desviacin tpica y de lala presin mm Hg, y la media y la desviacin tpica de la presin arterial diastlica y, teniendo en cuenta la correlacin entre ambas variables, la varianza de la X2 son 2 E ( X X 1 2 = 130 80 = 50 mm Hg 1 dada 2 ) =por presin del pulso vendra media y varianza descritas anteriormente. Este resultado se utilizar en los temas de c1X1 + X ... + ckXk tambin seguir una distribucin normal combinacin lineal determinada poblacin son 1 = 130 mmcon Hg la y 1 = 20 arterial sistlica 1 en una 2 =la 10 mmpor Hg. Supongamos quela elvarianza coeficiente = 80 mm Hg y presin del pulso vendra dada y, teniendo en cuenta correlacin entre ambasadems variables, de de la presin del 2 2 inferencia. y, teniendo en cuenta la correlacin entre ambas variables, la varianza de la pulso vendra dada por var( X X ) = + 2 media y varianza descritas anteriormente. Este resultado se utilizar en los temas de 1 2 la desviacin 1 de 2 12 1 2 tpica mm Hg, y la media y la presin arterial diastlica X2 son 2 correlacin entre la presin sistlica y diastlica de los sujetos de esta 2 arterial 2 var(X 1 X2) = 1 + 2 2 1 2 12 presin del pulso vendra dada 2 por 2 inferencia. + 10 22010adultas 0,60 = 260 (mm Hg)2, sigue = 20 2 Hg. 2 - mujeres mm adems que elpoblacin coeficiente de como = 80 mm Hg y 2 = 10 Ejemplo 3.16 El colesterol HDL las de una 22010 + en 10Supongamos 0,60 = 260 (mm Hg)2, definida = 20 El valor esperado de la presin del pulso, poblacin es 12 = 0,60.
2 var( X1 -la X2 )X= 12 arterial + 2 2 212 11,25 correlacin entre presin sistlica y diastlica de los sujetos de con media = mmol/l y desviacin tpica 1esta = una distribucin normal 1 HDL 1sistlica para una desviacin tpica = 16,1 mm Hg. Ejemplo 3.16 El colesterol en las mujeres adultas de una poblacin sigue la diferencia entre la presin arterial y diastlica, sera 260 = 16,1 mm
2 = 16,1 2 para una desviacin tpica 260 Hg. 26 12 =hombres 0,60. El valor esperado de la variable presin del pulso, definida como poblacin es + 10para 2mm 20 10 0,60 = 260 (mm Hg)2distribucin ,tpica =con 20 0,35 mmol/l, y en los adultos de dicha poblacin sigue una X1 media 1,25 mmol/l y desviacin 1 = una distribucin normal Los resultados anteriores son vlidos cualquier aleatoria. No obstante, si las 1= Los resultados son vlidos para cualquier variable aleatoria. No obstante, siguen una distribucin normal, puede probarse que la combinacin lineal variables X1, ..., Xanteriores k la diferencia entre la presin arterial y diastlica, sera XX 1,10 mmol/l ysistlica desviacin tpica 0,30 mmol/l. As, normal 2 con 2= 2= X1 0,35 + ... + c tambin seguir una distribucin normal conaleatoria. la media y varianza c1Los mmol/l, y media en lostpica hombres adultos de dicha poblacin sigue una No distribucin k k resultados anteriores son vlidos para cualquier variable obstante, descritas para una desviacin 260 = 16,1 mm Hg. X1, ..., Xk siguen distribucin normal, probarse que la si las variables Este anteriormente. resultado seuna utilizar en los temas de puede inferencia. 26 la diferencia del colesterol HDL entre las mujeres y los hombres de esta poblacin X con media = 1,10 mmol/l y desviacin tpica = 0,30 mmol/l. As, normal 2 2 2 si las variables X1, ..., Xk siguen una distribucin normal, puede probarse que la c1 X ... + cvlidos una distribucin con la sigue una combinacin lineal 1+ kXk tambin 3.16 El colesterol HDL enseguir las mujeres adultas de normal una No poblacin LosEjemplo resultados anteriores son para cualquier variable aleatoria. obstante, se distribuir segn una normal con media media 1 = 1,25 mmol/l y desviacin tpica distribucin normal X +con la diferencia HDL entre las mujeres los hombres de esta poblacin c1Xcolesterol ckX seguir una y distribucin normal con la0,35 mmol/l, combinacin linealdel 1 = 1 + ... 1 k tambin media y varianza descritas anteriormente. Este resultado se utilizar en los temas de y en los hombres adultos de dicha poblacin sigue una distribucin normal si las variables X1, ..., Xk siguen una distribucin normal, puede probarse que la X 2 con media = 1,10 mmol/l y(desviacin tpica = 0,30 As, mmol/l la diferencia del colesterol HDL 2varianza distribuir segn una con media mediase y descritas anteriormente. Este resultado utilizar en los temas de E X X2) = - 2 1,25 - mmol/l. 1,10 se = 0,15 2= 1 - normal 1 inferencia. entre las mujeres y los hombres de esta poblacin se distribuir segn una normal con media combinacin lineal c1X1 + ... + ckXk tambin seguir una distribucin normal con la inferencia. E(X1 X2 ) = 1 2 = 1,25 1,10 = 0,15 mmol/l y varianza media y varianza descritas anteriormente. Este resultado se utilizar en los temas de Ejemplo 3.16 El colesterol HDL en las mujeres adultas de una poblacin sigue y varianza 2 2 2 sigue 2 y varianza Ejemplo 3.16 ElX colesterol HDL en2las mujeres adultas de una poblacin X2) = inferencia. var( 1 + 2 = 0,35 + 0,30 = 0,213 (mmol/l) , X1 con media 1 = 1,25 mmol/l y desviacin tpica 1 = una distribucin 1 normal
38
media 1 = 21,25 mmol/l y desviacin tpica 1 = una distribucin normal X1 con 2 2 2 var( X X2) = 12 + adultos 2 = 0,35 + 0,30 = 0,213 (mmol/l) , 10,35 mmol/l, y en los dicha poblacin sigue una distribucin Ejemplo El colesterol enmmol/l, las de mujeres adultas de una poblacin sigue o desviacin tpica 0hombres ,213 HDL = 0,46 ya que los valores para distintos Pastor-Barriuso R. 3.16 0,35 mmol/l, y en los hombres adultos de dicha poblacin sigue una distribucin X2 con media 2X =1 1,10 mmol/l y= desviacin tpica 2 = 0,30 mmol/l. normal con media 1 1,25 y desviacin tpica 1As, = una distribucin normal sujetos son independientes y, consecuencia, mmol/l = 0. o desviacin tpica 0,213 = en 0,46 mmol/l, ya que valores para distintos 12 los
y varianza
Referencias
var(X1 - X2) = + = 0,35 + 0,30 = 0,213 (mmol/l) ,

2 1 2 2
o desviacin tpica 0,213 = 0,46 mmol/l, ya ya que que los los valores valorespara paradistintos distintos sujetos son independientes y, en consecuencia, 12 = 0.
sujetos son independientes y, en consecuencia, 12 = 0. 3.5REFERENCIAS
27 1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics, Volume 1, Second Edition. Upper Saddle River, NJ: Prentice Hall, 2001.
2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002. 3. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. 4. Feller W. An Introduction to Probability Theory and Its Applications, Volume 1, Third Edition. New York: John Wiley & Sons, 1968. 5. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 2006. 6. Stuart A, Ord JK. Kendalls Advanced Theory of Statistics, Volume 1, Distribution Theory, Sixth Edition. London: Edward Arnold, 1994.
Pastor-Barriuso R.
39
TEMA 4 PRINCIPIOS DE MUESTREO Y ESTIMACIN

4.1INTRODUCCIN Un primer paso en la realizacin de un estudio o proyecto de investigacin es definir la poblacin de la cual se desea conocer una determinada caracterstica o parmetro. Ocasionalmente, resulta factible obtener informacin para todos los elementos de la poblacin mediante registros o censos. Sin embargo, en la mayora de los estudios no es posible obtener informacin de toda la poblacin, por lo que debemos limitarnos a la recogida de datos en una pequea fraccin del total o muestra. La utilizacin de muestras presenta varias ventajas con respecto a la enumeracin completa de la poblacin: yy Coste reducido. Si los datos se obtienen de una pequea fraccin del total, los gastos se reducen. Incluso si la obtencin de informacin en toda la poblacin es factible, suele ser mucho ms eficiente la utilizacin de tcnicas de muestreo. yy Mayor rapidez. Los datos pueden ser ms fcilmente recolectados y estudiados si se utiliza una muestra que si se emplean todos los elementos de la poblacin. Por tanto, el uso de tcnicas de muestreo es especialmente importante cuando se necesita la informacin con carcter urgente. yy Mayor flexibilidad y mayores posibilidades de estudio. La disponibilidad de registros completos es limitada. Muy a menudo, la nica alternativa posible para la realizacin de un estudio es la obtencin de datos por muestreo. yy Mayor control de calidad del proceso de recogida de datos. Al recoger datos en un nmero menor de efectivos, resulta ms fcil recoger un nmero mayor de variables por individuo, as como tener un mejor control de la calidad del proceso de recogida de datos. Si se dispone de informacin para todas las unidades de la poblacin, el parmetro poblacional de inters quedar determinado con total precisin. Sin embargo, si se emplea nicamente una fraccin del total, el parmetro poblacional desconocido ha de estimarse a partir de la muestra, con el consiguiente error derivado tanto por el carcter parcial de la muestra como por su posible falta de representatividad poblacional. La teora de muestreo persigue un doble objetivo. Por un lado, estudia las tcnicas que permiten obtener muestras representativas de la poblacin de forma eficiente. Por otro lado, la teora de muestreo indica cmo utilizar los resultados del muestreo para estimar los parmetros poblacionales, conociendo a la vez el grado de incertidumbre de las estimaciones. As, la teora de muestreo pretende dar respuesta a varias preguntas de inters: yy Cmo se eligen a los individuos que componen la muestra? yy Cuntos individuos formarn parte de la muestra? yy Cmo se cuantifican las diferencias existentes entre los resultados obtenidos en la muestra y los que hubiramos obtenido si el estudio se hubiera llevado a cabo en toda la poblacin?
Principios de muestreo y estimacin
Estas cuestiones estn estrechamente relacionadas entre s. As, por ejemplo, al aumentar el tamao muestral aumenta la exactitud en las estimaciones. La determinacin del tamao muestral se tratar ms adelante (vase Tema 9). En el presente tema, se discuten los principales tipos de muestreo probabilstico, as como la estimacin en el muestreo aleatorio simple. Antes de ello, es conveniente revisar la definicin de algunos conceptos que se utilizan de forma repetida a lo largo del captulo: yy Poblacin o universo muestral es la coleccin de elementos o unidades de anlisis acerca de los cuales se desea informacin. Con frecuencia, no se puede obtener informacin de toda la poblacin, sino tan slo de unidades que cumplen una serie de caractersticas (criterios de inclusin/exclusin). La poblacin marco es aquella sobre la que es posible obtener informacin. La muestra se obtiene de la poblacin marco, por lo que debe recordarse que las conclusiones extradas de la muestra son generalizables a la poblacin marco y no necesariamente a la poblacin de inicio o universo. yy Dentro del proceso de seleccin de una muestra, la poblacin suele dividirse en unidades de muestreo, que deben constituir una particin de toda la poblacin. Estas unidades de muestreo pueden coincidir con las unidades de anlisis, pero tambin pueden estar constituidas por un conjunto de distintas unidades de anlisis. Ejemplo 4.1 Supongamos que se desea estudiar la capacidad funcional de una poblacin de ancianos institucionalizados. Para ello, se dispone de un lista de residencias, algunas de las cuales se seleccionan para el estudio. Dentro de cada residencia seleccionada, se eligen a su vez algunos ancianos que formarn parte de la muestra definitiva. En tal caso, la seleccin de la muestra se habra realizado en dos etapas: las residencias constituiran las unidades de muestreo de primera etapa y los ancianos (unidades de anlisis) seran las unidades de muestreo de segunda etapa. yy Muestreo probabilstico es aquel en que todas las unidades de la poblacin tienen una probabilidad conocida y no nula de ser seleccionadas para la muestra. El muestreo probabilstico minimiza la probabilidad de sesgos (si el tamao muestral no es muy limitado, la muestra ser muy probablemente representativa de la poblacin) y permite cuantificar el error cometido en las estimaciones como consecuencia de la variabilidad aleatoria. La teora del muestreo se basa fundamentalmente en el muestreo probabilstico, ya que otros tipos de muestreo (de conveniencia, por cuotas) estn sujetos a una mayor probabilidad de sesgos y es ms difcil extrapolar los resultados a la poblacin. yy En el muestreo con reposicin, cada vez que se elige un nuevo elemento muestral se dispone de toda la poblacin para realizar la seleccin, mientras que en el muestreo sin reposicin los elementos que ya han aparecido en la muestra no estn disponibles para ser elegidos de nuevo. En el muestreo con reposicin, por tanto, una unidad poblacional puede aparecer ms de una vez en la muestra. En la prctica, el muestreo suele realizarse sin reposicin. No obstante, si el tamao de la poblacin es muy grande con respecto al tamao muestral, la probabilidad de que un elemento de la poblacin sea elegido ms de una vez en la muestra es tan pequea que ambos tipos de muestreo son similares. 4.2 PRINCIPALES TIPOS DE MUESTREO PROBABILSTICO En este apartado se describen brevemente los principales procedimientos probabilsticos de seleccin de muestras, tales como los muestreos aleatorio simple, sistemtico, estratificado, por
Principales tipos de muestreo probabilstico
conglomerados y polietpico. Un tratamiento ms extenso de estos procedimientos puede encontrarse en los libros de muestreo referenciados al final del tema. 4.2.1 Muestreo aleatorio simple El muestreo aleatorio simple es el ms sencillo y conocido de los distintos tipos de muestreo probabilstico. Supongamos que se pretende seleccionar una muestra de tamao n a partir de una poblacin de N unidades. Un muestreo aleatorio simple es aquel en el que cualquier subconjunto de tamao n tiene la misma probabilidad de ser seleccionado. Puede probarse que el muestreo aleatorio simple es un procedimiento equiprobabilstico; es decir, todas las unidades de la poblacin tienen la misma probabilidad n/N de ser elegidas en la muestra. Para la seleccin de una muestra aleatoria simple, se enumeran previamente las unidades del universo o poblacin de 1 a N y a continuacin se seleccionan n nmeros distintos entre 1 y N utilizando algn procedimiento aleatorio, tpicamente mediante una tabla de nmeros aleatorios o un generador de nmeros aleatorios por ordenador. yy Las tablas de nmeros aleatorios son tablas con los dgitos 0, 1, 2, ..., 9, donde cada dgito tiene la misma probabilidad de ocurrir y el valor de un dgito concreto es independiente del valor de cualquier otro dgito de la tabla. En la Tabla 4 del Apndice se facilitan 1000 dgitos aleatorios. yy La mayora de los programas de anlisis estadstico contienen generadores de nmeros aleatorios. Estos generadores producen grandes secuencias de dgitos pseudoaleatorios, que satisfacen aproximadamente las mismas propiedades de aleatoriedad enunciadas anteriormente. Ejemplo 4.2 Supongamos que, en el ejemplo anterior, se dispone de una lista completa de los N = 875 ancianos institucionalizados en dicha poblacin, de los cuales se desean seleccionar n = 10. La seleccin de una muestra aleatoria simple de este tamao puede realizarse a partir de la Tabla 4 del Apndice como sigue. Comenzando en cualquier lugar de esta tabla y leyendo grupos de 3 dgitos en cualquier direccin, seleccionar los 10 primeros nmeros distintos entre 1 y 875. Por ejemplo, empezando en el primer dgito de la tercera fila y de izquierda a derecha, estos nmeros son: 339, 117, 619, 68, 440, 788, 696, 716, 183 y 546. Notar que los nmeros 897 y 898 han sido descartados por ser superiores a N = 875. La muestra aleatoria simple estara as constituida por aquellos ancianos de la poblacin numerados previamente por estos 10 valores. Puede probarse que, como el muestreo aleatorio simple es un procedimiento equiprobabilstico, una media o una proporcin poblacional se estiman simplemente mediante la media o proporcin muestral. La estimacin de parmetros poblacionales a partir de una muestra aleatoria simple, as como la varianza o error de las estimaciones, se discutir en detalle al final de este tema. 4.2.2 Muestreo sistemtico En ocasiones, la numeracin consecutiva de las unidades de la poblacin y la posterior seleccin de una muestra aleatoria simple resultan muy laboriosas. En tales circunstancias, un procedimiento alternativo ms sencillo es el llamado muestreo sistemtico. Bajo este procedimiento, no siempre es necesario numerar previamente los elementos de la poblacin, sino que basta con disponer de alguna ordenacin explcita (por ejemplo, orden de archivo de historias clnicas o visitas sucesivas de pacientes a una consulta mdica).
Para la seleccin de una muestra sistemtica de tamao n de una poblacin de N unidades, se elige aleatoriamente un nmero de arranque r entre 1 y k, donde k es la parte entera de N/n, y a partir del elemento que ocupa el lugar r, se toman los restantes elementos en intervalos de amplitud k hasta completar la muestra deseada. As, la muestra estar constituida por los elementos ordenados en los lugares r, r + k, r + 2k, ..., r + (n 1)k. Como en general N no es mltiplo de n, este mtodo de seleccin no es necesariamente equiprobabilstico (si N/n no es un nmero entero, las unidades comprendidas entre los lugares nk + 1 y N nunca podrn formar parte de la muestra). Una modificacin a este procedimiento, que garantiza la obtencin de una muestra equiprobabilstica, consiste en seleccionar el nmero aleatorio de arranque r entre 1 y N, y tomar cada k-sima unidad a partir de ah, continuando en el primer elemento al alcanzar el final de la lista. Ejemplo 4.3 Para seleccionar una muestra sistemtica de tamao n = 10 de la poblacin de N = 875 ancianos institucionalizados, se calcula primero la amplitud del intervalo de seleccin como la parte entera de N/n = 875/10 = 87,5; es decir, k = 87. Si se seleccionara el nmero de arranque r entre 1 y 87, el ltimo anciano seleccionado ocupara en el lugar r + (n 1)k = r + (10 1)87 = r + 783, que sera siempre inferior o igual a 870 (dado que r 87). En consecuencia, los ancianos en los lugares 871 a 875 nunca podran formar parte de la muestra. Para asegurar un muestreo equiprobabilstico, el nmero de arranque se selecciona aleatoriamente entre 1 y 875. Suponiendo que este nmero de arranque fue r = 427 y tomando intervalos de amplitud k = 87, la muestra sistemtica quedara integrada por aquellos ancianos en los lugares 427, 514, 601, 688, 775, 862, 74, 161, 248 y 335. En el muestreo sistemtico, la ordenacin de los elementos de la poblacin determinar las posibles muestras. En consecuencia, este orden ha de estar exento de cualquier periodicidad relacionada con las variables a estudio. As, por ejemplo, si para estimar el nivel de contaminacin atmosfrica en una ciudad se toma una muestra sistemtica de das con k = 7, la muestra estar formada por los mismos das de la semana y presentar un claro sesgo por falta de representatividad. No obstante, estas periodicidades son muy infrecuentes en la prctica y pueden solventarse con facilidad (en el ejemplo anterior, bastara con utilizar un intervalo de seleccin distinto de 7). En general, si la ordenacin de las unidades de la poblacin es esencialmente aleatoria, la estimacin de parmetros y sus correspondientes errores en un muestreo sistemtico se realiza igual que en un muestreo aleatorio simple. 4.2.3 Muestreo estratificado En los muestreos anteriores, las muestras se seleccionan por procedimientos puramente aleatorios. As, si el tamao muestral es suficientemente grande, la muestra ser muy probablemente representativa de la poblacin. Sin embargo, no existe una garanta absoluta de que la muestra finalmente seleccionada sea representativa para cualquier variable de inters. Cuando se desea asegurar la representatividad de determinados subgrupos o estratos de la poblacin, la alternativa ms sencilla es seleccionar por separado distintas submuestras dentro de cada estrato. Este procedimiento de seleccin se conoce como muestreo estratificado. Los estratos han de definir subgrupos de poblacin que sean internamente homogneos con respecto a la caracterstica o parmetro de inters y, por tanto, heterogneos entre s. En la prctica, los estratos se definen en funcin de variables fciles de medir previamente y relevantes para el tema objeto de estudio (por ejemplo, edad, sexo, raza o rea geogrfica de residencia). En general, el nmero de estratos ha de ser reducido (rara vez resulta eficiente utilizar ms de 5 estratos) y el tamao por estrato no debe ser muy pequeo.
respectivamente, cuya suma ser igual al tamao total n de la muestra. La seleccin dentro de cada estrato suele realizarse por muestreo aleatorioPrincipales simple o sistemtico, y el tipos de muestreo probabilstico procedimiento se denomina entonces muestreo aleatorio estratificado. Para la una muestra de tamao n, lase poblacin de unidades se En elseleccin muestreode estratificado, esestratificada necesario determinar cmo distribuye elN tamao divide en K estratos de tamaos N1, N2, ..., NK, cuya suma es igual a N. Los estratos son mutuamente excluyentes y distintos exhaustivos, de tal formalaque cada elemento de la poblacin muestral total n entre los estratos; es decir, asignacin de los tamaos pertenece a uno y slo a uno de los estratos. Una vez determinados estos estratos, se selecciona ..., nK, respectivamente, pormuestrales separado una muestra de cada estrato de tamao n1, n2,de asignacin en funcin cuya del suma n1 , n 2, ..., nK. Aunque existen distintos tipos ser igual al tamao total n de la muestra. La seleccin dentro de cada estrato suele realizarse portamao muestreo aleatoriopor simple o sistemtico, y el procedimiento denomina entonces muestreo y varianza estrato (vase referencias al final del se tema), nos limitaremos aqu aleatorio estratificado. a lael asignacin proporcional , que es el procedimiento utilizado con mayor frecuencia. En muestreo estratificado, es necesario determinar cmo se distribuye el tamao muestral total n entre los distintos estratos; es decir, la asignacin de los tamaos muestrales n1, n2, ..., nK. En la asignacin proporcional, muestra total reparte entre los estratos de forma Aunque existen distintos tipos delaasignacin en se funcin del tamao y varianza por estrato (vase referencias al final del tema), nos limitaremos aqu a la asignacin proporcional, que es proporcional alutilizado tamao de cada estrato en la poblacin. As, comoproporcional la proporcin el procedimiento con mayor frecuencia. En la asignacin , la muestra total se reparte entre los estratos de forma proporcional al tamao de cada estrato en la poblacin. poblacional en cada estrato es Nk/N, el cada tamao muestral del k-simo ser del estrato /N, estrato el tamao muestral As, como la proporcin poblacional en estrato es Nk k-simo ser nk = n
Nk . N
Resulta inmediato probar que esta asignacin da lugar a una muestra equiprobabilstica. Resulta inmediato probar que esta asignacin da lugar a una muestra equiprobabilstica. Ejemplo 4.4 La capacidad funcional de los ancianos disminuye en gran medida con la edad. Supongamos que, de los N = 875 ancianos institucionalizados, se sabe que el 60% Ejemplo 4.4 funcional de los ancianos disminuye gran medida 525) y el restante 40% tienen 75 o en ms aos (N2 = 350). tienen menos deLa 75capacidad aos (N1 = Para simplificar la exposicin, supongamos adems que los ancianos menores de 75 aos institucionalizados, con la edad.aSupongamos que, denmeros los N = 875 corresponden los primeros 525 de ancianos la lista. As, de los n = 10se ancianos seleccionados por muestreo aleatorio simple en el Ejemplo 4.2, la mitad resultaron ser sabe que tienen 75 aos (N1 = 525) y el restante 40% tienen 75 aos o mayores de el 7560% aos. Esto menos es, por de simple variabilidad aleatoria, los mayores de 75 estn ligeramente sobrerrepresentados en la muestra y, en consecuencia, la capacidad ms aos (N2 = 350). Para la exposicin, supongamos adems que los funcional media obtenida de simplificar esta muestra podra infraestimar la verdadera capacidad funcional de los ancianos institucionalizados. Para asegurar una mejor representatividad ancianos de 75 aos corresponden aestratificado los primeroscon 525 nmeros de la lista. muestral pormenores edad, podra realizarse un muestreo asignacin proporcional a ambos estratos de edad. Es decir, de la muestra de tamao n = 10, seleccionaramos 6 muestreo simple en aos el (n = As, demenores los n = 10 100,6 = 6) yaleatorio 4 mayores de 75 ancianos deancianos 75 aos seleccionados (n1 = nN1/N = por 2 nN2/N = 100,4 = 4). Utilizando un muestreo aleatorio simple dentro de cada estrato, los Ejemplo seleccionados 4.2, la mitad resultaron mayores 75 493, aos.24, Esto es, por 6 nmeros entre 1 yser 525 fueron de 505, 402, 371simple y 265, y los 4 nmeros seleccionados entre 526 y 875 fueron 851, 820, 717 y 696. La muestra estratificada variabilidad aleatoria, los mayores deancianos 75 aos estn ligeramentea dichos nmeros. proporcional estara formada por los 10 correspondientes 9 Cabe resear aqu dos caractersticas importantes del muestreo estratificado. Por un lado, la asignacin proporcional es la nica que produce muestras equiprobabilsticas y, en consecuencia, la media y proporcin poblacional se estiman mediante la media y la proporcin muestral. Para cualquier otra asignacin, la estimacin de parmetros poblacionales requiere de la inclusin de pesos para cada observacin muestral (tpicamente, el inverso de la probabilidad de seleccin). Por otra parte, para un mismo tamao muestral, el muestreo estratificado facilita estimaciones ligeramente ms precisas (con menor error) que el muestreo aleatorio simple. Este resultado es debido a que, cuanto ms homogneos sean los estratos, ms precisas sern las estimaciones en dichos estratos y esto redundar en una mayor precisin de las estimaciones para toda la poblacin.
4.2.4 Muestreo por conglomerados La aplicacin de los diseos muestrales anteriores requiere de la enumeracin u ordenacin de todos los elementos de la poblacin. Sin embargo, a menudo no se dispone de una lista completa o, aun disponiendo de tal lista, resulta muy costoso obtener informacin de las unidades muestreadas. Por ejemplo, si se seleccionara una muestra aleatoria simple de 1000 individuos de una gran ciudad, los individuos seleccionados estaran muy dispersos y la recogida de informacin sera extraordinariamente laboriosa. En tales circunstancias, una alternativa consiste en clasificar a la poblacin en grupos o conglomerados, para as seleccionar una muestra de estos conglomerados y despus tomar a todas o a una parte de las unidades incluidas dentro de los conglomerados seleccionados. Este mtodo de seleccin se denomina muestreo por conglomerados y presenta dos ventajas fundamentales: yy Este muestreo es la nica alternativa posible cuando no se dispone de una lista con todas las unidades de la poblacin. En el muestreo por conglomerados, nicamente es necesario contar con listas de las unidades que integran los conglomerados seleccionados. yy Aun cuando otras tcnicas de muestreo sean posibles, con frecuencia el muestreo por conglomerados resulta ms econmico, ya que las unidades muestrales estn concentradas en los conglomerados seleccionados. Notar que, a diferencia de la estratificacin, donde interesa que los estratos sean lo ms homogneos posible, los conglomerados deben ser heterogneos: en cada conglomerado debe haber unidades representativas de toda la poblacin, de lo contrario se perdera informacin al seleccionar nicamente algunos de ellos. El nmero de conglomerados es tpicamente elevado, de los cuales suele seleccionarse un nmero relativamente pequeo para resolver el problema de la dispersin muestral. Supongamos que se pretende extraer una muestra de tamao n a partir de una poblacin de N unidades agrupadas en M conglomerados de tamaos N1, N2, ..., NM. Entre los distintos mtodos de seleccin por conglomerados, el muestreo por conglomerados con probabilidad proporcional a su tamao resulta particularmente til en la prctica. Para llevar a cabo este muestreo, se procede como sigue: 1. Ordenar arbitrariamente los conglomerados y calcular los tamaos acumulados. Estos tamaos acumulados delimitarn, para cada conglomerado, un rango de valores de amplitud igual a su tamao poblacional. 2. Si se pretende seleccionar m conglomerados, extraer una muestra sistemtica de tamao m entre 1 y N. Los conglomerados seleccionados sern aquellos cuyo rango incluya alguno de los valores muestreados. 3. Dentro de cada conglomerado seleccionado, obtener una muestra aleatoria simple o sistemtica de tamao n/m. Ejemplo 4.5 Con cualquiera de las tcnicas de muestreo utilizadas en los ejemplos anteriores, la muestra incluira muy probablemente ancianos institucionalizados en mltiples residencias, con el consiguiente inconveniente en la recogida de informacin. Supongamos que los N = 875 ancianos institucionalizados se encuentran distribuidos en M = 15 residencias con los tamaos especificados en la Tabla 4.1. Para optimizar el trabajo de campo, se decide extraer la muestra de tamao n = 10 a partir de m = 2 residencias (conglomerados) seleccionadas con probabilidades proporcionales a sus tamaos.
Principales tipos de muestreo probabilstico
Tabla 4.1 Distribucin del nmero de ancianos institucionalizados por residencia.

Residencia (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Tamao (Ni) 50 30 35 70 55 45 125 80 20 100 65 35 40 75 50 Tamao acumulado 50 80 115 185 240 285 410 490 510 610 675 710 750 825 875 Rango asignado 1 50 51 80 81 115 116 185 186 240 241 285 286 410 411 490 491 510 511 610 611 675 676 710 711 750 751 825 826 875
En primer lugar, se asigna a cada residencia un rango de valores de amplitud igual a su tamao (Tabla 4.1). A continuacin, se extrae una muestra sistemtica de tamao 2 entre 1 y 875: si el nmero de arranque result ser 316, los valores muestreados son 316 y 753 (ver apartado de muestreo sistemtico). As, como el valor 316 est incluido dentro del rango asignado a la residencia 7 y el valor 753 en el rango de la residencia 14, resultan seleccionadas las residencias 7 y 14. Para completar la muestra de n = 10 ancianos, se extraen finalmente muestras aleatorias simples de tamao n/m = 10/2 = 5 de las residencias 7 y 14. De los 125 ancianos institucionalizados en la residencia 7, se seleccionaron los nmeros 74, 23, 104, 111 y 57; y de los 75 ancianos de la residencia 14, los nmeros 38, 51, 25, 34 y 41. En conclusin, la muestra total estar formada por los ancianos listados en los lugares 74, 23, 104, 111 y 57 de la residencia nmero7, ms aquellos que ocupan los lugares 38, 51, 25, 34 y 41 de la residencia nmero 14. El muestreo por conglomerados con probabilidades proporcionales a sus tamaos facilita muestras equiprobabilsticas, as la media y la proporcin poblacional pueden estimarse mediante sus correspondientes funciones muestrales. En general, para un tamao muestral constante, la precisin de las estimaciones en un muestreo por conglomerados es menor que en un muestreo aleatorio simple. Las unidades de un mismo conglomerado suelen estar correlacionadas y, en consecuencia, aportan menos informacin que los elementos seleccionados de forma ms dispersa mediante un muestreo aleatorio simple. 4.2.5 Muestreo polietpico Los diseos muestrales empleados en la prctica se realizan combinando las tcnicas descritas anteriormente. En muchas situaciones, resulta ms apropiado obtener la muestra final en diferentes etapas o pasos. En un muestreo polietpico, la poblacin se divide en grupos exhaustivos y mutuamente excluyentes, que constituyen las llamadas unidades de primera etapa; cada una de ellas se desagrega a su vez en subgrupos o unidades de segunda etapa, y as sucesivamente, hasta llegar en una ltima etapa a los elementos o unidades de anlisis. La seleccin de unidades en cada una de las etapas se realiza mediante una tcnica de muestreo diferente y la muestra final ser la resultante de aplicar sucesivamente cada una de estas tcnicas.
Ejemplo 4.6 En el ejemplo anterior se seleccionaron 2 de las 15 residencias y, dentro de cada residencia seleccionada, se eligieron a su vez 5 ancianos para formar la muestra definitiva. Este procedimiento de seleccin es, de hecho, un muestreo bietpico: las residencias constituiran las unidades de muestreo de primera etapa y los ancianos seran las unidades de muestreo de segunda etapa. Una tcnica de muestreo en etapas que se emplea con cierta frecuencia es el muestreo estratificado polietpico. Bajo esta tcnica, las unidades de primera etapa se clasifican en distintos estratos y, dentro de cada estrato, se selecciona al menos una de sus unidades de primera etapa. La muestra final resultar de aplicar sucesivas etapas de muestreo dentro de las unidades de primera etapa seleccionadas en cada estrato. Este muestreo permite obtener una mayor representatividad muestral al seleccionar unidades dentro de todos los estratos. Ejemplo 4.7 Supongamos que, de las 15 residencias listadas en la Tabla 4.1, las residencias 4, 7, 8, 10 y 14 son pblicas, con un total de 450 ancianos (51,4%), y las restantes 10 residencias son privadas, con un total de 425 ancianos (48,6%). En el Ejemplo 4.5, las 2 residencias seleccionadas (7 y 14) fueron pblicas; es decir, la muestra final no incluy a ningn anciano institucionalizado en residencias privadas. Para garantizar la representatividad de los ancianos institucionalizados tanto en residencias pblicas como privadas, bastara con seleccionar una residencia de cada uno de estos estratos. En la Tabla 4.2, se muestran las 15 residencias reorganizadas segn su carcter pblico o privado. Para las residencias pblicas, se escogi aleatoriamente el nmero 20 entre 1 y 450, resultando as seleccionada la residencia 4, cuyo rango incluye dicho nmero. Para las residencias privadas, se extrajo aleatoriamente el nmero 326 entre 1 y 425, resultando seleccionada la residencia 12. A continuacin, se procedera a escoger aleatoriamente 5 ancianos de estas 2 residencias. Notar que, como ambos estratos tienen aproximadamente el mismo tamao, la muestra resultante sera equiprobabilstica. Apuntar, por ltimo, que en la mayora de los muestreos polietpicos el error muestral es sensiblemente superior al de un muestreo aleatorio simple, debido principalmente a la correlacin entre los elementos que integran las unidades de primera etapa. Tabla 4.2 Distribucin del nmero de ancianos institucionalizados en residencias pblicas y privadas.
Residencia (i) Pblica 4 7 8 10 14 Privada 1 2 3 5 6 9 11 12 13 15
Tamao (Ni) 70 125 80 100 75 50 30 35 55 45 20 65 35 40 50
Tamao acumulado 70 195 275 375 450 50 80 115 170 215 235 300 335 375 425
Rango asignado 1 70 71 195 196 275 276 375 376 450 1 50 51 80 81 115 116 170 171 215 216 235 236 300 301 335 336 375 376 425
puede realizarse con mltiples propsitos, nos centraremos aqu en la estimacin de una media y de una proporcin poblacional.
Estimacin en el muestreo aleatorio simple
4.3 ESTIMACIN EN EL de MUESTREO 4.3.1 Estimacin puntual una media ALEATORIO poblacional SIMPLE
Una vez descritas principales tcnicas de muestreo probabilstico, nos ocuparemos a Supongamos que las x1 , x 2, ..., xn son los valores obtenidos en una muestra de tamao n continuacin de la estimacin de parmetros poblacionales. En adelante, se asume que la muestra se ha obtenido un muestreo simple a partir de Un una poblacin de parmetro poblacional se le denomina estimador , y al resultado de aplicar dicha para una variable con mediante media poblacional y aleatorio varianza 2 desconocidas. estimador tamao esencialmente infinito. funcin a una determinada muestra se lemedia llama muestral estimacin . An cuando elconocimiento muestreo El clculo del valor exacto de unes parmetro poblacional requiere del del la natural de la media poblacional valor de la variable objeto de estudio para todos y cada uno de los elementos de la poblacin. puede con mltiples propsitos, centraremos aqu en la no estimacin de una Como se realizarse ha comentado anteriormente, en la nos mayora de las ocasiones se dispone de esta n 1 1.2 MEDIDASsino DE TENDENCIA CENTRAL informacin, que se cuenta tan slo con una muestra. A la funcin de los valores de una x = xi . media y de una proporcin poblacional. 1.2 MEDIDAS DE TENDENCIA CENTRAL n muestra que permite hacerse una idea acerca del valor del parmetro poblacional se le denomina i =1 estimador , y al resultado de aplicar dicha funcin a una muestra se le llama Las medidas de tendencia central informan acerca de cul es eldeterminada valor ms representativo estimacin . An cuando el muestreo puede realizarse con mltiples propsitos, nos centraremos 4.3.1 Estimacin puntual de completamente una media poblacional Las medidas de tendencia central informan acerca de cul es el valor ms representativo Esta media muestral quedar determinada una vez obtenida la muestra, aqu en la estimacin de una media y de una proporcin poblacional. de una determinada variable o, dicho de forma equivalente, estimadores indican 1.2estos MEDIDAS DE TENDENCIA CENTRAL x , x , ..., x son los valores obtenidos en una muestra de tamao n Supongamos que de una o, 1variable 2 n dicho de forma equivalente, estos estimadores indican pero eldeterminada valor de la estimacin variar en funcin de la muestra seleccionada. As, la alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia 4.3.1 Estimacin puntual de una media poblacional Las2medidas de tendencia central informan acerca de c para una variable con media poblacional una y varianza aleatoria, desconocidas. Un estimador alrededor de qupuede valor se agrupan los datos observados. Las medidas de valor tendencia media muestral considerarse como variable cuyo depender central de la muestra sirven tanto para resumir los resultados observados como para n para una Supongamos que x1, x2, ..., xn son los valores obtenidos en una muestra de tamao de una determinada variable o, dicho de forma equival central de sirven tanto para los resultados observados como para es laresumir media muestral natural dela lamuestra media poblacional Un estimador natural de lan media variable con media poblacional y varianza 2 desconocidas. de la muestra finalmente seleccionada sobre todas las posibles muestras de tamao de realizar inferencias acerca de los parmetros poblacionales correspondientes. A poblacional es la media muestral alrededor de qu valor se agrupan los datos observado realizar inferencias acerca de los parmetros poblacionales correspondientes. A n la poblacin de referencia. A la distribucin de los valores de x sobre todas las posibles 1.2 MEDIDAS DE TENDENCIA CENTRAL 1 continuacin se describen los principales estimadores de la tendencia de una x = x i . central de la central muestra sirven tanto para resumir los resu n i =1 continuacin se describen los principales estimadores de la tendencia central de una distribucin muestral de x . Las razones muestras central del mismo tamao se lede denomina Las medidasvariable. de tendencia informan acerca cul es el valor ms representativo Esta media muestral quedar completamente determinada una obtenidaacerca la muestra, el realizarvez inferencias de lospero parmetros poblacion variable. valor de la estimacin variar en funcin de la muestra seleccionada. As, la media muestral Esta media muestral quedar completamente determinada una vez obtenida la muestra, tericas queo, justifican utilizacin de la media muestral como estimador de la media de una determinada variable dicho dela forma equivalente, estos estimadores indican puede considerarse como una variable aleatoria, cuyo valor depender de la muestra finalmente 1.2.1 Media aritmtica continuacin se describen los principales estimadores seleccionada de entre todas las posibles muestras de tamao n de la poblacin de referencia. 1.2.1 Media aritmtica pero el valor de la estimacin variar en funcin de la muestra seleccionada. As, la frente a datos otros observados. posibles estimadores, se basan en esta distribucin muestral. A alrededor de qu poblacional, valor se agrupan los Las medidas de tendencia todas las posibles muestras delde mismo lamedia distribucin de los valorespor de x ,sobre La aritmtica, denotada se define como la suma de los tamao se le variable.cada uno denomina distribucin muestral de xcomo ., Las razones tericas quede justifican lade utilizacin de la La media aritmtica, denotada por se define como la suma cada los media muestral puede considerarse una variable aleatoria, cuyo valor depender A partir de los resultados el valor esperado de launo distribucin central de la muestra sirven tanto para resumirdel los Apartado resultados3.4, observados como para media muestral como estimador de la media poblacional, frente a otros posibles estimadores, se valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos 1.2.1 Media aritmtica basan enmuestra esta distribucin muestral. de la seleccionada sobre las posibles muestras de tamao n de valores muestrales dividida por el nmero de todas observaciones realizadas. Si denotamos x finalmente es muestral realizar inferencias acerca de de los parmetros poblacionales correspondientes. A por nA el tamao muestral y por xiApartado el valor observado para el sujeto i-simo, i = 1,muestral ..., n, de es partir de los resultados del 3.4, el valor esperado de la distribucin La media aritmtica, denotada por x , se define como x sobre todas las la poblacin de muestral referencia. A la de los valores por n el tamao y por xidistribucin el valor observado para el de sujeto i-simo, i= 1, posibles ..., n, continuacin se describen los principales estimadores de n la tendencia central de una la media vendra dada por 1 1 n muestrales dividida por el nmero de observac E ( xi ) = ; E( x ) = E x i = valores la media vendra dada por se le denomina distribucin muestral de x . Las razones muestras del mismo tamao n n i i = 1 = 1 variable. por n el estn tamao muestral y por xi el x +variable x 2 + ... +aleatoria x 1 n cualquier n es tericas decir, las medias muestrales centradas alrededor devalor su observado pa que justifican laxutilizacin de 1 la media muestral como estimador de la media . = de x i n= ... + x n x1 + 1 n n x 2 +equivalente, 1dicho i =de verdadera poblacional las medias muestrales 1.2.1 Media aritmtica es decir, media las medias muestrales cualquier variable aleatoria estn centradas alrededorno . vendra = = forma xo, x i de la media dada por n n 1 sobreestiman nifrente infraestiman la media poblacional. En trminos estadsticos, poblacional, a otros sistemticamente posiblesi =estimadores, se basan en esta distribucin muestral. es un estimador centrado o insesgado de . La conveniencia de utilizar se dice entonces que La media aritmtica, denotada por x , se define como la suma de cada uno de los demedia su verdadera media poblacional o, dicho deutilizada forma equivalente, las medias muestrales La es la medida de tendencia central ms y de ms fcil estimadores insesgados parece clara ya que, en caso contrario, las del parmetro x + x 2 + ... 1 n A partir de resultados del Apartado 3.4, el valor esperado de la fcil distribucin La media eslos la medida de tendencia central ms utilizada y deestimaciones ms = x xi = 1 poblacional estaran sistemticamente sesgadas respecto a su verdadero valor. Otras medidas valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos n i =1 n interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su muestrales de tendencia central, como la mediana o la media geomtrica, son en general x es muestral 16 interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su estimadores sesgados de la media poblacional. por n el tamao muestral y por x el valor observado para el sujeto i -simo, i = 1, ..., n , i principal limitacin es que est muy influenciada por los valores extremos y, en este La media es la medida de tendencia central ms uti principal limitacin es que est muy influenciada por los valores extremos y, en este n n 1 1 la media vendra por fiel Supongamos el grupo control del estudio constituye toda la Ejemplo 4.8 ) que = xi = E (la xi ) = EURAMIC ; E( xde caso,dada puede no ser un reflejo laE tendencia central de distribucin. interpretacin. Corresponde al centro de gravedad d n n i =1 i =1 poblacin o universo a estudio, cuya media poblacional del colesterol HDL es caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. = 1,09 mmol/l. x1 + x 2 + ... + x n 1 n principal limitacin es que est . = x x iy= Ejemplo 1.4 En este en los sucesivos ejemplos sobre estimadores muestrales, se muy influenciada por l es decir, las medias n i =1 muestrales de n cualquier variable aleatoria estn centradas alrededor Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se caso, puede no ser un fielPastor-Barriuso reflejo centra R. tendencia 49 utilizarn los valores colesterol obtenidos los 10 primeros sujetos del de la de su verdadera media del poblacional o,HDL dicho de formaen equivalente, las medias muestrales utilizarn los valores delms colesterol HDL obtenidos La media es la medida de tendencia central utilizada y de ms fcilen los 10 primeros sujetos del estudio European Study on Antioxidants, Myocardial Infarction and Cancer of Ejemplo 1.4 En este y en los sucesivos ejemplos
realizar inferencias acerca de los parmetros se describen los principales estimadores de la tendencia central de poblac una realizar continuacin inferencias acerca de los parmetros poblacionales correspondientes. A variable. continuacin se describen Principios de muestreo y estimacin
continuacin principales los principales estimadores dese la describen tendencia los central de una estimador
variable. variable. 1.2.1 Media aritmtica A partir de esta poblacin, se obtienen 1000 muestras aleatorias simples de tamao n = 10 aritmtica del colesterol HDL. El histograma y, en cada una Media deLa ellas, se calcula la media muestral media aritmtica, denotada por 1.2.1 x, seMedia define como la suma de cada uno de los 1.2.1 aritmtica de estas medias muestrales se representa en la Figura 4.1(a), que constituye una La media aritmtica, denotada por x Si , se define com ., Como puede apreciarse, los valores de los aproximacin a la distribucin muestral de x La media aritmtica, denotada por se define como la suma de cada uno valores muestrales dividida por el nmero de observaciones realizadas. denotamos difieren entre las distintas muestras, pero su distribucin conjunta est centrada alrededor valores muestrales dividida por nmero de de la verdadera poblacional por = 1,09 mmol/l (lnea vertical en realizadas. trazo discontinuo). por n el tamao muestral por xi el valor observado para el sujeto iel -simo, i= 1,observ ..., n, valoresmedia muestrales dividida elynmero de observaciones Si denotamos En las Figuras 4.1(b) y (c) se presentan las distribuciones muestrales de la mediana y la por n el tamao muestral y presentan por xii el valor observado media geomtrica para estas mismas Ambas distribuciones muestrales media vendra dada por n el la tamao muestral y muestras. porpor xi el valor observado para el sujeto i-simo, = 1, ..., n , un claro sesgo respecto a la media poblacional, tendiendo a infraestimar su verdadero la media vendra dada por valor de 1,09 mmol/l. la media vendra dada por x + x + ... + x n 1 n . prctica, se x= x i = 1 ya2 que, en la Notar que el inters de este ejemplo es meramente acadmico n i =1 n x + x2 + desconoce la verdadera media poblacional1y n se dispone 1 n + ... nica + x n muestra. x + de x 2 una x = xi = 1 . x = xi = 1 n i =1 n n i =1 n La media es la medida de tendencia central ms utilizada y de ms fcil
25 20 10 0
es la y medida de tendencia central ms u interpretacin. Corresponde al centro demedia gravedad de los datos de la muestra. Su La media es la medida de tendencia centralLa ms utilizada de ms fcil
15 interpretacin. Corresponde alextremos centro de principal limitacin es estde muy influenciada por los valores y,gravedad en este interpretacin. Corresponde al que centro gravedad de los datos de la muestra. Su
principal limitacin es que est muy po 5 caso, puede no ser un fiel reflejo de la tendencia de la distribucin. principal limitacin es que est muy influenciada por loscentral valores extremos y, eninfluenciada este
Frecuencia relativa (%) en muestras de tamao 10
caso, puede no un fiel reflejo de la tendencia cen caso, puede no ser un fiel reflejo de la tendencia central deser la distribucin. 0,7 Ejemplo 0,8 0,9 1,3 ejemplos 1,4 1,5 1.4 En 1 este y1,1 en los1,2 sucesivos sobre estimadores muestrales, s
(a) Media muestral del colesterol HDL (mmol/l)
Ejemplo 1.4estimadores En este y en los sucesivos utilizarn losy valores del colesterol HDL sobre obtenidos en los 10 primeros sujetos de Ejemplo 1.4 En este en los sucesivos ejemplos muestrales, se ejemp
25 20 10 0
utilizarn los valores del colesterol HDL estudio European Study on Antioxidants, Myocardial Infarction and Cancer of utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del obte
15 estudio
estudio European Study on Antioxidants, My the Breast Study (EURAMIC), un estudio multicntrico de casos y controles European on Antioxidants, Myocardial Infarction and Cancer of realizado
the 5
the Breast (EURAMIC), un realizado estudio multicn entre 1991 y 1992 un en estudio ocho pases Europeos eIsrael para evaluar el efecto de los Breast (EURAMIC), multicntrico de casos y controles
0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5
entre 1991 y 1992 en ocho pases e entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de Europeos los
(b) Mediana del colesterol HDL (mmol/l)
25 20 15 10 5 0 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5
(c) Media geomtrica del colesterol HDL (mmol/l)

Figura 4.1 Distribucin muestral de la media aritmtica (a), la mediana (b) y la media geomtrica (c) del Figura 4.1 colesterol HDL en 1000 muestras aleatorias simples de tamao n = 10 obtenidas a partir del grupo control del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde a la media poblacional = 1,09 mmol/l de colesterol HDL.
central de la muestra para resumir los resultados observados como para 4.3.2 Error estndar de la sirven media tanto muestral realizar inferencias acerca los parmetros poblacionales correspondientes. A simple Dado que la media muestral es unde estimador insesgado de la media poblacional, todas Estimacin en el muestreo aleatorio
continuacin se describen los principales estimadores central de una las posibles medias muestrales estarn distribuidas alrededor de de la la tendencia media poblacional. [Figura 4.2 aproximadamente aqu] 4.3.2 Error estndar de la media muestral variable. No obstante, queda por determinar el grado de variabilidad o dispersin de estas medias [Figura aproximadamente aqu] Dado que la media muestral es un estimador insesgado de la media4.2 poblacional, todas las Aun cuando en la prctica carece de sentido tomar repetidas . La dispersin de las medias muestrales x de tamao n muestrales alrededor de posibles medias muestrales estarn distribuidas alrededor de la media poblacional. No obstante, muestras, las 1.2.1 Media aritmtica queda por determinar el grado de variabilidad o dispersin de estas medias muestrales alrededor x pueden utilizarse para cuantifica propiedades la distribucin muestral de Aun cuando en la prctica carece sentido tomar repetidas muestras, las determinada por la varianza de su de distribucin muestral, quede es igual a de tamao n vendr determinada por la varianza de vendr . La dispersin de las medias muestrales x, se define como la suma de cada uno de los La media aritmtica, denotada por de su distribucin muestral, que es igual a utilizarse para cuantifi propiedades la distribucin muestral de x pueden cometido la de estimacin a partir de una nica muestra de tamao n. La desvi valores muestrales dividida por en el nmero de observaciones realizadas. Si denotamos 1 n 1 n 2 , var( x ) = var x i = 2 var( x i ) = nde n observado 1.2 MEDIDAS DE TENDENCIA x esnica estndar la distribucin muestral cometido envalor a partir de una muestra n. La des i i =1 =1 el n de la estimacin por n el tamaoCENTRAL muestral y por x para el sujeto i-simo, i = 1,de ...,tamao n, i [Figura 4.2 aproximadamente aqu] DE TENDENCIA CENTRAL 1.2 MEDIDAS dado que los distintos valores de la muestra son independientes (vase Apartado 3.4). Puede estndar la es distribucin muestral de x es la que media vendra dada por Las medidas de tendencia informan acerca de de cul valor ms representativo sea la observarse la variabilidad de las muestrales ser tanto mayor Apartado cuanto mayor dado que loscentral distintos valores de lamedias muestra sonel independientes (vase 3.4). x ) =tendencia var( x ) = , SE ( 2 Las medidas de central de la variable a estudio. Por otra parte, esta variabilidad disminuye varianza poblacional Aun cuando en la prctica carece de sentido tomar repetidas muestras, las n informan acerca de c n medias de una determinada o, el dicho forma estos estimadores las conforme aumenta tamao n de equivalente, la muestra; es decir, aumentar el tamao muestral, Puede variable observarse que lade variabilidad de1 las ser tanto mayor cuanto + xal x1 muestrales xindican 2 + ... +SE n( x ) = var( x ) = , de forma equival . = = x x de una determinada variable o, dicho i medias de las distintas muestras estarn ms prximas a la verdadera media poblacional. para cuantificar el error propiedades de la distribucin muestral n de x pueden utilizarse n n de la distancia de las distintas medias muestrale 1.2 MEDIDAS DE TENDENCIA CENTRAL i =1 que facilita valor promedio alrededor de qu valor se agrupan los datos observados. medidas de tendencia 2 deun laLas variable a estudio. Por otra parte, esta mayor sea la varianza poblacional alrededor de medias qu se agrupan HDL los datos observado cometido en4.9 la estimacin a partir deauna de tamao n. valor Ladel desviacin En las Figuras 4.2( ), (bnica ) y (c)muestra se presentan las colesterol Ejemplo ) se conoce c tamao n respecto de la medida poblacional. Esta cantidad SE (x que facilita un valor promedio de la distancia de las distintas medias muestra central de la muestra sirven tanto para resumir los resultados observados como para Las es medidas de tendencia central informan acerca es el valor ms representativo La disminuye media la medida de tendencia central ms y cul de fcil variabilidad conforme aumenta el tamao n la muestra; es ms decir, al en 1000 muestras aleatorias simples de tamao nde = utilizada 10, 25 de y 100, respectivamente, central de laEn muestra tanto para resumir los resu x aproximadamente es estndar de laadistribucin muestral de obtenidas partir de los controles del estudio EURAMIC. estas sirven grficas se puede [Figura 4.2 aqu] x ) de se incertid conoce tamao n respecto de la medida poblacional. Esta cantidad ( indican error estndar de la media muestral y permite cuantificar el SE grado realizar inferencias acerca de los parmetros poblacionales correspondientes. A deindependientemente una determinada variable o, dicho de forma equivalente, estos estimadores interpretacin. Corresponde al centro de gravedad de las los datos de la muestra. Su aumentar el tamao muestral, las medias detamao las distintas muestras estarn ms prximas apreciar que, del muestral, medias muestrales estn realizar inferencias acerca los parmetros poblacion centradas alrededor de la media poblacional de 1,09 mmol/l. Sin embargo, alde aumentar el error estndar de la media muestral y permite cuantificar el grado la estimacin de una media a partir de una muestra de tamao n . continuacin se describen los principales estimadores de la tendencia central de una alrededor de qu valor se agrupan los Las medidas deeste tendencia de incer principal limitacin es que est influenciada los valores extremos y, en xde )muy = var( x ) = datos ,porobservados. SE ( disminucin Aun cuando en lase prctica carece sentido tomar repetidas muestras, las a latamao verdadera media poblacional. muestral, observa una substancial de la variabilidad de las medias n con unse continuacin describen principales estimadores muestrales. As, por ejemplo, la proporcin de muestras nivel medio los de colesterol En la prctica, para poder calcular el error estndar, es necesario obtener la estimacin de una media a partir de una muestra de tamao n.para variable. central de un la muestra sirven tanto para resumir los resultados observados como caso, puede no ser fiel reflejo de central de la distribucin. x tendencia pueden para cuantificar error propiedades de la distribucin muestral de la HDL entre 1,03 y 1,15 mmol/l es del 48,7% para n utilizarse = 10, 69,1% para n = 25 y el 95,4% para Ejemplo En las Figuras 4.2( a), (b) y de (c)las se variable. presentan las medias del colesterol nfacilita = 100. un 4.9 que valor promedio de En la distancia distintas medias muestrales de es la prctica, para poder calcular el error estndar, necesario obtener 2 de la variable a estu previamente una estimacin de la varianza poblacional realizar inferencias acerca de los parmetros poblacionales correspondientes. A cometido en la estimacin a partir de una nica muestra de tamao n . La desviacin 1.2.1 Media aritmtica Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se HDL en 1000 muestras aleatorias simples decantidad tamao n = 25 ylas 100, Aun cuando en la prctica carece de sentido tomar repetidas muestras, propiedades de la 1.2.1 Media x )aritmtica se conoce como tamao n respecto de la medida poblacional. Esta SE ( 10, 2 poblacional de la variable 2 ae previamente una estimacin de la varianza poblacional que este parmetro es tpicamente desconocido. La varianza continuacin se describen los principales estimadores de la tendencia central x es estndar de la distribucin muestral de utilizarse para cuantificar error cometido en la estimacin a de una pu distribucin muestral de x ,pueden La media aritmtica, denotada por se define como la suma de cada el uno de los utilizarn los valores a del colesterol HDL obtenidos en los 10 primeros sujetos del 1.2 MEDIDAS DEnica TENDENCIA respectivamente, obtenidas de los controles del EURAMIC. En partir de una de CENTRAL tamao npartir . La estndar de la distribucin muestral de es La media aritmtica, denotada por se define como2 error estndarmuestra de la media muestral y desviacin permite cuantificar el estudio grado de incertidumbre enx , que este parmetro es tpicamente desconocido. La varianza poblacional variable. estimarse a partir de la propia muestra mediante la varianza muestral valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos estudio se European Study on Antioxidants, Myocardial Infarction and Cancer of grficas puede que, independientemente tamao muestral, las x) = de var( xes ) =el , ms SE ( de valores muestrales dividida por el nmero de observac Las medidas deestas tendencia informan acerca cul valor la estimacin de central una media a apreciar partir una muestra de tamao ndel .representativo n estimarse a partir de la propia muestra mediante la varianza muestral por n el tamao muestral y por xi elMedia valor observado para el sujeto i-simo, i2 = 1, ..., 1.2.1 aritmtica 1 n, ny controles 2 realizado the Breast (EURAMIC), un estudio multicntrico de casos medias muestrales estn centradas alrededor de la media poblacional 1,09 s = (de xi y x )tamao . i el valor pores n necesario elmedias tamao muestral por x facilita un valor para promedio de la distancia de las estos distintas muestrales de n observado pa de una que determinada variable o, dicho de forma equivalente, estimadores indican En la prctica, poder calcular el error estndar, obtener n 1 i =1 n la media vendra como error de la respecto de por la medida poblacional. Esta cantidadde SE ( x )distintas quedada facilita un valor promedio de la distancia las medias muestrales La media aritmtica, denotada por , se conoce define como la sumaestndar de de cada uno de los 1 2 2 de los entre 1991 y 1992 en ocho pases Europeos e2Israel para evaluar el efecto mmol/l. Sin embargo, al aumentar el tamao muestral, se observa una s = ( x x ) . i la media vendra dada por alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia media muestral y permite cuantificar el grado de incertidumbre en la estimacin de una media dado previamente una estimacin de la varianza poblacional de la variable n 1ai =estudio, Puede probarsepor que la varianza muestral es un 1 estimador de la varia a partir de una muestra de tamao npoblacional. . dividida como insesgado tamao n respecto de la medida Esta cantidad SE ( x ) se conoce valores muestrales el nmero de observaciones realizadas. Si denotamos n +x + ... + x n x1de 1 disminucin substancial la de las medias muestrales. As, por 2 variabilidad 2 central de que la muestra sirven tanto para resumir los resultados observados como para . La varianza = es x xi = 5x + x + ... n puede 1 una este parmetro tpicamente poblacional En la prctica, para poder calculardesconocido. el error estndar, es necesario obtener 2 previamente 1 las 2 n nprobarse i= 1 tamao sobre todas sobre todas poblacional; es decir, el valor esperado s Puede que la varianza muestral es un estimador insesgado de posib la var = = x x por n el muestral y por x el valor observado para el sujeto i -simo, i = error estndar de la media muestral y permite cuantificar el grado de incertidumbre en 2 i i 1, ..., n, la variable amedio estudio, dado que este parmetro es estimacin de la varianza poblacional de con ejemplo, la proporcin de muestras un nivel de colesterol HDL entre n n i =1 realizar inferencias acerca de los parmetros poblacionales correspondientes. A 2 estimarse desconocido. a partir de la propia muestra mediante la varianza muestral de la propia tpicamente La varianza poblacional 2 2 2 puede estimarse a partir sobre todas sobre las pos poblacional; el tamao valor esperado dela s media ) decir, = El error estndar de muestral se todas estima enton muestras es E(muestra ses la media vendra dada por lala estimacin de media a partir de una de n. La media es medida tendencia central ms utilizada de .69,1% ms fcil muestra mediante launa varianza muestral y de 1,15 mmol/l es del estimadores 48,7% para n =y 10, para n = 25 y 95,4% para n = continuacin se1,03 describen los principales de la tendencia central de una La media es la medida de tendencia central ms uti n 2 2 1 2 2 ) = . El error estndar de la media muestral se estima ento muestras es E ( s En la prctica, para poder calcular el error estndar, es necesario obtener s/ n una vez seleccionada muestra nx ) la interpretacin. Corresponde al centro de gravedad los datos Su s . As, = de ( x1 . muestra. i de ... + x n concreta, la media muestral x fa x1 +una x2 + 100. n 1 i =x variable. . xi = 1 = Corresponde al centro de gravedad d interpretacin. n i =1 2 de la variable n a estudio, dado previamente una estimacin de la varianza poblacional x s/ estimacin n por . As, una vez seleccionada una muestra concreta, la de media muestral principal limitacin es que que est la muy influenciada valores extremos y, en este una insesgada de la media poblacional y el error dicha estimaci Puede probarse varianza muestral eslos un estimador insesgado de la varianza poblacional; 2 2 2 principal limitacin es que est muy influenciada por l 1.2.1 Media aritmtica es decir, el valor esperado de s sobre todas las muestras es E(s de ) =la varianza .2 El error estndar Puede probarse que la varianza muestral es posibles un estimador insesgado 18 y puede que este parmetro esmedia tpicamente desconocido. La poblacional caso, puede no ser un fiel reflejoLa de la tendencia central detendencia la una estimacin de la media poblacional y el error es la medida de central msseleccionada utilizada de ms fcil de dicha estima As, una vez una muestra de la media muestral se estima entonces como n ..varianza determinado por sinsesgada / distribucin. 2 caso, puede no ser un fiel reflejo dey la tendencia centra La media aritmtica, denotada por x ,facilitar seesperado defineuna como suma de cada uno de estimacin insesgada de la los media poblacional el concreta, la media muestral sobre todas sobre todas las posibles poblacional; es decir, el valor de s la estimarse a estimacin partir de la vendr propia muestra mediante muestral interpretacin. Corresponde al centro de los datos de la muestra. Su error de dicha determinado por n .. de gravedad s/la varianza Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 2 2 valores muestrales por nmero de observaciones realizadas. el . El error estndar de la media muestralSi sedenotamos estima entonces como muestras dividida es E(s ) = Ejemplo 1.4 En este y extremos en los sucesivos ejemplos principal limitacin es que est muy influenciada por los valores y, en este n 1 2 2 utilizarn los valores del colesterol HDL obtenidos en (los 10 primeros sujetos s = x x) . i-simo, por n el tamao por xi el valor observado para el sujeto i = 1,del ..., n Pastor-Barriuso R. 51 i x, facilitar s/ n . muestral As, una y vez seleccionada una muestra concreta, la utilizarn media muestral n 1 los de valores del colesterol HDL obtenid i = 1 caso, puede no ser un fiel reflejo de la tendencia central la distribucin. European Study laestudio media vendra dada por on Antioxidants, Myocardial Infarction and Cancer of una estimacin insesgada de la media poblacional y el error de dicha estimacin vendr estudio European Study on Antioxidants, Myoc Puede probarse que la varianza muestral es un estimador insesgado de la varianza
30 20 10 0 0,8 0,9 1 1,1 1,2 1,3 1,4
(a) Media del colesterol HDL (mmol/l) en muestras de tamao 10

30 Frecuencia relativa (%) 20 10 0 0,8 0,9 1 1,1 1,2 1,3 1,4
(b) Media del colesterol HDL (mmol/l) en muestras de tamao 25

30 20 10 0 0,8 de los 0,9 1 del estudio 1,1 1,2 1,3 1,4 Ejemplo 4.10 A partir controles EURAMIC, se ha obtenido una
Figura 4.2 Figura 4.2 Distribucin muestral de la media del colesterol HDL en 1000 muestras aleatorias simples de tamao n = 10 ( a ), 25 ( b ) y 100 ( c ) obtenidas a partir del grupo control del estudio EURAMIC. La lnea vermuestra aleatoria simple de tamao n = 10, cuyos valores de colesterol HDL son 1,32, 1,74,corresponde 0,82, 0,92, a 1,46, 1,10, 0,88, 0,97 y 1,09 0,63 mmol/l. La media tical en 1,45, trazo discontinuo la media poblacional = mmol/l de colesterol HDL.
Ejemplo 4.10 A partir de de lostamao controles del estudio se ha obtenido una muestra aleatoria simple n= 10, cuyos EURAMIC, valores de colesterol HDL son
(c) Media del colesterol HDL (mmol/l) en muestras de tamao 100
52
1,45, 1,32, 1,74, 0,82, 0,92, 1,46, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media muestral es Ejemplo 4.10 A partir de los controles del estudio EURAMIC, se ha obtenido una muestra simple de tamao n = 10, cuyos valores de colesterol HDL son 1,45, muestralaleatoria es 10 + 1,32 + ... + 0,63 11,46, 1,45 1,32, 1,74, 0,82, 0,92, 1,10, 0,88, 0,97 y 0,63 mmol/l. La media muestral es x = xi = = 1,13 mmol/l 10 10 10 i =1 1 1,45 + 1,32 + ... + 0,63 x = xi = = 1,13 mmol/l 10 i =1 10 y la varianza muestral y la varianza muestral y la varianza muestral 1 n s2 = ( xi x ) 2 n 1 in=1 1 2 2 x) (,13 s 2 = (1,45 x i ) 1 + ... + (0,63 1,13) 2 1 n i =1 = = 0,12 (mmol/l) 2 . 9 (1,45 1,13) 2 + ... + (0,63 1,13) 2 = = 0,12 (mmol/l) 2 . 9 Por tanto, la estimacin puntual de la media poblacional del colesterol HDL es x Pastor-Barriuso R. Por tanto, la estimacin puntual dees la media poblacional del colesterol HDL es x = 1,13 mmol/l y su error estndar
(1,45 1,13) 2 +alrededor ... + (0,63 de 1, 13) 2valor se agrupan 2los datos observados. Las medidas d qu = = 0,12 (mmol/l) . variable. 9 como para muestra sirven tanto para resumir los resultados observados Estimacin en el muestreo aleatorio central de la muestra sirven tanto para resumir los simple resultados observad 1.2 MEDIDAS DE TENDENCIA CENTRAL ncias acerca de los parmetros A 1.2.1 Por tanto,poblacionales la estimacin correspondientes. puntual de la media poblacional colesterol HDL es x Mediadel aritmtica realizar inferencias acerca de los parmetros poblacionales correspond Las medidas de tendencia central informan acerca de cul es el valor ms r e describen los principales estimadores la tendencia central de La una Por tanto, la estimacin puntual de la media poblacional del colesterol HDL es x ,=se 1,13 media aritmtica, denotada por define como la su = 1,13 mmol/l y sude error estndar es continuacin se describen los principales estimadores de la tendencia mmol/l y su error estndar esde una determinada variable o, dicho de forma equivalente, estos estimador valores muestrales dividida por el nmero de observacione s 0,35 SE( xalrededor ) = variable. = de qu =valor 0,11 se mmol/l. agrupan los datos observados. Las medidas de ten n 10 1.2 MEDIDAS DE TENDENCIA CENTRAL por n el tamao muestral y por xi el valor observado para e ritmtica
1.2.1 Media aritmtica Notar que, en este ejemplo ilustrativo, error de sirven la estimacin muestral es los exactamente central de el la muestra tanto para resumir resultados observados co la media vendra dada por mtica, x , se define como la suma de cada uno de los = 1,13 1,09 = 0,04 mmol/l. En la prctica, sin embargo, el error exacto no puede Lasdenotada medidas por de tendencia central informan acerca de cul es el valor ms representativo Notar que, en este ejemplo ilustrativo, el error de la estimacin muestral es La media aritmtica, denotada por sepoblacionales define como la suma de cada estimacin calcularse ya que es desconocido y,inferencias en consecuencia, SE( x ), como realizar acercase deemplea los parmetros correspondiente rales dividida por el nmero de observaciones realizadas. Si denotamos del error promedio que cabra esperar en similares circunstancias (esto es, en todas las de una determinada variable o, dicho de forma equivalente, estos estimadores indican n exactamente x - = 1,13 - 1,09 = 0,04 mmol/l. En la prctica, sin embargo, el x1 + x 2 + ... + x n 1 x= x valores muestrales por nmero de observaciones realizadas posibles muestras del mismocontinuacin tamao obtenidas de la dividida poblacin deel referencia). se describen los principales estimadores de la tendencia centr i = n i =1 n valor observado para el sujeto i -simo, i = 1, ..., n , o muestral y por xi elvalor alrededor de qu se agrupan los datos observados. Las medidas de tendencia error exacto no puede calcularse ya que es desconocido y, en consecuencia, se por n el tamao muestral y por xi el valor observado para el sujeto i-s variable. 4.3.3 Teorema central del lmite los resultados observados como para ra dada por central de la muestra sirven tanto para resumir La media es la medida que cabra esperar de en tendencia central ms utilizad emplea SE( x ) como estimacin del error promedio la media vendra dada por En los apartados anteriores se ha probado para cualquier variable aleatoria, el valor esperado y 1.2.1 que, Media aritmtica realizar inferencias los parmetros poblacionales correspondientes. A interpretacin. Corresponde al tamao centro de ha gravedad de los n acerca de similares circunstancias (esto es, en todas las posibles del mismo x 2 + ... + x n de las medias muestrales , respectivamente. No se la varianza dex1 la+distribucin son muestras y 2/n 1 . = = x x n i sin embargo, el aspecto global + ejemplo +suma ... + xde x 2la analizado, de la distribucin muestral de x ., Retomando se define x como La media aritmtica, denotada por 1 1 el n cada uno ndescriben n i =1 continuacin se los principales estimadores de la tendencia central de una . por los v = = x x principal limitacin es que est muy influenciada i obtenidas de la poblacin de referencia). de la distribucin muestral de las medias de colesterol HDL (Figura 4.2), puede observarse que la n i =1 n forma de esta distribucin tiende a valores aproximarse a una dividida distribucin conforme aumenta el realizadas. Si d muestrales por normal el nmero de observaciones caso, puede no ser un fiel reflejo de la tendencia central de s la variable. medida de tendencia central ms utilizada y de ms fcil tamao muestral. Esta caracterstica puede resultar intuitivamente lgica, ya que la distribucin media esun la aspecto medida de tendencia central ms utilizada de ms subyacente del colesterol HDL en lapor poblacin presenta normal (ver n el La tamao muestral y poraproximadamente xi el valor observado para el sujetoyi-simo, 4.3.3 Teorema central del lmite Corresponde al centro de gravedad de los datos de la muestra. Su Figura 1.2 del Tema 1). Dado que muchas de las variables utilizadas en la prctica no presentan una 1.2.1 Media aritmtica Ejemplo 1.4 este yde engravedad los sucesivoslos ejemplos sob interpretacin. alEn centro datos de la distribucin poblacional normal, cabra preguntarse siCorresponde esta a la normalidad la la media vendra por tendencia En los apartados anteriores se ha probado que, para dada cualquier variable aleatoria, el valor de de acin es que est muy influenciada por los valores extremos y, en este se mantiene para cualquier tipo de uno variable aleatoria. La media aritmtica, denotada por se define como la suma de cada de los distribucin muestral de x , utilizarn los valores HDL obtenidos e principal limitacin es que est muy por los valores extre 2 del colesterol y influenciada /n,+ x + ... + esperado y la varianza de la distribucin de las medias muestrales son n x x 1 1 2 n o servalores un fiel muestrales reflejo deEjemplo la tendencia la distribucin. dividida por el nmero de observaciones Si denotamos . =los x x i = de 4.11 central En la de Figura 4.3 se muestra realizadas. la distribucin de niveles b-caroteno en estudio European Study on Antioxidants, Myocardia n n caso, puede no ser un fiel reflejo de la tendencia central = i 1 tejido adiposo control estudioel EURAMIC, que de presenta una distribucin de la distribuc respectivamente. Noen se el hagrupo analizado, sindel embargo, aspecto global la distribucin por n el tamao muestral y por xiasimtrica el valor observado para elde sujeto i-simo, i= 1, ..., n, marcadamente con una media = 0,37 g/g. Las Figuras 4.4(a ), ( b) y (c) the m Breast (EURAMIC), un estudio multicntrico de 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se 20 La media es la medida de tendencia central ms utilizada y de ms fcil Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimado la media vendra dada por 250 entre 1991 y 1992 en ocho pases Europeos e Israel p n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del interpretacin. Corresponde al centro de gravedad de los datos mue utilizarn los valores del colesterol HDL obtenidos en de losla 10 pri n + x nCancer of x 1 European Study on Antioxidants, Myocardial Infarction and 1 + x 2 + ... 200 x = x i = . principal limitacin es que est muy on influenciada por Myocardial los valores extremos estudio European Study Antioxidants, Infarction n i =1 n st (EURAMIC), un estudio multicntrico de casos y controles realizado caso, puede noBreast ser unfiel reflejo de la tendencia central de la distribucin. the (EURAMIC), un estudio multicntrico de casos y co 150 La media es la medida de tendencia central ms utilizada y de ms fcil 91 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar 1.4 En y en los sucesivos ejemplos sobre estimadores m interpretacin. Corresponde al centro de gravedadEjemplo de los datos de este la muestra. Su 100 5 utilizarn los extremos valores del principal limitacin es que est muy influenciada por los valores y, colesterol en este HDL obtenidos en los 10 primero
Frecuencia absoluta
50 estudio European Study on Antioxidants, Myocardial Infarction and caso, puede no ser un fiel reflejo de la tendencia central de la distribucin.
the Breast (EURAMIC), un estudio multicntrico de casos y control Ejemplo 1.4 En este0y en los sucesivos ejemplos sobre estimadores muestrales, se entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el ef utilizarn los valores del colesterol en los 10 sujetos del 1,8 0 0,2 HDL 0,4 obtenidos 0,6 0,8 1 primeros 1,2 1,4 1,6 2
-caroteno (g/g) estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
Figura 4.3
the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los
Figura 4.3 Distribucin de frecuencias del nivel de -caroteno en el grupo control del estudio EURAMIC.
30 20 10 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
(a)
30 Frecuencia relativa (%) 20 10 0 0,1
Media de -caroteno (g/g) en muestras de tamao 10
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
(b)
30 20 10 0 0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
(c)

Figura 4.4
Figura 4.4 Distribucin muestral de la media de -caroteno en 1000 muestras aleatorias simples de tamao n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde a la media poblacional = 0,37 g/g de -caroteno.
representan las medias de b-caroteno en 1000 muestras aleatorias simples de tamao n = 10, 25 y 100, respectivamente, obtenidas a partir de los controles del estudio EURAMIC. En estas grficas puede observarse, de forma emprica, las siguientes propiedades: Ausencia de sesgo: para cualquier tamao muestral, el promedio de las medias muestrales es similar a la media poblacional. Disminucin del error estndar: al aumentar el tamao muestral, disminuye la variabilidad en la distribucin de las medias. Aproximacin a la distribucin normal: al aumentar el tamao muestral, la distribucin de las medias se aproxima a una distribucin normal centrada en la media poblacional. En los ejemplos anteriores, se ha comprobado de forma emprica que, independientemente de la forma de la variable aleatoria en la poblacin, la distribucin de las medias muestrales tiende a
estadstica, conocido como teorema central del lmite, formaliza esta intuicin: para Las medidas de tendencia central informan acerca de cu estadstica, conocido como teorema central del lmite, formaliza esta intuicin: para 2, la distribucin de las medias cualquier variable aleatoria X con media y varianza Estimacin en el muestreo de una determinada variable o,aleatorio dicho simple de forma equivalen cualquier variable aleatoria X con media y varianza 2, la distribucin de las medias en muestras aleatorias simples de tamao n se aproxima, al aumentar el tamao alrededor de qu valor se agrupan los datos observados. L en muestras aleatorias simples de tamao n se aproxima, al aumentar el tamao ~ x N(1,09, 0,00086). 2 tamao de la muestra. Uno de seguir una distribucin normal,normal particularmente cuando aumenta el y varianza la /n ; es decir, al aumentar muestral, a una distribucin con media central de muestra sirven tanto para resumir los resulta losmuestral, principales resultados en estadstica, conocido como teorema del lmite , formaliza n; es decir, al aumentar a una distribucin normal con media y varianza 2/central 2 , la distribucin de las esta para cualquier aleatoria X con media y colesterol varianza HDL As, por ejemplo, la variable probabilidad de que la media de en una n, intuicin: realizar inferencias acerca de los muestral, parmetros poblacional medias en muestras aleatorias simples de tamao n se aproxima, al aumentar el tamao n, decir, al y aumentar n, puede a una distribucin normal con y varianza 2/n; es muestra de tamao n media = 100 est comprendida entre 1,03 1,15 mmol/l 2 continuacin se describen los principales estimadores de ~ N , x 2 , n ~ calcularse como x N variable. , , n ~ significa distribuirse 1,09 x 1,09 1,15As, 1 ,09 1,03 aun como. aun dondeel el smbolo smbolo P donde significa distribuirse aproximadamente como. As, cuando la 1.2.1 aritmtica = P aproximadamente Media (1,03 x 1,15) cuando ~ aproximadamente como. As, aun donde el smbolo significa 0,029 0,029 0,029 distribucin de una variable en ladistribuirse poblacin mucho de ser normal, el teorema central del diste cuando la distribucin de unala variable en la poblacin diste mucho de ser normal, el teorema lmite permite utilizar distribucin normal como aproximacin a la distribucin de x ,si La media aritmtica, denotada por seel define como la s la distribucin variable en la poblacin diste mucho de ser normal, el teorema tamao muestral de es una suficientemente grande. Aunque el tamao muestral necesario variar en = P(-2,05 Z 2,05) centralde del permite utilizar la distribucin normal como aproximacin aprecisa la funcin lalmite variable objeto de estudio, esta aproximacin ser razonablemente valores muestrales dividida por el siempre nmero de observacion central del lmite utilizar la distribucin normal como aproximacin a la que n sea superior a permite 50. = 2 (2,05) - 1 = 0,9596. grande. muestral Aunque el distribucin de x si el tamao muestral es suficientemente por n el tamao y tamao por xi el valor observado para ~ N (1,09, 0,00086). HDL x siLa el tamao es suficientemente grande. Aunque el tamao distribucin media ymuestral la xvarianza del colesterol en los controles del estudio Ejemplo de 4.12 2 la variable 2 En el Ejemplo 4.9 se comprob empricamente que la proporcin de muestras muestral necesario variar en funcin de objeto de estudio, esta la media. vendra dada por Por el teorema central delde lmite, EURAMIC son = 1,09 mmol/l y = 0,086 (mmol/l) muestral necesario variar en funcin de la variable objeto de estudio, esta la distribucin de las medias en muestras de tamao n = 100 ser aproximadamente As, por ejemplo, la probabilidad de que la media de colesterol HDL en una 2 2 tamao nmedia = razonablemente 100 con un nivel medio de colesterol HDL entre 1,03 y 1,15(mmol/l) mmol/ln es aproximacin ser precisa siempre n sea superior a 50. /n = 0,086/100 = 0,00086 , normal con = 1,09 mmol/l y varianza que x1 + x 2 + ... + x 1 aproximacin ser razonablemente precisa siempre que n sea superior a 50. = x muestra de tamao n = 100 est ~ comprendida entre 1,03 y 1,15 mmol/l puede n x i = n del 95,4%, que coincide casi con el resultado obtenido bajo la i =1 x perfectamente N(1,09, 0,00086). Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del calcularse como la probabilidad de que la media de colesterol HDL en una muestra de As, por ejemplo, Ejemplo 4.12 La media y la varianza del colesterol HDL en los controles del aproximacin normal. As, pornejemplo, la probabilidad que1,03 la media de colesterol HDL en una La media es la medida de tendencia tamao = 100 est comprendida de entre y 1,15 mmol/l puede calcularse como central ms utiliza estudio EURAMIC son = 1,09 mmol/l y 2 = 0,086 (mmol/l)2. Por el teorema 2 2 =x0,086 (mmol/l) .,09 Por el teorema estudio EURAMIC son = 1,09 mmol/l 1,03 1y ,09 1,09 1,15 1 puede muestra de tamao n = 100 est comprendida entre 1,03 y 1,15 mmol/l interpretacin. Corresponde al centro (1,03 P x 1,15) = P constituye Como se mostrar en los siguientes temas, el teorema central del lmite la de gravedad de l central del lmite, la distribucin de medias en de tamao 0,029 0muestras ,029 0,029 las n = 100 central del lmite, la distribucin de las medias en muestras de tamao n = 100 calcularse como principal limitacin es que est muy influenciada por los 2 = P ( 2,05 Z 2,05) base fundamental del proceso de inferencia estadstica, dado que posibilita tanto ser aproximadamente normal con media = 1,09 mmol/l y varianza /n =la 2 = 1,09 mmol/l yser varianza /n = de la tendencia central d ser aproximadamente normal con media = 2 (2,05) 1 = 0,9596. caso, puede no un fiel reflejo 2 1,como construccin de intervalos de confianza el contraste de hiptesis acerca de la ,P 03 1,09 x 1,09 1,15 1,09 0,086/100 = 0,00086 (mmol/l) x 1,15) = P (1,03 2 En0,086/100 el Ejemplo se comprob empricamente proporcin de muestras de tamao , 0,029 que = 4.9 0,00086 (mmol/l) 0,la 029 0,029 . medio de colesterol HDL entre 1,03 media n = poblacional 100 con un nivel y 1,15 mmol/l es del 95,4%, que ejemplos so Ejemplo 1.4 En este y en los sucesivos coincide casi perfectamente con el resultado obtenido la aproximacin normal. En el Ejemplo 4.9 se comprob empricamente que labajo proporcin de muestras de =P (-2,05 Z 2,05) 22 utilizarn los valores del colesterol HDL obtenidos 4.3.4 Estimacin de una proporcin poblacional 22 Como se mostrar los siguientes temas, el teorema central del lmite constituye la base tamao n = 100en con un nivel medio de colesterol HDL entre 1,03 y 1,15 mmol/l es =2 (2,05) - 1 = 0,9596. fundamental del que proceso de inferencia estadstica, que posibilita tanto la construccin de estudio European on Antioxidants, Myocard Supongamos el inters del estudio se centradado en estimar la proporcin Study de intervalos de confianza como el contraste de hiptesis acerca de la media poblacional . del 95,4%, que coincide casi perfectamente con el resultado obtenido bajo la En el Ejemplo 4.9 sede comprob empricamente que la proporcin de muestras de the Breast (EURAMIC), un En estudio multicntrico individuos o elementos la poblacin que cumplen una determinada caracterstica. aproximacin normal. 4.3.4 tamao Estimacin decon una proporcin poblacional n = 100 un nivel medio colesterol HDL entre 1,03 yel 1,15 mmol/l es Europeos e Israel entre 1991 y 1992 en ocho tal caso, resulta conveniente definir unade variable aleatoria X que toma valor 1 en pases los Supongamos que el inters del estudio se centra en estimar la proporcin de individuos o Como se mostrar en los siguientes temas, el teorema central del lmite constituye la del 95,4%, que coincide casi perfectamente resultado obtenido bajo la individuos presentan dicha caracterstica y con 0 enel quienes no la presentan. La media elementos de que la poblacin que cumplen una determinada caracterstica. En tal caso, resulta conveniente definir una variable aleatoria X que toma el valor 1 en los individuos que presentan base fundamental del proceso de inferencia estadstica, dado que posibilita tanto la aproximacin normal. poblacional de esta aleatoria es La media poblacional de esta variable dicha caracterstica y variable 0 en quienes no discreta la presentan. aleatoria discreta es construccin de intervalos de confianza como el contraste de hiptesis acerca de la 1 Como se mostrar en los siguientes temas, el teorema central del lmite constituye la = k P( X = k ) = media poblacional . k =0 base fundamental del proceso de inferencia estadstica, dado que posibilita tanto la 23 4.3.4 Estimacin de una proporcin poblacional construccin de intervalos de confianza como el contraste de hiptesis acerca dePastor-Barriuso la R. Supongamos que el .inters del estudio se centra en estimar la proporcin de media poblacional
55
Si se selecciona una muestra aleatoria simple de tamao n, en la cual k individuos

de=inters ) 1) P(y Xlos =k ) restantes n - k individuos no la presentan la caracterstica (x (k i=

2
2
k =0
La varianza muestral de p viene determinada por (1 - )/n; as, al aumentar el muestral 1 tamao muestral, las proporciones muestrales estarn ms prximas a la verdadera 2 Si se selecciona una muestra de n, en la cual k individuos 2 = aleatoria ( k )simple P( X = k tamao ) tamao muestral, las proporciones muestrales estarn ms prximas a la verdadera n k =0 k 1 proporcin poblacional. = 1) =x. p= x i2 restantes y los n - k individuos no la presentan la caracterstica de inters (xi = 2 (1 i n) + n =1 ) = (1 ). proporcin poblacional.= (1 Al aumentar el tamao muestral, la distribucin de las proporciones muestrales elmuestra estimador naturalsimple de la proporcin la proporcin presentan (xi = 0), Si se selecciona una aleatoria de tamao poblacional n, en la cual es k individuos presentan Al aumentar el tamao muestral, la distribucin de las proporciones muestrales A partir de esta notacin, es evidente que una proporcin muestral es un caso la caracterstica de inters y aleatoria los restantes n k tamao individuos no presentan (xi = 0), el tiende aproximarse ax una distribucin normal. Esta aproximacin es i = 1) Si se a selecciona una( muestra simple de n, en lala cual k individuos muestral estimador natural de la proporcin poblacional es la proporcin muestral tiende aproximarse a una distribucin normal. Esta aproximacin es particular de a una media muestral para una variable dicotmica con la codificacin arriba (1 ) 5. suficientemente precisa si n presentan la caracterstica de inters (xi = 1) y los restantes n - k individuos no la 15.n (1 -k) suficientemente precisa si n indicada. As, el teorema central del lmite a la forma particular de esta p = =puede x i aplicarse =x. poblacional es la proporcin presentan (xi = 0), el estimador natural n denlai =proporcin 1 Ejemplo 4.13 En las Figuras 4.5(a), (b) y (c) se presentan las proporciones de variable X para obtener el siguiente resultado: la distribucin muestral de una muestral Ejemplo 4.13 Enes las Figurasque 4.5(una a), (proporcin b) y (c) se presentan lasun proporciones de de una A partir de esta notacin, evidente muestral es caso particular A partir deactuales esta notacin, es muestras evidente que una proporcin muestral es un caso fumadores en 1000 aleatorias simples de tamao n= 10, 25 y media muestral para una variable dicotmica con la codificacin arriba indicada. As, el teorema proporcin p se aproxima, al aumentar el tamao muestral, a una distribucin normal fumadores actuales en 1000 muestras aleatorias simples de tamao n = 10,el 25 y central del lmite puede aplicarse a la forma particular de esta variable X para obtener siguiente n 1 grupo k variable particular de una media muestral para una dicotmica con la codificacin arriba 100, respectivamente, obtenidas a partir del control del estudio EURAMIC, resultado: la distribucin muestral de una proporcin p se aproxima, al aumentar el tamao = = = . p x x i con media y varianza (1 - )/n, n n = 1 i respectivamente, obtenidas a partir del grupo control del muestral,100, a una distribucin normal con media y varianza (1 )/ n, estudio EURAMIC, indicada. As, el teorema del lmite puede aplicarse a la forma particular de = 0,37. Para cualquier tamao n esta donde la proporcin decentral fumadores actuales es
de la proporcin poblacional es la proporcin presentan (xi = 0), el estimador natural 2 2 yLa su varianza varianza muestral de p= viene determinada por (1 -- )/ n; as, al aumentar el (1 ) + (1 ) = (1 ). su varianza
(1 es ) una = 0,37. Para cualquier la de fumadores actuales ~ N Adonde partir deproporcin esta notacin, es evidente que proporcin muestral es una un tamao caso n p , . variable X para obtener el siguiente resultado: la distribucin muestral de de la muestra, las proporciones muestrales estn distribuidas alrededor de la n de la muestra, las proporciones muestrales estn distribuidas alrededor de la arriba particular p de una media muestral una variable dicotmica con la codificacin aproxima, al aumentar tamao anuna distribucin normal En proporcin consecuencia, pueden extraerse laspara siguientes propiedades de proporcin muestral: proporcinse poblacional (ausencia de el sesgo). Almuestral, aumentar ,una la distribucin En consecuencia, pueden extraerse las siguientes propiedades de una proporcin yyindicada. La proporcin muestral p es undel estimador insesgado de la poblacional ; es (ausencia de sesgo). Al aumentar n, la distribucin As, elpoblacional teorema central lmite puede aplicarse a proporcin la forma particular de esta y varianza (1 )/ n , con media muestral de laproporcin de fumadores actuales presenta una menor variabilidad decir, E(p )= . muestral: muestral deobtener la proporcin de fumadores actuales presenta variabilidad X para el p siguiente resultado: la distribucin de una yyvariable La varianza muestral de viene determinada por (1 )/nmuestral ; una as, menor al aumentar el tamao y se aproxima a una distribucin normal centrada en la proporcin poblacional ( 1 ) ~ muestral, las proporciones muestrales ms . prximas a la verdadera proporcin La proporcin muestral p es p un estimador insesgado de la proporcin poblacional N estarn , y se aproxima a una distribucin normal centrada proporcin poblacional proporcin p se aproxima, al aumentar el una distribucin normal n muestral, poblacional. tamao en la a = 0,37. ; es decir, (p) = muestral, . yy Al aumentar el E tamao la distribucin de las proporciones muestrales tiende a = 0,37. y varianza (1 - )/n, con media aproximarse a una distribucin normal. Esta aproximacin es una suficientemente En consecuencia, pueden extraerse las siguientes propiedades de proporcin precisa si n(1 ) 5. [Figura 4.5 ~ aproximadamente (1 ) aqu] muestral: p N , . 4.5(a ), (b ) y (c) se las proporciones de fumadores Ejemplo 4.13 En las Figuras [Figura 4.5 aproximadamente aqu] n presentan actuales en 1000 muestras simples de tamao nde = 10, 25 y 100, respectivamente, La proporcin muestralaleatorias p es un estimador insesgado la proporcin poblacional A partir de las propiedades anteriores seestudio deduce que, para una muestra aleatoria de obtenidas a partir del grupo control del EURAMIC, donde la proporcin de fumadores En consecuencia, pueden extraerse las siguientes propiedades de una proporcin A partir de las propiedades anteriores se deduce que, para una muestra aleatoria de 24 actuales = 0,37. estn ; es es decir, E(p)Para = .cualquier tamao n de la muestra, las proporciones muestrales tamao n , la proporcin muestral p es un estimador insesgado de la proporcin distribuidas alrededor de la proporcin poblacional (ausencia de sesgo). Al aumentar n, la muestral: tamao n, la proporcin muestral p es un insesgado de la proporcin distribucin muestral de la proporcin deestimador fumadores actuales presenta una menor variabilidad y su error estndar viene determinado por la raz cuadrada de la varianza poblacional y se aproxima a una distribucin normal centrada en la proporcin poblacional = 0,37. La proporcin muestral p es un estimador insesgado de la proporcin poblacional poblacional y su error estndar viene determinado por la raz cuadrada de la varianza muestral dede p, las propiedades anteriores se deduce que, para una muestra aleatoria de tamao n, A partir ;de es decir, E (p )= .estimador insesgado de la proporcin poblacional y su error muestral p , la proporcin muestral p es un estndar viene determinado por la raz cuadrada de varianza muestral de p, la ) (1 24 , SE(p) = var( p) = n (1 ) , SE( p) = var( p) = n que que puede puede estimarse estimarse a a partir partir de la propia muestra mediante p (1 p ) / n .. que puede estimarse a partir de la propia muestra mediante p (1 p ) / n .
25 24 25
Estimacin en el muestreo aleatorio simple
30 20 10 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
(a) Proporcin de fumadores actuales en muestras de tamao 10

30 Frecuencia relativa (%) 20 10 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
(b) Proporcin de fumadores actuales en muestras de tamao 25

30 20 10 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
Figura 4.5 Figura 4.5 Distribucin muestral de la proporcin de fumadores actuales en 1000 muestras aleatorias simples de tamao n = 10 (a), 25 (b) y 100 (c) obtenidas a partir del grupo control del estudio EURAMIC. La Ejemplo 4.14 discontinuo A partir una muestra aleatoria simple de n =de 100 controles del = 0,37. estudio sede obtuvieron ka =la 35 fumadores actuales. La estimacin lnea vertical enEURAMIC, trazo corresponde proporcin poblacional fumadores actuales
Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del
(c) Proporcin de fumadores actuales en muestras de tamao 100
estudio se obtuvieron k = 35 fumadores puntual EURAMIC, de la proporcin de fumadores actuales es actuales. La estimacin Ejemplo 4.14 A partir de una muestra aleatoria simple de n = 100 controles del estudio EURAMIC, se obtuvieron k = 35 fumadores actuales. La estimacin puntual de la puntual de la proporcin de fumadores actuales es k 35 proporcin de fumadores actuales = 0,35, p =es = n 100 k 35 p= = = 0,35, n 100 y su error estndar es y su error estndar es y su error estndar es p (1 p) 0,35(1 0,35) SE(p) = = 0,05, = n 100 0,35(1 0,35) p (1 p) SE (p) = =cabra esperar entre = todas 0,05, las posibles muestras de que corresponde al error promedio que 100 n tamao 100 de laal poblacin a estudio. que corresponde error promedio que cabra esperar entre todas las posibles
que corresponde al error que cabra esperar entre todas las posibles muestras de tamao 100 promedio de la poblacin a estudio. muestras de tamao 100 de la poblacin a estudio. En este apartado se ha discutido la estimacin puntual de una proporcin poblacional
En este apartado se ha discutido la estimacin puntual de una proporcin poblacional y su correspondiente error estndar. No obstante, no se ha hecho un uso prctico de la aproximacin normal a la distribucin muestral de p. Esta aproximacin se retomar ms adelante para obtener intervalos de confianza y pruebas de hiptesis sobre la proporcin poblacional (vase Tema 7). 4.4 REFERENCIAS 1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. Englewood Cliffs, NJ: Prentice Hall, 1977. 2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001. 3. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977. 4. Kish L. Survey Sampling. New York: John Wiley & Sons, 1995. 5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer Verlag, 1998. 6. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third Edition. New York: John Wiley & Sons, 1999. 7. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. 8. Serfling RJ. Approximation Theorems of Mathematical Statistics. New York: John Wiley & Sons, 1980. 9. Silva LC. Diseo Razonado de Muestras y Captacin de Datos para la Investigacin Sanitaria. Madrid: Daz de Santos, 2000. 10. Stuart A, Ord JK. Kendalls Advanced Theory of Statistics, Volume 1, Distribution Theory, Sixth Edition. London: Edward Arnold, 1994.
58
Pastor-Barriuso R.
TEMA 5 INFERENCIA ESTADSTICA

5.1INTRODUCCIN La teora del muestreo aporta diversos mtodos formales para seleccionar muestras a partir de una determinada poblacin. La informacin obtenida de dichas muestras puede resumirse utilizando tcnicas de estadstica descriptiva. Sin embargo, cuando se trabaja con una muestra, rara vez nos interesa la muestra como tal, sino que sta interesa por su capacidad para aportar informacin con respecto a otros sujetos o a otras situaciones. En los estudios descriptivos, el inters radica en seleccionar una muestra representativa de la poblacin de referencia, o dicho ms concretamente, la muestra ha de presentar el mismo grado de diversidad que la poblacin respecto al parmetro o caracterstica objeto de estudio. Las tcnicas de muestreo probabilstico descritas en el tema anterior facilitan muestras que sern muy probablemente representativas de la poblacin si el tamao muestral es suficientemente grande. De esta forma, los resultados de la muestra podrn inferirse a toda poblacin con un grado razonable de certidumbre. Ejemplo 5.1 En las Encuestas Nacionales de Salud, se obtiene informacin de una muestra representativa a nivel provincial o nacional. Esta muestra interesa por la informacin que aporta sobre toda la poblacin. En este caso, la representatividad de la muestra es determinante para la validez de las conclusiones derivadas del proceso inferencial. En los estudios epidemiolgicos analticos, los resultados son interesantes porque pueden aplicarse a situaciones de salud semejantes. En este caso, el objetivo principal del diseo es asegurar la comparabilidad o semejanza de los grupos de estudio, ms que la representatividad poblacional de la muestra. En los ensayos clnicos randomizados, los sujetos se asignan a los distintos grupos de tratamiento mediante algn mecanismo aleatorio (por ejemplo, mediante un muestreo aleatorio simple). As, si el tamao muestral es grande, las caractersticas basales de los sujetos asignados a los distintos grupos sern muy similares. En consecuencia, las diferencias observadas entre estos grupos a lo largo del seguimiento podrn atribuirse al tratamiento objeto de estudio. Ejemplo 5.2 El primer ensayo clnico publicado sobre el papel de la aspirina en la prevencin primaria de enfermedades cardiovasculares se realiz en mdicos americanos participantes en el Physicians Health Study, seleccionados adems por otras caractersticas de salud. En este caso, los sujetos a estudio no son representativos de la poblacin a la que se aplicarn posteriormente los resultados (poblacin general de hombres adultos a riesgo de padecer un primer evento cardiovascular), pero en cambio se garantiz la comparabilidad de las personas que tomaban aspirina y quienes no la tomaban mediante la asignacin aleatoria del tratamiento y el uso de la tcnica del doble ciego (tanto el investigador como el paciente desconocan el tratamiento asignado). La estadstica inferencial aporta las tcnicas necesarias para extraer conclusiones sobre el valor poblacional de un determinado parmetro a partir de la evaluacin de una nica muestra.
Inferencia estadstica
Como se discuti en el tema anterior, las conclusiones derivadas de este proceso inferencial siempre estarn sujetas a error como consecuencia de la variabilidad aleatoria inherente al propio procedimiento de seleccin muestral. Por ello, resulta necesario disponer no slo de una estimacin puntual, sino tambin de un intervalo de confianza, que facilite un rango de valores verosmiles para el parmetro poblacional, as como de una prueba de significacin estadstica, que permita determinar el grado de compatibilidad de los datos muestrales con una hiptesis predeterminada. En este tema, se revisan los fundamentos y la interpretacin de las tcnicas estadsticas de inferencia: la estimacin puntual, el intervalo de confianza y el contraste de hiptesis. Para simplificar la exposicin, se asume que la muestra se obtiene por muestreo aleatorio simple y que la poblacin de referencia es de tamao muy superior a la muestra. 5.2 ESTIMACIN PUNTUAL
Una forma natural de estimar muchos parmetros poblacionales consiste en utilizar el estadstico muestral correspondiente. As, la media muestral es un estimador puntualDE de la media poblacional 1.2 MEDIDAS TENDENCIA CENTRAL y la proporcin de casos de una enfermedad en la muestra es un estimador puntual de la 1.2ha MEDIDAS DE TENDENCIA CENTRAL principales propiedades estadsticas que de satisfacer un buen estimador muestral probabilidad de tener la enfermedad en la poblacin. No obstante, para un determinado Las estimadores medidas de tendencia central informan acerca de c parmetro poblacional, pueden contemplarse distintos alternativos. Algunos cabe destacar las siguientes: Las medidas de tendencia central informan acerca de estimadores de la media poblacional distintos de la media muestral podran ser, por ejemplo,cul la es el valor m de una determinada variable o, dicho de forma equival mediana, la media 50% central de laes muestra o la si media de los valores mximo y mnimo. Ausencia de del sesgo . Un estimador insesgado suvariable valor medio sobre todas las de una determinada o, dicho de forma equivalente, En este apartado se presentan algunos criterios estadsticos que justifican la eleccin de un estos estima alrededor de qu valor se agrupan los datos observados determinado estimador a otras posibles alternativas. posibles muestrasfrente de tamao n coincide con parmetro La observados. Las medidas de alrededor deel qu valor se poblacional. agrupan los datos Los mritos de un estimador no se juzgan por la central estimacin en una muestra de la resultante muestra sirven tanto para resumir los resu insesgadez de un estimador es una propiedad deseable ya que sus estimaciones no concreta, sino por la distribucin de todos losde posibles valores o estimaciones a que pueda dar central la muestra sirven tanto para resumir los resultados observado lugar; esto es, por las propiedades de su distribucin muestral. Entre las principales propiedades realizar inferencias acerca de los parmetros poblacion diferirn del parmetro poblacional. estadsticas quesistemticamente ha de satisfacer un buen estimador muestral cabede destacar las siguientes: realizar inferencias acerca los parmetros poblacionales correspondi se sobre describen los principales yy Ausencia de sesgo. Un estimador es insesgado si continuacin su valor medio todas las posibles estimadores d continuacin se describen los principales estimadores de la tendencia ce muestras de Como tamao coincide parmetro poblacional. La insesgadez Ejemplo 5.3 senprob en el con temael anterior, la media y la proporcin muestralde un variable. no diferirn sistemticamente estimador es una propiedad deseable ya que sus estimaciones variable. del poblacional. sonparmetro estimadores insesgados de la media y la proporcin poblacional, 1.2.1 Media aritmtica Ejemplo 5.3 Como anterior, la la media y la proporcin muestral son 1.2.1 aritmtica respectivamente, E( x se ) =prob y Een (p )el = tema Media . Sin embargo, varianza muestral definida estimadores insesgados de la media y la proporcin respectivamente, E( x ), = La poblacional, media aritmtica, denotada por se define como l 2 2 yE = . Sin embargo, la varianza muestral definida por S(por xi x ya ), /se n es un estimador La media aritmtica, denotada define como la suma de cada u por ( (p x) que i - x ) /n es un estimador sesgado de la varianza poblacional, valores muestrales dividida por el nmero de observac sesgado de la varianza poblacional, ya que valores muestrales dividida por el nmero de observaciones realizadas. 2 n n n n el2 tamao 1 por 1 1 n 2 1 muestral y por xi el valor observado pa 2 2 = E ( xi ) E ( x i x ) = E por E x el x i observado para el sujeto i-sim xi x y por valor i i =1 i =1 n i =1 n i =1 n el tamao nmuestral n la media vendra dada por n n 1 1 media dada E ( x i2 )por = la + 2 E ( xi ) E ( x j ) E( x i2 ) vendra 2 n i =1 n i =1 1 i < j n x + x 2 + ... 1 n = x xi = 1 n n + ... + xn x + x2 n 2 n 1 1 n i =1 ) xi = 1 = 2 E ( x i2 ) 2 E ( x i ) E ( x . xj = n i =1 n n i =1 n 1i < j n
60
n 1 2 n 1 La n 1 es2la medida de tendencia central ms util media ( + 2 ) 2 = ; n n tendencia central ms utilizada y de ms f La media es n la medida de interpretacin. Corresponde al centro de gravedad de interpretacin. Corresponde al centro de gravedad de los datos de la m es decir, este estadstico tiende a infraestimar la varianza poblacional 2 por un principal limitacin es que est muy influenciada por l Pastor-Barriuso R. principal limitacin es que est muy influenciada por los valores extrem factor de (n 1)/n. Notar que este sesgo ser tanto mayor cuanto menor sea el caso, puede no ser un fiel reflejo de la tendencia centra caso, puede no ser un fiel reflejo de la tendencia central de la distribuci tamao muestral. En consecuencia, es preferible utilizar la varianza muestral =
es decir, este estadstico tiende a infraestimar la varianza poblacional por un forma, se tendr una mayor confianza en que la estimacin resultante de la tambin que las distintas estimaciones difieran lo menos se posible de dicho continuacin describen los principales estimadores de la t factor de (n 1)/n. Notar que este sesgo ser tanto mayor cuanto menor sea el Estimacin puntual 1.2 DE TENDENCIA CENTRAL muestra finalmente estar prxima al parmetro parmetro, es decir, seleccionada que la MEDIDAS varianza muestral del estimador seapoblacional. mnima. DePor esta variable. tamao muestral. En consecuencia, es preferible utilizar la varianza muestral ello, entre los distintos estimadores insesgados un determinado parmetro, es es el valor ms represe forma, se tendr una mayor confianza que la de estimacin resultante de la Las medidas deen tendencia central informan acerca de un cul 2 es decir, por estesestadstico infraestimar la varianza poblacional 2 por factor de 1.2.1 Media aritmtica = (xi - xtiende )2/(n a1) como estimador insesgado de la varianza definida ( n 1)/ n . Notar que este sesgo ser tanto mayor cuanto menor sea el tamao muestral. En conveniente seleccionar aquel que presente una menor varianza (o, de forma muestra finalmente seleccionada estar prxima al parmetro poblacional. Por 2 estos estimadores ind de una determinada variable o, dicho de forma 2 equivalente, consecuencia, es preferible utilizar la varianza definida por s = S(por xi x ), /( n define 1) como la sum La muestral media aritmtica, denotada se poblacional, como estimador insesgado de la varianza poblacional, equivalente, menor alrededor error estndar). En general, puede demostrase que, si la ello, entre losun distintos estimadores de un determinado parmetro, esLas medidas de tendenc de insesgados qu valor se agrupan los datos observados. valores muestrales dividida por el nmero de observaciones 1 n 2 2 2 x. y la varianza muestral observados como p distribucin seleccionar poblacional subyacente es normal, la Eaquel ( s ) = que E x )media para =varianza conveniente presente una (o, de los forma (x i menor central de la muestra sirven tanto resumir muestral y porresultados xi el valor observado para el s n 1 i =1 por n el tamao
los estimadores insesgados de y 2 con menor varianza. equivalente, un menor error estndar). En general, puede demostrase que, si la s2 son respectivamente realizar inferencias acerca de los parmetros poblacionales correspondientes. A la media vendra dada por yy Mnima varianza. Adems de la insesgadez de un estimador, que garantiza que las estimaciones estarn centradas alrededor del parmetro poblacional, interesa tambin que x y la varianza muestral distribucin subyacente es normal, media con De la mismapoblacional forma, la continuacin proporcin muestral p esla el estimador insesgado de describen los principales estimadores de la que tendencia central de las distintas estimaciones difieran lo se menos posible de dicho parmetro; es decir, la x1 + x 2 + ... + x n 1 n 4i = varianza muestral del estimador sea mnima. De esta forma, se tendr una mayor confianza . = x 2 son respectivamente los estimadores insesgados de y 2 con menor x varianza. s menor error estndar. variable. n n i =1 en que la estimacin resultante de la muestra finalmente seleccionada est prxima al parmetro poblacional. Por ello, entre los distintos estimadores insesgados de un De la misma forma, la proporcin muestral p es el estimador insesgado de con determinado es conveniente seleccionar aquel que una menor 1.2.1 Media aritmtica La media lapresente medida de es tendencia central ms utilizada Ejemplo 5.4parmetro, Para cualquier distribucin poblacional, la es media muestral un varianza (o, de forma equivalente, un menor error estndar). En general, puede demostrarse que, si menor error estndar. yse la define varianza s2 son la distribucin poblacional subyacente es normal, la media denotada por x, como la suma de cada uno los interpretacin. Corresponde al muestral centro de gravedad dede los d estimador insesgado deLa la media media aritmtica, poblacional y su error estndar es 2 respectivamente los estimadores insesgados de y con menor varianza. De la misma valores dividida por nmero observaciones realizadas. Silos denota forma, la proporcin muestral pmuestrales es el estimador insesgado de muestral con menor principal limitacin es de que est muy estndar. influenciada por val Ejemplo 5.4 Para cualquier distribucin poblacional, lael media es error un . SE( x ) = valor observado para sujeto i-simo, = 1, por n el tamao muestral y por x n i el Ejemplo 5.4 Para cualquier distribucin poblacional, la media muestral es un caso, puede no ser un fiel reflejo deestimador lael tendencia centrali de la estimador insesgado de la media poblacional y su error estndar es insesgado de la media poblacional y su error estndar es la media vendra dada por En el caso de que la distribucin subyacente sea normal, puede probarse que la SE( x ) = . Ejemplo 1.4 En este y en los sucesivos ejemplos sobre n la media1poblacional n x + mediana tambin es un estimador insesgado de yx que su+ x n 2 + ... utilizarn los colesterol . HDL obtenidos en = 1 del x= x ivalores n puede En el caso de que la distribucin subyacente sea normal, probarse n que la mediana i =1 error estndar es aproximadamente En el caso que la distribucin subyacente sea normal, puede que la tambin esde un estimador insesgado de la media poblacional y probarse que Study su error es Myocardial estudio European on estndar Antioxidants, aproximadamente La media es la medida tendencia centralyms y de ms fcil mediana tambin es un estimador insesgado de lade media poblacional que utilizada su Breast (EURAMIC), un estudio multicntrico de c the SE(mediana) 1,25 . interpretacin. Corresponde n al centro de gravedad de los datos de la muestra. S error estndar es aproximadamente entre 1991 y 1992 en ocho pases Europeos e Israel par As, aunque ambos estimadores son insesgados, el error estndar de la mediana es un 25% principal limitacin es que est muy influenciada por los valores extremos y, en mayor que el de la media muestral y, por tanto, la mediana tender a facilitar estimaciones . (mediana) 1,25 menos precisas que la media SE muestral. caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. n
yy Consistencia. Las propiedades de insesgadez y mnima varianza se refieren a la distribucin muestral del estimador para un tamao n fijo de la muestra. La consistencia, Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestr sin embargo, hace referencia al comportamiento del estimador al aumentar n. Se dice 5 que un estimador es consistente si,utilizarn al aumentar tamao decolesterol la muestra, la probabilidad de que losel valores del HDL obtenidos en los 10 primeros suje el estimador difiera del verdadero parmetro poblacional se reduce progresivamente. La consistencia es, por tanto, un requerimiento bsico paraon unAntioxidants, buen estimador ya que bastar estudio European Study Myocardial Infarction and Canc con aumentar el tamao muestral para obtener estimaciones arbitrariamente prximas al 5 verdadero parmetro. Por supuesto, la media, la varianza y la proporcin muestral son y controles rea the Breast (EURAMIC), un estudio multicntrico de casos estimadores consistentes de sus respectivos parmetros poblacionales.
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto d Ejemplo 5.5 En el Ejemplo 4.9 se evalu empricamente el comportamiento de la media muestral de colesterol HDL en muestras de tamao n = 10, 25 y 100 obtenidas a partir delos controles del estudio EURAMIC, donde la media poblacional del colesterol HDL
es = 1,09 mmol/l. La proporcin de muestras con niveles medios de colesterol HDL prximos a = 1,09 mmol/l, pongamos por ejemplo entre 1,03 y 1,15 mmol/l, aument de un 48,7% para n = 10 a un 69,1% para n = 25 y a un 95,4% para n = 100. Este resultado corrobora empricamente la consistencia de la media muestral como estimador de la media poblacional: la probabilidad de obtener estimaciones prximas al verdadero nivel medio aumenta progresivamente conforme aumenta el tamao muestral. En los problemas de estimacin ms simples, como es el caso de una media o una proporcin poblacional, se dispone de un estimador natural que cumple las propiedades descritas anteriormente. En otros problemas ms complejos, como por ejemplo en la estimacin de parmetros en modelos de regresin, la eleccin de un estimador razonable no es tan directa. En general, existen diversos mtodos formales para obtener estimadores con buenas propiedades estadsticas, entre los que destacan el mtodo de mxima verosimilitud, el mtodo de mnimos cuadrados y el mtodo de los momentos. Los mtodos de mnimos cuadrados y mxima verosimilitud se presentarn en el contexto particular de los modelos de regresin lineal (Temas 10 y 11) y logstica (Tema 12), respectivamente. No obstante, los principios generales de estos procesos de estimacin y la evaluacin de los estimadores resultantes pueden consultarse en los textos de estadstica matemtica referenciados al final del tema.
TENDENCIA CENTRAL
5.3 ESTIMACIN POR INTERVALO dencia central informan acerca de cul es el valor ms representativo Como ya se ha comentado previamente, las estimaciones puntuales obtenidas a partir de una muestra diferirn del equivalente, parmetro poblacional y, en consecuencia, variable o, dicho de forma estos estimadores indican quedar un margen de incertidumbre que se expresa en trminos del error estndar del estimador. As, resulta natural la pretensin de disponer de una medida del parmetro poblacional que incorpore tanto la estimacin puntual como su error or se agrupan los datos observados. Las medidas de tendencia 5.3.1 Distribucin t de Student estndar. Esta medida es el intervalo de confianza, que facilita un rango de valores dentro del cual se encontrar el verdadero del parmetro poblacional conde unconfianza cierto grado confianza. a sirven tanto para resumir los resultados como para 5.3.1 Distribucin tvalor deobservados Student El mtodo ms extendido para el clculo de intervalos se de basa en las En este apartado se describe detenidamente el procedimiento para la construccin de un intervalo de confianza para lade media poblacional. Los principios bsicos del clculo e interpretacin delmite intervalos acerca de los parmetros poblacionales correspondientes. A El mtodo ms extendido para muestral el clculo de estimador. intervalos de confianza secentral basa en las propiedades la distribucin del Por el teorema del de confianza para otros parmetros son similares y se discutirn en los siguientes temas. criben los principales estimadores dedistribucin la tendencia central de una propiedades de la muestral del estimador. Por el yteorema varianzacentral 2, la del lmite sabemos que, para cualquier variable aleatoria con media
5.3.1Distribucin t de Student 2,media la sabemos que, para variable aleatoria con media y varianza x es aproximadamente normal con y distribucin de las cualquier medias muestrales El mtodo ms extendido para el clculo de intervalos de confianza se basa en las propiedades es aproximadamente normal consabemos media que, y para las muestrales de distribucin la distribucin muestral del estimador. Por el teorema central del tica 2/de n si el medias tamao muestral esxsuficientemente grande; es lmite decir, varianza 2 cualquier variable aleatoria con media y varianza , la distribucin de las medias muestrales 2 , denotada por x es , varianza se define como decon cada uno es de los aproximadamente normal media ysuficientemente varianza 2/n si el tamaoes muestral /n sila elsuma tamao muestral grande; decir, es suficientemente 2 ~ N , grande; es decir, x ividida por el nmero de observaciones realizadas. Si denotamos n2 ~ x N , estral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, n o, de forma equivalente, aplicando la estandarizacin de una distribucin normal o, de forma equivalente, aplicando la estandarizacin de una distribucin normal da por o, de forma equivalente, aplicando la estandarizacin de una distribucin normal x ~ N (0, 1) . x1 + x 2 + ... + x n 1 n . x = xi = x n ~ N (0, 1) . n i =1 n
n Esta cantidad estandarizada depende de dos parmetros desconocidos: la media edida de tendencia central ms utilizada y de ms fcil 62 Pastor-Barriuso R. Esta cantidad depende de dos la media poblacional ,estandarizada que es el parmetro objeto deparmetros inferencia, desconocidos: y la desviacin tpica esponde al centro de gravedad de los datos de la muestra. Su
poblacional denecesario inferencia, y la desviacin tpica ,, que que es es el unparmetro parmetroobjeto auxiliar para conocer el error estndar en poblacional es que est muy influenciada por los valores extremos y, en este
s probabilidad en los extremos (Figura 5.1). Los grados de libertad de la estimacin de . Parece entonces lgico sustituir en la expresin anterior el valor
Estimacin por intervalo t de Student determinan su dispersin: al aumentar los grados de desconocido de por la desviacin tpica muestral s. Sin embargo, como s es un uye la variabilidad y la distribucint de Student se aproxima a una a sude vez un error de muestreo, el estadstico (x estimador de que conlleva Esta cantidad estandarizada depende dos parmetros desconocidos: la media resultante poblacional ,-que mal estandarizada. menor seade el inferencia, tamao muestral , mayor ser es elCuanto parmetro objeto y la n desviacin tpica poblacional , que es un parmetro auxiliar para conocer el error estndar en la estimacin de . Parece entonces lgico )/(s/necesario n ) presentar una mayor imprecisin. Puede probarse que la distribucin de este t de sustituir en la expresin anterior el valor desconocido de por la desviacin tpica muestral s. Sinestadstico embargo, ya como sLa esnormal, un estimador deStudent que aproximadamente conlleva a su vez una un error dealrededor muestreo, el0 y de aspecto no ser sino t que seguir distribucin distribucin de es una distribucin simtrica de una mayo estadstico resultante (x )/(s/ n ) presentar una mayor imprecisin. Puede probarse que la distribucin de este estadstico ya normal, sino que seguir por aproximadamente una conocida como tparecido de Student con nno - distribucin 1ser grados de libertad y denotada tn-1, al de una normal estandarizada, aunque menos apuntada en el como t de Student con n 1 grados de libertad y denotada por tn1, ral es grande,s distribucin facilitar unconocida estimacin precisa de centro y con ms probabilidad x ~ en los extremos (Figura 5.1). Los grados de libertad de t n 1 . icho estadstico ser aproximadamente normal. En la Tabla 5 del s una distribucin t de Student n determinan su dispersin: al aumentar los grados de entan los percentiles de la distribucint de Student para distintos disminuye la variabilidad y la alrededor distribucin de Student separecido aproxima a una La distribucin tlibertad, de Student es una distribucin simtrica det0 y de aspecto ad. al de una distribucin normal estandarizada, aunque menos apuntada en el centro y con ms normal estandarizada. sea el tamao muestral n, mayor ser probabilidad en los distribucin extremos (Figura 5.1). Los grados de Cuanto libertad menor de una distribucin t de Student determinan su dispersin: al aumentar los grados de libertad, disminuye la variabilidad y la 8sea t de [Figura 5.1 aproximadamente aqu] distribucin t de Student se aproxima a una distribucin normal estandarizada. Cuanto menor el tamao muestral n, mayor ser el error de la desviacin tpica muestral s y, en consecuencia, la distribucin t de Student Student otorgar otorgar una unamayor mayo dispersin al estadstico (x )/(s/ n ). Por el contrario, si el tamao muestral es grande, s facilitar 6 De la Tabla 5 del Apndice se obtiene que el percentil 97,5 en unauna estimacin precisa de , de tal forma que la distribucin dichomuestral estadstico ser aproximadamente normal. En la Tabla elde tamao es grande, s facilitar un estimacin precisa de 5 del Apndice se presentan los percentiles de la distribucin t de Student para distintos grados de n t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente libertad. distribucin de dicho estadstico ser aproximadamente normal. En la Tabla 5 del 303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de Ejemplo 5.6 De la Tabla 5 del Apndice se obtiene que el percentil 97,5 en una Apndice se presentan los percentiles de la distribucin t de Student para distintos distribucin t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente t = nes simtricas en 0, el percentil 2,5 coincide con el correspondiente 2;0,975 4,303, t5;0,975 grados = 2,571, de tlibertad. 10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de distribuciones simtricas 0, el 2,5 coincide con el correspondiente percentil 97,5 con signo =percentil -4,303, t5;0,025 = -2,571, t10;0,025 7,5 con signo opuesto; es decir, en t2;0,025 opuesto; es decir, t2;0,025 = 4,303, t5;0,025 = 2,571, t10;0,025 = 2,228 y t30;0,025 = 2,042. Por [Figura 5.1 con aproximadamente aqu] de libertad tanto, el 95% central de lala distribucin de Student 2, 5, 10 y 30 grados = -2,042. Por tanto, el 95% de distribucin tt de t 30;0,025 distribucin simtrica alrededor de central 0 y de aspecto est comprendido entre 4,303, 2,571, 2,228 y 2,042, respectivamente. As, puede observarse que la comprendido dispersin la distribucin n 2, 5, 10 y 30 grados demenos libertad est 4,303, t de Student disminuye al aumentar los l estandarizada, aunque apuntada en el deentre grados de libertad, aproximndose a una distribucin normal estandarizada (95% de los Ejemplo 5.6 De la Tabla 5 del Apndice se obtiene que el percentil 97,5 en una valores entre 1,96, Ejemplo 228 y 2,042, respectivamente. As, puede observarse que la extremos (Figura 5.1). Los grados de libertad de 3.11). distribucin t de Student con 2, 5, 10 y 30 grados de libertad es respectivamente de t de Student disminuye al aumentar los grados de an la sudistribucin dispersin: al aumentar los grados de 5.3.2 Intervalo de confianza para una media poblacional t2;0,975 = 4,303, t5;0,975 = 2,571, t10;0,975 = 2,228 y t30;0,975 = 2,042. Por tratarse de a distribucint de Student aproxima a anteriores una A partir de se los resultados puede construirse un intervalo de confianza para la media poblacional. En general, la estimacin intervalo lleva una nivel de distribucionespor simtricas en 0, elasociada percentil 2,5probabilidad coincide conoel correspondiente uanto menor sea el tamao muestral n,en mayor ser porcentuales por 100(1 )%, que indica la cobertura del confianza , denotada trminos parmetro poblacional. Aunque en97,5 la prctica se utilizan exclusivamente los intervalos t5;0,025 = de -2,571, t10;0,025 percentil con signo opuesto; es decir, t2;0,025 = -4,303, 9 casi t de nos referiremos aqu de forma genrica al intervalo de confianza confianza al 95% ( = 0,05), = -2,042. la Por tanto, el 95% central de distribucin t de = -2,228 y t30;0,025 al 100(1 )% para la media poblacional. Utilizando aproximacin t de Student alla estadstico (x )/(s/ n ), se sigue que hay una probabilidad 1 de que dicho estadstico est Student con 2, 5, 10 y 30 grados de libertad est comprendido entre 4,303, ar un estimacin precisa de 2,571, 2,228 y 2,042, respectivamente. As, puede observarse que la aproximadamente normal. En la Tabla 5 del dispersin de la distribucin t de Student disminuye al aumentar los grados de de la distribucint de Student para distintos Pastor-Barriuso R. 63
libertad, aproximndose a una distribucin normal estandarizada (95% de los

Inferencia estadstica valores
entre 1,96, Ejemplo 3.11).
libertad, aproximndose a una distribucin normal estandarizada (95% de los 5.3.2 Intervalo de confianza para una media f(x) poblacional valores entre 1,96, Ejemplo 3.11). A partir de los resultados anteriores puede construirse un intervalo de confianza para la
N(0, 1) t media poblacional. En general, la estimacin por intervalo lleva asociada una 30 5.3.2 Intervalo de confianza para una media poblacional t10 t5 nivel de confianza , denotada en trminos por 100(1 - )%, probabilidad o resultados A partir de los anteriores puede construirse un porcentuales intervalo de confianza la t2 para
que indica la cobertura del parmetro poblacional. Aunque lleva en la asociada prctica se utilizan casi media poblacional. En general, la estimacin por intervalo una nos referiremos aqu exclusivamente los intervalos de confianza alen 95% ( = 0,05), de confianza , denotada trminos porcentuales por 100(1 - de )%, probabilidad o nivel
)% para poblacional. forma genrica al intervalo de confianza al 100(1 - Aunque que indica la cobertura del parmetro poblacional. enla lamedia prctica se utilizan casi
=x 0,05), referiremos de exclusivamente los intervalos deStudent confianza al 95% ( ( - )/(nos s/ n ), se sigue aqu que hay Utilizando la aproximacin t de al estadstico )% para la media forma genrica al1 intervalo de dicho confianza al 100(1 - estadstico est comprendido entrepoblacional. los percentiles una probabilidad - de que
/2 y 1 - /2 una distribucin t de Student con n 1 grados denotados - )/(de s/ libertad, n ), se sigue que hay Utilizando la de aproximacin t de Student al estadstico (x
-3 -2 -1 0 1 2 3
x est comprendido entre los percentiles y tndicho esto es, respectivamente n-1, /2 -1,1-/2;estadstico de que una probabilidadpor 1-t Figura 5.1 Funcin de densidad de la distribucin t de Student con 2, 5, 10 y 30 grados de libertad, y 5.1 funFigura 1.2 MEDIDAS DE TENDENCIA CENTRAL cin de densidad normal estandarizada. /2 y 1 - /2 de una distribucin t de Student con n 1 grados de libertad, denotados x central informan Las medidas de tendencia acerca de cul es el valor ms representativ P t n 1 <1 /2 de < t una , / 2y n 1,1 / 2 = 1 .t de Student con n 1 grados comprendido entre los percentiles /2 distribucin y tn-1,1; esto es, respectivamente por tn-1,/2 /2 s ; esto es, de libertad, denotados respectivamente por tnn de forma equivalente, estos estimadores indican 1,/2 y tn 1,1 /2 de una determinada variable o, dicho a distribucin simtrica alrededor de 0 y de aspecto
el alrededor de qu valor sela agrupan los datos observados. Las medidas de tendencia x al estandarizada, aunque menos se apuntada en Este resultado representa grficamente en Figura Por =1 .la simetra de la P t n 1, / 2 < < t n 1,1 / 2 5.2. s central de la muestra sirven tanto para resumir los resultados observados como para n anterior extremos (Figuradistribucin 5.1). Los grados de libertad de t de Student, tn-1, = t y la expresin puede rescribirse /2 n-1,1-/2
Este resultado selos representa grficamente en la Figura 5.2. Por la simetra de la distribucin t de realizar inferencias acerca de los parmetros poblacionales correspondientes. A nan su dispersin: al aumentar grados de como Este resultado se representa grficamente en la Figura 5.2. Por la simetra de la Student, tn1,/2 = tn1,1/2 y la expresin anterior puede rescribirse como continuacin se describen los principales estimadores de la tendencia central de una la distribucint de Student se aproxima a una distribucin t de Student, tn-1,/2 = -tn-1,1-/2 y la expresin anterior puede rescribirse x Cuanto menor sea el tamao muestral n, variable. mayor ser P t n 1,1 / 2 < < t n 1,1 / 2 = 1 . como s n t de Media aritmtica s s 1.2.1 =1 . P x t n 1,1 / 2 < < x + t n 1,1 / 2 n Para despejar la media poblacional, se n multiplica cada trmino de la desigualdad por el error x muestral despejar la media poblacional, se multiplica cada trmino de desigualdad por s/ n ) )/( (x Para estndar ya continuacin se resta la media , resultando que la suma La media denotada define de el cada uno de los . lacomo 1 P t naritmtica, < t n 1,por 1,1 / 2 < 1 / 2 x ,=se s n media muestrales )% para la viene As, el intervalo de confianza (IC) al - s 100(1 s depoblacional xobservaciones estndar y a continuacin se resta la media muestral , resultando que valores dividida por el nmero realizadas. Si denotamos ar un estimacinerror precisa de s/ nP x t x t < < + n 1 , 1 /2 n 1 , 1 /2 =1 . n n determinado pormedia por5 ndel el tamao se muestral y por xi eltrmino valor observado para el sujeto i-simo, i = 1, ..., n, Para despejar poblacional, multiplica cada de la desigualdad por el 10 aproximadamente normal. En la Tabla As, el intervalo de confianza (IC) al 100(1 )% para la media poblacional viene determinado por para la media poblacional viene intervalo dedistintos confianza (IC) al 100(1 - )% s la vendra dada por de la distribucinAs, t de el Student para error estndar s/ n y media a continuacin se resta la media muestral x , resultando que x t n 1,1 / 2 , n determinado por 10 x + x 2 + ... + x n 1 n . x = xi = 1 n i =1 del intervalo) n como de su 64 Pastor-Barriuso R. que depende tanto de la estimacin puntual x (valor s central , x t n 1,1 / 2 .1 aproximadamente aqu] n error estndar s/ n . La media es la medida de tendencia central ms utilizada y de ms fcil
Estimacin por intervalo
tn-1
1.2 MEDIDAS DE TENDENCIA CENTRAL

La distribucin tLas de Student una distribucin simtrica alrededor de 0 y es deel aspecto medidases de tendencia central informan acerca de cul valor ms representativo
1- parecido al de una de distribucin normal variable estandarizada, aunque menos apuntada en elestimadores indican una determinada o, dicho de forma equivalente, estos
a distribucin simtrica alrededor de 0 y de aspecto centro y con ms probabilidad los extremos (Figura 5.1). Los grados deLas libertad de de tendencia alrededor deen qu valor se agrupan los datos observados. medidas
al estandarizada, aunque menos apuntada en el una distribucin t de Student su dispersin: alresumir aumentar grados de central de determinan la muestra sirven tanto para loslos resultados observados como para /2 /2 extremos (Figura 5.1). Los grados de libertad de libertad, disminuyerealizar la variabilidad y la distribucin t de Student se aproxima a una inferencias acerca de los parmetros poblacionales correspondientes. A 0 tn-1,/2grados de tn-1,1-/2 nan su dispersin: al aumentar los distribucin normal estandarizada. Cuanto menor sea el tamao muestral n , mayor ser central de una continuacin se describen los principales estimadores de la tendencia x s la distribucint de Student se aproxima a una n t de variable. Figura 5.2 uanto menor sea el tamao muestral n, mayor ser Figura 5.2una Distribucin Student otorgar mayo muestral del estadstico (x )/(s/ n ). 1.2.1 Media aritmtica t de el tamao muestral es media grande, s la facilitar un estimacin de que depende tanto de estimacin puntual (valor central del como dede sulos error La aritmtica, denotada por x ,precisa se define como laintervalo) suma de cada uno DIDAS DE TENDENCIA CENTRAL estndar (x )/(s/ n .) 1.2 de MEDIDAS DE TENDENCIA CENTRAL distribucin dicho estadstico ser aproximadamente normal. En la Tabla 5 realizadas. del valores muestrales dividida por el nmero de observaciones Siel denotamos Los lmites del intervalo estn determinados por datos muestrales y, en consecuencia, intervalo didas deestimacin tendencia central informan acerca de cul es el valor ms representativo ar un precisa de de confianza variar en funcin de la muestra seleccionada. El principio fundamental de la estimacin ApndiceLas se presentan los percentiles de la informan distribucin t de Student para distintos medidas tendencia central acerca de cul es el valor representativo por de n el tamao muestral y por xi el valor observado para el ms sujeto i-simo, i = 1, ..., n, por intervalo radica en que, de todas las posibles muestras del mismo tamao de la poblacin de determinada variable o, dicho dela forma equivalente, estos estimadores indican aproximadamente normal. En Tabla 5 los delintervalos referencia, el 100(1 )% de resultantes incluir el parmetro poblacional. As, aunque grados de libertad. de una determinada variable o, dicho la media vendra dada por de forma equivalente, estos estimadores indican no es posible saber si efectivamente un intervalo concreto incluye o no el parmetro desconocido, se or de qu valor se agrupan los datos observados. Las medidas de tendencia de la distribucin t deuna Student paradel distintos tendr confianza 100(1 )% en que el nico intervalo disponible est entre aquellos que l estudio EURAMIC. En cada una de las alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia n + un x n intervalo hace referencia a contienen dicho parmetro. En otras palabras,1 el nivel dexconfianza de [Figura 5.1 aproximadamente aqu] 1 + x 2 + ... de la muestra sirven tanto para resumir los resultados observados para . = x = x i como la frecuencia con la cual el mtodo producenintervalos certeros y no a la probabilidad de que el n observados mo i =1 los resultados central de la muestra sirven tanto para resumir como para intervalo obtenido en una muestra concreta incluya el parmetro poblacional. inferencias acerca de los parmetros poblacionales correspondientes. A obtenidas a partir de los controles del estudio EURAMIC. En cada una de realizar inferencias acerca de los parmetros poblacionales correspondientes. A las .1 aqu] Ejemplo 5.6 De La la5.7 Tabla 5 del Apndice se obtiene que el percentil 97,5 en una s aproximadamente s Ejemplo media es la medida de tendencia central ms utilizada y de ms fcil En la Figura se presentan los IC al 95% para la media poblacional del =x , principales estimadores 2,262 los acin sedescriben de 5.3 la tendencia central de una 10 10 colesterol HDL en 100 muestras aleatorias de tamao n = 10 obtenidas a partir de los muestras, el IC al 95% se calcul como continuacin se describen los estimadores de la central de una distribucin tinterpretacin. de Student conCorresponde 2, 5,principales 10 y 30al grados dede libertad estendencia respectivamente centro gravedad de los datos de la muestra. Su controles del estudio EURAMIC. En cada una de las muestras, el IC al 95% se calcul como . Apndice obtiene que tpicas el percentil 97,5 en una = 2,228 s variable. s medias yse desviaciones muestrales. t5;0,975 =limitacin 2,571, t10;0,975 y t30;0,975 = 2,042.sPor tratarse de t 2;0,975 = 4,303, principal es que muy x t 9;0est =influenciada x 2,262 por, los valores extremos y, en este , 975 edia aritmtica 10 10 5, 10 y 30 grados de libertad es respectivamente distribuciones simtricas en 0, percentil 2,5 de coincide con el central correspondiente x 1.2.1 = 1,20 ys = aritmtica 0,30, de tal tra se obtuvo caso, puede no serel un fiel reflejo la tendencia de la distribucin. Media donde s son las correspondientes medias desviaciones a aritmtica, denotada por x y , se define como la suma de cada y uno de los tpicas muestrales. As, por ejemplo, y t30;0,975 = 2,042. Por tratarse de 0;0,975 = 2,228 x donde y s son las correspondientes medias y tpicas muestrales. = -4,303, t5;0,025 =de -2,571, testimacin percentil 97,5 con signo opuesto; es decir, t 2;0,025 10;0,025 a media poblacional de colesterol HDL en la aritmtica, primera muestra se obtuvo 1,20 y s =como 0,30,desviaciones de tal forma que launo La media denotada por x = , se define la suma cada de los puntual de la Ejemplo 1.4 En este y enresult los sucesivos ejemplos sobre estimadores muestrales, se muestrales dividida por el nmero de observaciones realizadas. Si denotamos media poblacional de colesterol HDL ser 1,20 mmol/l y su IC al 95% 1,20 2,2620,30/ el percentil 2,5 coincide con el correspondiente = -2,042. Por tanto, elmuestra 95% central de puede la x distribucin = -2,228 y10 tmuestrales =afirmarse 1,20 y t sde = 0,30, de tal As, por ejemplo, en la primera se obtuvo 30;0,025 = (0,99; 1,41); es decir, a partir de esta muestra con una confianza del 95% valores dividida por el nmero de observaciones realizadas. Si denotamos (0,99; 1,41); es % 1,20 2,262 0,30/ utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del que la media poblacional del colesterol HDL se encuentra entre 0,99 y 1,41 mmol/l. tamao muestral y por x el valor observado para el sujeto i -simo, i = 1, ..., n , i = -4,303, t = -2,571, t o; es decir, t2;0,025 5;0,025 10;0,025 forma que la puntual de la media poblacional de Student 2, 5, 10 yestimacin 30 grados de est comprendido colesterol 4,303, iHDL por ncon el tamao por xilibertad el valor observado para el entre sujeto i-simo, = 1, ..., n, afirmarse con una confianza del muestral 95% quey la estudio European Study on Antioxidants, Myocardial Infarction and Cancer Pastor-Barriuso R. of 65 a tanto, vendra dada por el 95% central de la distribucin t de 2,571, 2,228 y 2,042, respectivamente. As, puede observarse que la result ser 1,20 mmol/l la media vendra dada por y su IC al 95% 1,20 2,2620,30/ 10 = (0,99; 1,41); es L se encuentra entre 0,99 y 1,41 mmol/l. the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado n + ... x1+4,303, x2 s de libertaddispersin est comprendido entre + x n disminuye al aumentar los grados de de1la distribucin t de Student
En este ejemplo ilustrativo, donde se conoce el verdadero valor de la media poblacional = 1,09 mmol/l, puede comprobarse empricamente el significado del nivel de confianza al 95%: 94 de los 100 intervalos calculados contienen efectivamente la media poblacional, mientras que los 6 restantes no la contienen. Un IC particular puede o no incluir el parmetro y, por tanto, carece de sentido decir que hay una probabilidad del 95% de que se encuentre dentro de un intervalo concreto. La estimacin por intervalo facilita un rango de valores verosmiles o compatibles con la media poblacional , cuya amplitud depende de: yy El nivel de confianza 100(1 )%. Cuanto mayor sea la confianza deseada para un intervalo, mayor ser la amplitud del mismo.
0,6
0,8
1,2
1,4
1,6
Figura 5.3
Nivel medio de colesterol HDL (mmol/l)
Figura 5.3 Estimaciones puntuales (crculos) e intervalos de confianza al 95% (lneas horizontales) para la media poblacional del colesterol HDL en 100 muestras aleatorias de tamao n = 10 obtenidas a partir de los controles del estudio EURAMIC. La lnea vertical en trazo discontinuo corresponde al verdadero nivel medio = 1,09 mmol/l de colesterol HDL.
Contraste de hiptesis estimacin, mayor ser del la amplitud del intervalo. Es decir,es lams amplitud deque un el mmol/l con una confianza 99%. Notar que este intervalo amplio medidas de tendencia central informan de cul el valor msanterior, representativo Ejemplo 5.8 En la acerca primera muestra ejemplo s es del 0,30 el IC al 99% ( = 0,01) x t 9;0aporta =1 = (0,89; 1,51); ,20 3,250 intervalo de confianza una medida de la precisin de la estimacin. , 995 correspondiente intervalo al 95% (0,99; 1,41). 10 10 na determinada variable o, dicho de forma equivalente, estos estimadores indican se calculara Ejemplo 5.8como En la primera muestra del ejemplo anterior, el IC al 99% ( = 0,01) se calculara como Ejemplo En observados. una muestraLas aleatoria de tamao n= 100 de los controles del dedor de qu valor se agrupan los datos medidas de tendencia esto es, la5.9 media poblacional colesterol HDL se encuentra entre 1,51 El error estndar de la estimacin SE ( x ) = s/ 0 n . Cuanto mayor sea el 0,89 erroryde la ,30 s del x t 9;0,995 = 1,20 3,250 = (0,89; 1,51); 10 10 x= 1,09 yobservados s = 0,31,que resultando un IC al para la que media EURAMIC se obtuvo ral de la muestra sirven mmol/l tanto para resumir los resultados como para con una confianza del 99%. este intervalo es 95% ms de amplio el estimacin, mayor ser la amplitud del Notar intervalo. Es decir, la amplitud un esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 mmol/l poblacional de izar inferencias acerca de los la parmetros poblacionales correspondientes. Ams amplio correspondiente intervalo al 95% (0,99; 1,41). esto es, media poblacional del colesterol HDL se es encuentra 0,89 y 1,51 con una confianza del 99%. Notar que este de intervalo que el correspondiente intervalo de confianza aporta una medida la precisin de la entre estimacin. intervalo al 95% (0,99; 1,41). tinuacin se describen los principales estimadores la tendencia central de mmol/l con una confianza delde 99%. Notar que este0, intervalo 3 1 una es ms amplio que el s 1,0 84 n = tla x = (1,03; 1,15). 99 ;0, 97 5 El error estndar estimacin SE (9 x )1 =,9 s/ . Cuanto mayor sea el del error de la yy El error estndar dede la estimacin Cuanto mayor sea el error de la Ejemplo 5.9 En una muestra aleatoria = 100 de los controles 100 de tamao n 10 able. estimacin, mayor ser la amplitud del intervalo. correspondiente intervalo al 95% (0,99; 1,41). Es decir, la amplitud de un intervalo de confianza aporta una medida de la precisin de la estimacin. estimacin, mayor ser amplitud del intervalo. Es decir, la amplitud demedia un x = la 1,09 ys = 0,31, resultando un IC al 95% para la EURAMIC se obtuvo As, a partir de esta muestra de mayor tamao, se concluye que la media 1 Media aritmtica intervalo deEn confianza aporta una medida precisin de estimacin. El error estndar de lamuestra estimacin SE( xde ) =tamao s/denla .n Cuanto mayor sea el error la Ejemplo 5.9de una aleatoria = 100 de losla controles del de EURAMIC poblacional poblacional del colesterol HDL se encuentra entre 1,03 y 1,15 mmol/l con un =se 1,09 ys= 0,31, resultando un IC al de 95% para la media poblacional de se obtuvo media aritmtica, denotada por x , define como la suma de cada uno los estimacin, mayor ser la amplitud del intervalo. Es decir, la amplitud de un s Este 0,31 n = ms 5.9 En muestra aleatoria de tamao 100 de los controles nivel confianza del 95%. es preciso que los del ores muestrales dividida Ejemplo por elde nmero realizadas. Simucho denotamos x de una t observaciones =1 = (1,03; 1,15). ,intervalo 09 1,984 99; 0 , 975 10 100 intervalo de confianza aporta una medida de la precisin de la estimacin. intervalos representados en lael Figura para muestras de n para = 10. x = 1,09 y s = 5.3 0,31, resultando un al 95% la media EURAMIC se obtuvo sujeto i-simo, i = 1, ..., nIC , tamao n el tamao muestral y por xi el valor observado para As, a partir de esta muestra de mayor tamao, se concluye que la media poblacional del As, a partir de esta muestra de mayor tamao, se concluye que la media colesterol HDL se encuentra 1,03de y 1,15 mmol/l con de un nivel de confianza poblacional Ejemplo 5.9 Ende una muestra entre aleatoria tamao n = 100 los controles del del 95%. media vendra dada por Este intervalo mucho ms preciso que los intervalos representados Figura 5.3 para Como se ver es ms adelante, el clculo de los intervalos de confianzaen esla similar para poblacional del colesterol HDL se encuentra entre 1,03 y 1,15 mmol/l con un muestras de tamao n = 10. s = 0,31, resultando IC al 95% para la media EURAMIC se obtuvo x = 1,09 y s intervalo 0,31unal + ... + el x1 x x 1 n todos los parmetros. En general, de confianza 100(11,15). - )% para un 2 ;+ n x t = = (1,03; 1 , 09 1,984 99 0 , 975 . = confianza x de x i = del 95%. Este intervalo nivel es mucho ms preciso que los 10 100 Como se ver n i =1ms poblacional de adelante,nel clculo de los intervalos de confianza es similar para todos poblacional se construye como los determinado parmetros. parmetro En general, el intervalo de confianza al 100(1 )% para un determinado intervalos representados en la Figura 5.3 para muestras de tamao n = 10. parmetro poblacional se construye como As, a partir de esta muestra de mayor tamao, se concluye que la media La media es la medida de tendencia central ms utilizada y de ms fcil s 0,31 x t 99;0,975 estimador = 1,09 = (1,03; 1,15). 1,984 puntual x1/2 SE, 10 100 poblacional del colesterol HDL se encuentra entrede 1,03 y 1,15 mmol/l conpara un Como se ver ms adelante, el clculo de los confianza es similar rpretacin. Corresponde al centro de gravedad de los datos deintervalos la muestra. Su donde x1/2 denota el percentil 1 /2 de la distribucin muestral del estimador. 13 nivel de confianza delpor 95%. Este intervalo es mucho ms preciso que As, a partir de esta muestra de mayor tamao, se concluye que media )% paralos un todos los parmetros. En general, el intervalo de confianza al este 100(1 - la cipal limitacin es que est muy influenciada los valores extremos y, en 5.4 CONTRASTE DE HIPTESIS intervalos representados en se la Figura 5.3como para muestras de tamao = 10. poblacional del colesterol HDL se encuentra entre 1,03 y 1,15 mmol/lncon un determinado parmetro poblacional construye o, puede no ser un fiel reflejo de la tendencia central de la distribucin. En ocasiones, el inters de la investigacin se centra no tanto en estimar un parmetro desconocido, sino en dilucidar si dicho parmetro es compatible con un valor predeterminado. A partir de nivel de confianza del 95%. Este intervalo es mucho ms preciso que los , estimador puntual x1/2 SE Como se ver ms adelante, el clculo de los intervalos de confianza es similar para conocimientos previos o mediante un razonamiento lgico, se pueden elaborar hiptesis o conjeturas Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se sobre intervalos el fenmeno o parmetroen objeto de estudio (por ejemplo, establecer de que la representados la Figura 5.3 para muestras de tamao nla = hiptesis 10. )% para un todos los parmetros. En general, el intervalo de confianza al 100(1 media de una poblacin toma un valor determinado). La validez de estas hiptesis poblacionales utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 13 ha de ser contrastada estadsticamente a partir de la informacin disponible en la muestra. Las tcnicas que permiten evaluar el grado de compatibilidad de los datos muestrales con una hiptesis determinado parmetro poblacional se de construye como Como se ver ms adelante, el clculo los intervalos de confianza es similar para estudio European Study on Antioxidants, Myocardial Infarction and Cancer of predeterminada se conocen genricamente con el nombre de tests (pruebas o contrastes) de hiptesis. todos los parmetros. Enmulticntrico general, el intervalo de al ,100(1 - )% para un the Breast (EURAMIC), un estudio de casos y confianza controles realizado SE estimador puntual x
El error estndar de la estimacin SE( x ) = s/ n . Cuanto mayor sea el error de la esto es, la media poblacional del colesterol HDL se encuentra entre 0,89 y 1,51 MEDIDAS DE TENDENCIA CENTRAL se calculara como
5.4.1 Formulacin de hiptesis poblacional se para construye como entre 1991 y determinado 1992 en ochoparmetro pases Europeos e Israel evaluar el efecto de los Los tests de hiptesis parten del planteamiento de una hiptesis nula, denotada por H013 , que representa el valor preestablecido del parmetro poblacional. Esta hiptesis nula se aceptar si estimador puntual x1-/2 SE, 5 los datos muestrales no aportan suficiente evidencia en contra de la misma. Por el contrario, si se cuenta con pruebas suficientes para contradecir la hiptesis nula, sta se rechazar en favor 13 de la de una hiptesis alternativa, denotada por H1, que corresponde generalmente a la negacin
Pastor-Barriuso R.
1-/2
67
tratamiento; es decir, la presin arterial media la poblacin tratada con el Ejemplo 5.10 En un estudio para determinar lade eficacia de un frmaco
T es igual a la media la poblacin P.de La hiptesistratados frmaco antihipertensivo, se compara lade presin arterial no de tratada un grupo pacientes
alternativa sera, el la contrario, que las presiones arteriales medias dehiptesis ambas hiptesis estepor punto, cabe en pacientes que el trmino aceptar la nula no con nula. dichoEn frmaco con de unincidir grupo de tratados con placebo. La implica que dicha hiptesis sea efectivamente cierta, sino que se carece de evidencia suficiente poblaciones son distintas. el contraste de hiptesis de quedara formulado como para rechazarla. Como se ver As, ms adelante, nunca pueden hiptesis nula ms natural, en este caso, eslas la hiptesis no efecto del ser corroboradas completamente, quedando siempre un margen o probabilidad de error. tratamiento; es decir, la presin arterial media de la poblacin tratada con el H0: T = P, Ejemplo 5.10 En un estudio para determinar la eficacia de un frmaco antihipertensivo, se compara la presin arterial de un grupo de pacientes tratados dicho frmaco con la T es igual a la media de la poblacin no tratada P. Lacon hiptesis frmaco H 1: T P. de un grupo de pacientes tratados con placebo. La hiptesis nula ms natural, en este caso, es la hiptesis de no del que tratamiento; es decir, la presin media de la alternativa sera, por elefecto contrario, las presiones arteriales mediasarterial de ambas La hiptesis nula se aceptar a no ser que los resultados del ensayo clnico poblacin tratada con el frmaco T es igual a la media de la poblacin no tratada P. La hiptesis alternativa sera, As, por el contrario, que las presiones arteriales medias de ambas poblaciones son distintas. contraste de hiptesis quedara formulado como muestren una gran diferencia entre los grupos que resulte poco compatible con poblaciones son distintas. As, el contraste de hiptesis quedara formulado como H0 : T = P , una ausencia de efecto del tratamiento. H1 : T P . Supongamos hipotticamente que el grupo control del estudio EURAMIC La hiptesis nula se aceptar a no ser que los resultados del ensayo clnico muestren una sentidos. En algunas circunstancias, donde las desviaciones la hiptesis en de efecto gran diferencia entre los que resulte poco si compatible con unanula ausencia constituye lanula poblacin a grupos estudio. Para contrastar la de media poblacional del La hiptesis se aceptar a no ser que los resultados del ensayo clnico del tratamiento. algn sentido carecen de importancia o son simplemente inconcebibles, es posible es igual a un determinado valor, pongamos por ejemplo 1 colesterol HDL Supongamos hipotticamente que el grupo control del estudio EURAMIC constituye la muestren una gran diferencia entre los grupos que resulte poco compatible con poblacin a estudio. Para contrastar si la media poblacional del colesterol HDL es igual formular un contraste unilateral, aceptando como evidencia contra H0 nicamente las mmol/l, el test de hiptesis se formulara como1 mmol/l, el test de hiptesis se formulara a un ausencia determinado valor, pongamos por ejemplo una de efecto del tratamiento. como diferencias en un sentido. Supongamos hipotticamente que el H grupo control del estudio EURAMIC 0 : = 1, H1 : 1. constituye la poblacin a estudio. Para contrastar si la antihipertensivo, media poblacional Ejemplo 5.11 En el estudio de la eficacia del frmaco sedel formul La eleccin entre ambas hiptesis depender de los resultados obtenidos en una muestra esestudio igual a EURAMIC. un determinado valor, pongamos ejemplo colesterol HDL de los controles del . En este caso, sepor admite que 1 la una hiptesis alternativa bilateral H1: T P La eleccin entre ambas hiptesis depender de los resultados obtenidos en una elen test de hiptesis se como evidencia contra de la se hiptesis nula puede provenir alternativa tanto por un efecto nocivo En mmol/l, los ejemplos anteriores, haformulara planteado una hiptesis bilateral ; es decir, se muestra de los controles del estudio EURAMIC. aceptan como evidencia contra la hiptesis nula las diferencias en ambos sentidos. En algunas circunstancias, donde desviaciones de la hiptesis nula (en algn sentido carecen de del mismo T < P). Si en fases del tratamiento (las T> P) como por la Heficacia 0: = 1, importancia o son anteriores, simplemente inconcebibles, eshiptesis posible formular un contraste unilateral, bilateral ; es En los ejemplos se ha planteado una alternativa en un sentido. aceptando como contra H previas del evidencia ensayo clnico se ha comprobado ladiferencias ausencia de efectos secundarios 0 nicamente 1. H : las
1
decir, se aceptan como evidencia contra la hiptesis nula las diferencias en ambos del tratamiento, la posibilidad dela que la presin arterial media de los tratados sea Ejemplo 5.11 En el estudio de eficacia del frmaco antihipertensivo, se formul una La eleccin entre ambas hiptesis depender de los resultados obtenidos en una hiptesis alternativa bilateral H1: T P. En este caso, se admite que la evidencia en sentido y slo podra superior a la media de los nopuede tratados (T > contra de hiptesis nula provenir tanto por unde efecto nocivo del tratamiento P) carecera 15 muestra de los controles del estudio EURAMIC. (T>P) como por la eficacia del mismo (T < P). Si en fases previas del ensayo clnico explicarse por variabilidad aleatoria. En tal caso, cabra plantearse el siguiente se ha comprobado la ausencia de efectos secundarios del tratamiento, la posibilidad de que la presin arterial media de los tratados sea superior a la media de los no tratados En contraste los ejemplos anteriores, se ha planteado una hiptesis alternativa bilateral; es de hiptesis de unilateral sentido y slo podra explicarse por variabilidad aleatoria. En tal (T> P) carecera caso, cabra plantearse el siguiente contraste de hiptesis unilateral decir, se aceptan como evidencia contra la hiptesis nula las diferencias en ambos H0 : T = P , H1 : T < P , 15 donde slo se considera como alternativa a H0 la posibilidad de que el tratamiento antihipertensivo sea eficaz. donde slo se considera como alternativa a H0 la posibilidad de que el tratamiento
68
antihipertensivo Pastor-Barriuso R.
sea eficaz.
Los contrates bilaterales son ms conservadores que sus correspondientes contrates
Contraste de hiptesis
el valor muestra o, ms concretamente, de la compatibilidad de la media muestral La media aritmtica, denotada por x ,con se define como la suma de variable. predeterminado 0Media . Comoaritmtica la media muestral es un estimador sujeto a error, el objetivo es 1.2.1 valoresconstituye muestrales dividida por el probable nmero de observaciones realiz determinar si la variabilidad inherente al muestreo una explicacin para la EDIDAS DE TENDENCIA CENTRAL valorcomo predeterminado 0 de la de media diferencia observada la media muestral La mediaentre aritmtica, denotada por x ,y seel define la suma de cada uno los 1.2.1 Media aritmtica por n el de tamao muestral y por xi el valor observado poblacional. Para ello, se calcula la probabilidad que bajo la hiptesis nula, una media para el sujeto edidas de tendencia central acerca de cul es el valor ms representativo ms se La rechaza la hiptesis nula o, de observaciones forma se afirma que inferior oinforman igual que valores muestrales dividida por el nmero realizadas. Si conoce denotamos el valor observado de x .,equivalente, Esta probabilidad se muestral difiera tanto o de 0 que media aritmtica, denotada por se define como la suma de cada uno de los la media vendra dada por como valor P del contraste de hiptesis y determina el grado de compatibilidad de los datos determinada variable o, dicho forma equivalente, estos indican 1, ..., n, Si denotam los resultados son estadsticamente significativos; en caso contrario, si P es superior a porde n el tamao muestral por estimadores x el valor observado para el sujeto i -simo, i sern = valores dividida por el nmero de observaciones realizadas. muestrales con la hiptesis nula. muestrales Si y este valor P es elevado, los datos muestrales i compatibles con el valor 0 de la media poblacional, careciendo as de evidencia x1 + x 2 + ... + x n 1 n para rechazar dor de qu valor se agrupan los datos observados. Las medidas de tendencia = x xi = media vendra dada por se acepta la hiptesis nula, concluyendo que los resultados del test no son por n el tamao muestral y por x el valor observado para el sujeto la hiptesis nula. Por el contrario, si el valor P es pequeo,i la media muestral resultar pocoi-simo, i. = 1, . n i =1 n compatible con el valor preestablecido 0, concluyendo entonces que los datos aportan suficiente l de la muestra sirven tanto para resumir los resultados observados como para estadsticamente significativos. la media vendra dada evidencia para rechazar dicha hiptesis. En n por cuanto menor sea el valor P, menos x + x 2 + ... + x n 1general, x= xi = 1 compatibles sern los datos con la hiptesis nula. La media es la medida de.tendencia central ms utilizada y de n calcular la probabilidad r inferencias acerca de losconocer parmetros poblacionales correspondientes. A i =1tanto necesario Para el valor P del contraste es n por + x 2 + ... + xn x umbral 1 n de un La decisin de rechazar la hiptesis nula se basa en la definicin preestablecido . x= x i = 1 al centro interpretacin. Corresponde de gravedad o nivel de significacin , tradicionalmente = central 0,05. Si eluna valor P es inferiorn o igual que se de los datos uacin se describen los principales estimadores de la tendencia de n = i 1 de que las medias de todas las posibles muestras de tamao nutilizada difieran tanto o ms de 0 La media medida de tendencia central ms y de estadsticamente ms fcil rechaza la hiptesis nula o, es de la forma equivalente, se afirma que los resultados son principal eshiptesis que est muy por los valores e significativos; en caso contrario, si P es superior a limitacin se acepta la nula,influenciada concluyendo le. x , asumiendo que la media poblacional es datos . Bajo que el valor observado de interpretacin. Corresponde al centro de gravedad de los de la muestra. Su La media es la medida de tendencia central ms utilizada y de ms fcil 0 que los resultados del test no son estadsticamente significativos. caso, puede no ser un fiel reflejo de la tendencia central de la dist conocer el P del contraste es por tanto calcular la probabilidad de que Media aritmtica Para principal limitacin es que est muy influenciada por los valores extremos y, en este interpretacin. Corresponde al centro de gravedad lostal datos de la muestra. Su : = , las medias muestrales senecesario distribuirn alrededor de de hiptesis nula Hvalor 0 0 0, de las medias de todas las posibles muestras de tamao n difieran tanto o ms de 0 que el valor Ejemplo 1.4 En este y la endistribucin. los sucesivos sobre observado decaso, ,,asumiendo que la poblacional es la hiptesis nula H = ejemplos dia aritmtica, denotada x se define como lamedia suma de cada uno de los puede no serestandarizadas un fiel reflejo dees la tendencia central de principal limitacin que est muy influenciada por los valores extremos y, estim en e 0. Bajo 0: 0, las forma por que sus desviaciones medias muestrales se distribuirn alrededor de 0, de tal forma que sus desviaciones estandarizadas utilizarn del colesterol HDL obtenidos en los 1 s muestrales dividida por el nmero de observaciones Si denotamos caso, puederealizadas. no ser un fiel reflejolos de valores la tendencia central de la distribucin. x 0 Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se t= s estudio European Study on Antioxidants, Myocardial Infar el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, n HDL utilizarn los valores del colesterol obtenidos en ejemplos los 10 primeros sujetos del muestra Ejemplo 1.4 En este y en los sucesivos sobre estimadores the Breast (EURAMIC), un estudio multicntrico de casos ia vendra dada por seguirn aproximadamente una distribucin t de Student con n 1 grados de libertad (Apartado estudio European Study on Antioxidants, Myocardial Infarction and Cancer of utilizarn los valores colesterol obtenidos en los sujet seguirn aproximadamente una distribucin t de Student con n 1 HDL grados de libertad 5.3.1). Una vez calculado el valor de este estadstico tdel a partir delos datos observados en10 la primeros entre 1991 y 1992 en ocho pases Europeos e Israel para eva muestra, el valor + x 2 + ...vendr + x n determinado por el rea bajo la curva de la distribucin x1contraste 1 n P del the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado estudio European Study on Antioxidants, Myocardial and Cance . el valor de este = x aquellos x i = Una vez calculado 5.3.1). estadstico t a partir de los datos Infarction tn1 (Apartado para n i =1 valores tanto n o ms distantes de 0 que el valor observado de t (esto es, desviaciones de 0 mayores o iguales que la observada en cualquiera de los dos sentidos). En la entre 1991 el y 1992 en ocho pases Europeos e Israel para evaluar el efecto los the Breast (EURAMIC), un estudio multicntrico de casosde y controles real observados en la muestra, valor P contraste vendr determinado por el rea bajo Figura 5.4 se representa grficamente eldel clculo del valor P para este contraste de hiptesis. media es la medida de tendencia central ms utilizada y de ms fcil entreaquellos 1991 y 1992 en tanto ocho o pases Europeosde e Israel valores ms distantes 0 que para el evaluar el efecto de la curva de la distribucin tn-1 para 5 Pastor-Barriuso R. 69 etacin. Corresponde al centro de gravedad de los datos de la muestra. Su valor observado de t (esto es, desviaciones de 0 mayores o iguales que la observada en pal limitacin es que est muy influenciada por los valores extremos y, en este
Las medidas de tendencia central informan acerca de cul es el va Los contrastes bilaterales son ms conservadores que sus correspondientes contrastes 1.2 MEDIDAS DE TENDENCIA CENTRAL unilaterales, dado que aquellos contemplan desviaciones de H0 en cualquier sentido. En la de una determinada variable o, dicho de forma equivalente, estos mayor parte de las aplicaciones prcticas se utilizan hiptesis CENTRAL alternativas bilaterales, ya que 1.2 MEDIDAS DE TENDENCIA Las medidas de tendencia central informan acerca de cul es el valor ms representativo resulta imposible excluir con absoluta certeza diferencias en alguno de los dos sentidos. As, alrededor de qu valor se agrupan los datos observados. Las medi todos los contrastes de hiptesis planteados a lo largo de este texto estn basados en hiptesis de una determinada variablede o, tendencia dicho de forma equivalente, estos de estimadores Las medidas central informan acerca cul es el indican valor ms represen alternativas bilaterales. central de la muestra sirven tanto para resumir los resultados obse alrededor de qu se agrupan los datos o, observados. Las medidas de tendencia de valor una determinada variable dicho de forma equivalente, estos estimadores indi realizar inferencias acerca de los parmetros poblacionales corres 5.4.2 Contraste estadstico para la media de una poblacin central de la muestra sirven tanto parase resumir los resultados observados como para de tendencia alrededor de qu valor agrupan los datos observados. Las medidas En este apartado se discuten los conceptos continuacin bsicos para se la describen realizacin e principales interpretacin de un de la tenden los estimadores contraste de hiptesis bilateral sobre la media una poblacin. Esto es, correspondientes. selos pretende contrastar realizar inferencias acerca de los de parmetros poblacionales A central de la muestra sirven tanto para resumir resultados observados como pa alternativa bilateral H1: 0, donde 0 es un la hiptesis nula H0: = 0 frente a la hiptesis variable. valor predeterminado de la media poblacional. El contraste de otros as como continuacin se describen los principales estimadores de parmetros, la tendencia central dela una realizar inferencias acerca de los parmetros poblacionales correspondientes. A comparacin de parmetros entre distintas poblaciones, se presentar en temas posteriores. 1.2.1 Media aritmtica variable. continuacin se describen los principales estimadores de la tendencia La eleccin entre las hiptesis nula y alternativa depender de los resultados obtenidos en la central de u
Distribuci n de t =
x 0 bajo H 0 : = 0 s n
tn-1
Las medidas de tendencia central informan acerca de cul es el valor ms representativo P/2 P/2
-t
0
de una determinada variable o, dicho de forma equivalente, estos estimadores indican

t
Figura 5.4
alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia (valor observado) MEDIDAS DE TENDENCIA CENTRAL central de la muestra tanto para el resumir los resultados como para Figura sirven 5.4 Valor P para contraste bilateral de la observados media de una poblacin.
medidas de tendencia central informan acerca de cul es el valor ms representativo : = 1, H0 realizar inferencias acerca de los parmetros poblacionales correspondientes. A Ejemplo 5.12 Supongamos que se pretende contrastar si la media poblacional del na determinada variable o, dicho de forma equivalente, estos estimadores indican colesterol HDL en los controles del EURAMIC es igual a una 1 mmol/l mediante el test de : 1. central H continuacin se describen los principales estimadores de la tendencia de 1 hiptesis bilateral edor de qu valor se agrupan los datos observados. Las medidas de tendencia variable. Para ello, se obtiene una muestra de H tamao n = 10 donde la media y desviacin 0 : = 1, al de la muestra sirven tanto para resumir los resultados observados H1 : 1. como para 1.2.1 Media aritmtica tpica resultaron ser x = 1,20 y s = 0,30 mmol/l. A partir de estos datos se calcula zar inferencias acercaPara de los parmetros poblacionales Adonde la media y desviacin tpica ello, se obtiene una muestracorrespondientes. de tamao n = 10 ser del 1,20 ys= 0,30la mmol/l. A cada partiruno de estos datos se calcula el estadstico La media aritmtica, resultaron denotada por x ,=contraste se define como suma de de los el estadstico Para ello, se obtiene una muestra de tamaocentral n = 10 de donde nuacin se describen del los contraste principales estimadores de la tendencia una la media y desviacin valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos 0 ,20 1 A partir de estos datos se calcula y s= 0,301 mmol/l. tpica resultaron ser x = 1,20 x ble. t= = 2,11, = s 0,30 i-simo, i = 1, ..., n, por n el tamao muestral y por xi el valor observado para el sujeto n el estadstico del contraste 10 Media aritmtica la media vendra dada por que determina la diferencia estandarizada (dividida por el error estndar) entre la media 0de 1 de 1 ,20 que determina diferencia estandariza por el error estndar) entre la muestral yse ella valor predeterminado .(dividida La distribucin muestral de este estadstico bajo edia aritmtica, denotada por x , define como la x suma uno los = 2,11, t= =0cada n H : = 1 seguir s 0 , 30 aproximadamente una t de Student con 9 grados de la hiptesis 1 nula 0 x1 + x 2 + ... + x n n . = = x x 10 x media muestral y el valor predeterminado . La distribucin muestral de este i observaciones es muestrales dividida por el ( nmero realizadas. Si denotamos 0 nula libertad n n1 = de 10 1 = 9). n As, si la hiptesis fuera cierta (esto es, si la verdadera i =1 media poblacional fuera 1 mmol/l), la probabilidad de obtener una muestra de 10 sujetos el tamao muestral y poruna xi el valor observado para elH sujeto i1 -simo, ipor = 1, n , estndar) igual = seguir aproximadamente una t dela estadstico bajo la hiptesis nula con media de colesterol superior a 1,20 mmol/l (mayor o igual desviacin que 0: o que determina la diferencia estandariza (dividida el..., error entre La media es la medida de tendencia central msoutilizada y de ms la observada por la derecha) inferior o igual a fcil 0,80 mmol/l (mayor o igual desviacin edia vendra dada porque la observada la izquierda) Student con 9 grados de libertad (nsera - 1 = 10 - 10. =La 9).distribucin As, si la hiptesis nula fuera xpor media muestral y el valor predeterminado muestral de este interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su cierta (esto es, six la + verdadera fuera 1 mmol/l), la probabilidad + media x 2 + ... nula x n H0: poblacional 1 n bajo = 1 seguir aproximadamente una t de estadstico la1 hiptesis principal limitacin es que muy influenciada por los valores extremos y, en este . = x =est x i n n 70 Pastor-Barriuso R. = i 1 de obtener una muestra de 10 sujetos con una media de colesterol superior o igual con de 9 grados de libertad (n de - 1la = distribucin. 10 - 1 = 9). As, si la hiptesis nula fuera caso, puede no ser unStudent fiel reflejo la tendencia central 1,20 mmol/l (mayor o igual desviacin que la observada por la derecha) o a media es la medida a de tendencia central ms utilizada y de ms fcil cierta (esto es, si la verdadera media poblacional fuera 1 mmol/l), la probabilidad
a 1,20 mmol/l (mayor o igual desviacin que la observada por la derecha) o inferior o igual a 0,80 mmol/l (mayor o igual desviacin que la observada por la izquierda) sera P = P( x 1,20 | H0 ) + P( x 0,80 | H0 )
x 0 1,20 0 x 0 0,80 0 = P H 0 + P H0 s s s s n n n n
P(t9 2,11) + P(t9 2,11) = 2P(t9 2,11) = 0,064,
que corresponde al rea bajo la curva de la distribucin t9 para valores superiores a 2,11 (valor observado del estadstico) o inferiores a 2,11. Notar que el valor exacto de P se valores que corresponde rea bajo la curva de la distribucin t9 para ha obtenido por al ordenador. No obstante, utilizando la Tabla 5 del superiores Apndice, puede S DE TENDENCIAcomprobarse CENTRAL que el estadstico t = 2,11 est comprendido entre los percentiles t9;0,95 = a 2,11 y (valor del estadstico) o inferiores a -2,11. Notar que el valor 1,833 t9;0,975 observado = 2,262, de lo cual se deduce la desigualdad 0,025 <P (t9 2,11) < 0,05, que equivaleacerca a un valor P bilateral comprendido entre 0,05 < P < 0,10. e tendencia central informan de cul es el valor ms representativo exacto de P se ha obtenido por ordenador. No obstante, utilizando la Tabla 5 del Si se adopta el nivel de significacin = 0,05 como regla de decisin, los resultados de inada variable o, dicho demuestra forma equivalente, estos estimadores indican 1.2 MEDIDAS DE TENDENCIA CENTRAL esta no aportan suficiente evidencia para rechazar la hiptesis nula (P = 0,064 > 19 0,05), concluyendo que la verdadera media poblacional del colesterol HDL no resulta u valor se agrupan los datos observados. Las medidas de tendencia significativamente distinta de 1 mmol/l. Las medidas de tendencia central informan acerca de cul es el valor ms representativ
muestra sirven tanto para resumir los resultados observados como para El valor P determina la significacin estadstica deo, los resultados de un contraste de hiptesis, de una determinada variable dicho de forma equivalente, estos estimadores indican y depende tanto de la magnitud de la diferencia entre el verdadero valor del parmetro y su ncias acerca de valor los parmetros poblacionales A como delvalor tamao muestral. As, una pequea diferencia puede predeterminado bajo H0,correspondientes. alrededor de qu se agrupan los datos observados. Las medidas de tendencia resultar estadsticamente significativa si el tamao muestral es suficientemente grande y, por el e describen loscontrario, principales estimadores de la tendencia de una : Supongamos se plantea elmuestra mismo contraste bilateral de laestadstica hiptesis nula una granque diferencia puede nocentral alcanzar significacin si laH muestra es como para 0 central de la sirvenla tanto para resumir los resultados observados insuficiente. En consecuencia, el valor P no debe interpretarse como una medida de la magnitud de la diferencia o de asociacin objeto estudio. 1,09 mmol/l y correspondientes. A = 1 a partir una muestra de de tamao n = 100 media x = poblacionales realizar inferencias acerca de con los parmetros
Ejemplo 5.13 En el ejemplo anterior se observ diferencia colesterol HDL desviacin tpica s= 0,31 mmol/l. El estadstico del una contraste es en el continuacin se describen los principales estimadores de la tendencia central de una media Supongamos que se plantea mismo contraste bilateral denula la hiptesis nula Hy 0:la de0,20 mmol/l entre el valorel determinado bajo la hiptesis 0 = 1 mmol/l 1,20 mmol/l en una muestra tamao n bilateral = 10. Los resultados del test no mtica, denotada por Supongamos x ,= se define como laplantea suma de uno de los : fueron que variable. se elcada mismo de la hiptesis nula H0 x de 1 1,09 0 contraste x = 1,09 mmol/l y = 1 a partir de una muestra de tamao n = 100 con media = 2,90 = t = estadsticamente significativos (P = 0,064) pero la magnitud de la diferencia podra ser s 0,31 rales dividida por el nmero de observaciones realizadas. Si denotamos clnicamente importante de confirmarse en estudios con mayor tamao muestral. 10 n x = es 1,09 mmol/l y = 1 a partir tpica de una de aritmtica tamao n = 100 con media 1.2.1 Media desviacin s muestra = 0,31 mmol/l. El estadstico del contraste Supongamos que se plantea el mismo contraste bilateral de la hiptesis nula H0: = 1 a o muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, partir una muestra de tamao n El = 100 con media 1,09 mmol/l y la desviacin tpica desviacin tpica s =media 0,31 mmol/l. estadstico del contraste es como La aritmtica, denotada por x ,=se define suma de cada uno de los y, por de tanto, el valor P vendra determinado x contraste 0 1,09por 1 s=0,31 mmol/l. El estadstico del es = 2,90 = t= ra dada por s dividida 0,31por el nmero de observaciones realizadas. Si denotamos valores muestrales x 1,09 10 n0 P = P(t99 2,90) = -2,90) =12P t99 2,90) = 0,005. t =+ P(t99 =(2,90 0 , 31 s n +x x + x 2 + ... 1 por nnel tamao muestral y por 10 xi el valor observado para el sujeto i-simo, i = 1, ..., n, n . x = xi = 1 y, valor P vendra determinado por n iUtilizando n lael aproximacin normal a la distribucin t de Student con 99 grados de =1 por tanto, y, por tanto, el valor P vendra determinado la media vendra dada por por y, por tanto, el valor P vendra determinado por libertad, el valor P tambin puede aproximarse de la Tabla 3 del Apndice 2,90) P(t99 2,90) =a2partir P(t99 2,90) = 0,005. P=P (t99 s la medida de tendencia central ms utilizada y de+ms fcil n x1 + x 2 + ... + x n 1 = x2 x2,90) como i = Utilizando la aproximacin normal a la de Student 99 grados. de libertad, P = P(t99 2,90) + P(t99 distribucin -2,90) = Pn (t 99 =con 0,005. n 99 grados de Corresponde al centro de gravedad de los datos de la muestra. Su = i 1 Utilizando la aproximacin normal a la t de Student con el valor P tambin puede aproximarse a distribucin partir de la Tabla 3 del Apndice como
ritmtica
2,90) 2{ 1 (2,90)} = 0,004. P =valores 2P(t99 acin es que est muy influenciada por extremos y, en este Utilizando aproximacin normal a la distribucin t de Student con 99 grados de libertad, el la valor Plos tambin puede a partir de la Tabla 3 utilizada del Apndice La media es laaproximarse medida de tendencia central ms y de ms fcil este caso,central aunque la entre el valor predeterminado y la media muestral o ser un fiel reflejo deEn la tendencia de ladiferencia distribucin. libertad, el valor P tambin puede aproximarse a partir de la Tabla 3 del Apndice como En este caso, aunque la diferencia entre el valor predeterminado y la media interpretacin. Corresponde al centro de gravedad de los test datosfueron de la muestra. Su result ser sensiblemente menor (0,09 mmol/l), los resultados del como ser sensiblemente menor (0,09 mmol/l), resultados del Pastor-Barriuso test principal es que muy por los valores extremos R. 71 y, en este 2{1 -est (2,90)} = los 0,004. P = 2Pestimadores (limitacin t99 2,90) 1.4 En este y en los muestral sucesivosresult ejemplos sobre muestrales, se influenciada
fueronHDL estadsticamente (P = 0,005), aportando suficiente evidencia 2,90) 2{1 - (2,90)} 0,004. P =en 2significativos P (t9910 caso, puede no ser un fiel reflejo de la= tendencia central de la distribucin. n los valores del colesterol obtenidos los primeros sujetos del En este caso, aunque la diferencia entre el valor predeterminado y la media
estadsticamente significativos (P = 0,005), aportando suficiente evidencia para rechazar la hiptesis nula. La realizacin de una prueba de hiptesis presenta la misma estructura bsica para todos los parmetros. En general, se calcula primero un estadstico del contraste, cuyo numerador corresponde a la diferencia entre el valor observado en la muestra y el valor esperado bajo la hiptesis nula, y cuyo denominador representa la variabilidad o error estndar de la estimacin. El valor P se obtiene entonces como la probabilidad de obtener un valor del estadstico tanto o ms extremo que el observado en el estudio, asumiendo que la hiptesis nula es cierta.
El contraste de hiptesis para un determinado parmetro est relacionado con su correspondiente intervalo de confianza. Si se contrasta la hiptesis nula H0: = 0 frente a la hiptesis alternativa bilateral H1: 0, el resultado ser estadsticamente significativo para un nivel = 0,05 si el IC al 95% para no incluye el valor 0. Por el contrario, este contraste no resultar estadsticamente significativo si el IC al 95% para contiene al valor 1.2 MEDIDAS DEcomplementaria. TENDENCIA CENTRAL informacin El intervalo de 0. No obstante, ambos mtodos facilitan confianza aporta una medida de la magnitud y precisin en la estimacin del parmetro, aunque no facilita el valor exacto de P Las o elmedidas grado de compatibilidad con una hiptesis de tendencia central informan acercanula de cul es el valor de inters. El valor P s determina la compatibilidad de los datos con una determinada hiptesis, pero no facilita una medida de magnitud del parmetro asociacin objeto de de la una determinada variable o, o dicho de forma equivalente, estos esti estudio. En general, el uso de los contrastes de hiptesis como forma exclusiva de presentar los resultados de un estudio est siendo ampliamente cuestionado enlos la datos actualidad. La Las medidas alrededor de qu valor se agrupan observados. presentacin de los resultados de un estudio ha de consistir fundamentalmente en el estimador puntual y el intervalo de confianza, que con el valor los P de la central de la pueden muestra completarse sirven tanto para resumir resultados observa hiptesis correspondiente. realizar inferencias acerca de los parmetros poblacionales correspon Ejemplo 5.14 En la primera muestra de tamao n = 10 del Ejemplo 5.7 se obtuvo una media de 1,20 mmol/l y una desviacin tpica de mmol/l, tal formaestimadores que el IC alde la tendencia continuacin se0,30 describen losde principales 95% para la media poblacional del colesterol HDL result ser (0,99; 1,41). Estos mismos datos muestrales se emplearon en el Ejemplo 5.12 para el contraste bilateral de la hiptesis variable. nula H0: = 1, obteniendo un valor P de 0,064. Ambos resultados son consistentes dado que el IC al 95% incluye el valor preestablecido de 1 mmol/l para la hiptesis nula y, por 1.2.1 Media aritmtica tanto, el contraste no resulta estadsticamente significativo para un nivel = 0,05.
1,09 mmol/l yla suma de cada En el Ejemplo 5.9, a partir de una muestra de tamao denotada n = 100 con La media aritmtica, por x ,=se define como s=0,31 mmol/l, se obtuvo un IC al 95% para la media poblacional del colesterol HDL de valores muestrales dividida por el de observaciones realizada (1,03; 1,15). El correspondiente contraste de H0: = 1 frente a H1: nmero 1 se realiz en el Ejemplo 5.13, resultando un valor P de 0,005. En este caso, el valor 1 mmol/l queda fuera por ny, elen tamao muestral ylos porresultados xi el valor observado para el sujeto i- de los lmites de confianza al 95% consecuencia, del test son estadsticamente significativos. la media vendra dada por 5.4.3 Errores y potencia de un contraste de hiptesis
x + x 2 + ... + x n 1 n . x = xi = 1 Como se coment anteriormente, las hiptesis nunca pueden ser corroboradas n i =1 completamente, n quedando siempre un margen o probabilidad de error. La eleccin entre las hiptesis nula y alternativa conlleva a alguna de las situaciones presentadas en la Tabla 5.1. Si se acepta la La media la es hiptesis la medidanula de tendencia central ms utilizada y de ms hiptesis nula cuando sta es cierta, o si se rechaza cuando la alternativa es cierta, se habr tomado una decisin correcta. Sin embargo, es posible cometer alguno de los siguientes tipos de error en un contraste interpretacin. de hiptesis: Corresponde al centro de gravedad de los datos de l
principal limitacin es que est muy influenciada por los valores extr
caso, puede no ser un fiel reflejo de la tendencia central de la distribu
P(error de tipo I) = P(rechazar H0 | H0 cierta)
P(error de tipo I) = P(rechazar H0 | H0 cierta) cierta) + P(t tnde = P(t tn-1,1/2 | H0 en -1,hiptesis. /2 | H0 cierta) Tabla 5.1 Resultados posibles un contraste +t P(t ) t= = (( tt t n-1,1-/2 | H0 cierta) n-1,/2 | H0 cierta) t ) + P(t Realidad /2 + /2 = , =P P
n-1 n-1,1-/2 n-1 n-1,/2
es decir, la
Decisin H0 cierta H1 cierta /2 + Correcto de tipo II /2 = , Aceptar H0 = P(tn-1 tn-1,1/2) + P(tn-1 tn-1,Error /2) = probabilidad de cometer un error de tipo I viene determinada de Error de tipo I Correcto Rechazar H0
esantemano decir, la probabilidad de cometer un error de tipo I vienepara determinada de . As, por ejemplo, un test con un por el nivel de significacin yy El error de tipo I consiste en rechazar la hiptesis nula cuando sta es, en realidad, cierta. Como se significacin coment anteriormente, nivel de significacin se utiliza para clasificar los . As, por para un test con un antemano por el nivel de significacin = 0,05, lael probabilidad de ejemplo, incurrir en un error de tipo I nivel de resultados obtenidos en un test como significativos si el valor P , en cuyo caso se rechaza la hiptesis nula, ohiptesis como no significativos si P , en caso se acepta la serde del 0,05; esto es, si= la0,05, nula es cierta, se>rechazar errneamente la probabilidad de sta incurrir en un cuyo error de tipo I nivel significacin hiptesis nula. Con esta regla de decisin, puede comprobarse a partir de la Figura 5.4 que en un 5% de esto los contrastes de hiptesis realizados todas las posibles ser del 0,05; si P la(rechazar hiptesis nula es cierta, sobre sta se rechazar errneamente P (error de tipoes, I) = H 0 | H 0 cierta) = P ( t tn 1,1 /2 | H 0 cierta) + P ( t tn 1 , /2 | H 0 cierta) muestras del mismo tamao. en un 5% de los contrastes de hiptesis realizados sobre todas las posibles EDIDAS DE TENDENCIA CENTRAL = P ( tn 1 tn 1,1 /2 ) + P ( t n 1 t n 1 , /2 ) = /2 + /2 = ; muestras del mismo tamao. es decir, la probabilidad delos cometer un error de tipo I viene determinada antemano por Ejemplo 5.15 A partir de controles del EURAMIC se obtienen 1000de muestras didas de tendencia central informan acerca de cul es el valor ms representativo el nivel de significacin . As, por ejemplo, para un test con un nivel de significacin = 0,05, la dey, incurrir un error de I ser del 0,05;de esto es, si la aleatorias deprobabilidad tamao n = los 10 en cadaen una de ellas, setipo realiza el contraste Ejemplo 5.15 A partir de controles del EURAMIC obtienen 1000 muestras determinada variable o, dicho de forma equivalente, estimadores indican es decir, la probabilidad de cometer un error de tipo I se viene determinada de hiptesis nula es cierta, sta se estos rechazar errneamente en un 5% de los contrastes de hiptesis sobre posibles muestras del mismo hiptesisrealizados bilateral para la todas medialas poblacional del colesterol HDL tamao. aleatorias tamao n = 10 y, enmedidas cada una ellas, se realiza el contraste de or de qu valor se agrupan losde datos observados. Las dede tendencia antemano por el nivel de significacin . As, por ejemplo, para un test con un Ejemplo 5.15 A partir de los controles del EURAMIC se obtienen 1000 muestras = 1,09, H0: una de la muestra sirven tanto para resumir los n resultados observados como para hiptesis bilateral para la poblacional delellas, colesterol HDL aleatorias de tamao =media 10 y, en cada de se realiza el contraste de hiptesis = 0,05, la probabilidad de incurrir en un error de tipo I nivel de significacin bilateral para la media poblacional del colesterol HDL inferencias acerca de los parmetros poblacionales correspondientes. H1: 1,09, A H0 : = 1,09, ser del 0,05; esto es, si la hiptesis nula es cierta, sta se rechazar errneamente H1 : 1,09, de una acin se describen los principales estimadores de la tendencia central mediante el estadstico ejemplo ilustrativo, la hiptesis hiptesis nula es cierta ya que la media poblacional en En un este 5% de los contrastes de realizados sobre todas las posibles mediante el estadstico e. x 1,09 del colesterol HDL tamao. en el grupo control es efectivamente = 1,09 mediante el estadstico muestras del mismo , t = del EURAMIC s Media aritmtica 10 mmol/l. Por lo tanto, se tom la decisin correcta de aceptar H0 en el 94,4% de las x 1,09 donde sA son lascomo correspondientes medias yde tpicas muestrales. En cada ia aritmtica, denotada por 5.15 x ,yse define la suma de uno los t =cada ,desviaciones Ejemplo partir de los controles del EURAMIC se obtienen 1000 muestras s bajo de tipo I) en restante 5,6%, muestras y rechazo errneamente Hmedias 0 (error y se s son lasel correspondientes y desviaciones muestrales. donde x se para valores muestra, calcula valor P como el rea la curva de el latpicas distribucin t9 que 10 muestrales dividida por el o nmero de observaciones realizadas. Si denotamos tanto ms distantes de 0 que el valor una observado de se t, y se decide rechazar la hiptesis aleatorias de tamao n = 10 y, en cada de ellas, realiza el contraste de = 0,05 concuerda casi perfectamente el nivel significacin En cada se calcula elcon valor P como el rea bajo la curva de la muestras (944 de nula si Pmuestra, 0,05. As, la hiptesis nula se de acept en un 94,4% de las tamao muestral ydonde por xi el observado para el (56 sujeto i -simo,yi desviaciones = 1, ..., n, 1000) yvalor sesrechaz en un 5,6% de medias 1000). x y son las correspondientes tpicas muestrales. hiptesis bilateral para media poblacional del colesterol HDL preestablecido el la contraste. tanto o ms distantes de 0 que el valor observado de t, distribucin t9 para valores En este ejemplo ilustrativo, la hiptesis nula es cierta ya que la media poblacional del a vendra dada por En cada muestra, se calcula el valor P como el rea bajo la curva de la colesterol HDL en el grupo control del EURAMIC es efectivamente = 1,09 mmol/l. Por y se decide rechazar la hiptesis nula si P 1,09, 0,05. As, la hiptesis nula se acept H0: el 94,4% de las muestras y se lo error tanto, de se tipo tom la decisin de= aceptar H El II consiste encorrecta aceptar la hiptesis nula cuando, en realidad, es 0 en n para valores tanto o ms distantes de 0 que el valor observado de t , distribucin t 9 + + ... + x x x 1 rechaz errneamente H0 (error de tipo I) en el restante 5,6%, que concuerda casi 2 n . de 1000) y se rechaz en un 5,6% (56 de 1000). x= x i =de1 las muestras en un 94,4% (944 1,09, H1: perfectamente con el nivel de significacin =de 0,05 preestablecido para elII contraste. cierta La probabilidad cometer un error de tipo se n la n i =1hiptesis alternativa. y se decide rechazar la hiptesis nula si P 0,05. As, la hiptesis nula se acept yy El error de tipo , II consiste en aceptar la hiptesis nula cuando, en realidad, es cierta la denota por el estadstico media es la medidamediante de tendencia central utilizada y de de ms fcil en un 94,4% de las ms muestras (944 1000) y se rechaz un 5,6% de 1000). hiptesis alternativa. La probabilidad de cometer un error en de tipo II se (56 denota por , 24 etacin. Corresponde al centro de gravedad los datos la muestra. H1 cierta) = . P(error de tipo II) = de P(aceptar H0 | Su x 1,09 t= , s al limitacin es que est muy influenciada por los valores extremos y, en este Pastor-Barriuso Si la hiptesis alternativa es cierta, la probabilidad de tomar la decisin correcta y, R. 10 24 uede no ser un fiel reflejo de la tendencia central de la distribucin. por tanto, rechazar la hiptesis nula se conoce como potencia del test, donde x y s son las correspondientes medias y desviaciones tpicas muestrales.
73
Las medidas de tendencia central informan acerca de cul es el valor ms representativo Si la hiptesis alternativa es cierta, la probabilidad de tomar de la decisin correcta Las medidas tendencia central y, informan acerca de cu de una determinada variable o, dicho de forma equivalente, estos estimadores indican Si la tanto, hiptesis alternativa es cierta, de tomar la decisin correcta y, de por potencia del test, por rechazar la hiptesis nulala seprobabilidad conoce como de una determinada variable o, dicho forma equivalen tanto, rechazar la hiptesis nula se conoce como potencia del test, alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia de qu valor se agrupan los datos observados. H1 cierta) Potencia = P(rechazar H0 |alrededor central de la muestra sirven tanto para resumir los resultados observados como para = 1 P(error de tipo II) = 1 . central de la muestra sirven tanto para resumir los resulta realizar inferencias acerca de los parmetros poblacionales correspondientes. A La probabilidad de error de tipo II y la potencia de un contraste 1 no estn realizar inferencias acerca de los parmetros poblacional predeterminadas de antemano y, como se comprobar a continuacin, de distintos y la potencia contraste 1dependen - de no una estn La probabilidad de error de tipo II continuacin se describen los 2 principales estimadores dede la un tendencia central factores, como el N nivel significacin , lao, desviacin del verdadero parmetro / n) si H0 es cierta en caso contrario, N(1,valor 2/n)del si H aproximadamente (0, de 1 es continuacin se describen los principales estimadores de de los datos ay el tamao muestral n. respecto al valor nulo 0, la dispersin predeterminadas de antemano y, como se comprobar continuacin, dependen 2 2 variable. , /n) side H0 x esbajo cierta o, en caso contrario, N(1, se /nrepresenta ) si H1 es aproximadamente N(0muestral las hiptesis nula y alternativa cierta. La distribucin variable. Supongamos, para simplificar la exposicin, que una variable aleatoria tiene media de distintos factores, como el nivel de significacin , la desviacin del verdadero las hiptesis nula y alternativa seno representa cierta. La distribucin muestral de ,x y bajo que se pretende contrastar la hiptesis nula H0: = 0 desconocida y5.5. varianza conocida 2significacin 1.2.1 aritmtica , el contraste de hiptesis resultar enMedia la Figura Para un nivel de frente a la hiptesis alternativa H1: = 1, donde 1 . Por el teorema central del lmite, se 1.2.1 0 Media aritmtica valor del parmetro respecto al valor nulo 0, la dispersin de los datos y el tamao , el hiptesis la Figura 5.5. Para un nivel de sabe que la distribucin muestral de en muestras de n ser aproximadamente N(0, 2/n) La en media aritmtica, denotada por x significacin , se define como lacontraste suma de de cada uno de no losresultar ) si el estadstico significativo (P > si H0 es cierta o, en caso contrario, N(1, 2/n) si H1 esLa cierta. Laaritmtica, distribucin muestral de x , bajo media denotada por se define como la tamao muestral n. ) si elpor estadstico significativo (P > valores muestrales elrepresenta nmero deen observaciones realizadas. Si denotamos las hiptesis nula ydividida alternativa se la Figura 5.5. Para un nivel de significacin , x (0P valores muestrales dividida por el nmero de observacio el contraste de hiptesis no resultar-significativo >z )si el estadstico < z1-/2 < 1/2 Supongamos, para simplificar la exposicin, variable aleatoria tiene media que una por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, x n 0 < z1 z12 /2 < por n/2el tamao muestral y por xi el valor observado para y varianza contrastar la hiptesis nula H0: desconocida la media vendra dada por conocida , y quese pretende n la media vendra dada por o, de forma equivalente, si = forma 0 frente a la hiptesis alternativa H1: = 1, donde 1 0. Por el teorema central o, de equivalente, si x + x 2 + ... + x n 1 n o, de forma equivalente, si . x = xi = 1 n n x 0 en muestras de del lmite, se sabe que la distribucin 0 z1 / n < xde <n +z ; tamao n serx = 1 x = x1 + x 2 + ... + =1muestral 1 /2 / n i/2 i n i =1 n 0 - z1-/2/ n < x < 0 + z1-/2/ n ; Distribuci n de x bajo Htodas Distribuci n x ms bajo La media la eshipotes la medida de tendencia central ms utilizada yde de fcil 1 0 es decir, nula se aceptar en aquellas muestras conH una media x 25 La media es la medida de tendencia central ms utiliz 2 2 N(1, /n) N(0, /n) x es decir, la hipotes nula se aceptar en todas aquellas muestras con una media interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su regin comprendida en la regin 0 z1-/2/ n , que se denomina comnmente como interpretacin. Corresponde al centro de gravedad de l principal limitacin esregin que est influenciada los valores extremos y, como en este 0 muy z1- se denomina comnmente regin comprendida en la /2/ n , que por de aceptacin. As, la probabilidad de un error de tipo I est determinada por el rea principal limitacin es que est muy influenciada por los caso, puede no ser un fiel reflejo de la tendencia central de la est distribucin. determinada por el rea de aceptacin. As,H la probabilidad de un error de tipo I bajo la curva para 0 situada fuera de la regin de aceptacin (rea en gris oscuro de la caso, puede no ser un fiel reflejo de la tendencia central de la regin (reala en gris oscuro de la bajo la curva para H0 situada fuera aceptacin por el rea bajo curva para H1 Figura 5.5),1.4 y la probabilidad de error de tipo IIde Ejemplo En este y en los sucesivos ejemplos sobre estimadores muestrales, se Ejemplo 1.4 En este y en los sucesivos ejemplos so por reade bajo Figura la curva para H1 Figura 5.5), y la probabilidad de error de tipo IIen situada dentro de la regin aceptacin (rea grisel claro utilizarn los valores del de colesterol HDL obtenidos en los 10la primeros 5.5). sujetos del utilizarn los valores del colesterol HDL obtenidos en gris claro situada dentro de la regin de aceptacin (rea de la Figura 5.5). estudio European Study on Antioxidants, Myocardial Infarction and Cancer of /2 /2 [Figura 5.5 aproximadamente aqu] estudio European Study on Antioxidants, Myocar the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado 1 [Figura 5.5 aproximadamente aqu] 0 the Breast (EURAMIC), un estudio multicntrico El balance entre las de un error de tipo Iy tipo II el puede observarse entre 1991 y 1992 enprobabilidades ocho pases Europeos e Israel para evaluar efecto de los en 0 z1 / 2 / n 0 + z1 / 2 / n entre 1991 1992 observarse en ocho pases Europeos e Israe El balance probabilidades de un error de tipo II y tipo IIypuede (esto es, se aumenta la en la Figura 5.5. entre Si se las reduce la probabilidad de error de tipo 5 Regin de aceptacin de H0 (esto es, se aumenta la la Figura 5.5. Si se reduce la probabilidad de error de tipo I regin de aceptacin), aumenta la probabilidad de error de tipo II , mientras que si
1.2 MEDIDAS DE TENDENCIA CENTRAL | H1 cierta) =DE . TENDENCIA CENTRAL P(error de tipo II) = P(aceptar 1.2 H0 MEDIDAS
Figura 5.5 Errores de tipo I y II para el contraste bilateral de la hiptesis nula H0: = 0 frente a la hipmientras que Figura si 5.5 regin de aceptacin), la probabilidad de error de tipo II , tesisaumenta, alternativa H1: = 1 en una con varianza conocida. .aumenta En distribucin la prctica, la estrategia habitual es fijar en el nivel disminuye
74
predeterminado Pastor-Barriuso R.
. En la prctica, laeestrategia habitual es forma en el nivel aumenta, disminuye = 0,05) intentar minimizar fijar o, de equivalente, (tpicamente
= 0,05) e intentar o, de forma equivalente, predeterminado (tpicamente contraste. Para minimizar fijo, la potencia de 1 - depende de la maximizar la potencia 1 - del
TENDENCIA CENTRAL
0 -de z1-cul < x < 0 + z1-variable. /2/es n /2/ n ; dencia central informan acerca el valor ms representativo
1.2.1 Media aritmtica variable o, dicho de forma equivalente, estos estimadores indican
es decir, la hipotes nula se aceptar en todas aquellas muestras con una media x
es decir, la hipotesis nula se aceptar todas aquellas muestras con una media comprendida se define como la suma de La media aritmtica, denotada por x , or se agrupan los datos observados. Las medidas de en tendencia comprendida en la regin regin 0 z1 /2/ n , que se denomina comnmente como regin de aceptacin. As, la valores muestrales dividida el nmero observaciones realiz probabilidad deresultados un error de tipo I est determinada por el rea bajo lapor curva para H0 de situada a sirven tanto para resumir los observados como para regin de aceptacin (rea gris la Figura 5.5), larea probabilidad de error est de determinada poryel de aceptacin.fuera As, de la la probabilidad de un error deen tipo I oscuro por n el tamao muestral y por xi el valor observado (rea en para el sujeto de tipo II poblacionales por el rea bajo la curva para H acerca de los parmetros correspondientes. A 1 situada dentro de la regin de aceptacin gris claro de la Figura 5.5). (rea en gris oscuro de la bajo la curva para H0 situada fuera de la regin de aceptacin la media vendra dada por criben los principales estimadores de la probabilidades tendencia central El balance entre las de de ununa error de tipo I y tipo II puede observarse en la
yy La diferencia subyacente 1 0. La potencia para detectar una hiptesis alternativa cierta de los datos interpretacin. Corresponde al centro de gravedad ividida por el nmero de observaciones realizadas. Si denotamos ser tanto mayor cuanto mayor sea la diferencia entre el verdadero valor del parmetro 1 y El balance entreel las probabilidades de un error de tipo yFigura tipo II puede observarse en un incremento valor nulo 0. Esta situacin se ilustra enIla 5.6( a), donde se observa principal estral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, limitacin es que est muy influenciada por los valores de la potencia como consecuencia de una mayor diferencia entre 1 y 0. (estono es,ser se un aumenta la de la tendencia central de la dist la por Figura 5.5. Si se reduce la probabilidad de error de tipo I caso, puede fiel reflejo da
~ N ( , 2 / n) H1 : x 1 ~ N ( , 2 / n) H0 : x 0
x + x 1 disminuye aceptacin), aumenta la probabilidad de error de tipo II ; mientras que si aumenta, 2 .+ ... + x n . x = xi = 1 la estrategia habitual es fijar en un nivel predeterminado (tpicamente = 0,05)n n i =1 situada dentroEn dela laprctica, regin de aceptacin (rea en gris claro de la Figura 5.5). e intentar minimizar o, de forma equivalente, maximizar la potencia 1 del contraste. Para tica fijo, la potencia 1 depende de la superposicin de las distribuciones nula y alternativa de media es la medida de tendencia central ms utilizada y de est a como su[Figura vez determinada por losde siguientes factores: , denotada por x ,, que se define la suma cada uno los La 5.5 de aproximadamente aqu]
5.5. Si se de reduce probabilidad deel error tipo (esto es, se la regin de reade bajo laI curva para H1aumenta Figura 5.5), y Figura la probabilidad errorla de tipo II por n
x + x 2 + ... + x n Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estim 1 . xi = 1 n i =1 n prctica, la estrategia habitual es fijar en el nivel . En la aumenta, disminuye utilizarn los valores del colesterol HDL obtenidos en los 1 x=
regin de aceptacin), aumenta la probabilidad de error de tipo II , mientras que si n
edida de tendencia central ms utilizada ye de ms fcil = 0,05) intentar minimizar o, de forma equivalente, predeterminado (tpicamente estudio European Study on Antioxidants, Myocardial Infar
/2
1 / 2
esponde al centro de gravedad de los datos Para de la muestra. the Breast (EURAMIC), contraste. fijo, laSu potencia de 1 - depende de un la estudio multicntrico de casos maximizar la potencia 1 - del
/2
1 0
es que est muy influenciada por los valores extremos y, en este entre 1991 y 1992 en ocho pases Europeos e Israel para ev 0 z / n 0 + z / n
1 / 2
n fiel reflejo de la tendencia central de la distribucin.

~ N ( , 2 / n) H1 : x 1
(a) ~ N ( , 2 / n) H0 : x 0
n este y en los sucesivos ejemplos sobre estimadores muestrales, se
26
valores del colesterol HDL obtenidos en los 10 primeros sujetos del
pean Study on Antioxidants, Myocardial Infarction and Cancer of
URAMIC), un estudio multicntrico de casos y controles realizado
992 en ocho pases Europeos e Israel para evaluar el efecto de los

/2 /2
5 1 0 z1 / 2 / n
(b)
0 + z1 / 2 / n
Figura 5.6 Errores de tipo I y II para una mayor diferencia 0 1 (a) y para un mayor tamao muestral n (b). Figura 5.6
S DE TENDENCIA CENTRAL
superposicin las distribuciones nula y alternativa de x , que est a su vez e tendencia central informan de acerca de cul es el valor ms representativo
por los siguientes factores: nada variable determinada o, dicho de forma equivalente, estos estimadores indican Tabla 5.2 Porcentaje de muestras de tamao n = 10, 25 y 100 con resultados significativos (de P potencia 0,05) para el contraste bilateral de los La diferencia subyacente para detectar una hiptesis u valor se agrupan datos observados. Las medidas tendencia 1 - 0. La las hiptesis nulas H0: = 1 y 1,05 mmol/l sobre la media poblacional del colesterol HDL en los cuando controles del estudio EURAMIC. uestra sirven tanto para resumir los resultados observados como para alternativa cierta ser tanto mayor mayor sea la diferencia entre el
Hiptesis nula H0: = 0 Tamao muestral (n) 25 100 0 = 1 26,9 85,7 0 = 1,05 8,0 23,0
ncias acerca de los parmetros correspondientes. 1 y el valorA nulo 0. Esta situacin se ilustra en la verdadero poblacionales valor del parmetro
la 10 tendencia central de una 5,0 e describen los principales de Figura estimadores 5.6(a), donde se observa un incremento11,2 de la potencia como consecuencia
de una mayor diferencia entre 1 y 0.

Elerror error estndar estndar yyEl
muestral n,ndisminuye el el error estndar de la / n . Al Al aumentar aumentarel eltamao tamao muestral , disminuye error media muestral y, en consecuencia, la variabilidad de las distribuciones nula y alternativa de para un nivel de significacin predeterminado, la potencia mtica, denotada por estndar x .,As, se define como lamuestral suma de y, cada uno de los de la media en consecuencia, la variabilidad de del las contraste aumenta conforme aumenta el tamao de la muestra (Figura 5.6(b)). Esta relacin puede utilizarse ales dividida por el nmero de observaciones realizadas. denotamos tanto para calcular laalternativa potencia de vez determinado el tamao muestral, xSi .contraste As, parauna un nivel de significacin distribuciones nula y deun como para estimar a priori el tamao muestral necesario para una determinada potencia. valor observado para el sujeto i -simo, = 1, ..., nconforme ,el Tema 9 aumenta o muestral y por xi el Este ltimo punto se discutir con mayoridetalle en de determinacin del tamao predeterminado, la potencia del contraste aumenta el tamao muestral. a dada por de la muestra (Figura 5.6(b)). Esta relacin puede utilizarse tanto para calcular la Ejemplo 5.16 A partir de los controles del EURAMIC se obtienen 1000 muestras n potencia un contraste vez determinado elcada tamao para el contraste +de + ... + x n xde x 2 tamao 1 aleatorias n una = 10, 25 y 100 y, en unamuestral, de ellas, como se realiza . x = xi = 1 bilateral de las n i= n hiptesis nulas H0: = 1 y 1,05 mmol/l para la media poblacional del 1 estimar a priori el Para tamao muestral necesario parael una determinada potencia. colesterol HDL. cada muestra y contraste, valor P se calcula segn Este los mtodos del Apartado 5.4.2 y la hiptesis nula se rechaza si P 0,05. En la Tabla 5.2 se presenta ltimo punto se discutir con mayor detalle en significativos el Tema 9 de determinacin del tamaos la medida de tendencia central ms utilizada y de ms resultados fcil el porcentaje de muestras con para los distintos muestrales e hiptesis nulas. tamao muestral. de los datos de la muestra. Su Corresponde al centro de gravedad En este caso, ambas hiptesis nulas son falsas dado que la verdadera media del colesterol en los controles del estudio EURAMIC es 1,09 mmol/l. As, los porcentajes de la acin es que est muyHDL influenciada por los valores extremos y, en este Tabla 5.2 representan [Figura valores empricos de la potenciaaqu] de cada contraste. Para una desviacin 5.6 aproximadamente = 1,09 1 = 0,09 mmol/l entre el verdadero nivel medio de colesterol subyacente de ser un fiel reflejo de la tendencia central 0 de la distribucin. HDL y el valor nulo, la potencia result ser del 11,2% para n = 10, 26,9% para n = 25 y 85,7% para n = 100. Para una desviacin de 0 = 1,09 1,05 = 0,04 mmol/l, la potencia Ejemplo 5.16 A 5,0% partir de los controles del EURAMIC obtienen muestras 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se yse se redujo a un para n= 10, 8,0% para n = 25 23,0% para1000 n = 100. Como puede apreciarse, slo se alcanza una potencia aceptable para detectar una diferencia de 0,09 aleatorias de obtenidos tamao n en = muestral 10, 100 y, en cada una desera ellas, se realiza el muestra mayor n los valores del colesterol HDL los25 10y primeros sujetos del mmol/l con un tamao de 100, mientras que necesaria una para poder detectar una diferencia de 0,04 mmol/l. y 1,05 mmol/l para la media contraste bilateral de las hiptesis nulas 0: = 1 European Study on Antioxidants, Myocardial Infarction andH Cancer of
ritmtica
5.5 REFERENCIAS del colesterol HDL.yPara cada muestra y contraste, el valor P se st (EURAMIC), unpoblacional estudio multicntrico de casos controles realizado
1. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. calcula segn los mtodos del Apartado 5.4.2de y la hiptesis nula se rechaza si P 91 y 1992 en ocho pases Europeos e Israel para evaluar efecto los Englewood Cliffs, NJ: Prentice Hall,el 1977. 2. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 5 2001. 3. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979.
27
76
Pastor-Barriuso R.
Referencias
4. Lehmann EL. Testing Statistical Hypotheses, Second Edition. New York: Springer Verlag, 1997. 5. Lehmann EL, Casella G. Theory of Point Estimation, Second Edition. New York: Springer Verlag, 1998. 6. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. 7. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: Lippincott Williams & Wilkins, 2008. 8. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State University Press, 1989. 9. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
Pastor-Barriuso R.
77
TEMA 6 INFERENCIA SOBRE MEDIAS

6.1INTRODUCCIN En el presente tema se revisan las tcnicas bsicas de inferencia a partir de datos de carcter cuantitativo. En la mayor parte de las ocasiones, la inferencia sobre variables cuantitativas se centra en el estudio de parmetros subyacentes tales como la media y la varianza poblacional. A partir de los datos obtenidos en muestras aleatorias y utilizando los principios de inferencia descritos en el tema anterior, se pretende dar respuesta a los siguientes tipos de problemas: yy La estimacin de la media y la varianza de una poblacin. Ejemplo 6.1 Supongamos que los controles del estudio EURAMIC constituyen una muestra representativa de la poblacin de referencia del estudio. A partir de los valores de colesterol HDL obtenidos en los controles, cul es la estimacin y el intervalo de confianza al 95% para la media y la varianza del colesterol HDL en la poblacin de referencia? Son estos datos muestrales compatibles con una verdadera media poblacional de 1 mmol/l? yy La comparacin de medias y varianzas poblacionales a partir de dos muestras independientes. Ejemplo 6.2 En el estudio EURAMIC se comparan dos muestras independientes: una muestra de casos de infarto de miocardio, recogida de las unidades de cuidados intensivos, y una muestra independiente de controles, representativos de la poblacin de la que proceden los casos. Cul es entonces la estimacin y el intervalo de confianza al 95% para la diferencia en los niveles medios de colesterol HDL entre los casos de infarto y los sujetos libres de la enfermedad? Es esta diferencia estadsticamente significativa? En un ensayo clnico para evaluar la eficacia antihipertensiva de un nuevo medicamento, se asignaron aleatoriamente 100 pacientes hipertensos a uno de los dos grupos de tratamiento: un grupo que toma la medicacin a estudio y otro que toma un placebo. Despus de 4 semanas de tratamiento, se compararon las medias de presin arterial sistlica entre ambos grupos como medida de la eficacia de dicho medicamento. Cul es la estimacin puntual y el intervalo de confianza al 95% para la reduccin en el nivel medio de presin arterial sistlica? Cmo se determina si esta reduccin es efecto del tratamiento o se debe a simple variabilidad aleatoria? yy La comparacin de medias poblacionales a partir de dos muestras dependientes. Ejemplo 6.3 En un estudio de casos y controles sobre el efecto del colesterol HDL en el riesgo de desarrollar infarto de miocardio, cada caso se emparej por grupo de edad y sexo a un control libre de la enfermedad. En este caso, las medias de colesterol HDL de los casos y de los controles no pueden analizarse como medidas procedentes de muestras independientes, ya que es esperable un cierto grado de correlacin entre los valores de
Inferencia sobre medias
colesterol HDL en cada pareja caso-control. Cmo contrastar entonces si existe una asociacin significativa entre el nivel de colesterol HDL y la ocurrencia de un infarto de miocardio? Para evaluar la eficacia de un frmaco antihipertensivo, se seleccionaron 50 pacientes hipertensos y se administr a todos ellos dicho frmaco durante 4 semanas. La presin arterial sistlica de cada paciente se determin tanto al comienzo del estudio como despus de las 4 semanas de tratamiento. En tal caso, los valores medios de presin arterial antes y despus del tratamiento no son independientes, ya que los datos recogidos en un mismo paciente estn correlacionados. En estas circunstancias, cmo estimar la reduccin media de presin arterial sistlica al administrar dicho tratamiento? 1.2 MEDIDAS DE TENDENCIA CENTRAL
Para cada uno de estos problemas, se facilitan las tcnicas de inferencia apropiadas para Las medidas de tendencia central objeto informan acerca de cul es el valor obtener estimaciones puntuales y por intervalo del parmetro poblacional de estudio, as como para el contraste de hiptesis preestablecidas. Estos procedimientos van a permitir inferir de una determinada variable o, dicho de forma equivalente, estos estim los resultados del estudio al mbito poblacional de forma clara y sucinta.
alrededor de qu valor se agrupan los datos observados. Las medidas 6.2 INFERENCIA SOBRE UNA MEDIA Y VARIANZA POBLACIONAL central de la muestra sirven tanto para resumir los resultados observad La media y la varianza poblacional son parmetros que representan la tendencia central y dispersin de la distribucin subyacente de una variable aleatoria. Estos parmetros son realizar inferencias acerca de los parmetros poblacionales correspon tpicamente desconocidos y, en consecuencia, han de ser estimados a partir de los valores observados de dicha variable en una muestra. En esta seccin, se presentan losestimadores mtodos dede la tendencia continuacin se describen los principales estimacin y contraste para la media y la varianza de una distribucin poblacional. variable.
6.2.1 Inferencia sobre la media de una poblacin 1.2.1 Media aritmtica La estimacin e inferencia de una media poblacional se discuti en el tema anterior. Para Utilizando lasaleatoria, propiedades distribucin muestral de la muestral media, esxposible obtener La media aritmtica, denotada por ,es se un define como la suma de cada estimador cualquier variable se de ha la comprobado que la media insesgado y consistente de y que, en el caso de distribuciones normales, es el estimador con un intervalo de confianza 100(1 - )% para la media poblacional como menor error estndar. Estas al caractersticas hacen de la media muestral un buen valores muestrales dividida porel nmero deestimador observaciones realizada Utilizando las propiedades de la distribucin muestral de la media, es posible obtener puntual de la media poblacional. por n el tamao y por xies el posible valor observado para el sujeto i-s s muestral Utilizando las la distribucin muestral de la media, obtener un )% la media como un intervalo de propiedades confianza al de 100(1 -x t npara . poblacional 1,1 / 2 intervalo de confianza al 100(1 )% para la media poblacional como n la media vendra dada por s x t n 1,1 / 2 . alternativa A su vez, el contraste de la hiptesis nula H0: = n 0 frente a la hiptesis x + x 2 + ... + x n 1 n . x = xi = 1 n n A su vez, el contraste de la hiptesis nula H : = frente a la hiptesis alternativa bilateral H : = i 1 0 0 estadstico 1 bilateral H1: 0 puede realizarse mediante el puede realizarse mediante el estadstico A 0 su vez, el contraste de la hiptesis nula H0: = 0 frente a la hiptesis alternativa
80
Laxmedia es la medida de tendencia central ms utilizada y de ms 0 bilateral H1: 0 puede realizarse mediante el estadstico t= . s interpretacin. Corresponde al centro de gravedad de los datos de la n x 0 t = aproximadamente . Bajo la hiptesis nula, este estadstico seguir una distribucin t de Student principal s limitacin es que est muy influenciada por los valores extre Bajo la hiptesis nula, este estadstico seguir aproximadamente una puede distribucin t de como con n 1 grados de libertad y, en consecuencia, elnvalor P del contraste calcularse el rea bajo la curva de esta distribucincaso, para aquellos tanto o ms distantes de 0 que el de la distribu puede novalores ser un fiel reflejo de la tendencia central Student con n 1 grados de libertad y, en consecuencia, el valor P del contraste puede valor observado de t. En general, el planteamiento de una determinada hiptesis nula puede Bajo lade hiptesis nula, este estadstico seguir aproximadamente una distribucin t dede las proceder estudios previos o de hiptesis biolgicas respecto al comportamiento calcularse como el rea bajo la curva de esta distribucin para aquellos tanto o Ejemplo 1.4 En este y en losvalores sucesivos ejemplos sobre estimado Student con n 1 grados de libertad y, en consecuencia, el valor P del contraste puede Pastor-Barriuso R. ms distantes de 0 que el valor observado de t. En general, el planteamiento deHDL una obtenidos en los 10 pr utilizarn los valores del colesterol calcularse como el rea bajo la curva de esta distribucin para aquellos valores tanto o determinada hiptesis nula puede proceder estudio de estudios anteriores o de European Study onhiptesis Antioxidants, Myocardial Infarctio
n 539 media poblacional los contrastes de hiptesis pueden resultar un tanto artificiales. realizar inferencias acerca de los parmetros poblacionales correspondientes. A
Inferencia sobre una media y varianza poblacional
cuya distribucin bajo la hiptesis nula ser t538 o, de forma equivalente, normal continuacin se describen los principales estimadores de la tendencia central de un Ejemplo 6.4 Entre los n = 539 controles del estudio EURAMIC con estandarizada. De la Tabla 3 del Apndice se desprende que la probabilidad de variable. variables, aunque en el caso de una nica media poblacional los contrastes de hiptesis pueden determinaciones del colesterol HDL, la media y desviacin tpica fueron x = 1,09 resultar un tanto artificiales. obtener valores superiores a 7,21 en una distribucin normal estandarizada es 1.2.1 Media aritmtica y s = 0,29 mmol/l. As, el IC al 95% para la media de colesterol HDL en la Ejemplo 6.4 Entre =que 539el controles del estudio con determinaciones virtualmente nula, los pornlo valor P bilateral serEURAMIC inferior a 0,001. En La media por x ,=se define como suma de cada uno de los 1,09 ys= 0,29la mmol/l. As, del colesterol HDL, la media y aritmtica, desviacindenotada tpica fueron poblacin de referencia result ser el IC al 95% para la media de colesterol HDL en poblacin de difiere referencia result ser conclusin, el nivel medio de colesterol HDL enla esta poblacin valores muestrales dividida por el nmero de observaciones realizadas. Si denotam 0,29 (P < 0,001). De hecho, la media poblacional de significativamente de 1 mmol/l 1,09 t 538 = 1,09 1,960,012 = (1,07; 1,11). ; 0 , 975 por n el 539 tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, .. colesterol HDL se estim en 1,09 mmol/l, con un intervalo de confianza al 95% Estos datos muestrales tambin se emplearon la media vendra dada porpara el contraste bilateral de la hiptesis Estos datos tambin se mmol/l. emplearon para el contraste bilateral de la nula H 1. Para ello, sey calcul el estadstico del 0: =muestrales comprendido entre 1,07 1,11
n x1 + x 2 + ... + x n x 0 1,09 1 x = 1 hiptesis nula H0: = 1. Para del contraste . x = 7,21, t = ello, se=calcul el estadstico i = n i =1 n 0,29 s 6.2.2 Inferencia sobre la varianza de n una poblacin 539
distribucin ba jo centra la media hiptesis ttendencia o, de forma equivalente, normal La es lanula medida dela central ms utilizada y de ms fcil En cuya ocasiones, el inters se en estimar noser slo media de una variable aleatoria 538 4 cuya distribucin la hiptesis nula serse t538 o, de forma equivalente, normal estandarizada. De bajo la Tabla 3 del Apndice desprende que la probabilidad de obtener valoressino superiores a su 7,21 en unapoblacional. distribucin normal estandarizada virtualmente nula, interpretacin. Corresponde al se centro deen gravedad de los de la muestra. Su continua, tambin varianza Como mostr el es Apartado 5.2datos del estandarizada. De la Tabla 3 del Apndice se desprende que la probabilidad de por lo que el valor P bilateral ser inferior a 0,001. En conclusin, el nivel medio de principal limitacin es que est muy influenciada por valoresDe extremos y, en es tema anterior, la varianza muestral s2difiere es un estimador insesgado y1 consistente de la colesterol HDL en esta poblacin significativamente de mmol/l (Plos < 0,001). obtener valores superiores a 7,21 en una distribucin normal estandarizada es hecho, la media poblacional de colesterol HDL se estim en 1,09 mmol/l, con un intervalo caso, puede no ser un fiel de la tendencia de la distribucin. varianza poblacional 2comprendido de cualquier variable aleatoria, siendo adems elcentral estimador de confianza al 95% entre 1,07 y reflejo 1,11 mmol/l. virtualmente nula, por lo que el valor P bilateral ser inferior a 0,001. En insesgado con menor error estndar para distribuciones normales. 6.2.2 conclusin, Inferenciael sobre varianza de una Ejemplo 1.4 poblacin En este yesta en los sucesivos ejemplos sobre estimadores muestral nivella medio de colesterol HDL en poblacin difiere Al igual que ocurra en el caso de una media, los intervalos de confianza y las En ocasiones, el inters se centra en estimar no valores sloDe la media de variable aleatoria continua, utilizarn los del colesterol HDL obtenidos en los 10 primeros sujeto significativamente de 1 mmol/l (P < 0,001). hecho, la una media poblacional de sino tambin su varianza poblacional. Como se mostr en 2 el Apartado 5.2 del tema anterior, la pruebas de hiptesis sobre la varianza poblacional se basan en la distribucin varianza muestral s2 es estimador insesgado y consistente de la poblacional 2 de estudio European Study on Antioxidants, Myocardial and Cance colesterol HDL seun estim en 1,09 mmol/l, con un intervalo devarianza confianza al 95% Infarction cualquier variable aleatoria, siendo adems el estimador insesgado con menor error estndar muestral de s2. Si la distribucin subyacente de la variable es normal, puede probarse para distribuciones the Breast (EURAMIC), un estudio multicntrico de casos y controles reali comprendido normales. entre 1,07 y 1,11 mmol/l. 2 una media, los intervalos de confianza y las pruebas de hiptesis Al igual que ocurra en que el estadstico (n el 1)caso s2/ de sigue una distribucin denominada chi-cuadrado con n 1991en y 1992 en ocho pases Europeos Israel para evaluar el efecto de sobre la varianza poblacional 2 entre se basan la distribucin muestral de s2. e Si la distribucin 2 poblacin subyacente de variable es normal, puede probarse que el estadstico (n 1)s2/2 sigue una 6.2.2 Inferencia sobre ladenotada varianza de una 1 grados de la libertad y por n 1 , distribucin denominada chi-cuadrado con n 1 grados de libertad y denotada por 2n1, En ocasiones, el inters se centra en estimar no slo la media de una variable aleatoria (n 1) s 2 2 ~ n 1 . continua, sino tambin su varianza poblacional. Como se mostr en el Apartado 5.2 del 2 Como puede en la Figura 6.1, la distribucin chi-cuadrado slo valores tema anterior, la apreciarse varianza muestral s2 es un estimador insesgado y consistente de toma la positivos y est sesgada a la derecha. Los grados de libertad de una distribucin chi-cuadrado determinan su tendencia central, dispersin asimetra: al aumentar grados de libertad, varianza poblacional 2 de cualquier variableyaleatoria, siendo adems los el estimador 5 6 aumenta la media y la varianza de la distribucin y disminuye su sesgo a la derecha. En la Tabla del Apndice se presentan los percentiles de la distribucin chi-cuadrado para distintos grados insesgado con menor error estndar para distribuciones normales. de libertad. Al igual que ocurra en el caso de una media, los intervalos de confianza y las pruebas de hiptesis sobre la varianza poblacional 2 se basan en la distribucin muestral de s2. Si la distribucin subyacente de la variable es normal, puede probarse Pastor-Barriuso R. que el estadstico (n 1)s2/ 2 sigue una distribucin denominada chi-cuadrado con n 81
Inferencia sobre medias Como puede
apreciarse en la Figura 6.1, la distribucin chi-cuadrado slo toma
Como puede apreciarse en la Figura 6.1, la distribucin chi-cuadrado slo toma valores positivos y est sesgada a la derecha. Los grados de libertad de una distribucin valores positivos y est sesgada la derecha. grados dechi-cuadrado libertad de una distribucin Como puede apreciarse en la a Figura 6.1, laLos distribucin slo toma 0,6 determinan su tendencia central, dispersin y asimetra: al chi-cuadrado 21aumentar los
2 chi-cuadrado determinan su tendencia central,Los dispersin y asimetra: aluna aumentar los valores positivos y aumenta est sesgada a la derecha. grados de libertad de distribucin 2 grados de libertad, la media y la varianza de la distribucin y disminuye su 3
2 2
0,5
5 grados de libertad, aumenta media ycentral, la varianza de la distribucin yal disminuye su chi-cuadrado determinan su la tendencia y asimetra: aumentar sesgo a la derecha. En la Tabla 6 del Apndicedispersin se presentan los percentiles de la los
sesgo ade la libertad, derecha. aumenta En la Tabla 6 del Apndice se presentan los percentiles de la su grados la media y la varianza de la distribucin y disminuye distribucin chi-cuadrado para distintos grados de libertad.
f(x)a la 0,3 distribucin chi-cuadrado para distintos grados se de presentan libertad. los percentiles de la sesgo derecha. En la Tabla 6 del Apndice [Figura 6.1 aproximadamente aqu] distribucin chi-cuadrado para distintos grados de libertad. 0,2 [Figura 6.1 aproximadamente aqu]
2 2 2 A partir de la distribucin n 1 del estadstico (n 1)s / resulta sencillo calcular [Figura 6.1 aproximadamente aqu] 0,1 2 2 2 A partir de la distribucin n 1 del estadstico (n 1)s / resulta sencillo calcular un intervalo de confianza para la varianza poblacional. El 100(1 - )% de la
2 partir 0 de la distribucin del estadstico (n 1) s2100(1 / 2 resulta sencillo n 1 de la calcular un A intervalo de confianza parala varianza poblacional. El - )% distribucin muestral de este estadstico est comprendido entre los percentiles /2 y 1 -
0,4
de la /2 un intervalo muestral de confianza para la varianza poblacional. El 100(1 - )% distribucin de este estadstico est comprendido entre los percentiles y12 /2 de la distribucin chi-cuadrado con n - 1 grados x de libertad, denotados por n 1, / 2
10
12
2 Figura 6.1 distribucin muestral de este estadstico est comprendido entre los percentiles /2 y1y n 1,1 / 2 , 1.2 MEDIDAS DE TENDENCIA CENTRAL 2 2 /2 de la distribucin chi-cuadrado con n - 1 grados 2de2 libertad, denotados por n 1, / 2 2 , y A partir de la distribucin del estadstico ( n 1) s / resulta sencillo calcular un intervalo n 1,1 / 2 n1 2 Las medidas de tendencia central acerca de cul es el valor ms repre de confianza para la varianza El )% de lainforman distribucin muestral de este poblacional. (n 1 ) s 100(1 2 2 2 . P = 1 < < y , n 1 , / 2 n 1 , 1 / 2 2 estadstico est /2 y 1 /2 de la distribucin chi-cuadrado entre los percentiles n 1,1 / 2 comprendido 1 2 s2 y (n )2 de una determinada variable o, 22 con n 1 grados de libertad, denotados por , dicho de forma equivalente, estos estimadores i P < /2 n 1,n ,1 11 / 2 /2 =1 . n 1, / 2 < 2 n1, 2 2 n s ( 1 ) 2 se agrupan alrededor de qu valor los datos observados. Manipulado esta desigualdad para despejar la varianza poblacional, se obtiene que Las medidas de tenden P < n 1,1 / 2 = 1 . n 1, / 2 < 2 Manipulado esta desigualdad para despejar la varianza se obtiene que central de la muestra sirvenpoblacional, tanto para resumir los resultados observados como 2 2poblacional, Manipulando esta desigualdad para despejar la varianza se obtiene que ( (n 1) s n 1) s < 2 < =1 ; P para 2 2 Manipulado esta desigualdad despejar la varianza se obtiene que poblacional, realizar inferencias acerca de los parmetros poblacionales correspondientes. A 2 2 n 1,1 /2 n 1 , / 2 ( 1 ) ( 1 ) n s n s 2 =1 ; P 2 < < 2 n 1 , 1 / 2 n 1 , / 2 continuacin se describen los estimadores de la tendencia central d 2 (n 1) s 2 principales ( 1 ) n s 2 2 para la varianza =21 determinado por es decir, el IC al 100(1 - < < poblacional viene P)% ; 2 la varianza poblacional 2 es decir, el IC al 100(1 )% para viene determinado por variable. n 1, / 2 n 1,1 / 2 es decir, el IC al 100(1 - )% para la varianza poblacional 2 viene determinado por 2 2 2 2 intervalos de confianza para 1) no son simtricos alrededor s2, particularmente [(n s / s2 / n / 2 ], n 1,1 / 2 , (n 1) 1, de 2 1.2.1 Media aritmtica para la 2varianza poblacional es decir, el IC al 100(1 - )% 2 viene determinado por (n 1) s2 / n ], la muestra. A diferencia de [(n a 1) s2 / n 1,1 /2, 1, / 2en cuyos lmites pueden calcularse partir de los datos observados cuando el tamao muestral es reducido. cuyos lmites pueden calcularse a partir de los datos observados la muestra. A confianza media aritmtica, denotada por ,los se define como la suma de cada uno de l los intervalos de confianza paraLa , que estn centrados alrededor de x ,en intervalos de 2 2 2 2 2 2 / , ( n 1) s / ], [( n 1) s 2 2 1 , 1 / 2 1 , / 2 n n para son simtricos alrededor de determinada sde , particularmente cuando el tamao muestral = 0 A frente a es Deno igual forma, el calcularse contraste de una nula H cuyos lmites pueden a partir los datoshiptesis observados en la 0: muestra. , que estn alrededor de x , losrealizadas. Si deno diferencia de los intervalos de confianza para dividida valores muestrales porcentrados el nmero de observaciones reducido.
/2 6.1 de laFuncin distribucin chi-cuadrado con n - 1 grados de libertad, por n 1, / 2 Figura de densidad de la distribucin chi-cuadrado con 1, 2, 3denotados y 5 grados de libertad. 2
2 datos observados en 2 la muestra. cuyos lmites pueden calcularse a1 partir de Ala x ,hiptesis que realizarse estn centrados de , los diferencia de los intervalos de una confianza para 02 el frente a hiptesis De igual forma, el contraste determinada nula H la hiptesis alternativa bilateral H : tamao 2 los mediante estadstico 0 puede 0: =alrededor por n el muestral y por x el valor observado para el sujeto i-simo, i = i 2 2 alternativa bilateral H1: 0 puede realizarse mediante el estadstico estn centrados alrededor de x , los diferencia de los intervalos de confianza para , que la media vendra (n dada 1) s 2por 2 6 = , 2
82
x + x 2 + ... + x n 6 1 n . x = xi = 1 n i =1 de libertad. As, n el que bajo H sigue una distribucin chi-cuadrado con n 1 grados Pastor-Barriuso R. 0 6
valor P del test se obtiene como el doblees del a la de izquierda de este estadstico bajo y de ms fcil La media larea medida tendencia central ms utilizada
2 2 la distribucin 2 que, si 2 s2 > 0 . Es notar subyacente dista mucho de ser n laimportante distribucin 1 , si s 0 , o como el doble del rea a la derecha del estadstico, si menos fiables que para la media, en cuyo caso conviene proceder con cautela. Comparacin de medias en dos muestras independientes normal, los 2 intervalos de confianza y los contrastes para la varianza poblacional son 2 s > 0 . Es importante notar que, si la distribucin subyacente dista mucho de ser 6.5 Utilizando desviacin menos fiables que para la media, en cuyoEjemplo caso conviene procederla con cautela. tpica s = 0,29 mmol/l del colesterol HDL normal, los intervalos de confianza y los contrastes para la varianza poblacional son que bajo H0 sigue una distribucin chi-cuadrado con n 1 grados de libertad. As, el valor P del en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacio test se obtiene como el doble del rea a la izquierda de este estadstico bajo la distribucin 2n1, menos fiables que para la media, tpica en cuyo=caso proceder con cautela. Ejemplo ladoble desviacin 0,29conviene mmol/l del colesterol 2 si s2 6.5 0Utilizando , o como el del rea a la s derecha del estadstico, si s2 >HDL 02 . Es importante notar viene determinado por que, si la distribucin subyacente dista mucho de ser normal, los intervalos de confianza y los en los n = 539 controles del EURAMIC, el ICson al 95% para la varianza poblacional contrastes para6.5 la Utilizando varianza poblacional menos fiables que para la media, HDL en cuyo caso Ejemplo la desviacin tpica s= mmol/l del colesterol 2 0,29 2 2 2 (538 0,29 / , 538 0,29 / 538; 0 , 975 538; 0 , 025 ) conviene proceder con cautela. viene determinado por en los n = 539 controles del EURAMIC, el IC al 95% para la varianza poblacional == (45,25/604,16; 45,25/475,62) = (0,075; Ejemplo 6.5 Utilizando la desviacin tpica s 0,29 mmol/l del colesterol HDL en los0,095), 2 2 2 2 determinado 0,29 / 538;0,975 , 538 0,29 / 538;0el ) al 95% para la varianza poblacional viene n(538 = 539 controles del EURAMIC, , 025IC viene por determinado por ya que los percentiles 2,5 y 97,5 de la distribucin chi-cuadrado con 538 grado = (45,25/604,16; 45,25/475,62) 2 2 =2(0,075; 0,095), 2 (5380,29 / 538;0,975 , 5380,29 / 538;0,025 ) 2 2 de libertad son respectivamente 538 ; 0 , 025 = 475,62 y 538; 0 , 975 = 604,16. As, el = (45,25/604,16; 45,25/475,62) = (0,075; 0,095), ya que los percentiles 2,5 y 97,5 de la distribucin chi-cuadrado con 538 grados 95% de para la desviacin tpica del colesterol HDL en la poblacin de referenc ya que los percentiles 2,5al y 97,5 la distribucin chi-cuadrado con 538 grados de libertad 2 2 de libertad son son respectivamente 538 = 475,62 y = 604,16. As, el IC el IC al 95% para la ; 0 , 025 538; 0 , 975 ya que los percentiles 2,5 y 97,5 de la distribucin chi-cuadrado con 538 grados es desviacin tpica del colesterol HDL en la poblacin de referencia es Para determinartpica si los del niveles de colesterol HDL en los2controles del EURAMIC al 95% para la desviacin colesterol la poblacin de referencia 2 HDL en de libertad son respectivamente 538 ; 0 , 025 = 475,62 y 538; 0 , 975 = 604,16. As, el IC ( 0,075 ; 0 ,095 ) = (0,27; 0,31). son compatibles con una desviacin tpica poblacional de 0,30 mmol/l, se es Para determinar si los niveles colesterol controles de delreferencia EURAMIC son al 95% para la desviacin tpicade del colesterolHDL HDLen enlos la poblacin compatibles con una desviacin tpica poblacional 2 2 de 0,30 mmol/l, se contrast ( 0,075 ; contrast 0,095 ) =bilateralmente (0,27; 0,31). la hiptesis nula H0: = 0,30 mediante el estadstico bilateralmente la hiptesis nula H0: 2 = 0,302 mediante el estadstico es
(n 1) s 2 538 0,29 2 ( 0,075 ; 0,095 ) = (0,27; 2 = 0,31). = = 502,73. 2 0 0,30 2 1.2 MEDIDAS 1.2 MEDIDAS DE TENDENCIA DE TENDENCIA CENTRAL CENTRAL 7 2 Como s < 0, el valor P corresponde a 2P( 538 502,73) = 20,140 = 0,280; es decir, el 1.2 MEDIDAS 1.2 MEDIDAS DE TENDENCIA DE TENDENCIA CENTRAL CENTRAL 2 contraste estadsticamente significativo, careciendo entonces de evidencia para Como s <no 0result , Las el valor P corresponde a 2 P ( 502,73) = 2 0,140 = 0,280; es 538 medidas Las medidas de tendencia de tendencia central central informan informan acerca acerca de cul de cul es el es valor el valor ms ms representativo representat 7 rechazar la hiptesis nula. La conclusin de este contraste es consistente con el intervalo Las medidas Las medidas de tendencia de tendencia central central informan informan acerca acerca de cul de cu es 0,30 mmol/l. de confianza para , dado que stevariable incluye el nulo de una de determinada una determinada variable o, valor dicho o, dicho de forma de forma equivalente, equivalente, estosestos estimadores estimadores indican indican decir, el contraste no result estadsticamente significativo, careciendo entonces 0 =
de una de determinada una determinada variable variable o, dicho o, dicho de forma de forma equivalente, equivalen e alrededor alrededor de qu valor qu valor senula. agrupan se agrupan los datos los datos observados. observados. Las medidas Las de tendencia de tendencia de evidencia para rechazar lade hiptesis La conclusin de este contraste es medidas 6.3 COMPARACIN DE MEDIAS EN DOS MUESTRAS alrededor alrededor de qu deINDEPENDIENTES valor qu valor se agrupan se agrupan los datos los datos observados. observados. Las m L central central de lade muestra laconfianza muestra sirven sirven tanto tanto para resumir resumir los resultados los resultados observados observados como como para para consistente con el intervalo de para ,para dado que ste incluye el valor Hasta ahora se han revisado las tcnicas estadsticas para realizar inferencias sobre el valor de central central de la de muestra la muestra sirven sirven tanto tanto parapara resumir resumir los resultados los resulta un parmetro unarealizar poblacin. Sin embargo, una situacin mucho ms frecuente en correspondientes. la prctica A A realizar inferencias inferencias acerca acerca de los deparmetros los parmetros poblacionales poblacionales correspondientes. = 0,30 mmol/l. nulo 0 en es la comparacin de un determinado parmetro entre dos poblaciones distintas. En este apartado realizar realizar inferencias inferencias acerca acerca de los deparmetros los parmetros poblacionales poblacionale co se presentan los mtodos para comparar la media poblacional deestimadores una variable cuantitativa acentral continuacin continuacin se describen se describen los principales los principales estimadores de lade tendencia la tendencia central de una de una partir de dos muestras independientes, donde las observaciones de una muestra no estn continuacin continuacin se describen se describen los principales los principales estimadores estimadores de la de te relacionadas o emparejadas con las observaciones de la otra muestra. 6.3 COMPARACIN DE MEDIAS EN DOS MUESTRAS INDEPENDIENTES variable. variable. En adelante, la media y la varianza de la variable aleatoria en la primera poblacin se denotan variable. variable. Hasta se han revisado las tcnicas estadsticas realizar inferencias sobre el y 12, y en la segunda poblacin por 2 y 22. Elpara objetivo se centra en estimar la diferencia por 1 ahora 1.2.11.2.1 Media Media aritmtica aritmtica entre ambas medias poblacionales 1 2 a partir de dos muestras independientes de dichas 1.2.1 1.2.1 Media Media aritmtica aritmtica2 valor de un parmetro una poblacin. Sin embargo, situacin mucho Laen media La media aritmtica, aritmtica, denotada denotada por una por x , se xdefine , se define como como la ms suma la 2 suma de cada de cada uno de uno los de los poblaciones de tamaos n 1 y n2 con medias respectivas 1 y 2 y varianzas s1 y s2 .
media La media aritmtica, aritmtica, denotada denotada por por x 1, se x2 define , se define como como la suma la s que Como cabra esperar, el estimador puntual es laLa diferencia de las medias muestrales frecuente en la prctica es lamuestrales comparacin de unpor determinado parmetro entre dos valores valores muestrales dividida dividida el por nmero el nmero de observaciones de observaciones realizadas. realizadas. Si denotamos Si denotamos representa adems un estimador insesgado y consistente de la diferencia subyacente 1 2 en la valores valores muestrales muestrales dividida dividida por el por nmero el nmero de observaciones de observacion r poblacin. Para realizar inferencias sobre esta diferencia de medias poblacionales, es necesario poblaciones distintas. En este semuestral presentan los para comparar media por n por el tamao n apartado el tamao muestral y por yxpor x valor observado observado para para el la sujeto el sujeto i-simo, i-simo, i = 1, i ..., = 1, n,..., n i el mtodos i el valor
por n por el n tamao el tamao muestral muestral y por yx por el x valor observado observado parapara el su i el valor poblacional de una variable cuantitativa a dada partir de dos muestras independientes, idonde la media la media vendra vendra dada por por la media la media vendra vendra dadadada por por las observaciones de una muestra no estn relacionadas n o emparejadas con las n +x ... +x ... x1 + x1 1 1 2 + 2+ n + xn . . = x i = xi = x = x
2 2 continuacin continuacin describen se describen los principales los principales estimadores estimadores de la tendenc de la ten distribuciones normales N(1, muestrales , n2se ), respectivamente. As, al tratarse 1 /n1) y N( centraltamaos del lmite), las medias x x2 aproximadamente las 1 2y 2 /seguirn y n son suficientemente grandes (recurdese el la teorema ambos muestrales n 1 2 de muestras independientes (vase Apartado 3.4), la distribucin muestral de variable. variable. variable. variable. Inferencia sobre medias 2 la distribucin muestral de la de muestras independientes Apartado 3.4), 12 /aproximadamente n (1 2y , n2), respectivamente. tratarse distribuciones normales N((vase 1,muestrales 1) y Nx x 22 / seguirn aproximadamente las central del de lmite), lastambin medias diferencia medias ser normal con media As, al 1.2.1 1.2.1 Media Media aritmtica aritmtica diferencia deindependientes medias tambin ser normal con media 1.2.1 Media 1.2.1 aritmtica 2 aproximadamente 2 Media de muestras (vase Apartado 3.4), laaritmtica distribucin muestral de la distribuciones normales NE ( 1, 1 /n1) y N(2, 2 /n2), respectivamente. As, al tratarse ( x x ) = E ( x ) E ( x ) = 1por 2 1 x 1, se x 2define ,. Si se ambos define como como la2suma lamuestrales suma de cada de cada uno uno de los de los La media La media aritmtica, aritmtica, denotada denotada por 1 2 conocer la distribucin muestral de tamaos n1 y n 2 son suficientemente La media La media aritmtica, aritmtica, denotada denotada por por x , se x define , se define como como la suma la suma de ca grandes (recurdese el teorema central del lmite), las medias muestrales 1 y 2 seguirn diferencia de medias tambin aproximadamente con media de E((vase x1ser - x2 ) = E( x1 ) - E(2la x 2 distribucin )normal = 1 - 2 2 muestral de muestras independientes Apartado 3.4), la valores valores muestrales muestrales dividida dividida por el por nmero el nmero de observaciones de observaciones realizadas. realizadas. Si denotamos Si denotamos aproximadamente las distribuciones normales N ( 1, 1 /n1) y N(2, 2 /n2), respectivamente. As, al y varianza valores valores muestrales muestrales dividida dividida por el por nmero el nmero observaciones de observaciones realizad re tratarse de muestras independientes (vase Apartado 3.4), la distribucin muestral de la de diferencia diferencia de medias tambin ser aproximadamente normal con media E ( x x ) = E ( x ) E ( x ) = 1 2 1 2 1 2 yel varianza por por n tamao el tambin tamao muestral muestral y por yx por valor observado observado para para el sujeto el sujeto i-simo, i-simo, i = 1, i= ..., 1,n..., , n, i elx i el valor den medias ser aproximadamente normal con media 2 2 var( x1 - x 2 ) = var( xpor ) + var( x ) = / n + / n . el valor el valor observado observado para el para sujeto el su i n por el tamao n el tamao muestral muestral y por y x por x 1 2 1 2 1 2 i i la media la vendra vendra dada dada por por E( x1 x 2 ) = E( x1 ) E( x 2 ) = 2 2 y media varianza var( x1 - x 2 ) = var( x1 ) + var( x 2 ) = 12 1 /n 1 + 2 / n2 . la media la media vendra vendra dada por dada por En consecuencia, se tiene que y varianza n +xx +x... x x n+ x2n/n + 2 /n . 1 ) n= 1var( 1 2+ 2 + ... y varianza var( x1x x x1 2= x 1 ) + var( x 2 ) = 2 2 . 1 .1 = x En consecuencia, se tiene que i = xi = + +... ++ ... + x n x2 xn 1 n 1 n x1 + xx n i =1n i =1 n n 2 2 . . = =x i = xi = 2 1 x x ~ N , 1 + 2 En consecuencia, se tiene que x1 x 2 n i =1 n i =1 n n 1 2 2 2 x1 - que x 2 ) = var( x1 ) )n= /n 2 1n 2 1 + 2 / n2 . En consecuencia, var( se tiene 1 + var( x 2 2 1 2 ~ N + La media La media es la es medida la medida de tendencia dextendencia central ms utilizada y de yms de ms fcilfcil 1 x 2 central 1 ms 2 , utilizada n n 1 2 La media La media es la medida es la medida de tendencia de tendencia central central ms utilizada ms utilizada y de m y 2 2 En consecuencia, se tiene que de una o, aplicando la estandarizacin distribucin normal, 1 2 ~ interpretacin. Corresponde Corresponde al centro al centro gravedad de gravedad de los de+ datos los datos de la de muestra. la muestra. Su Su x x 2de N normal, o, interpretacin. aplicando la estandarizacin de distribucin 1 una 2, 1 interpretacin. n n interpretacin. Corresponde Corresponde al centro al centro de gravedad de gravedad de losde datos los da de 1 2 o, aplicando la estandarizacin de una distribucin normal, 2 2 principal principal limitacin limitacin es que es que est est muy influenciada los por los valores extremos y, en y,este en este 1 por 1 valores 2 extremos x1 muy x ~influenciada ( 2) ~ 1 2limitacin , N( x1 x2 2 N + . 0, 1)es principal principal limitacin que es est que muy est influenciada muy influenciada por los por valores los valo ex 2 2 nnormal, n2 1 o, aplicando la estandarizacin de una distribucin 1 2 x x ( ) 1 2 1 2 ~ caso, caso, puede puede no ser no un serfiel un reflejo fiel reflejo de la de tendencia la tendencia central central la + . distribucin. de N (la 0de , distribucin. 1) 2 caso, 2 puede n n 1 2 caso, puede no ser no un ser fiel un reflejo fiel reflejo de la tendencia de la tendencia central central de la distrib de la 1 2 + o, aplicando la estandarizacin una normal, 1 2 )la x1 de x distribucin ( para 2 ~comparacin Esta distribucin muestral constituye base de dos medias poblacionales n1la n2 N (sobre 0,estimadores 1) . estimadores Ejemplo Ejemplo 1.4 En 1.4este En este y enylos en sucesivos los sucesivos ejemplos ejemplos sobre muestrales, muestrales, se se 2 2 a partir de muestras independientes. No para hacer uso de este de resultado, es necesario Esta distribucin muestral constituye la para la comparacin dos medias 1obstante, 2base Ejemplo Ejemplo 1.4 En 1.4 este En y este en los y en sucesivos los sucesivos ejemplos ejemplos sobre sobre estima e + 2 2 estimar previamente las varianzas desconocidas y de ambas poblaciones. La estimacin x x ) 1 2n ( 1n 21 ~ 2 utilizarn utilizarn los valores los valores del colesterol delconstituye colesterol HDL obtenidos obtenidos en losprimeros 10 primeros sujetos sujetos del del 1HDL 2 Esta distribucin muestral la base para la comparacin de 2dos medias No Nen (0 ,los 1) .10 2 poblacionales a partir desi muestras independientes. obstante, para hacer uso de esteHDL se simplifica notablemente se asume que las son iguales = cuyo caso obtenidos 2 2 dos varianzas 1 del 2 , en utilizarn utilizarn los valores los valores del colesterol colesterol HDL obtenidos en losen 10lo 1 2 + es posible obtener una estimacin combinada de la varianza comn para ambas poblaciones. estudio estudio European European Study Study on Antioxidants, on Antioxidants, Myocardial Myocardial Infarction Infarction and and Cancer Cancer of of poblacionales a partir de independientes. No para hacer de n1 poblacional n 2 uso 2 este 2 base para 2 muestras distribucin constituye la laobstante, comparacin de dos medias 2 , cada varianza deber estimarse por separado, Por elEsta contrario si 12 muestral resultado, es necesario estimar previamente las varianzas desconocidas y Antioxidants, 1 2 de siendo estudio estudio European European Study Study on Antioxidants, on Myocardial Myocardial Infarct I entonces ms impreciso el proceso de inferencia. Parece razonable pensar que la comparacin 2 2 the Breast the Breast necesario (EURAMIC), (EURAMIC), un estudio un estudio multicntrico multicntrico de casos de casos y controles y controles resultado, estimar previamente las varianzas desconocidas realizado y realizado de 1 uso 2 de poblacionales acomplicada partir de muestras independientes. No obstante, para hacer este de ambas medias es es ms enconstituye distribuciones con distinta variabilidad que en distribuciones La estimacin se simplifica notablemente se asume que las dos Estapoblaciones. distribucin muestral la base para laBreast comparacin de dos medias the Breast the (EURAMIC), si (EURAMIC), un estudio un estudio multicntrico multicntrico de casos de ca y con entre una entre misma varianza. La igualdad de varianzas no es una asuncin puramente terica, sino 1991 1991 y 1992 y 1992 en en ocho pases pases Europeos Europeos e Israel e Israel parapara evaluar evaluar el efecto el efecto de los de los 2 2 dos ambas poblaciones. La ocho estimacin se simplifica notablemente si se asume que las resultado, es necesario estimar previamente las varianzas desconocidas y pases que tiene implicaciones como puede apreciarse el siguiente ejemplo. 1 uso 2 de poblacionales a partirprcticas de muestras independientes. No en obstante, para hacer de este entre 1991 entre y 1991 1992 y en 1992 ocho en pases ocho Europeos Europeos e Israel e Israel para evalu para 9 5 5 de 2 dos ambas poblaciones. estimacin se simplifica notablemente si se asume las Ejemplo EnLa elestimar ensayo previamente clnico del Ejemplo 6.2 sedesconocidas pretende comparar las resultado, es6.6 necesario las varianzas 12 que y de 2 medias 9 presin arterial sistlica entre el grupo placebo y el grupo bajo tratamiento antihipertensivo. Si este tratamiento produjera una reduccin del nivel de presin ambas poblaciones. La estimacin se simplifica notablemente si searterial asume aproximadamente que las dos 9los igual en todos los pacientes, cabra esperar que la distribucin de la presin arterial en tratados presentara un nivel medio inferior que en el grupo placebo manteniendo inalterable la variabilidad. En tal caso, estaramos ante una comparacin de medias 9 en distribuciones con igual varianza (Figura 6.2(a)). En caso contrario, si el tratamiento produjera una disminucin de la presin arterial sistlica proporcional al nivel basal de cada paciente (esto es, mayor reduccin en los sujetos con niveles ms altos), la presin arterial en el grupo tratado tendra menor nivel medio y dispersin que en el grupo placebo. Bajo esta circunstancia, nos encontraramos con una comparacin de medias en distribuciones con distinta varianza (Figura 6.2(b)).
84
Pastor-Barriuso R.
Comparacin de medias en dos muestras independientes
Tratamiento
Placebo
trat
plac
(a) Efecto constante
6.3.1 Comparacin de medias en distribuciones con igual varianza

2 , resulta natural estimar Si se asume que las varianzas poblaciones son iguales 12 = 2
Tratamiento
Placebo
una nica varianza combinada a partir de la informacin disponible en ambas muestras.

trat plac As, se obtendr un estimador ms estable de la varianza poblacional, lo que redundar
Figura 6.2 Distribucin de la presin arterial sistlica en los grupos placebo y tratamiento de un hipottico ensayo clnico asumiendo un efecto constante (a) o proporcional (b) del tratamiento antihipertensivo.
en una mayor precisin de la estimacin de la diferencia de medias y en una mayor Figura 6.1 potencia del contraste.
(b) Efecto proporcional
2 con igual varianza 6.3.1 La Comparacin de medias en distribuciones s12 y s 2 podra utilizarse como estimador media de las varianzas muestrales
Si se asume que las varianzas poblacionales son iguales 12 = 22, resulta natural estimar una combinado la varianza. Esta media sin embargo, ineficiente que otorga el As, se nica varianzade combinada a partir de la es, informacin disponible en ya ambas muestras. obtendr un estimador ms estable de la varianza poblacional, lo que redundar en una mayor mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada a partir de precisin de la estimacin de la diferencia de medias y en una mayor potencia del contraste.
2 2 s2 s1 y podra utilizarse como estimador combinado de La media de las varianzas muestrales una muestra mayor sea ms fiable. Para dar ms peso a los resultados obtenidos con la varianza. Esta media es, sin embargo, ineficiente ya que otorga el mismo peso a ambas varianzas muestrales, aun cuando la varianza estimada partir de una muestracomo mayor mayor tamao muestral, la estimacin combinada deala varianza se obtiene lasea ms fiable. Para dar ms peso a los resultados obtenidos con mayor tamao muestral, la estimacin 2 2 varianza 2 ponderada por sus correspondientes combinada desla se obtiene como la media de s12 y s2grados media de de libertad 1 y s 2 ponderada por sus correspondientes grados de libertad
s2 =
2 (n1 1) s12 + (n 2 1) s 2 n1 + n 2 2
( xi x1 ) 2 + ( x j x 2 ) 2
i =1 j =1
n1
n2
n1 + n 2 2
El numerador de s2 es simplemente la suma de las desviaciones al cuadrado respecto de la El numerador de s2 y esel simplemente la corresponde suma de las desviaciones algrados cuadrado respectopara de el media de cada grupo, denominador al nmero de de libertad clculo de este estimador: n1 1 grados de libertad en la primera muestra y n2 1 en la segunda, media de grupo, y el denominador corresponde al nmero de grados de libertad (n1 la 1) + (n2 cada 1) = n 1 + n2 2. para el clculo de este estimador: n1 1 grados de libertad en la primera muestra y n2 1 en la segunda, (n1 1) + (n2 1) = n1 + n2 2.
En la distribucin muestral de la diferencia de medias, las varianzas desconocidas
A partir de este resultado, y siguiendo un procedimiento anlogo al utilizado para una de la diferencia de medias ya no ser normal, sino que seguir aproximadamente una (Apartado 5.3.2), derivarse un intervalo de confianza al 100(1 - )% para distribucin media t de con n + medias n2 puede 2 grados de libertad, 1 deStudent la diferencia de ya no ser normal, sino que seguir aproximadamente una
la diferencia detmedias poblacionales 2 comode libertad, distribucin de con n +n -2 grados 21 x1 Student muestral x 2 ( En la distribucin de de medias, las varianzas desconocidas 12 y 22 1la 1 2 ) diferencia ~ t n1 + n2 2 . pueden entonces sustituirse combinada la varianza s2. Sin embargo, de la diferencia de medias ya noestimacin ser normal, sino quede seguir aproximadamente unacomo 1 por 1 la 2 s + esta estimacin s est sujeta al error muestreo, distribucin de la diferencia de medias ya x1 del x2 ( 1 2 )la~ 1 1 n1 x1n 2 x t t . n1 + n2 2 s + , n + n 2 2 , 1 / 2 1 2 no ser normal, sino que seguir aproximadamente una distribucin t de Student con n1 + n2 2 grados de distribucin t de Student con n 1.2 MEDIDAS 1 + n2 1 2 DE 1 TENDENCIA n1libertad, n 2 CENTRAL s + grados de libertad, 1.2 MEDIDAS DE TENDENCIA n1CENTRAL n2 A partir de este resultado, y siguiendo un procedimiento anlogo al utilizado para una 1.2 MEDIDAS 1.2 MEDIDAS DE TENDENCIA DE TENDENCIA Las de tendencia central informan acerca de cul CENTRAL es el CENTRAL valor ms represen x1diferencia x2 medias 2) ~ ( 1 que est centrado alrededor de medidas la de muestrales y cuya amplitud t n1 + n2 2 . Las medidas de tendencia central informan de cul es valor ms representativo media (Apartado 5.3.2), puede derivarse un intervalo de confianza 100(1 - el )% 1 un 1 acercaal A partir de este resultado, y siguiendo procedimiento anlogo al para utilizado para una de una determinada o, dicho de forma equivalente, estos estimadores indic + variable s Las medidas Las medidas de tendencia de tendencia central informan acerca acerca de cul de es c )=s 1 / n1 + 1 / n 2 . Notar que este central intervalo es informan depende de su error estndar SE( x1 - xn 21 n 2 de una determinada variable o, dicho de forma equivalente, estos estimadores indican la diferencia de medias poblacionales puede media (Apartado 5.3.2), derivarse un intervalo de confianza al 100(1 - )% para 1 - 2 como alrededor de un qu valor se una agrupan los datos observados. Las medidas de tendencia de dedeterminada una determinada variable variable o, dicho o, dicho de forma de forma equivalente, equivale A partir de este resultado, y siguiendo procedimiento anlogo al utilizado para una media una generalizacin bastante natural del intervalo para la media de una poblacional. alrededor de puede qu valor se agrupan los datos observados. Las medidas depara tendencia (Apartado 5.3.2), derivarse un intervalo de confianzaanlogo al 100(1 utilizado )% la diferencia A partir de este y siguiendo un procedimiento al para una la diferencia deresultado, medias poblacionales 1 - 2 como central de la muestra sirven tanto para resumir los resultados observados como Las par alrededor alrededor de qu de valor qu valor se agrupan se agrupan los datos los datos observados. observados 1 de medias poblacionales 1 2 como 1 x x t s + , n + n 1 2 2 , 1 / 2 1 2 central de la muestra sirven tanto para resumir los resultados observados como para n1 un n Ejemplo 6.7 En el estudio la media y la del - )% para media (Apartado 5.3.2), puedeEURAMIC, derivarse intervalo dedesviacin confianza tpica al 100(1 2 realizar inferencias acerca de parmetros poblacionales correspondientes. central central de la muestra la muestra sirven sirven tantotanto para resumir para resumir los resultados los A resul 1los 1de x1de x2 t n1 + n2 2,1 / poblacionales los + , correspondientes. A 2 s realizar inferencias acerca parmetros casos de infarto miocardio fueron x ca = colesterol HDL entre los nca = 462 ncuya la diferencia poblacionales - 2 como 1 de n 2 continuacin se1muestrales describen los principales estimadores de la tendencia central de un que est centrado alrededorde demedias la diferencia de medias y amplitud realizar realizar inferencias inferencias acerca acerca de los parmetros los parmetros poblacionales poblacion c continuacin se describen los principales estimadores de la tendencia central de una que est centrado alrededor de la diferencia de medias muestrales y cuya amplitud depende de 0,98 y sca = 0,25 mmol/l, y entre los nco = 539 controles fueron x co = 1,09 y scoprincipales = continuacin continuacin describen se los principales los estimadores estimadores de la d t que est centrado de diferencia medias y describen cuya amplitud x1 xvariable. s la 1/ n1 + 1 / n 2 de . Notar SE(alrededor depende de su error estndar que este intervalo es una generalizacin 2) = 1 muestrales 1 se x x t s + , variable. n1 + n 1 1 / 2 2 2, bastante natural del intervalo para la2media de una poblacin. n1 n 2 puntual de la diferencia 0,29 mmol/l. De estos datos se deduce que la estimacin variable. variable. xla = s 1 de / n1una + 1 /poblacional. n 2 . Notar que este intervalo es depende de su error estndar SE ( xpara una generalizacin bastante natural del1.2.1 intervalo Media 1 - aritmtica 2 ) media Ejemplo 6.7 En el EURAMIC, desviacin colesterol 1.2.1 aritmtica x camedia - x co y =la 0,98 - 1,09 =tpica -0,11del mmol/l. Si HDL en el Media nivel medio deestudio colesterol HDL es la que est centrado alrededor de la diferencia de medias muestrales y cuya amplitud La media aritmtica, denotada por x , se define como la suma de cada entre los n = 462 casos de infarto de miocardio fueron = 0,98 y s = 0,25 mmol/l, y uno de los 1.2.1 1.2.1 Media Media aritmtica aritmtica una generalizacin bastante natural del intervalo para la media una poblacional. ca ca de ca Ejemplo 6.7 En el estudio EURAMIC, la media y la desviacin tpica del La media aritmtica, denotada por x co , se define la suma de De cada unodatos de los entre los n = 539 controles fueron = 1,09 y scomo = 0,29 mmol/l. estos se deduce co HDL asumimosco una misma variabilidad del colesterol en casos y controles, la valores muestrales dividida por el nmero de observaciones Si denotam media media aritmtica, denotada denotada por por , realizadas. se xdefine , se como como la sum l que la estimacin puntual de diferencia el medio colesterol HDL es x es = define s La 1 /nivel n +1 / aritmtica, n 2 . de Notar que este intervalo depende de su error estndar SEla (x 1 La 1 - x 2 ) = en ca co = 462 casos de infarto de miocardio fueron x = colesterol HDL entre los n cammol/l, Ejemplo 6.7 el estudio EURAMIC, la media y la desviacin tpica del caEndividida valores muestrales por el nmero de observaciones realizadas. Si denotamos 0,98 1,09 = 0,11 mmol/l. Si asumimos una misma variabilidad del colesterol HDL en es decir, la desviacin tpica combinada es s = 0 , 074 = 0,272 cuyo varianza combinada de ambas muestras vendra determinado por por natural n el combinada tamao muestral y por ximedia el muestrales valor para elpor sujeto i-simo, i = 1, .. valores valores muestrales dividida dividida por el por nmero el nmero de observaciones de observaci y controles, la varianza de ambas muestras vendra una casos generalizacin bastante del intervalo para la deobservado unadeterminado poblacional. 0,98 y sca =por 0,25 y entre los n = 539 controles fueron x = 1,09 y sco = 462 casos de infarto miocardio fueron x =..., n, colesterol HDL entre los n n mmol/l, elest tamao muestral yco por x= valor observado para el sujeto i-simo, = code ca1, ca i el valor ms prxima a la desviacin tpica observada en los controles quei en 2 2 la media vendra dada por (n ca 1) s ca + (n co 1) s conpor el tamao n el tamao muestral muestral y poryxpor xi el valor observado observado para el pa i el valor s2 = la De media vendra dada por 0,29 mmol/l. estos datos se deduce que la estimacin puntual de la diferencia 0,98 y s = 0,25 mmol/l, y entre los n = 539 controles fueron x = 1,09 y s = co los casos ca (mayor muestral primeros). el error estndar de la co co 2 n ca + de n colos Ejemplo 6.7 En tamao el estudio EURAMIC, la media As, y la desviacin tpica del la la media vendra dada dada por por es decir, la desviacin tpica combinada es s =media 0,074 = 0,272 mmol/l, cuyo n vendra x + x 2 + ... + x n 1 2 2 (462 1se )-0x ,deduce 25 + (539 1estimacin )0 ,= 29 = 1 Si x= xpuntual x 0,98 1,09 -0,11 mmol/l. en el nivel medio demmol/l. colesterol HDL es diferencia de medias puede calcularse como n = ca co 0,29 De estos datos que la la diferencia i = 462 casos de infarto de miocardio fueron x ca .= colesterol HDL entre los n x1 + x 2 + ... + x = = 0,074; de ca 1 n n n = i 1 = 2 x = 462 x i539 + valor est ms prxima a la desviacin en.los controles que 1 enn 1 n x1 + x x1 + ... x 2++x... n + n i =1 tpica observada n . = = xSi = xi = 2 x x asumimos una misma variabilidad del colesterol HDL en controles, la x x = 0,98 1,09 = -0,11 mmol/l. en el nivel medio de colesterol HDL es i cacasos co y 0,98 ys = 0,25 mmol/l, ycombinada entre controles fueron x co = cuyo 1,09 sn = 1 los1nco 1 =1 ca desviacin ny n n es decir, la tpica es=s 539 valor est es decir, la desviacin tpica combinada = 0 , 074 0,272 mmol/l, =1 co i i= 1 ) = +la = 0,272 + el error = 0,017. s SE( x La media es medida de tendencia central ms utilizada ca - x co los casos (mayor tamao muestral de los primeros). As, estndar de la y de ms fcil ms prximo a la desviacin tpica en los controles que en los casos (mayor 462 539 n n ca observada co varianza combinada de ambas muestras determinado por La media es la medida de vendra tendencia central ms utilizada de ms fcil asumimos una misma variabilidad del colesterol HDL en y casos y controles, la 0,29 est mmol/l. De datos se deduce que observada la estimacin puntual de de laque diferencia tamao muestral deestos los primeros). As, el error estndar de la diferencia medias puede valor ms prxima a la desviacin tpica en los controles en 12 interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su La media es la es medida la medida de tendencia de tendencia central central ms utilizada ms util diferencia de medias puede calcularse como La media calcularse como interpretacin. al centro de gravedad de los datos de la muestra. Su Avarianza partir decombinada la Corresponde diferencia de medias y de su error estndar, y teniendo ambas muestras vendra determinado por 2 de 2 muestrales (n ) sde ( n ca 1 ca + co 1) sHDL co x = 0,98 1,09 = -0,11 mmol/l. Si extremos encasos els nivel medio colesterol es 2 (mayor ca - x co As, los tamao muestral de los primeros). el error estndar la principal limitacin es que est muy influenciada por los valores y, es = interpretacin. interpretacin. Corresponde Corresponde al de centro al centro de gravedad de gravedad deen los de d 1 1 1 1 n + n 2 ca co t de Student con n + n 2 = 999 grados de en cuenta que la distribucin principal limitacin es que est muy influenciada por los valores extremos y, en este ca co 2 2 SE( x ca x co ) = = 0 ,272 + = 0,017. s 1) s+ (n ca + (n 1reflejo ) sprincipal ca n co co 462 diferencia de medias puede calcularse como asumimos una misma del colesterol HDL en casos y es controles, 2 variabilidad n ca 539 caso, no ser de la tendencia central de la la distribucin. coun 2 puede 2fiel principal limitacin limitacin es que est que muy est muy influenciada influenciada por los por val lo s = (462 1) 0,25 + (539 1) 0,29 n + n 2 libertad es no virtualmente a distribucin normal el IC al cauna co = = 0,074 ; de estandarizada, caso, puede ser un fielidntica reflejo de la tendencia central la distribucin. Avarianza partir de combinada la diferencia de medias muestrales y de su error estndar, y teniendo en cuenta 462 +ambas 539 2 de muestras vendra determinado por caso,caso, puede puede no no un ser fiel unreflejo fiel reflejo de la de tendencia la tendencia central centra de l 2 2 ser 1) muestrales 1 1 1 A partir de la diferencia de medias y de su error estndar, y teniendo que la distribucin t de Student con n + n 2 = 999 grados de libertad es virtualmente ( 462 0 , 25 + ( 539 1 ) 0 , 29 ca En co Ejemplo 1.4 este y en los + sucesivos ejemplos sobre estimadores muestral dado 95% para SE xco - x co ) = = 0,272 = 0,017. s por + ca -( ca viene = = 0 , 074 ; idntica a una distribucin normal estandarizada, el IC al 95% para ca comuestrales, viene dado se por n ca n co 462 539 462 + 539 2 Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores 2 2 ( n 1 ) s + ( n 1 ) s en cuenta que la distribucin t de Student con n + n 2 = 999 grados de ca ca co co ca co 2 utilizarn los valores del colesterol obtenidos en los 10 primeros sujeto Ejemplo Ejemplo 1.4 HDL En 1.4 este En y este en los y en sucesivos los sucesivos ejemplos ejemplos sobre = x ca s x co t999;0,975 SE( x ca x co ) 12 n + n 2 ca co HDL obtenidos en los 10 primeros sujetos del utilizarn los valores del colesterol A partires devirtualmente la diferenciaidntica de = medias muestrales y= de su error estndar, y teniendo libertad a una distribucin normal IC al 0,11 1,96 0,017 ( 0,14; 0,08). estandarizada, estudio European Study on Antioxidants, Myocardial Infarction andobtenid Cancer utilizarn utilizarn los valores delel colesterol del colesterol HDLHDL obtenidos en 2 2 los valores ( 462 1 ) 0 , 25 + ( 539 1 ) 0 , 29 12 estudio European Study on Antioxidants, Myocardial Infarction and Cancer of = = 999 0,074 ; t de Student con nca + nco 2 = grados de en cuenta que la distribucin 95% para ca - co viene dado 462 + 539 2estudio the por Breast (EURAMIC), un estudio multicntrico casos y controles reali estudio European European Study Study on de Antioxidants, on Antioxidants, Myocardial Myoca De los del estudio EURAMIC puede entonces concluirse el nivel theresultados Breast (EURAMIC), un multicntrico de casos y que controles realizado libertad es virtualmente idntica a estudio una distribucin normal estandarizada, el IC al 86 Pastor-Barriuso R. entre 1991 y 1992 en ocho pases Europeos e Israel el efecto de the Breast (EURAMIC), (EURAMIC), un para estudio un evaluar estudio multicntrico multicntric x ca - x co t999;0,975 SE( x ca - x co )the Breast medio de 1991 colesterol HDL los pases casos de infarto es inferior en 0,11 mmol/l al de los y 1992 en en ocho Europeos e Israel para evaluar el efecto 95% entre para ca - co viene dado por 12 Europeos entre entre 1991 1991 y 1992 y 1992 en ocho en ocho pases pases Europeos e Israel e Isra pa = -0,11 1,960,017 = (-0,14; -0,08).
medio de colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al

Comparacin de medias en dos muestras independientes nivel medio de los sujetos libres de la enfermedad, estando esta diferencia
que sigue aproximadamente una distribucin t de Student con n1 + n2 - 2 grados de comprendida entre 0,08 y 0,14 mmol/l con una confianza del 95%. De los resultados del estudio EURAMIC puede entonces concluirse que el nivel medio de libertad si la hiptesis nula H0: 1 = 2 es cierta. Por tanto, el valor P se obtiene como el colesterol HDL en los casos de infarto es inferior en 0,11 mmol/l al nivel medio de los En el caso de la de medias poblaciones, la hiptesis nula ms sujetos libres decomparacin la enfermedad, estandoentre esta dos diferencia comprendida entre 0,08 y 0,14 rea bajo la distribucin t n1 + n2 2 para valores ms extremos que el valor observado de t. mmol/l con una confianza del 95%. natural es la igualdad de ambas medias poblacionales. Para realizar el contraste de esta Esta prueba de hiptesis se conoce genricamente como el test de la t de Student para En el caso de la comparacin de medias entre dos poblaciones, la hiptesis nula ms natural hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2 a partir de es la igualdad de ambas medias poblacionales. muestras independientes con igual varianza. Para realizar el contraste de esta hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2 a partir de dos muestras dos muestras independientes de igual varianza, se emplea el siguiente test estadstico independientes de igual varianza, se emplea el siguiente test estadstico Ejemplo 6.8 Un nivel medio de colesterol HDL significativamente ms bajo en x1 x 2 x1 x 2 t= = , ( x1 libres x 2 ) de enfermedad los casos de infarto que en losSE sujetos sera compatible con 1 1 s 1 + n+ que sigue aproximadamente una distribucin t de Student con n 2 grados de n1 2 n 2 la hiptesis de que el colesterol HDL es un factor protector en el infarto de libertad si laque hiptesis nula H0: 1 = 2 es cierta. Por tanto, el valor P se obtiene como el sigue aproximadamente una distribucin t de Student con n1 + n 2 2 grados de libertad si la hiptesis nula En H0:este 1 = 2 es cierta. Por tanto, el valor P hiptesis se obtiene comode el los rea bajo la miocardio. ejemplo, se pretende contrastar esta a partir valores ms msextremos extremosque que valor observado rea bajo la distribucin t n1 + n2 2 para valores elel valor observado de de t. t. Esta prueba de 13 niveles de colesterol HDL observados en los y controles del estudio hiptesis se conoce genricamente como el test de la tcasos de Student para muestras independientes igual varianza . genricamente como el test de la t de Student para Esta prueba con de hiptesis se conoce EURAMIC. El resultado de este contraste, junto con la estimacin puntual y por muestras independientes varianza . de colesterol HDL significativamente ms bajo en los Ejemplo con 6.8igual Un nivel medio intervalo obtenida en el ejemplo anterior, permiten evaluar no slo la casos de infarto que en los sujetos libres de enfermedad sera compatible con la hiptesis de que el colesterol HDL es un factor protector para el infarto de miocardio. En este Ejemplo 6.8significacin Un nivelse medio de colesterol HDL ms en pblica estadstica sino tambin la relevancia clnica y bajo de salud del HDL ejemplo, pretende contrastar estasignificativamente hiptesis a partir de los niveles de colesterol observados en los casos y controles del estudio EURAMIC. El resultado de este contraste, los casos dehallazgo. infarto que los sujetos libresyde enfermedad sera compatible con anterior, permiten junto con la en estimacin puntual por intervalo obtenidas en el ejemplo evaluar no slo la significacin estadstica sino tambin la relevancia clnica y de salud la hiptesis Asumiendo de que el colesterol HDL es un factor protector en el infarto de igualdad de varianzas poblacionales, el contraste bilateral de la pblica del hallazgo. Asumiendo igua ldad de varianza s poblacionales, contraste miocardio. En este ejemplo, se contrastar esta hiptesis a partir bilateral de los de la hiptesis nula H0 : pretende realiza mediante elel estadstico hiptesis nula ca = co se H0: ca = co se realiza mediante el estadstico niveles de colesterol HDL observados en los casos y controles del estudio x ca x co 0,11 = 6,35. t= = SE (junto x ca con x co ) la estimacin 0,017 EURAMIC. El resultado de este contraste, puntual y por Si ambas medias poblacionales fueran iguales, la distribucin de este estadstico sera t999 o intervalo obtenida en medias el ejemplo anterior, permiten evaluar la nodistribucin slo la Si ambas poblacionales fueran El iguales, de este estadstico aproximadamente normal estandarizada. valor P bilateral se obtiene entonces como el doble de la probabilidad a la izquierda de 6,35 en la distribucin normal estandarizada, que corresponde significacin estadstica sino tambin la relevancia clnica y de salud pblica del se obtiene normal estandarizada. El muy valor P bilateral sera a P < t0,001. As, puede concluirse que existen diferencias significativas en el nivel medio 999 o aproximadamente de colesterol HDL entre los infartados y los sujetos libres de enfermedad. Esta diferencia hallazgo. entonces como el doble de la probabilidad a la izquierda de -6,35 en la significativa es perfectamente consistente con el intervalo de confianza calculado en el ejemplo anterior, puesto que stepoblacionales, no contena al cero (valor nulo para la de diferencia de medias). Asumiendo distribucin igualdad de varianzas el corresponde contraste bilateral la As, normal estandarizada, que a P < 0,001. puede mtodos en este apartado extenderse a la comparacin de tres o ms medias hiptesis Los nula H0: ca descritos = co existen se realiza mediantepueden el estadstico concluirse que diferencias muy significativas el nivel medio de poblacionales. Las tcnicas para comparar medias en mltiplesen muestras independientes se conocen con el nombre de anlisis de la varianza de una va y pueden consultarse en los libros referenciados colesterol HDL entre los infartados y los sujetos de enfermedad. Esta x ca estos x co - 0,11 al final del tema. procedimientos no selibres tratan explcitamente en este texto, la t Aunque = = = -6,35. comparacin de mltiples medias partir de datos independientes tambin puede abordarse mediante SE ( x ca xa ) 0,017 co los modelos de regresin lineal que se presentarn ms adelante (Temas 10 y 11). 14 Si ambas medias poblacionales fueran iguales, la distribucin de este estadstico
sera t999 o aproximadamente normal estandarizada. El valor P bilateral se obtiene entonces como el doble de la probabilidad a la izquierda de -6,35 en la
Pastor-Barriuso R.
87
para contrastar estadsticamente la hiptesis de homogeneidad de varianzas en dos

muestras independientes.
El test para la igualdad de varianzas poblacionales se basa en la comparacin de las 6.3.2 Contraste para la igualdad de varianzas
2 varianzas muestrales s12 y s 2 . Como se apunt anteriormente (Apartado 6.2.2), si la La comparacin de medias presentada en el apartado anterior se fundamenta en la asuncin de igualdad de varianzas. Esta asuncin es determinante para poder calcular una estimacin distribucin de En la variable es normal ambas poblaciones, los estadsticos combinada de subyacente la varianza. este apartado seen presentan los mtodos para contrastar estadsticamente la hiptesis de homogeneidad de varianzas en dos muestras independientes. 2 2 (n1 1) s12 / 12 y (n2 1) s 2 / 2 se distribuyen como una chi-cuadrado con n1 - 1 y n2 El test para la igualdad de varianzas poblacionales se basa en la comparacin de las varianzas 2 s22. Como se apunt anteriormente (Apartado 6.2.2), si la distribucin subyacente muestrales 1 gradoss1 deylibertad, respectivamente. Combinando la distribucin de estos estadsticos 2 2 de la variable es normal en ambas poblaciones, los estadsticos (n1 1)s1 /1 y (n2 1)s22/22 se distribuyen una independientes, chi-cuadrado con n2 1 grados de libertad, respectivamente. 1 1 y en ambascomo muestras se n obtiene que Combinando la distribucin de estos estadsticos en ambas independientes, se obtiene A la derecha de esta expresin se tiene el cociente de muestras dos variables independientes chi- que
2 A la derecha de esta expresin se tiene por el cociente de independientes chin /( n s12 dos / 12variables 1 1) cuadrado divididas sus respectivos grados de libertad, que se conoce como la 1 1 . ~ 2 2 2 s 2 / 2 n2 1 /(n 2 1) uadrado divididas distribucin por sus respectivos grados de libertad, que de se libertad conoce como la F de Fisher con n1 - 1 grados en el numerador y n2 - 1 en el A la derecha de esta expresin se tiene el cociente de dos variables independientes chiistribucin F de Fisher con n1 - 1 grados libertad en el numerador y n2 que - 1 en 2 el 2 2como 2 la distribucin cuadrado divididas por susde respectivos de libertad, se conoce 15 denominador, y se denota por Fn1 1, n2grados 1 . As, la razn entre s1 / 1 y s 2 / 2 sigue una F de Fisher con n1 1 grados de libertad en el numerador y n2 1 en el denominador, y 2 2 2 2 / 2 2 y 2 enominador, y se denota por s112 una 2 / sigue 2 sigue sedenota por Fn1 1, n2 1 . As, la razn entre s /1 1y s2 s / una distribucin F con n1 1 y distribucin F con n1 - 1 y n2 - 1 grados de libertad, 2 n2 1 grados de libertad, istribucin F con n1 - 1 y n2 - 1 grados de libertad, 2 s12 / 1 ~ Fn1 1, n2 1 . 2 2 2 2 s / 2 2 s1 / 1 ~ Fn1 1, n2 1 . 2 2 s 2 de / Fisher La distribucin F toma slo valores positivos y est sesgada positivamente con un 2 distribucin F de Fisher toma slo valores positivos est sesgada positivamente valor La ms frecuente (moda) menor de 1 y una media mayor y de 1. Al aumentar los grados de libertad del numerador y denominador, tanto la media como la moda se aproximan al valor 1 La distribucin F de un Fisher toma slo valores positivos y est sesgada positivamente con valor ms frecuente (moda) menor de y Fisher una media de grados 1. Al aumentar (Figura 6.3). Los percentiles de la distribucin F1 de paramayor distintos de libertad del numerador y denominador se presentan en la Tabla 7 del Apndice. on un valor ms frecuente (moda) menordel de numerador 1 y una media mayor de 1. Al aumentar los grados de libertad y denominador, tanto la media como la moda se
os grados de libertad del0,8 numerador y1 denominador, la media como moda se F de Fisher para F 0,8lala F aproximan al valor (Figura 6.3). tanto Los percentiles de distribucin
5,5
F5,10 F10,5 proximan al valor distintos 1 (Figuragrados 6.3). Los percentiles de la distribucin F de Fisher para F F30,5 5,30 de libertad del numerador y denominador se presentan en la Tabla 7 del
0,6 0,4 0,2 0 0,6 0,4
5,5
istintos grados de libertad del numerador y denominador se presentan en la Tabla 7 del Apndice.
f(x )
Apndice.
[Figura 6.3 aproximadamente aqu] 0,2 [Figura 6.3 aproximadamente aqu]

0
Ejemplo 6.9 Utilizando la Tabla 7 del Apndice, el percentil 97,5 de una

0 1 2 3 0 1
Ejemplo 6.9 Utilizando la TablaF 7de del Apndice, percentil 97,5 de en una distribucin Fisher con 5el grados de libertad el numerador y denominador
x x
distribucin F de Fisher grados libertad en el numerador denominador a ) 30 grados 7,15, de y (para de libertady en ambos es F es F con 5 =
5;5;0,975
(b) 30;30;0,975
= 2,07.
Figura 6.1
6.3 Funcin de densidad de la distribucin de al aumentar los grados de libertad del de= 7,15, y para 30esta grados de libertad en ambos F es FFisher es F5;5;0,975Figura 30;30;0,975 = 2,07. Aunque tabla no facilita percentiles inferiores, puede comprobarse que el nominador (a) y del numerador (b).
Aunque esta tabla no facilita percentiles inferiores, puede comprobarse que el percentil en una distribucin F con d1 y d2 grados de libertad es igual al inverso percentil en una distribucin F con d1 y d2 grados de libertad es igual al inverso del percentil 1 - en una distribucin F con d2 y d1 grados de libertad, Fd1 , d 2 , = del percentil 1 - en una distribucin F con d2 y d1 grados de libertad, Fd1 , d 2 , =
or y denominador, la distribucin F
distribucin F de Fisher con 5 grados de libertad en el numerador y d
rica alrededor del valor 1.
Comparacin de 30 medias en dosde muestras independientes es F5;5;0,975 = 7,15, y para grados libertad en ambos es F30;30;0,975
distribucin F30,30 entre 0,48 y 2,07. Puede entonces que, al aumentar Aunque esta tabla no observarse facilita percentiles inferiores, puede comprobar
2 2 cociente entre s12 / 12Ejemplo y s2 / 2 , Utilizando la Tabla 7 del Apndice, el percentil 97,5 de una distribucin F 6.9 el nmero de grados de libertad del numerador y denominador, lacon distribucin F en una distribucin F d1 y d2 = grados de Fisher con 5 grados de libertadpercentil en el numerador y denominador es F 7,15, de y libertad es igu 5;5;0,975 para grados de libertad en ambos es F30;30;0,975 = alrededor 2,07. Aunque esta 1. tabla no facilita ara la razn de dos varianzas de30 Fisher se hace menos dispersa y ms simtrica del valor en una distribucin F con dF d1 grados de libertad del percentil 1 2y percentiles inferiores, puede comprobarse que el percentil en una distribucin con d1 y d2 grados de libertad es igual al inverso del percentil 1 en una distribucin F con d2 utilidad prctica, nos centraremos 2 en 2las 2 2 F . As, el percentil distribuciones anteriores es F5; yd de libertad, Fmuestral elobservarse percentil 2,5 en las distribuciones d 2 , d1 ,1 del d1 , d 2 , = 1/F 1 grados cociente entre 2,5 s y s2 / 2 , A partir de la 1 / 1 n1 1, n2 1 y 2,07. Puede entonces que, al aumentar distribucin Fdistribucin 30,30 entre 0,48 anteriores es F = 1/ F = 1/7,15 = 0,14 y F = 1/ F = 1/2,07 = 0,48. traste bilateral de la hiptesis nula 5;5;0,025 5;5;0,975 30;30;0,025 30;30;0,975 Por tanto, el 95% central de la distribucin F est comprendido entre 0,14 7,15, y de 1/ F = 1/7,15 = 0,14 y F = 1/y F30;30;0,975 = 1/2,07 = 0,48. 5;5;0,975 5,5 para 30;30;0,025 el nmero decalcular grados de del y denominador, distribucin F resulta sencillo un libertad intervalo denumerador confianza la razn de la dos varianzas distribucin e basa en la razn de la las varianzas F30,30 entre 0,48 y 2,07. Puede entonces observarse que, al aumentar el nmero de del y numerador y de denominador, la valor distribucin F de Fisher entre 0,14 y 7,15 95% la distribucin F5,5 est 2 2 de libertad de Fisher segrados menos dispersa mscentral simtrica alrededor del 1. comprendido hace poblacionales 1 / 2 . No obstante, por su mayor utilidad prctica, nos centraremos se hace menos dispersa y ms simtrica alrededor del valor 1.
aqu en el test para la igualdad de varianzas. El contraste bilateral de la hiptesis nula 2 22 2 2 2 2 2 A partir de la del cociente cociente entre entre ss /1 y y2/ s2 / resulta sencillo la distribucin distribucin muestral muestral Fn1 1, n2 1 del 1 s 2 , 11 2 ,/ 2 2 2 intervalo 2 2 varianzas poblacionales 1/2 . No obstante, calcular de confianza para la razn2 de dos H0: un 1 = 2 frente a la alternativa H1: 1 2 se basa en la razn de las varianzas por su mayor utilidad prctica, nos centraremos aqu en la el razn test para la igualdad de varianzas. El resulta sencillo calcular un intervalo de confianza para de dos varianzas 2 2 2 2 contraste bilateral de la hiptesis nula H0: 1 = 2 frente a la alternativa H1: 1 2 se basa en la muestrales 2 2 razn de las varianzas 2 1 / 2 muestrales . No obstante, por su mayor utilidad prctica, nos centraremos 2 es cierta, lapoblacionales razn
s12 aqu en el test para la igualdad de varianzas. El contraste bilateral de la hiptesis nula F= 2 . que este estadstico se distribuir s2 2 2 H0: 12 = 2 frente a la alternativa H1: 12 2 2 se 2 basa en la razn de las 2 2varianzas 2 2 en el numerador n2 - 1 en elnula de igualdad de varianzas Siyla hiptesis 1 = 2 es cierta, la razn (s1 /1)/(s2 /2 ) se reduce 2 2 2 2 a s1 /s2la , de tal forma que estadstico se distribuir segn una F de Fisher con n Si hiptesis nula deeste igualdad de varianzas 1 = es cierta, la razn 2 1 1 grados tonces como elmuestrales doble de la de libertad en el numerador y n2 1 en el denominador. El valor P del contraste se calcula 2 2el doble 2 2 2 entonces como de la probabilidad a la izquierda de este estadstico bajo la distribucin ( s12 / 1 )/( 2s 2 / 2 2 ) se reduce a s1 / s 2 , de tal forma que este estadstico se distribuir 2 2 2 2 2 s2, so el doble del rea a s la la distribucin Fn1 1, n2 1, si ss , 2 como 11 1 derecha del estadstico, si s1 > s2. F= 2 . libertad en el numerador y n2 - 1 en el segn una F de Fisher con n1 - 1 grados de s2 2 2 2 2 Ejemplo 6.10 En los Ejemplos 6.7 y 6.8 se compar la media del colesterol HDL entre s ca 0,25 o, si s1 > s 2 . F= 2 = los casos y El controles bajo la asuncin de homogeneidad denominador. valor Pdel delEURAMIC contraste se calcula entonces como el doble dede la varianzas. La s co 0,29 2 2 2 Si la hiptesis nula deresultados igualdad de varianzas cumplimiento la razn 1 = 2 es cierta, validez de estos depender del de dicha hiptesis. Para contrastar 2 2 2 bilateralmente la hiptesis nula H : = , se calcula el test estadstico ompar la media del colesterol HDL probabilidad a la izquierda de este estadstico bajo la distribucin Fn1 1, n2 1 , si s12 s 2 , 0 ca co que sigue una distribucin F con nca 1 = 461 2 2 2 2 2 2 ( s1 / 1 )/( s 2 / 2 ) se reduce a s1 / s 2 , de tal forma que este estadstico se distribuir 2 s ca 0,25 2 jo la asuncin de homogeneidad de 2 s2 . H0. Como sca < sco, el valor P es igual a 2 o como el doble del rea a la derecha estadstico, si s12 > bajo = = 0,74, F = del 2 libertad 2 en el numerador de y n2 - 1 en el segn una F de Fisher con n1 - 1 grados s 0,29 co ender del cumplimiento de dicha 0,001. Notar que este valor P0. sera idntico si que sigue una distribucin F conse nca 1 = 461 y nco 1 = 538 grados de libertad bajo H denominador. El valor P del contraste calcula entonces como el doble de la Ejemplo 6.10 En los Ejemplos 6.7 y 6.8, se compar la media del colesterol HDL 2 Como 2 que sigue una con n (1 461y0,74) nco = 1 20,0005 = 538 grados de libertad sco,distribucin el valor P esFigual aca 2P F= = 0,001. Notar que este ca < 461,538 ptesis nula H0: ca = co ,s se 2 2 F = s valor P sera idntico si se hubiera utilizado el estadstico inverso 2 s ca =2 1,35. En tal caso, el val co / probabilidad alos la izquierda de este estadstico bajo la distribucin Fnde 1 1, n 2 1 , si s1 s 2 , entre casos y controles del EURAMIC bajo la asuncin homogeneidad de bajo H0. Como sca sco , el valoraPpartir es igual a2 P(F461,538 F 0,74) 20,0005 = tal caso, el valor P< se obtendra de la distribucin como 2P(F 538,461= 538,461 1,35) = 20,0005 = 0,001. 2 distribucin F538,461 como 2P(F538,461 1,35) varianzas. La validez de estos resultados depender de dicha s12 > del s2 .cumplimiento o como el doble del rea a la derecha del estadstico, sihubiera 0,001. Notar que este valor P sera idntico si se utilizado el estadstico La variabilidad del colesterol HDL resulta significativamente menor entre los casos de La variabilidad colesterol HDL resulta sig 2no puede 2delaceptarse infarto que entre los individuos libres de la enfermedad, con lo la hiptesis. Para contrastar bilateralmente la hiptesis nula H0cual : ca = co , se 2 2 inverso F = s / s = 1,35. En tal caso, el valor P se obtendra a partir de la co ca hiptesis 6.10 de igualdad de varianzas. En consecuencia, procedimientos utilizados Ejemplo En los Ejemplos 6.7 y 6.8, se compar los la media del colesterol HDL en los 17 casos de infarto que entreHDL los individuos libre Ejemplos y 6.8 son inadecuados para comparar los niveles medios de colesterol calcula 6.7 el test estadstico distribucin como 2 P(F =2 0,0005 = 0,001. 538,461 538,461 1,35) entre casos yF controles. entre los casos y controles del EURAMIC bajo la asuncin de homogeneidad de puede aceptarse la hiptesis de igualdad de va La variabilidad del colesterol resulta significativamente menor entre los varianzas. Latcnicas validez de estos HDL resultados del cumplimiento de dicha Existen otras estadsticas para depender la comparacin de varianzas en muestras procedimientos utilizados en los Ejemplos 6.7 . En general, estas tcnicas independientes, tales como el test de Bartlett o la prueba de Levene 17 casos de infarto que entre bilateralmente los individuos la libres de la nula enfermedad, 2 con lo 2 cual no hiptesis. Para contrastar hiptesis H co , se 0: ca = los comparar niveles medios de colesterol HD puede aceptarse la hiptesis de igualdad de varianzas. En consecuencia, los Pastor-Barriuso R. 89 calcula el test estadstico Existen otras tcnicas procedimientos utilizados en los Ejemplos 6.7 y 6.8 son inadecuados para estadsticas para la compa
2 2 As, sustituyendo 12 por s12 y 2 por s 2 en la distribucin muestral de la
diferencia de medias, se obtiene el estadstico permiten comparar varianzas entre dos y, en el caso del test de Levene, la x1 o x 2ms ( grupos 1 2 ) . la variable sea normal. Los lectores comparacin no requiere que la distribucin subyacente de 2 2 s s 1 2 interesados pueden consultar estos procedimientos + en las referencias incluidas al final del tema. n1 n 2
2 2 2 6.3.3 As, Comparacin medias con distinta varianza sustituyendode 1 por s12en y distribuciones 2 por s 2 en la distribucin muestral de la Aunque resulta complicado derivar la distribucin exacta de este estadstico, existen Cuando las varianzas poblacionales son distintas, carece de sentido calcular una estimacin diferencia de medias, se obtiene el estadstico combinada la varianza, yaque quefuncionan sta infraestimar o sobreestimar la variabilidad especfica diversas de aproximaciones bien en la prctica. El mtodo ms utilizado es de cada poblacin. En este caso, aun perdiendo algo de precisin, es preferible estimar porseparado las 2 2 2 2 21 por 2 s1 y x As,poblacionales sustituyendo por distribucin muestral la s12 y s22 . xaproximar s( la )distribucin 2en 12 2 correspondientes 1 la 2 varianzas mediante sus varianzas muestrales la aproximacin de Welch, permite de este de estadstico 1 y 2 que . 2 2 2 2 2 2 s2 1 distribucin por s1 y 2 por s2 en s la muestral de la diferencia de medias, As, sustituyendo 1 + diferenciauna de medias, se obtiene elsiguientes estadstico mediante t de Student con los grados de libertad se obtiene el estadstico n1 n 2
2 2 x1 ( x 2 ( 1 2 2 ) 1 / n1 + s 2 / n 2). Aunque resulta complicado la sdistribucin exacta de este estadstico, existen d = derivar . 2 2 2 s121) +s(2 ( s12 / n1 ) 2 /(n1 s / n ) /( n 1 ) 2 + 2 2 n 2la prctica. El mtodo ms utilizado es n1 en diversas aproximaciones que funcionan bien
Aunque complicado la distribucin exacta Puederesulta comprobarse que dderivar es siempre inferior o igual a nde n2 estadstico, 2; es decir, existen esta diversas 1 +este la aproximacin de Welch, que permite aproximar la distribucin de este estadstico Aunque resulta complicado exacta de este estadstico, aproximaciones que funcionan derivar bien en la la distribucin prctica. El mtodo ms utilizado es laexisten aproximacin t de Student ser ms dispersa quede la este empleada en el mediante caso de igualdad de distribucin Welch, que permite aproximar la distribucin estadstico una t dede Student mediante una t de Student con los siguientes grados de libertad diversas aproximaciones que funcionan bien en la prctica. El mtodo ms utilizado es con los siguientes grados de libertad varianzas. Esto es lo que cabra esperar ya que, al estimar por separado las varianzas, la 2 2 la aproximacin de Welch, que permite la distribucin de este estadstico ( s12 aproximar / n1 + s 2 /n 2) d = . 2 distribucin resultante ha de reflejar mayor incertidumbre. Esto conllevar una ( s12 / n1 ) 2 /( n1 1) + (s 2 / n 2 ) 2 /(n 2 1) mediante una t de Student con los siguientes grados de libertad disminucin tantoque en la precisin de los intervalos en la potencia de t Puede comprobarse d es siempre inferior o igual de a nconfianza es decir, esta distribucin 1 + n2 2; como comprobarse que d que es siempre inferior o igual a n + n 2; es decir, esta de Puede Student ser ms dispersa la empleada en el caso de igualdad de varianzas. Esto es lo que 1 2 2 ( s12 / n1 + s 2 / n2 ) 2 los contrastes. cabra esperar ya que, al d estimar la distribucin resultante ha de = 2 por 2separado las varianzas, . 2 s2 tanto ( sEsto / n1 conllevar )dispersa /(n1 1 )+ (la / n 2 ) 2 /(n 2en 1) caso distribucin de Student ser que empleada el de igualdad de de los 1 ms reflejar mayor t incertidumbre. una disminucin en la precisin En el caso de distribuciones distinta el intervalo de confianza al 100(1 intervalos de confianza como en lacon potencia devarianza, los contrastes. varianzas. Esto es lo que cabra esperar ya que, al estimar por separado las varianzas, la Puede comprobarse que d es con siempre inferior o igual n1 + n2 2;confianza es decir, esta En el caso de distribuciones distinta varianza, el a intervalo de al 100(1 )% )% para la diferencia de medias poblacionales 1 - 2 vendr determinado por 2 vendr determinado por para la diferencia de medias 1 incertidumbre. distribucin resultante ha poblacionales de reflejar mayor Esto conllevar una distribucin t de Student ser ms dispersa que la empleada en el caso de igualdad de
90
s1de confianza s2 disminucin tanto en la precisin de los intervalos como en la potencia de x 2 ya + ,por separado las varianzas, la x1esperar t d ,1 varianzas. Esto es lo que cabra que, / 2 al estimar n1 n 2 los contrastes. distribucin ha de reflejar mayor incertidumbre. Esto conllevar una forma, para donde d son losresultante grados de libertad calculados segn la frmula anterior. De igual donde dla son los segn la De de igual forma, contrastar hiptesis nulade H0libertad : 1 = 2calculados frente a la alternativa H1: 1 anterior. de 2 a partir dos muestras En el caso degrados distribuciones con distinta varianza, elfrmula intervalo confianza al 100(1 disminucin tanto en la precisin de los intervalos de confianza como en la potencia de independientes con distinta varianza, se emplea el estadstico H1: 1 por para contrastar la hiptesis nula Hpoblacionales 0: 1 = 2 frente 2 a partir de )% para la diferencia de medias 1 a - la 2alternativa vendr determinado los contrastes. x1 x 2 , t= 2 se emplea el estadstico dos muestras independientes con distinta varianza, s12 s 2 2 En el caso de distribuciones con distinta varianza, intervalo de confianza al 100(1 + s12 el s2 1 / 2 n2 + , x1 x 2 t d ,1n n1 n 2 bajo )% para la diferencia poblacionales 1 - 2 vendr determinado por que la hiptesis nula,de se medias distribuye aproximadamente segn una t de Student con d grados 19 bajo As, la hiptesis se distribuye aproximadamente segn una t de ms Student con d que de que libertad. el valor nula, P viene dado por la probabilidad de obtener valores extremos donde d son los de grados de calculados segn la frmula anterior. De igual forma, el valor observado t bajo lalibertad distribucin td. Este contraste 2 se conoce con el nombre de test de s12 s 2 de libertad. As, el valor por la probabilidad de .obtener valores ms viene + , varianza x1P x 2 tdado la tgrados de Student para muestras independientes distinta 2 d ,1 / con na 1 la n 2 alternativa H1: 1 2 a partir de para contrastar la hiptesis nula H0: 1 = 2 frente extremos R. que el valor observado de t bajo la distribucin td. Este contraste se conoce Pastor-Barriuso dos muestras independientes con distinta varianza, se elanterior. estadstico donde d son los grados de libertad calculados segn laemplea frmula De igual forma, con el nombre de test de la t de Student para muestras independientes con distinta
Ejemplo 6.11 En el Ejemplo 6.10 se contrast que HDL difiere significativamente entre los casos de infarto y los sujetos libres de la independientes con distinta varianza. La estimacin puntual de la significativamente diferencia de HDL difiere entre los casos de i enfermedad. Por ello, la comparacin del nivel medio de colesterol entre Comparacin de medias en HDL dos muestras independientes
medias es x ca - x co = 0,98 - 1,09 = -0,11 mmol/l, cuyo error estndar se estima enfermedad. Por ello, la comparacin del nivel med casos y controles ha de realizarse mediante la prueba t de Student para muestras
directamente por casos y controles ha colesterol de realizarse mediante la prue Ejemplo 6.11 En el Ejemplo 6.10 se contrast que la variabilidad del HDL independientes con distinta varianza. La estimacin puntual de la diferencia de difiere significativamente entre los casos de infarto y los sujetos libres de la enfermedad. conydistinta varianza. Por ello, la comparacin del nivel2 medio HDL entre casos controles ha de La estimacin 2 de colesterol 2 independientes medias es x ca - x co = 0,98 - 1,09 mmol/l, 0,25 cuyo 0,error 29 2 estndar se estima s ca= -0,11 s co realizarse mediante t de Student para muestras independientes con distinta SE( x ca la - xprueba ) = + = + = 0,017. co 462 539 es x ca x co = n ca co = 0,98 - 1,09 1,09 = =-0,11 mmol/l, c varianza. La estimacin puntual de landiferencia de medias directamente por 0,11 mmol/l, cuyo error estndar se estima directamente por directamente por En el caso de varianzas heterogneas, los grados de libertad para la distribucin 2 2 2 2 0,25 0,29 s ca s co + = + = 0,017. SE( x ca x co ) = de la diferencia de medias vienen por la aproximacin de Welch, a 2 2 462 539 n cadeterminados n co 0,25 2 s ca s co + = SE( x ca - x co ) = 462 n cala n co En el caso de varianzas heterogneas, los grados de libertad para la distribucin de saber En el caso de de medias varianzas heterogneas, los grados de libertad para distribucin diferencia vienen determinados por la aproximacin dela Welch
En resumen, la comparacin de medias en muestras independientes requiere contrastar en 95% 0,14 mmol/l). En este caso, resultados obtenidos asumiendo de la 0,08 enfermedad (Pde < 0,001), con una los diferencia estimada en 0,11 mmol/l (IC de al la t de primer lugar la igualdad varianzas, para despus utilizar segn proceda el test Student con igual o distinta varianza. Esta distincin no es meramente acadmica: si la homogeneidad o heterogeneidad varianzas son virtualmente idnticos debido, variabilidad difiere entre ambas procedimientos de estimacin y contraste 95% 0,08 0,14 mmol/l). Enpoblaciones, este de caso, loslos resultados obtenidos asumiendo asumiendo igualdad de varianzas pueden ser muy engaosos, particularmente en muestras en parte, a que ambos tamaos muestrales no difieren sustancialmente. n2 difieran sustancialmente. pequeas o moderadas cuyos tamaos n homogeneidad o heterogeneidad de varianzas son virtualmente idnticos debido, 1 y
2 2 En el caso de varianzas heterogneas, los grados de ( s ca / n ca +determinados s co / n co ) 2 por la de la diferencia de medias vienen aproximacin de Welch, a d = 2 2 2 de libertad 2 Notar que, en(este ejemplo, los grados son casi s ca / n ca ) (n ca 1) + ( s co / n co ) (n co 1) iguales a los obtenidos de la diferencia de medias vienen determinados po saber 2 2 2 bajo laque, asuncin de igualdad de grados (nca/ + nco = 999). A partir de estos (0,25 /varianzas 462 + de 0,29 539 ) 2 Notar en los libertad son casi iguales a los obtenidos = este ejemplo, = 998 , 97 . saber 2 2 2 ( 462 1) 2 + (0,29 2 / 539) (0,25 2 / 462 )2 (539 1) ( s / n + s / n ) ca ca IC co co para ca - co como resultados, calcular un al 95% bajo la asuncin de igualdad de varianzas (nca2 + nco 2 = 999). A partir de estos d es = posible 2 2 2 2 bajo la 2 Notar que, en (este ejemplo, los grados de libertad son casi (n co 1 ) iguales a los obtenidos s ca / n ca ) (n ca 1) + ( s co / n co ) ( s ca / n ca + s co / n co ) 2 d = de asuncin de igualdad de varianzas + ncopara 2 = 999). A partir es 2 ca 95% 2 estos resultados 2 2 resultados, es posible un IC(n al ca 2 2 - x co x ca - calcular x co(0 ,25 t998,97;0,975 SE ( x ca )2 - co como ( s ca / ( (n co n n ca ) ca 1) + ( s co / n co ) / 462 + 0 , 29 / 539 ) posible calcular un IC al 95% para como ca co = = 998 , 97 . (0,25 2 / 462) 2 (462 1) + (0,29 2 / 539) 2 (539 1) 20 2 / 462 + 0,29 2 / 539) (0,25 -0,11 1,96 0,017 = (-0,14; -0,08), x ca x co = t998,97;0,975 SE ( x x ) = ca co (0,25 2 / 462) 2 (462 1) + (0,29 2 / 539 = 0,11 1,960,017 = (0,14; 0,08), y contrastar la hiptesis nula H0: ca = co mediante el estadstico y contrastar la hiptesis nula H0: ca = co mediante el estadstico 20 : y contrastar la hiptesis nula H x0ca cax= 0,11 el estadstico co co mediante = 6,44, t= = SE ( x ca x co ) 0,017 x ca x co - 0,11 que bajo la distribucint t= corresponde a un valor P menor = = -6,44, 998,97 o normal estandarizada, SE x x ( ) 0,017 ca co que bajo 0,001. As, se pone de manifiesto que los casos de infarto presentan un nivel a un valor P medio la distribucin t998,97 o normal estandarizada, corresponde de colesterol HDL significativamente inferior que los sujetos libres de la enfermedad ( P <bajo 0,001), con una diferencia estimada en 0,11 mmol/l (IC 95% 0,08-0,14 mmol/l). menor que As, se poneode manifiesto que los casos de al infarto presentan normal estandarizada, corresponde a un valor Pun que la 0,001. distribucin t998,97 En este caso, los resultados obtenidos asumiendo homogeneidad o heterogeneidad de varianzas idnticos debido, que en parte, a que tamaos muestrales nivel medio devirtualmente colesterol HDL significativamente inferior que los sujetos libres menor queson 0,001. As, se pone de manifiesto los casos de ambos infarto presentan un no difieren sustancialmente. de la enfermedad (P < 0,001), una diferencia estimada en 0,11 mmol/llibres (IC al nivel medio de colesterol HDLcon significativamente inferior que los sujetos
en parte, a que ambos tamaos muestrales no difieren sustancialmente. En resumen, la comparacin de medias en muestras independientes requiere contrastar en primer lugar la igualdad de varianzas, para despus utilizar segn proceda En resumen, la comparacin de medias en muestras independientes requiere el test de la t de Student con o distinta varianza. Esta distincin no es meramente contrastar en primer lugar la igual igualdad de varianzas, para despus utilizar segn proceda Pastor-Barriuso R. acadmica: la Student variabilidad difiere entre ambas poblaciones, los procedimientos de el test de la si t de con igual o distinta varianza. Esta distincin no es meramente
91
6.4 COMPARACIN DE MEDIAS EN DOS MUESTRAS DEPENDIENTES Los datos dependientes surgen cuando las observaciones recogidas en el estudio estn correlacionadas entre s. A continuacin se presentan algunos mecanismos y diseos epidemiolgicos que generan datos dependientes: yy La obtencin de dos o ms determinaciones de la misma variable en un mismo sujeto da lugar a datos dependientes, que pueden presentarse como: Diferentes medidas de la misma variable en un momento determinado, habitualmente para aumentar la fiabilidad del instrumento de medida. Determinaciones de la misma variable en diferentes localizaciones anatmicas. Medidas repetidas en el mismo sujeto a lo largo del tiempo, bien sea en comparaciones antes y despus de un tratamiento, en ensayos clnicos cruzados o en estudios de medidas repetidas con visitas sucesivas. yy La seleccin de los participantes en un estudio emparejndolos por determinadas caractersticas pronsticas genera datos dependientes entre los sujetos emparejados. El ejemplo ms habitual es el emparejamiento en el diseo de los estudios de casos y controles. yy Los datos de estudios procedentes de sujetos de una misma familia o de animales pertenecientes a la misma camada suelen ser tambin dependientes. En todos estos casos, la correlacin se limita a los grupos especficos donde se genera la dependencia, que suelen ser habitualmente parejas. As, en un estudio de casos y controles emparejados, los datos de cada pareja son dependientes, pero los datos de las distintas parejas son independientes entre s. Igualmente, en un estudio de medidas repetidas, los datos de un mismo individuo son dependientes, mientras que los resultados en diferentes individuos son independientes entre s. Las muestras dependientes estn constituidas por observaciones en los mismos sujetos o en distintos sujetos emparejados segn ciertas caractersticas pronsticas de inters. De esta forma, la distribucin de dichas caractersticas ser similar en ambas muestras, eliminando as la posibilidad de que estos factores influyan en la comparacin objeto de estudio. En general, el emparejamiento es una tcnica frecuentemente utilizada en el diseo de estudios clnicos o epidemiolgicos con el propsito de controlar por determinados factores de confusin (ver textos de mtodo epidemiolgico referenciados al final del tema). Estos diseos requieren de tcnicas especficas de anlisis que preserven el emparejamiento. En este apartado se revisan los mtodos estadsticos para el tratamiento de un caso especfico de dependencia, en el que se dispone de dos determinaciones de una variable continua para cada pareja de datos dependientes. Ejemplo 6.12Supongamos que en el estudio EURAMIC se seleccionan aleatoriamente50casos de infarto de miocardio. Como la edad es un importante factor pronstico de enfermedades coronarias, cada uno de estos casos se emparej por grupos quinquenales de edad a un control libre de la enfermedad. As, por ejemplo, para un caso de 62 aos de edad se seleccion aleatoriamente un control entre todos los controles disponibles con edades comprendidas entre 60 y 64 aos. La muestra resultante de aplicar este procedimiento constituira un estudio de casos y controles emparejados. En este estudio, cabra esperar un cierto grado de correlacin en la informacin recogida para cada pareja, dado que tanto el caso como el control se encuentran en el mismo rango de edad. En la Tabla 6.1 se presentan los niveles de colesterol HDL en las 50 parejas de casos y controles.
Comparacin de medias en dos muestras dependientes
Tabla 6.1 Colesterol HDL en 50 casos y controles del estudio EURAMIC emparejados segn grupos quinquenales de edad.
Colesterol HDL (mmol/l) Pareja 1 Caso 0,81 Control 0,63 d* 0,18 Pareja 26 Colesterol HDL (mmol/l) Caso 0,96 1,33 0,93 0,32 0,86 0,93 1,40 1,50 0,92 0,88 0,82 1,52 1,68 0,81 0,60 1,16 0,75 0,96 1,46 0,76 0,76 1,12 1,01 0,99 0,75 Control 1,29 0,72 1,04 1,54 1,08 1,12 1,75 1,29 1,17 0,93 0,88 0,74 1,45 1,02 1,15 1,49 0,98 1,31 1,15 1,51 1,01 1,26 0,91 1,63 1,45 d*
0,33
0,61 0,11 1,22 0,22 0,19 0,35 0,21 0,25 0,05 0,06 0,78 0,23 0,21 0,55 0,33 0,23 0,35 0,31 0,75 0,25 0,14 0,10 0,64 0,70
2 0,91 0,91 0,00 27 3 0,98 0,76 0,22 28 4 0,91 1,19 0,28 29 5 0,55 0,99 0,44 30 6 0,62 1,14 0,52 31 7 0,79 0,73 0,06 32 8 0,89 1,08 0,19 33 9 1,24 0,87 0,37 34 10 1,76 1,04 0,72 35 11 1,35 1,03 0,32 36 12 0,72 1,09 0,37 37 13 0,94 1,12 0,18 38 14 1,01 1,20 0,19 39 15 0,98 1,62 0,64 40 16 0,92 1,25 0,33 41 17 0,68 1,31 0,63 42 18 1,48 1,00 0,48 43 etar el problema, supongamos que se dispone de n pares de observaciones 19 1,23 0,78 0,45 44 20 0,83 0,95 0,12 45 e aleatoria continua. 21 En cada pareja de datos dependientes, una 46 0,92 1,13 0,21 22 0,82 0,97 0,15 47 corresponde a la primera muestra y la otra observacin x2 a la segunda 23 1,21 0,74 0,47 48 24 0,78 0,88 0,10 49 jetivo se centra en comparar las medias poblacionales 1 y 2 a partir de 25 0,88 1,14 0,26 50
* Diferencia de colesterol HDL entre caso y control. stras dependientes.
imientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta Para concretar el problema supongamos que se dispone de n pares de observaciones de una variable continua. En cada pareja de datos dependientes, una observacin x1 corresponde ue las medias de ambasaleatoria muestras no son independientes por provenir de a la primera muestra y la otra observacin x2 a la segunda muestra. El objetivo se centra en comparar las medias poblacionales 1 y 2 a partir de estas dos muestras dependientes. correlacionadas. Sin embargo, la comparacin se simplifica notablemente
Los procedimientos desarrollados en el Apartado 6.3 no pueden aplicarse a esta situacin, ya las diferencias d = - x2 en cada una de lasmuestras n observaciones quex1 las medias de ambas no son emparejadas. independientes por provenir de observaciones correlacionadas. Sin embargo, la comparacin se simplifica notablemente si se calculan las omo las distintas parejas nodestn relacionadas entre estas diferencias emparejadas. Por un lado, como las x2 en cada una des, las n observaciones diferencias = x1 distintas parejas no estn relacionadas entre s, estas diferencias son independientes. Por otro lado, la la media media de de las las diferencias diferencias d coincide entes. Por otro lado, coincide con con la la diferencia de medias muestrales,
medias muestrales,
d= =
1 n 1 n = d ( x i1 x i 2 ) i n n i =1 i =1 1 1 x i1 xi 2 = x1 x 2 n i =1 n i =1
n n
Pastor-Barriuso R.
93
i =1
i =1
n n 1de son independientes. Por otro lado, la media las diferencias d coincide con la rrollados en el Apartado 6.3 no pueden aplicarse a1 esta = x xi 2 = x1 x 2 i1 Inferencia sobre medias n i =1 n i =1 diferencia de medias muestrales, de ambas muestras no son independientes por provenir de donde sd es la desviacin tpica de las diferencias observadas. De igual forma, la consecuencia, d es un estimador insesgado de la diferencia de medias das. Sin embargo, y, la en comparacin se simplifica notablemente 1 n 1 n = di = H ( x i1 x i 2 ) hiptesis de igualdad de mediasdpoblacionales 0: 1 = 2 puede contrastarse frente a la n i =1 de la n comparacin i =1 poblacionales de medias en dos muestras 1 - 2. As, el problema s d = x - x en cada una de las n observaciones emparejadas.
1 n el estadstico 1 n hiptesis alternativa H1: 1 2 mediante x i1 inferencia x1 xla dependientes queda a= una simple 2 media de una nica tas parejas no estn relacionadas entrereducido s, estas diferencias xi 2 = sobre n i =1 n i =1
muestra de n diferencias independientes. d de la diferencia de medias poblacionales 1 2. d es coincide con la insesgado o lado, la mediay, de las diferencias en consecuencia, un estimador . t= s d en dosde As, problema de la comparacin de medias muestras dependientes queda reducido a y,el en consecuencia, d es un estimador insesgado la diferencia de medias Los mtodos delsobre Apartado 6.2.1de para la media de unade muestra pueden independientes. entonces n muestra rales, una simple inferencia la media una nica n diferencias poblacionales 1 2. As, el problema de la comparacin de medias en dos muestras Los mtodos Apartado 6.2.1 para media de muestra pueden entonces utilizarse utilizarse paradel calcular un intervalo de la confianza al una 100(1 - )% para 1 - 2 como n n Bajo la hiptesis nula, las de diferencias observadas distribuiran para calcular un intervalo confianza al 100(1 se )% para 1 aleatoriamente 1 1 2 como d = di = ( x i1 x i 2 ) queda reducido a una simple inferencia sobre dependientes la media de una nica n i =1 n i= 1 donde sdel la desviacin tpica de las diferenciassobservadas. Dedistribucin igual forma, la d esvalor d seguira una alrededor 0, de tal forma que este t de d testadstico , n 1,1 / 2 n n muestra de n diferencias independientes. 1 1 n = x i1 Student = x1de - igualdad xi 2 con x 2 contrastarse frente a la hiptesis de medias poblacionales H0: 1 = 2 puede n 1 grados de liberad. El valor P corresponder, por tanto, a la n i =1 n i =1 donde sd es la desviacin tpica de las para diferencias observadas. De igual forma, la hiptesis de Los mtodos del Apartado 6.2.1 la media de una muestra pueden entonces igualdad de medias H 1 =valores 2 el puede contrastarse frente la hiptesis alternativa hiptesis alternativa H1: 1 mediante estadstico 0: probabilidad bajo lapoblacionales distribucin t2 para ms extremos que el a valor observado n-1 H : mediante el estadstico para calcular un intervalo de confianza al 100(1 - )% para 1 - 2 como 1 utilizarse 1 de 2 n estimador insesgado la diferencia de medias 24 de t. Esta prueba se denomina habitualmente como el test de la t de Student para d .s d el problema de la comparacin de medias en dos muestrast = s d d t , n 1,1 / 2 muestras dependientes. n n o a una simple inferencia sobre la media de una nica Bajo la hiptesis nula, las diferencias observadas se distribuiran aleatoriamente alrededor del Ejemplo 6.13 nula, Para preservar el emparejamiento entre los casos y controles de la1 grados Bajo la las diferencias observadas distribuiran aleatoriamente 0, dehiptesis tal forma que este estadstico seguira unase distribucin t de Student con n dependientes. valor libertad. Elque valor corresponder, por a la probabilidad bajo la distribucin tn1 para ar el problema,de supongamos se P dispone de n pares detanto, observaciones d = xca una xco en cada pareja. Tabla 6.1, se calcula la diferencia de colesterol alrededor del valor 0, de tal forma que este estadstico distribucin t de 24 do 6.2.1 para la valores media de unaextremos muestra pueden ms que el entonces valor observado de t. HDL Estaseguira prueba se denomina habitualmente como el cada test de la t de para muestras aleatoria continua. En pareja de Student datos dependientes, una dependientes. Como puede apreciarse, predominan las parejas donde el caso un nivel Student con n 1 grados de liberad. El valor P corresponder, porpresenta tanto, a la ntervalo de confianza al 100(1 - )% para 1 - 2 como Ejemplo 6.13 Para preservar el emparejamiento entre los casos y controles de la Tabla 6.1, corresponde a la primera muestra y la otra observacin x2 a la segunda inferior debajo colesterol HDL que correspondiente control (diferencias negativas). probabilidad la distribucin tnsu valores ms extremos que el valor observado -1 para se calcula la diferencia de colesterol HDL d = x x ca co en cada pareja. Como puede apreciarse, sd t n 1en , las medias ,1 comparar / 2 predominan las parejas donde el caso presenta un nivel inferior de colesterol HDL que su 1 y de etivo se d centra poblacionales 2 a partir De hecho, la media de estashabitualmente diferencias n de t . Esta prueba se denomina como el test dela lamedia t de Student correspondiente control (diferencias negativas). De hecho, de estas para diferencias tras dependientes. muestras dependientes. 1 50 0,18 + 0,00 + ... 0,70 d= di = = 0,12 mientos desarrollados en el Apartado 6.3 no50 pueden aplicarse a esta 50 i =1 24 Ejemplo 6.13 Para preservar el en emparejamiento entre los casos y controles de la es muestras una estimacin la diferencia elprovenir nivel medio ue las medias de ambas no sonde independientes por de de colesterol HDL entre los casos de 50 es una estimacin de la1diferencia en el nivel medio de colesterol HDL entre losdada por infarto y los sujetos libres de la enfermedad. La varianza de las diferencias viene 2 = la (d i d ) 2de colesterol HDL d = xca - xco en cada pareja. sd Tabla 6.1, se calcula diferencia 49 ise correlacionadas. Sin embargo, la comparacin =1 simplifica notablemente 1 50 libres de casos de infarto y los sujetos 2 2 la enfermedad. La varianza de las (d i d sd = 2) Como puede apreciarse, predominan las parejas ( 0 , 18 + 0 , 12 ) + ... + ( 0,70 + donde 0,12) 2 el caso presenta un nivel 49 i =1 as diferencias d = x1 - x2 en cada una de las n observaciones emparejadas. = = 0,16, diferencias viene dada por 49 2 2 inferior de colesterol que correspondiente control (diferencias negativas). (0HDL ,18 + 0 ,12)su + ... + (0,70 + 0,12 ) mo las distintas parejas no estn relacionadas = entre s, estas diferencias = 0,16, 49 De el hecho, media de estas luego error la estndar d es diferencias elde error de d es ntes. Por otro lado, laluego media las estndar diferencias coincide con la luego el error estndar de d es 1 50 0,18 + 0 ,00 + ... 0,70 s 0, 40 medias muestrales, d = SE = d = (dd )i = = 0,057 . = 0,12 50 i =1 n 50 50 sd 0,40 SE (d ) = = = 0,057 . 25 1 n 1 n n 50 d = d i = ( x i1 x i 2 ) es una estimacin de la diferencia en el nivel medio de colesterol HDL entre los elR. IC al 95% para la diferencia de medias poblacionales ca - co se obtiene 94 Pastor-Barriuso n i =As, n 1 i =1 =
n 1 ncomo ca - co de se las obtiene As, el 1 IC alinfarto 95% para lasujetos diferencia dede medias poblacionales casos de y los libres la enfermedad. La varianza x xi 2 = x1 x 2 1 i n i =1 n i =1
= = 0,057 . n 50 As, el IC al 95% para la diferencia de medias poblacionales ca - co se obtiene As, el IC al 95% para la diferencia de medias poblacionales ca - co se obtiene como
49;0,975
SE (d ) =
Referencias
como As, el IC al 95% para d la t diferencia SE( d de ) medias poblacionales ca co se obtiene como
d t49;0,975 SE( d) 2,010,057 = (-0,23; -0,01), = -0,12 = 0,12 2,010,057 = ( 0,23; 0,01),
y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico y la hiptesis nula H0: ca = co se contrasta mediante el test estadstico d 0,12 t= = 2,13, = SE (d ) 0,057 d 0,12 t= = = -2,13, cuyo valor P asociado en la distribucin es P = 2P(t49 2,13) = 20,019 = 0,038. De ,057 SE (d ) t0 49 cuyoestudio valor P asociado la distribucin t49 espuede P = 2P (t49 -2,13) = 20,019 este de casos y en controles emparejados entonces concluirse que = la media del colesterol HDL en los casos de infarto es inferior en 0,12 mmol/l al nivel medio de = 2P(t49 -2,13) = 20,019 = cuyo valor P asociado en la distribucin t49 es P 0,038. los controles (IC al 95% 0,01-0,23 mmol/l), siendo esta diferencia estadsticamente significativa (P = 0,038). Esta conclusin es consistente con la obtenida en el Ejemplo 0,038. De este estudio de casos y controles emparejados, de puede entonces concluirse que cabe 6.11 para las muestras completas e independientes casos y controles. No obstante, destacar las siguientes particularidades. Por un lado, esta estimacin est sujeta a mayor De este estudio de casos y controles emparejados, puede entonces concluirse la media del aleatoria colesterol HDL en los casos de50 infarto es de inferior en 0,12 mmol/l al variabilidad ya que tan slo utiliza parejas casos y controles. Porque otro lado, el diseo emparejado permite comparar casos con controles de similar edad y, en la media delde colesterol HDL(IC en los casos de infarto es inferior en 0,12 al nivel medio losestimacin controles al menos 95% 0,01 0,23 mmol/l), siendo estammol/l diferencia consecuencia, la ser propensa a posibles sesgos derivados de la diferencia de edad entre casos y controles. nivel medio de los controles (IC al0,038). 95% 0,01 0,23 mmol/l), esta diferencia estadsticamente significativa (P = Esta conclusin essiendo consistente con la Los procedimientos presentados en este apartado se limitan a la comparacin de una variable estadsticamente significativa (P las = 0,038). Esta conclusinindependientes es consistente con obtenida en eldos Ejemplo 6.11 para muestras completas de la de dos continua a partir de muestras emparejadas sujeto a sujeto. Eleanlisis de la varianza vas permite extender esta comparacin a casos ms generales de dependencia, tales como el obtenida en el Ejemplo 6.11 para lasdestacar muestras completas e particularidades. independientes de casos y controles. No las siguientes diseo de parejas con ms deobstante, un sujetocabe por muestra (por ejemplo, un estudio de casosPor y controles donde cada caso se empareja con 2 controles) o la comparacin de tres o ms muestras casos y controles. No obstante, cabe destacar las siguientes particularidades. Por un lado, estaejemplo, estimacin sujeta a mayor variabilidad aleatoria que tantratamientos solo dependientes (por un est ensayo clnico donde cada paciente recibeya diversos alternativos). Los mtodos de anlisis de la varianza de dos vas pueden consultarse en los un lado, estimacin est sujeta a mayor variabilidad aleatoria ya que tan solo 50esta parejas de a casos y controles. Por otro lado, el diseo emparejado textosutiliza estadsticos citados continuacin. utiliza 50 parejas de casos y controles. Por otro lado, el diseo emparejado 6.5REFERENCIAS 26
1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, 26 Fourth Edition. Oxford: Blackwell Science, 2001. 2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. Englewood Cliffs, NJ: Prentice Hall, 1977. 3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980. 4. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Brooks/Cole, 2001. 5. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. 6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley & Sons, 1986.
Pastor-Barriuso R.
95
7. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and Quantitative Methods. New York: John Wiley & Sons, 1982. 8. Kleinbaum DG, Kupper LL, Muller KE, Nizam A. Applied Regression Analysis and Other Multivariable Methods, Third Edition. Belmont, CA: Duxbury Press, 1998. 9. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. 10. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: Lippincott Williams & Wilkins, 2008. 11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State University Press, 1989. 12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999.
96
Pastor-Barriuso R.
7.1 INTRODUCCIN En el anlisis de datos epidemiolgicos es frecuente el estudio de variables dicotmicas, que reflejan la presencia o ausencia de una determinada TEMA 7 caracterstica en los miembros de una poblacin. El inters radica fundamentalmente en estimar la proporcin de individuos o elementos de la poblacin que presentan dicha caracterstica.
INFERENCIA SOBRE PROPORCIONES
Esta proporcin e es un parmetro Para desconocido que sede estima mediante la partir de muestraspoblacional dependientes independientes. cada problema inferencia Brevemente, recordamos una proporcin muestral p tiende distribuirse depresentan forma proporcin muestral p = k/nque , Para donde k es el nmero de a individuos que la de muestras dependientes e independientes. cada problema de observado inferencia sobre proporciones se presentar un estimador puntual del parmetro poblacional objeto caracterstica de inters en una muestra aleatoria de tamao n. La distribucin muestral de una normal con y varianza (1parmetro - )/ n, proporcin ya se discuti en el Apartado 4.3.4. Brevemente,objeto recordamos que una proporcin proporciones se presentar unmedia estimador puntual del poblacional de estudio, un intervalo de confianza y una prueba de significacin. muestral p tiende a distribuirse de forma normal con media y varianza (1 )/n, partir de muestras dependientes e independientes. Para cada problema de inferencia udio, un intervalo de confianza y una prueba de significacin. ~ N , (1 ) , p del parmetro poblacional objeto sobre proporciones se presentar un estimador puntual n POBLACIONAL 7.2 INFERENCIA SOBRE UNA PROPORCIN NFERENCIA SOBRE UNA PROPORCIN POBLACIONAL cuando el tamao muestral suficientemente grande y la proporcin poblacional no es de estudio, un intervalo de es confianza y una prueba de significacin. Con frecuencia se muestral desea conocer la proporcin individuos que una cierta cuando el tamao es suficientemente grande y la proporcin poblacional no es excesivamente extrema, de tal forma que se cumpla lade condicin n(1 poseen ) 5. Esta aproximacin se utilizar de esteque tema de inferencia sobre datos de carcter binario o recuencia se desea conocerrepetidamente la proporcin a lo delargo individuos poseen una cierta caracterstica en la poblacin. Como ya se apunt enla elcondicin Apartado n 5.2, proporcin dicotmico. 7.2 INFERENCIA SOBRE UNA PROPORCIN POBLACIONAL (1 la - ) 5. Esta excesivamente extrema, de tal forma que se cumpla erstica en la poblacin. Como en el Apartado 5.2,medias, la proporcin Al igual que ya en se el apunt tema de inferencia sobre este captulo aborda la estimacin de muestral p es un buen estimador puntual a de la proporcin poblacional, ya quesobre p es el aproximacin se utilizar repetidamente lo largo de esta tema que de inferencia una proporcin poblacional, as como la comparacin de proporciones a partir muestras Con frecuencia se desea conocer la proporcin de individuos poseen una de cierta ral p es un buen estimador puntual de la proporcin poblacional, ya quede p es el dependientes e independientes. Para cada problema inferencia sobre proporciones se estimador insesgado ypuntual consistente de con menor error estndar. datos deun carcter binario o dicotmico. presentar estimador del parmetro poblacional objeto de estudio, un intervalo de caracterstica en la poblacin. Como ya se apunt en el Apartado 5.2, la proporcin ador insesgado confianza y consistente de prueba con menor error estndar. y una de significacin. Al igual que el tema de inferencia sobre medias, este captulo aborda la la Utilizando laen aproximacin normal a la distribucin muestral de p , se tiene muestral p es un buen estimador puntual de la proporcin poblacional, ya que p es el lizando la aproximacin normal a la distribucin muestral de p, se tiene la 7.2 INFERENCIA SOBRE UNA PROPORCIN estimacin de una proporcin poblacional, as comoPOBLACIONAL la comparacin de proporciones a siguiente relacin estimador insesgado y consistente de con menor error estndar. nte relacin Con frecuencia se desea conocer la proporcin de individuos que poseen una cierta caracterstica en la poblacin. Como ya se apunt en el Apartado 5.2, la proporcin muestral p es un buen Utilizando la aproximacin normal apla de p, se tiene la distribucin ya que p esmuestral estimador puntual de la proporcin poblacional, estimador insesgado y consistente P z1 / 2 z1 / el 1 2 1 , con menor error (1 ) / n p de estndar. z1 / 2 1 , z1 / 2 relacin Psiguiente (1 ) / n normal Utilizando la aproximacin a la distribucin muestral de p, se tiene la siguiente relacin donde z1-/2 es el percentil normal 1 - /2 de la distribucin estandarizada. El mtodo p z1 / 2 P z 1mtodo /2 1 , z1-/2 es el percentil 1 - /2 de la distribucin El normal estandarizada. ( 1 ) / n un intervalo de confianza consiste en sustituir el error ms sencillo para obtener
Esta proporcin poblacional es un parmetro desconocido que se estima mediante 7.1 INTRODUCCIN la proporcin muestral p = k/n, donde k es el nmero observado de individuos que En el anlisis de datos epidemiolgicos es frecuente el estudio de variables dicotmicas, que reflejan la presencia o ausencia de una en losnmiembros de una presentan la caracterstica de inters endeterminada una muestra caracterstica aleatoria de tamao . La poblacin. El inters radica fundamentalmente en estimar la proporcin de individuos o elementos de lamuestral poblacin dicha caracterstica. distribucin deque unapresentan proporcin ya se discuti en el Apartado 4.3.4.
encillo para obtener un intervalo de confianza consiste en sustituir el error donde z1 /2 es el percentil 1 /2 de la distribucin normal estandarizada. El mtodo ms estndar de p por su p (1 distribucin p ) / consiste n y despejar la estandarizada. proporcin sencillo para obtener unestimacin intervalo de en sustituir el error poblacional estndar de p por su donde z1-/2 es el percentil 1- /2 confianza de la normal El mtodo estimacin p (1 p ) / n y dar de p por su estimacin y despejar despejar la la proporcin proporcin poblacional poblacional ms sencillo para obtener un intervalo de confianza consiste en sustituir el error p (1 p) p(1 p) 1 . p z1 / 2 P p z1 / 2 n n ( 1 ) ( 1 ) p p p p estndar de p por su estimacin p ( 1 p ) / n y despejar la proporcin poblacional 1 p z P p z . 1 / 2 1 / 2 n n R. Pastor-Barriuso viene As, el intervalode confianza al 100(1 - )% para la proporcin poblacional p (1 p) p(1 p) z p z1 / p 1 / 2la proporcin 2 viene )% para poblacional l intervalo de confianza al 100(1P - 1 . n n dado por
97

Inferencia sobre proporciones
n z
0 (1 0 )
n As, el intervalo de confianza al 100(1 - )% para la proporcin poblacional viene
cuya distribucin ser aproximadamente N(0, 1) si la hiptesis nula H0: = 0 es cierta. dado por As, el intervalo de confianza al 100(1 )% para la proporcin poblacional viene dado por El valor P del test corresponde entonces a la probabilidad bajo la distribucin normal p(1 p ) p z1 / 2 . estandarizada para valores ms alejados de 0 que el n valor observado de z.
Para realizar el contraste de la hiptesis nula H0: = 0 frente a la alternativa bilateral H1: 0, puedeEjemplo emplearse el A estadstico Para realizar el contraste de controles la hiptesis H0: = 0 frente se a la alternativa 7.1 partir de los delnula estudio EURAMIC, pretende estimar p 0 , z puede emplearse el estadstico bilateral H1: 0, individuos la proporcin de en la poblacin de de dicho estudio que 0 (1 0referencia )
n presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles 2 cuya distribucin ser aproximadamente N(0, 1) si la hiptesis nula H0: = 0 es cierta. El bajos segn el National Cholesterol Education Program ). nula En kH =0normal 158 los n= valor P del test corresponde entonces a la probabilidad la distribucin : =de 0estandarizada es cierta. cuya distribucin ser aproximadamente N(0, 1) si bajo la hiptesis para valores ms alejados de 0 que el valor observado de z. 539 controles se observaron entonces valores inferiores o igualesbajo a este El valor P del test corresponde a la probabilidad la umbral, distribucin normal Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende estimar la obtenindose proporcin muestral estandarizada valores ms de 0 que el valor observado z. proporcin para deuna individuos enalejados la poblacin de referencia de dichode estudio que presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles bajos segn el National Cholesterol Education ). = En k = 158 de los n = 539 controles se p = k/nProgram = 158/539 0,293. Ejemplo 7.1 A partir de los controles del estudio EURAMIC, se pretende observaron valores inferiores o iguales a este umbral, obtenindose una estimar proporcin muestral Dado que np(1 - p )= 111,7 5, puede emplearse aproximacin normal para la proporcin de individuos en la poblacin de la referencia de dicho estudio que p = k/n = 158/539 = 0,293. presentan niveles de colesterol HDL inferiores o iguales a 0,90 mmol/l (niveles como calcular unnp IC al para laproporcin poblacional Dado que (1 95% p) = 111,7 5, puede emplearse la aproximacin normal para calcular un IC al 95% para la proporcin poblacional como bajos segn el National Cholesterol Education Program). En k = 158 de los n = 0,293(1 0,293) 0,293 z 0,975 539 controles se observaron valores inferiores o iguales a este umbral, 539 = 0,293 1,960,020 = (0,255; 0,332); obtenindose una proporcin muestral es decir, la proporcin poblacional de sujetos con niveles bajos de colesterol HDL est comprendida entre el 25,5 y el 33,2% con confianza del 95%. Asimismo, para determinar p=k /n sujetos =una 158/539 0,293. es decir, la proporcin poblacional de con= niveles bajos de colesterol HDL si los datos muestrales son compatibles con una proporcin subyacente del 30%, se contrast la hiptesis H0: = 0,30 versus H1: 0,30 mediante el estadstico est comprendida 25,5 y 5, el puede 33,2% emplearse con una confianza del 95%. Asimismo, Dado que np(1 entre - p) =el 111,7 la aproximacin normal para p 0 0,293 0,30 z= = 0,35, para determinar sial los datos muestrales son compatibles una proporcin 0,30 (1 0,30) con 0 (1 0) como calcular un IC 95% para laproporcin poblacional n 539 subyacente del 30%, se contrast la hiptesis H0: = 0,30 versus H1: 0,30 que corresponde a un valor P = 2P0 (, Z 0,35) = 2{1 293 (1 0,293 ) (0,35)} = 0,726 en las tablas de 0 , 293 z 0 , 975 la distribucin normal estandarizada Apndice). Por que corresponde a un valor P = 2P(Z (Tabla -0,35) = 2{1 - (0,35)} = tanto, 0,726 puede en las concluirse mediante el estadstico 5393 del que la prevalencia poblacional de niveles bajos de colesterol HDL no es significativamente distinta del tablas de la 30%. distribucin normal (Tabla del Apndice). =estandarizada 0,293 1,960,020 =3(0,255; 0,332); Por tanto, puede concluirse que prevalencia poblacional niveles bajosasumen de colesterol Los procedimientos de la inferencia presentados en de este apartado que el tamao es decir, la proporcin poblacional de sujetos con niveles bajos de colesterol HDL 3 ha de muestral es suficientemente grande para aplicar la aproximacin normal; es decir, HDLel no es significativamente distinta cumplirse requerimiento mnimo de que ndel (130%. ) 5. No obstante, en el Apndice de este est comprendida entre el 25,5 y el 33,2% una confianza del 95%. Asimismo, tema (Apartado 7.8) se facilitan correcciones de con estos mtodos que permiten aumentar la cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los para determinar siinferencia los datos son con proporcin Los procedimientos de presentados en compatibles este asumen que el tamao contrastes, particularmente cuando elmuestrales tamao muestral es apartado moderado o una pequeo. Esta correccin
98
muestral subyacente es suficientemente grande para aplicar la aproximacin normal; de versuses Hdecir, 0,30 del 30%, se contrast la hiptesis H0: = 0,30 1: ha
Pastor-Barriuso R.
mediante el estadstico cumplirse el requerimiento mnimo de que n(1 - ) 5. No obstante, en el Apndice de
Comparacin de proporciones en dos muestras independientes
de la aproximacin normal se conoce como correccin por continuidad y es aplicable a la mayora de los procedimientos estadsticos descritos en este tema. En adelante, se tratarn los mtodos de inferencia sin correccin por continuidad. Las correspondientes versiones con correccin se presentan en el Apndice al final del tema. 7.3 COMPARACIN DE PROPORCIONES EN DOS MUESTRAS INDEPENDIENTES Supongamos ahora que el inters radica en comparar la proporcin de sujetos con una determinada caracterstica en dos muestras independientes. Este planteamiento general es aplicable a las comparaciones realizadas en cualquiera de los siguientes diseos de un estudio: yy Un estudio prospectivo es aquel en el que n1 individuos expuestos a una intervencin (ensayo clnico) o a un potencial factor de riesgo (estudio de cohortes) y n2 individuos no expuestos son seguidos a lo largo de un periodo de tiempo para determinar cuntos desarrollan la enfermedad. Los tamaos muestrales de ambos grupos n1 y n2 estn fijados de antemano y, en el caso de un ensayo clnico, la intervencin se asigna de forma aleatoria a cada sujeto. El objetivo se centra en comparar la proporcin de sujetos que desarrollan la enfermedad entre los expuestos y los no expuestos. yy Un estudio retrospectivo (estudio de casos y controles) es aquel en el que m1 sujetos con la enfermedad (casos) y m2 sujetos libres de ella (controles) son examinados para determinar cuntos han estado previamente expuestos al potencial factor de riesgo. Bajo este diseo, el nmero de casos y controles est predeterminado y, en consecuencia, ha de compararse la proporcin de expuestos entre los sujetos con y sin la enfermedad. yy Un estudio transversal es aquel en el que se selecciona un total de n individuos en un instante determinado para establecer en cada sujeto la presencia o ausencia de la exposicin y la enfermedad. A diferencia de los estudios prospectivos, donde se compara la incidencia de nuevos casos de la enfermedad, los estudios transversales comparan la prevalencia de la enfermedad en un instante determinado entre expuestos y no expuestos. Ejemplo 7.2 En el Second National Health and Nutrition Examination Survey (NHANES II), una encuesta llevada a cabo entre 1976 y 1980 en Estados Unidos, se recogieron datos del nivel de colesterol srico total en una muestra representativa de 7.712 sujetos entre 30 y 74 aos de edad sin diagnstico previo de enfermedad cardiovascular o cncer. Tras un seguimiento medio de 15 aos, se determin el estatus vital de cada sujeto y, en su caso, la causa de muerte. As, en este estudio de cohortes prospectivo se registraron 254 muertes por enfermedad cardiovascular entre los 2.713 participantes con niveles de colesterol total superiores o iguales a 6,20 mmol/l (niveles altos segn el National Cholesterol Education Program) y 309 muertes por enfermedad cardiovascular entre los 4.999 participantes con niveles de colesterol total inferiores a 6,20 mmol/l. Ejemplo 7.3 En el estudio de casos y controles EURAMIC, se clasific a los sujetos segn tuvieran valores superiores o inferiores al umbral de 0,90 mmol/l de colesterol HDL. De los 462 casos de infarto de miocardio con datos disponibles, 193 tuvieron valores de colesterol HDL inferiores o iguales a 0,90 mmol/l; mientras que de los 539 controles libres de la enfermedad, 158 presentaron valores de colesterol HDL inferiores a dicho umbral.
Pastor-Barriuso R.
99
valores de colesterol HDL valores inferiores de colesterol a dicho HDL umbral. inferiores a dicho umbral.
n general, los resultados Ende general, la comparacin los resultados de una devariable la comparacin dicotmica de una en dos variable dicotmica en dos
tras independientes muestras suelen organizarse independientes en una suelen tablaorganizarse 22 (Tabla en 7.1). una En tabla este22 (Tabla 7.1). En este Tabla 7.1Tabla 22 genrica de la 2(1 - 2)/n2). Adems, como ambas muestras son asociacin entre exposicin y enfermedad. ado suponemos que apartado se analizan suponemos datos deque un estudio se analizan prospectivo, datos de un en el estudio que se prospectivo, en el que se Enfermedad 4), se tiene que ~ N( , (1 - )/n ). Adems, como ambas muestras son - )y p2 de N (1, en Exposicin 1(1estimar 1)/n1la 2 la 2 proporcin 2 expuestos 2 de No nde estimar la diferencia pretende la proporcin diferencia enfermos en entre enfermos y no Total entre expuestos y no S n1 n2
Total m1 m2 n
2
S a b n1 1 (1 1 ) 2 (1 2 ) . mtodos pueden aplicarse (vase 1 Estos 2, independientes Apartado 3.4), se tiene que d a estudios estos. mtodos expuestos. Estos igualmente a estudios aplicarse igualmente pero retrospectivos, pero No pueden c retrospectivos, n
arando la proporcin comparando de expuestos la proporcin entre casos de y expuestos controles (ver entre casos controles Ejemplo 7.5). 1Ejemplo (1 2 (1 (ver 1 )y 7.5). 2) ~ p1 de p 2de N comparacin la p1 - p2 es un estimador puntual insesgado la . 1 2 , En general, los resultados de en dos muestras n1 una variable n 2 dicotmica ~ independientes suelen organizarse en una tabla 22 (Tabla 7.1). En este apartado suponemos 1(1 - (2, aqu] - aproximadamente 2)/n2). Adems, como ambas muestras son N(1,[Tabla 1)/n 1) y p2 N 2(1 7.1 aproximadamente [Tabla 7.1 aqu] y no expuestos, E ( p p ) = 1 - 2 entre expuestos 1 2 1 que se analizan datos de un estudio prospectivo, en el que se pretende estimar la diferencia en De este resultado se desprende que p1 - p2 y esno unexpuestos. estimador puntual insesgado de la aplicarse la independientes proporcin de enfermos entre expuestos Estos mtodos pueden (vase Apartado 3.4), se tiene que 0(1 - )% para se obtiene siguiendo el mismo a estudios retrospectivos, pero comparando la proporcin de expuestos entre 1 2 proporcin de igualmente enfermos La proporcin en la muestra de de enfermos sujetosen expuestos la muestra viene de sujetos dada por expuestos p1 = viene dada por p1 = casos 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 diferencia de Ejemplo riesgos subyacente y controles (ver 7.5). 1 (1 1 ) 2 (1 2 ) roporcin como ~ la ~ y en la muestra de N sujetos expuestos muestra por p22en = /no n . expuestos Si n y nsujetos por son p suficientemente = c/n2como . Siviene n1ambas yn suficientemente a( / nproporcin a/n1 y en la La de enfermos muestra de expuestos dada por p1 = son pde p N ,)/ sujetos en (1la n1 )y p2 N (c , (1 n2 ). Adems, muestras 2. son 1 1 22 2 1 2 2 1, y 1no 1)/ 2 2 . El intervalo de confianza al 100(1 )% para siguiendo el mismo n n 2 1 1 - 2 se obtiene 2 muestra de sujetos no expuestos por p2 = c/n2. Si n1 y n2 son suficientemente grandes, estas ~ de ~ des, estas proporciones grandes, muestrales tendern a distribuirse muestrales de tendern forma normal, anormal, distribuirse pp normal, (forma 1)/n1) ypp proporciones muestrales tendern a distribuirse de forma p1 (1 p1 ) independientes p 2 (1 pestas ) proporciones (vase Apartado 3.4), se tiene que 11 N 12 N(2, 2 1, 1(1 , procedimiento utilizado para una proporcin como / 2 n2 ). Adems, ambas muestras son (vase Apartado 3.4), se tiene que De este resultado secomo desprende que p1 - p 2 es independientes un estimador puntual insesgado de la 2)/ n1 2(1 n2
~ , 1 (1 1 ) 2 (1 2 ) . psubyacente 1 1 p 2 N 1 entre 2 p1 (1 expuestos p1 ) p 2y (1 expuestos, p2 ) no E(p1 - p2) = 1 diferencia de riesgos n1 n2 6 , p1 p2 z1 / 22 erencia de proporciones muestrales con una amplitud 6 n1 n2 De este resultado desprende p1 p2 un para estimador insesgado de la diferencia intervalose de confianzaque al 100(1 - es )% 1 - puntual siguiendo el mismo de 2. El 2 se obtiene macin de su error estndar. De este resultadose que p1 - p es un estimador insesgado deintervalo la riesgos subyacente 2 entre expuestos y2 no expuestos, E(puntual p1 p2) = 1 2. El de 1 desprende que es simtrico alrededor de ladiferencia decomo proporciones muestrales con una amplitud se obtiene siguiendo el mismo procedimiento utilizado confianza al 100(1 )% para procedimiento utilizado para una proporcin 1 encias en la probabilidad subyacente de desarrollar la2 para una proporcin como diferencia de riesgos subyacente 1 - 2 entre expuestos y no expuestos, E(p1 - p2) = 1 directamente proporcional a la estimacin de su error estndar. stos y no expuestos, se contrasta la hiptesis nula H0: p1 (1 p1 ) p 2 (1 p 2 ) 2. El intervalo de confianza 100(1 - )% para 1 - 2 se obtiene p1 pal z1 / 2 , siguiendo el mismo 2 Para determinar si existen diferencias en la n1probabilidad n 2subyacente de desarrollar la tiva bilateral H1: 1 2. Bajo la hiptesis nula de procedimiento utilizado para una proporcin como que es simtrico alrededor de expuestos la diferencia proporciones muestrales con una amplitud enfermedad entre los sujetos y node expuestos, se contrasta la hiptesis nula H0: directamente proporcional a la estimacin de su error estndar. que es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud 2 = , se cumple que hiptesis bilateral : 1 p 2 de p H p ) (1 Bajo p Para determinar existenalternativa diferencias en la probabilidad subyacente de nula desarrollar la 1= 2 frente a la si 2. 1 (1 11 2 ) la hiptesis p1 a p z1 / 2 estndar. , 2 estimacin directamente proporcional la de su error enfermedad se contrasta la hiptesis nula H0: 1 = 2 n1 n2 1 entre los sujetos expuestos y no expuestos, 1 ~ N , 0 , ( 1 ) : = = , se cumple que igualdad de proporciones H frente a la H1: 1 2. Bajo la hiptesis nula de igualdad de hiptesis alternativa 0 bilateral 1 2 si existen diferencias en la probabilidad subyacente de desarrollar la n 2 determinar n1 Para H: = proporciones = , se cumple que 0 1 2 que es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud enfermedad entre los sujetos expuestos y no expuestos, la hiptesis nula H0: 1 se1contrasta ~ N p1 p 2 , 0 , ( 1 ) dad de enfermar comn para expuestos y no de su error directamente proporcional a la estimacin n2 n1estndar. 1 = 2 frente a la hiptesis alternativa bilateral H1: 1 2. Bajo la hiptesis nula de su valor puede ad es desconocida, dondePara corresponde a estimarse la probabilidad de enfermar comn para expuestos y no expuestos. Aunque determinar si existen diferencias en la probabilidad subyacente de desarrollar la esta probabilidad es desconocida, su valor puede estimarse mediante la proporcin combinada de enfermos donde corresponde a la probabilidad de enfermar comn para expuestos y no igualdad de proporciones H0: 1 = 2 = , se cumple que p= =(a (a c)/( de enfermos en ambas muestras ++ c)/( n1nexpuestos + n2) = m1/n . As, el estadstico este test nula es H0: en ambas muestras 1+ enfermedad entre los sujetos y no expuestos, se propuesto contrasta para la hiptesis p p 1 2 su valor puede estimarse expuestos. Aunque esta probabilidad es desconocida, ,1 z ~ 1 uesto para este testes bilateral H) : Bajo la hiptesis nula de 1 = 2 frente a la hiptesis 1 1 2. 1 1 p1alternativa 0 , ( 1 p2 N , ( 1 p ) en n1 n muestras 2 p = (a + c)/(n1 + mediante la proporcin combinada depenfermos ambas n1 n 2 igualdad de proporciones H0: 1 = 2 = , se cumple que que H sigue aproximadamente una distribucin normal estandarizada, lo que permitir n2bajo )=m n. As, el estadstico propuesto para este test es para 1/0 donde corresponde a la probabilidad de enfermar comn expuestos y no determinar significacin estadstica de la distribucin diferencia entre proporciones. que bajo la H0 sigue aproximadamente una normal estandarizada, lo que 1 1 ~ N p1 p 2 (1 ) 0,desconocida, , entre es su valor puedeproporciones. estimarse expuestos. Aunque esta probabilidad n1diferencia n2 permitir determinar la significacin estadstica dela 7
mediante la proporcin combinada de enfermos en ambas muestras p = (a + c)/(n1 + dondeEjemplo corresponde laTabla probabilidad de enfermar comn expuestos y no 7.4 Enala 7.2 se presenta el nmero depara muertes por enfermedad 7 n ) = m /n. As, el estadstico propuesto para este test es
permitir determinar la significacin estadstica de la diferencia entre proporciones. p2 es un estimador puntual insesgado de la
que bajo H0 sigue aproximadamente una distribucin normal estandarizada, lo que Comparacin de proporciones en dos muestras independientes entre expuestos y no Ejemplo expuestos, EEn (p1 la - pTabla - se presenta el nmero de muertes por enfermedad 2) = 1 7.4 7.2 permitir determinar la significacin estadstica de la diferencia entre proporciones. )% para 1 - 2 se obtiene siguiendo el mismo durante el seguimiento del estudio NHANES II entre cardiovascular observadas Tabla 7.2 Muertes por enfermedad cardiovascular (ECV) durante el seguimiento del estudio Ejemplo 7.4 En la Tabla 7.2 y semoderados-bajos presenta el nmero muertes por enfermedad rcin como los sujetos con niveles altos de de colesterol srico total (Ejemplo NHANES II segn niveles del colesterol srico total. cardiovascular observadas durante seguimiento del estudio NHANES II entre Mortalidad por ECV 7.2). La proporcin de muertes porel enfermedad cardiovascular es p1 = 254/2.713 Colesterol p1 (1 p1 ) p 2 (1 p 2 ) , total (mmol/l) S No Total n1 n 2 los sujetos niveles altos y moderados-bajos de colesterol srico total (Ejemplo = 0,094 en con los participantes con niveles de colesterol total superiores a 6,20
6,20 254 2.459 2.713 < 6,20 309 4.690 4.999 254/2.713 7.2). La y proporcin de muertes por enfermedad cardiovascular es p1a=6,20 p 309/4.999 = 0,062 en aquellos con niveles inferiores mmol/l. mmol/l 2 = una muestrales con amplitud Total 563 7.149 7.712
cia de proporciones
= 0,094 enla los participantes con niveles de colesterol total superiores a es 6,20 p1 - p2 = Por tanto, estimacin puntual de la diferencia de riesgos subyacente n de su error estndar. Ejemplo 7.4 En la Tabla 7.2 se presenta el nmero de muertes por enfermedad cardiovascular observadas el aquellos seguimiento estudio NHANES II entre los sujetos p2 = = 309/4.999 =durante 0,062 en con del niveles mmol/l 0,094 - y 0,062 0,032 y su de confianza al 95% inferiores a 6,20 mmol/l. s en la probabilidad subyacente desarrollar la intervalode con nivelesde altos y moderados-bajos colesterol srico total (Ejemplo 7.2). La proporcin = 254/2.713 = 0,094 en de muertes por enfermedad cardiovascular es p1 de p1 participantes - p2 = Por tanto, la estimacin puntual de la diferencia riesgos subyacente eslos y no expuestos, se contrasta la hiptesis nula total H0:0,superiores p0 094(1 0,094 ) mmol/l 0,062(1y , 062 ) con niveles de colesterol a 6,20 = 309/4.999 = 0,062 en aquellos 2 0,032 z 0,975 con niveles inferiores a su 6,20 mmol/l. Por tanto, laal estimacin puntual de la diferencia de 2.713 4 .999 0,094 - 0,062 = 0,032 y intervalo de confianza 95% bilateral H1: 1 2. Bajo la hiptesis nula riesgos subyacente es de p1 p2 = 0,094 0,062 = 0,032 y su intervalo de confianza al 95% cardiovascular en los sujetos con=niveles altos de colesterol total0,045). excedi en 32 0,032 1,96 0,007 = (0,019; 0,094(1 0,094) 0,062(1 0,062) , se cumple que 0,032 z 0,975 2.713 con niveles4ms .999bajos (IC al 95% entre 19 casos por 1.000 a la de los participantes Para el contraste bilateral de la hiptesis nula de igualdad de proporciones 1 1 = 0,032 1,960,007 = (0,019; 0,045). 0, (1 ) y ,45 casos por 1.000), siendo esta diferencia muy significativa (P < 0,001). n n 2 poblacionales 1 H0: 1 = 2 de se emplea el estadstico Para el contraste bilateral la hiptesis nula de igualdad de proporciones poblacionales H0: el 2 se emplea el estadstico 1 = Para contraste bilateral de la hiptesis nula de igualdad de proporciones 0,032 de enfermar comn para expuestos y no z = [Tabla 7.2 aproximadamente aqu]= 5,13, poblacionales H0: 1 = 2 se emplea el estadstico 1 1 0,073(1 0,073) es desconocida, su valor puede estimarse 2.713 4.999 0 ,032 Ejemplo La los casos de infarto de miocardio y los donde p 7.5 0,073 es la proporcin global muertes por enfermedad = (563/7.712 a +Tabla cz )/( += muestra nfermos en ambas muestras =n17.3 = de 5,13, 1 NHANES 1 de donde p = 563/7.712 = los 0,073 es la proporcin global muertes por cardiovascular en todos participantes El valor P enfermedad del test se obtiene del II. 0,073 (1 ) colesterol 0,073 HDL superiores o inferiores a controles del EURAMIC con valores de como 2 P ( Z 5,13) = 2{1 (5,13)} < 0,001. En resumen, despus de 15 aos de para este test es 2.713 4.999 seguimiento, laen incidencia de del muertes por enfermedad P del test se en los cardiovascular todos losacumulada participantes NHANES II. El valor cardiovascular 0,90 mmol/l. A partir de esta tabla 22, total se pretende comparar la proporcin de sujetos con niveles altos de colesterol excedi en 32 casos por 1.000 a la de los donde p = 563/7.712 = 0,073 es la proporcin global de muertes por enfermedad participantes ms al 95% 19 y 45 casos por 1.000), siendo Z 5,13) = bajos 2{1 - (IC (5,13)} < entre 0,001. En resumen, despus de 15 esta obtiene comocon 2P(niveles sujetos conmuy niveles bajos de colesterol HDL ( 0,90 mmol/l) entre casos p1 = c/m1 diferencia significativa (P < 0,001). P del test se cardiovascular en todos los participantes del NHANES II. por El valor aos de seguimiento, la incidencia acumulada de muertes enfermedad p2 = dlos /m2 casos = 158/539 = 0,293. La diferencia de = 193/462 = 0,418 y controles Ejemplo 7.5 La Tabla 7.3 muestra de infarto de miocardio y los controles del 7= 2{1 - (5,13)} < 0,001. En resumen, despus de 15 P ( Z 5,13) obtiene como 2 EURAMIC con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l. A 8 partir p2 = 0,418la - 0,293 = 0,125 el IC alcon 95% para bajos proporciones es p1 - comparar de esta tabla muestrales 22, se pretende proporcin deysujetos niveles de 1aos de seguimiento, la incidencia acumulada de muertes por enfermedad colesterol HDL ( 0,90 mmol/l) entre casos p1 = c/m1 = 193/462 = 0,418 y controles p2 = d/ = 0,293. La diferencia de proporciones muestrales es p1 p2 = 0,418 viene dado por 2m 2 = 158/539 8 0,293 = 0,125 y el IC al 95% para 1 2 viene dado por
p1 p 2 z 0,975 p1 (1 p1 ) p 2 (1 p 2 ) m1 m2
= 0,125 1,96
0,418(1 0,418) 0,293(1 0,293) 462 539
= 0,125 1,960,030 = (0,065; 0,184).

El estadstico para el contraste bilateral de la hiptesis nula H0: 1 = 2 se calcula
p1 (1 p1 ) p 2 (1 p 2 ) p z 0,975 =1 n = 0,351 es la proporcin total de sujetos con niveles donde p p 2/n 2= 351/1.001 m1 m2 ia de proporciones muestrales con una amplitud Tabla 7.3 Colesterol HDL en los casos de infarto bajos de colesterol HDL. La significacin estadstica del es por tanto P = agudo de miocardio y ( los controles del(contrate 0,418 1 0 ,418) 0,293 1estudio 0,293) n de su error estndar. = 0,125 1,96 EURAMIC. 539 son 2{1 - (4,12)} < 0,001. As, los casos 462 de infarto de miocardio Infarto de miocardio en la probabilidad subyacente de desarrollar la Colesterol HDL = (mmol/l) 0,125 1,960,030 = (0,065; 0,184). Caso Control Total significativamente ms propensos a presentar niveles bajos de colesterol HDL que y no expuestos, se contrasta la hiptesis nula H0:
> 0,90 269 381 650
2)viene dado por p1 (1 p1 ) p 2 (1 p 2 , Inferencia n1 n 2 sobre proporciones
< la 0,001), con nula una diferencia los sujetos para libres de la enfermedad (P 0,90 193 158 H0351 : 1 = de El estadstico el contraste bilateral de hiptesis 2 se calcula ilateral H1: 1 2. Bajo la hiptesis nula de Total 462 539 1.001 proporciones del 12,5% (IC al 95% 6,518,4%). como
, se cumple que
El estadstico para el contraste bilateral de la hiptesis nula H0: 1 = 2 se calcula como p1 p 2 1 z [Tabla 7.3 aproximadamente aqu] 1 0, (1 ) , 1 1 n1 n 2 p (1 p ) m1 m 2
0,125 e enfermar comn 7.4 para expuestos y no ESTADSTICA EN ASOCIACIN UNA TABLA DE 4CONTINGENCIA ,12, 1 1 0,351(1 0,351) s desconocida, su valor puede estimarse 462 539 En este apartado se presenta una prueba de significacin estadstica para evaluar de
donde p = 351/1.001 = 0,351 es la proporcin total de sujetos con niveles bajos de =n (a/n += c)/( n1 + fermos en ambas muestras forma genrica 2la presencia o ausencia de asociacin entre las variables dicotmicas colesterol HDL. La significacin estadstica del contraste es por tanto P = 2{1 (4,12)} < 9 0,001. As, los casos de infarto de miocardio son significativamente ms propensos a presentar para este test es representadas en una tabla 22. Este procedimiento no facilita estimaciones de efecto, niveles bajos de colesterol HDL que los sujetos libres de la enfermedad (P < 0,001), con una diferencia de proporciones del 12,5% (IC al 95% 6,5-18,4%). sino nicamente valores P, y es aplicable a estudios prospectivos (marginales n1 y n2
y m2 fijos) y transversales (tamao muestral n fijo). fijos), retrospectivos (marginales m1 EN 7.4 ASOCIACIN ESTADSTICA UNA TABLA DE CONTINGENCIA
En este apartado se presenta una de significacin estadstica para de las forma Para contrastar si las variables de una tabla 22 son independientes, se evaluar comparan 7 prueba genrica la presencia o ausencia de asociacin entre las variables dicotmicas representadas en una tabla 22. observadas Este procedimiento no celda facilita efecto, sino nicamente valores Oij en cada (i,estimaciones j) de la tabla de con sus frecuencias esperadas frecuencias P, y es aplicable a estudios prospectivos (marginales n1 y n2 fijos), retrospectivos (marginales y ijm y transversales (tamao muestraldonde n fijo). m1 E bajo la hiptesis nula de independencia, i = 1, 2 denota la fila y j = 1, 2 la 2 fijos) Para contrastar si las variables de una tabla 22 son independientes, se comparan las E calculan el producto de esperadas sus columna.observadas Estas frecuencias esperadas ij jse celda ( i, ) de la tablacomo con sus frecuencias Eij bajo frecuencias Oij en cada la hiptesis nula de independencia, donde i = 1, 2 denota la fila y j = 1, 2 la columna. Estas ni y m por el tamao muestral total n, marginales n correspondientes marginales j, dividido frecuencias esperadas Eij se calculan como el producto de sus correspondientes i y mj, dividido por el tamao muestral total n, nm Eij = i j . n As, por ejemplo, si en un estudio prospectivo no hubiera asociacin entre exposicin y As, por ejemplo, si en un estudiode prosp ectivo no hubiera asociacin entre exposicin y al enfermedad, la frecuencia esperada expuestos que desarrollan la enfermedad sera igual producto del nmero de expuestos n1 por la proporcin combinada de enfermos m1/n, E11 = enfermedad, la frecuencia esperada de expuestos que desarrollan la enfermedad sera n1m 1/n. Igualmente, en un estudio retrospectivo la frecuencia esperada de casos que han estado expuestos al factor de riesgo correspondera al producto del nmero de casos m1 por la proporcin n1 por la proporcin combinada de enfermos igual al producto del nmero de =expuestos m1n1/n. Asimismo, en un estudio transversal la frecuencia combinada de expuestos n1/n, E11 esperada de sujetos a la vez expuestos y enfermos sera igual al producto del nmero total de 10
Ejemplo 7.6 La Tabla 7.2 muestra los valores observados de la asociacin entre la
mortalidad por enfermedad cardiovascular y el colesterol total en el estudio Asociacin estadstica en una tabla de contingencia prospectivo NHANES II. Si ambas variables fueran independientes, la
sujetos n por las proporciones expuestoscardiovascular n1/n y de enfermos m1/nen , Elos n(n1/n)(m1/n) = 11 = probabilidad de morir por de enfermedad sera igual sujetos n1m1/n. Notar, por tanto, que los valores esperados bajo la hiptesis nula de independencia coinciden en los distintos tipos de de colesterol diseo. total. Esta probabilidad podra entonces con niveles altos y bajos Ejemplo La Tabla 7.2 muestra los valores observados de la asociacin entre la estimarse7.6 mediante la proporcin combinada de muertes en ambas muestras mortalidad por enfermedad cardiovascular y el colesterol total en el estudio prospectivo NHANES II. Si ambas variables fueran independientes, la probabilidad 563/7.712 = 0,073. As, entre los 2.713 participantes con niveles altos de de morir por enfermedad cardiovascular sera igual en los sujetos con niveles altos y bajos de colesterol total, total.cabra Esta probabilidad entonces estimarse mediante la proporcin esperar 2.713podra 0,073 = 198,1 muertes por enfermedad combinada de muertes en ambas muestras 563/7.712 = 0,073. As, entre los 2.713 participantes con niveles altos de colesterol total, cabra esperar este 2.7130,073 cardiovascular bajo la hiptesis nula de independencia. Aplicando mismo = 198,1 muertes por enfermedad cardiovascular bajo la hiptesis nula de independencia. Aplicando este mismo razonamiento, los valores esperados en por cada celda vendran razonamiento, los valores esperados en cada celda vendran dados dados por
2.713 563 Estos valores esperados se representan en la 7.4. Notar que los marginales E11 = =Tabla 198,1, 7.712 de la tabla de frecuencias observadas 2.713 7(Tabla .149 7.2) y esperadas (Tabla 7.4) = 2.514,9, E12 = 7 . 712 coinciden. De hecho, una vez calculado el valor esperado en una cualquiera de las 4.999 563 = E21esperados 364,9, celdas, los restantes valores de la= tabla 22 quedan determinados por 7.712 dichos marginales. E22 = 4.999 7.149 = 4.634,1. 7.712
Estos valores esperados se representan en la Tabla 7.4. Notar que los marginales de la [Tabla 7.4 aproximadamente aqu] 7.4) coinciden. De hecho, tabla de frecuencias observadas (Tabla 7.2) y esperadas (Tabla una vez calculado el valor esperado en una cualquiera de las celdas, los restantes11 valores esperados de la tabla 22 quedan determinados por dichos marginales. Para evaluar la independencia de las variables de una tabla 22, se comparan las Para evaluarobservadas la independencia de las mediante variables el deestadstico una tabla 22, se comparan las frecuencias frecuencias y esperadas observadas y esperadas mediante el estadstico
2 =
(Oij E ij ) 2 . E ij i 1 j 1
2 2
Cuanto mayor sea la diferencia entre los valores observados yhiptesis esperados, mayor ser la Tabla 7.4 Frecuencias esperadas bajo la de independencia entre la mortalidad por magnitud del estadstico y, en consecuencia, se tendr evidencia en contra de la enfermedad cardiovascular (ECV)mayor y el colesterol total en el estudio NHANES II. hiptesis nula de independencia. En particular, puede probarse que si las variables de la
S No Total una distribucin tabla 22 son independientes, este estadstico sigue aproximadamente Colesterol total (mmol/l) Mortalidad por ECV 6,20 < 6,20 de grado Total 198,1 364,9 (slo una 563 2.514,9 4.634,1 frecuencia 7.149 2.713 4.999 esperada de 7.712
chi-cuadrado con 1
libertad
la tabla 2 2 es
independiente). El valor P del contraste corresponde entonces a la probabilidad a la el nombre R. derecha del estadstico 2 bajo la distribucin 12 . Esta prueba se conoce conPastor-Barriuso de test chi-cuadrado de independencia o asociacin de Pearson, y puede aplicarse
103
Cuanto mayor sea la diferencia entre los valores observados y esperados, mayor ser la magnitud del estadstico y, en consecuencia, se tendr mayor evidencia en contra de la hiptesis nula de independencia. En particular, puede probarse que si las variables de la tabla 22 son independientes, este estadstico sigue aproximadamente una distribucin chi-cuadrado con 1 grado de libertad (slo una frecuencia esperada de la tabla 22 es independiente). El valor P del contraste corresponde entonces a la probabilidad a la derecha del estadstico 2 bajo la distribucin 2 1. Esta prueba se conoce con el nombre de test chi-cuadrado de independencia o asociacin de Pearson, y puede aplicarse siempre que los marginales de la tabla sean suficientemente grandes, de tal forma que todas las frecuencias esperadas sean superiores o iguales a 5. Ejemplo 7.7 A partir de los valores observados y esperados bajo la hiptesis de independencia entre la mortalidad por enfermedad cardiovascular y el colesterol srico total, se obtiene el test estadstico
(254 198,1) 2 (2.459 2.514,9) 2 = 198,1 2.514,9
2
(309 364,9) 2 (4.690 4.634,1) 2 364,9 4.634,1
= 15,80 + 1,24 + 8,58 + 0,68 = 26,30.

Como las frecuencias esperadas son claramente superiores a 5, este estadstico se Como las frecuencias esperadas son claramente superiores 5,grado este estadstico se bajo la distribuir aproximadamente como una chi-cuadrado cona1 de libertad hiptesis nula de independencia. Utilizando la Tabla 6 del Apndice, puede comprobarse 2 libertad bajo distribuir aproximadamente como una chi-cuadrado 1 gradode que el valor calculado del estadstico es muy superior con al percentil 1;0,995 = 7,88, de lo cual 2 se deduce que P = P( 1 26,30) < 0,005. As, los niveles altos de colesterol total estn la hiptesis nula deasociados independencia. Tabla 6 del Apndice, puede significativamente con laUtilizando mortalidadla por enfermedad cardiovascular.
comprobarse que el valor calculado del estadstico es muy superior al percentil La hiptesis nula de independencia entre las variables de una tabla 22 equivale a la igualdad dos proporciones poblacionales. De hecho,2 puede probarse que el estadstico 2 de 12;0de , 995 = 7,88, de lo cual se deduce que P = P( 1 26,30) < 0,005. As, los Pearson es igual al cuadrado del estadstico z de la comparacin de proporciones en muestras independientes, de tal forma que los valores P resultantes de ambos procedimientos son niveles altos de colesterol total estn significativamente asociados con la idnticos (la distribucin chi-cuadrado con 1 grado de libertad es, por definicin, igual al cuadrado de una distribucin normal estandarizada). Cabra preguntarse entonces cul es la mortalidad por enfermedad cardiovascular. aportacin del test de independencia de Pearson. En primer lugar, los clculos de este test no dependen del diseo utilizado para generar los datos. En segundo lugar, esta prueba puede generalizarse de forma sencilla a la comparacin de mltiples proporciones en una tabla con r La hiptesis nula de independencia entre las variables de una tabla 22 equivale a la filas y c columnas. igualdad de dos proporciones poblacionales. De hecho, puede probarse elrc, se calcula el Para contrastar la independencia de dos variables categricas en una que tabla estadstico estadstico 2 de Pearson es igual al cuadrado del estadstico z de la comparacin de r c (Oij E ij ) 2 2 = , proporciones en muestras independientes, de tal forma E ij que los valores P resultantes de i 1 j 1 ambos procedimientos son idnticos (la distribucin chi-cuadrado con 1 grado de donde las frecuencias esperadas Eij = nimj/n se calculan de la misma forma que en una libertad es, por definicin, igual al cuadrado de una distribucin normal estandarizada). tabla 22. Pastor-Barriuso R.Bajo la hiptesis nula de independencia, dicho estadstico se distribuye Cabra preguntarse entonces cul es la aportacin del test de independencia de Pearson. aproximadamente segn una chi-cuadrado con (r - 1)(c - 1) grados de libertad. Los En primer lugar, los clculos de este test no dependen del diseo utilizado para generar
104
celdas tengan valores esperados inferiores a 5.

Asociacin estadstica en una tabla de contingencia
Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular donde las frecuencias Eij = nim de la que en una tabla j/n se calculan entre los esperadas participantes del estudio NHANES IImisma con unforma colesterol srico total 22. Bajo la hiptesis nula de independencia, dicho estadstico se distribuye aproximadamente segn una chi-cuadrado cona(5,20 r 1)( c 1) (nivel gradosdeseable), de libertad. Los5,20 grados de libertad corresponden al inferior mmol/l entre y 6,19 mmol/l (nivel limtrofe nmero de frecuencias esperadas independientes para el clculo del estadstico, una vez determinadosalto) los marginales la tabla rc.mmol/l La aproximacin chi-cuadrado a la determinar distribucin del y superior de o igual a 6,20 (hipercolesterolemia). Para si la estadstico ser vlida si el tamao muestral es suficientemente grande. En concreto, el criterio ms aceptadoincidencia para aplicar test es que ningn valor esperado sea inferior a 1los y que ms de este muertes por enfermedad cardiovascular difiere entre tres no grupos, del 20% de las celdas tengan valores esperados inferiores a 5. se calculan en primer lugar las frecuencias esperadas mediante el producto de sus Ejemplo 7.8 La Tabla 7.5 muestra las muertes por enfermedad cardiovascular entre los participantes del estudio NHANES con un colesterol srico total inferior a 5,20 mmol/l correspondientes marginalesII dividido por el tamao muestral total. Estas (nivel deseable), entre 5,20 y 6,19 mmol/l (nivel limtrofe alto) y superior o igual a 6,20 mmol/lfrecuencias (hipercolesterolemia). Para determinar siparntesis la incidencia muertes por esperadas se presentan entre en de la Tabla 7.5. Aenfermedad cardiovascular difiere entre los tres grupos, se calculan en primer lugar las frecuencias esperadas mediante el producto de correspondientes marginales dividido continuacin, se comparan los sus valores observados y esperados mediante el por el tamao muestral total. Estas frecuencias esperadas se presentan entre parntesis en la Tabla 7.5. A continuacin, se comparan los valores observados y esperados mediante el estadstico estadstico
2 =

(254 198,1) 2 (2.459 2.514,9) 2 198,1 2.514,9 (174 175,8) 2 (2.234 2.232,2) 2 175,8 2.232,2 (135 189,1) 2 (2.456 2.401,9) 2 189,1 2.401,9
14
= 15,80 + 1,24 + 0,02 + 0,00 + 15,50 + 1,22 = 33,79.

Dado que las frecuencias esperadas son superiores a 5, puede utilizarse la distribucin chi-cuadrado conlas (3frecuencias 1)(2 1) = 2 grados libertad a(Tabla 6 del Apndice) Dado que esperadas son de superiores 5, puede utilizarse la para 2 obtener un valor P = P( 2 33,79) < 0,005. Esto es, la incidencia de muertes por enfermedad cardiovascular difiere significativamente losde tres grupos, obtenindose distribucin chi-cuadrado con (3 - 1)(2 - 1) = 2entre grados libertad (Tabla 6 del una incidencia acumulada en los 15 aos de seguimiento de 52, 72 y 94 muertes por 2 limtrofes altos y altos de colesterol cada 1.000 participantes con niveles 33,79) < 0,005. Esto es, la Apndice) para obtener un valordeseables, P = P( 2 total, respectivamente.
incidencia de muertes por enfermedad cardiovascular difiere significativamente Tabla 7.5Frecuencias observadas (esperadas) de entre los tres por grupos, obtenindose una incidencia acumulada muertes enfermedad cardiovascular (ECV) entre en loslos 15 aos de participantes del NHANES II con niveles de colesterol seguimiento de 52, 72 y 94ymuertes por cada 1.000 participantes con niveles total < 5,20, 5,20-6,19 6,20 mmol/l.
Mortalidad por ECV Colesterol deseables, limtrofes altos y altos de colesterol total, respectivamente. total (mmol/l) S No Total 6,20 5,20-6,19 < 5,20 Total 254 (198,1) 174 (175,8) [Tabla 7.5 135 (189,1) 563 2.459 (2.514,9) 2.234 (2.232,2) aproximadamente 2.456 (2.401,9) 7.149 2.713 2.408 aqu] 2.591 7.712
7.5 TEST DE TENDENCIA EN UNA TABLA r2

A partir de una tabla r2, el test chi-cuadrado de Pearson permite contrastar la hiptesis
p1se (1 desprende p1 ) (1p pp 2-) De este De resultado este resultado se desprende que p p2que es un p estimador es un estimador puntual puntual insesgado insesgado de la de la p1 p 2 z1 / 2 1 2 1 ,2 n n 1 2 Inferencia sobre proporciones 1 - 2 entre entre expuestos y no expuestos, y no expuestos, E(p1 -E p(2p )1= - p1 - = 1 diferencia diferencia de riesgos de riesgos subyacente subyacente 1 - 2 expuestos 2)
siguen alguna tendencia determinada lo largo dehiptesis los grupos. En este apartado se presenta un = 2 frente a la hiptesis alternativa bilateral H1: 1 a Bajo la nula de 2. con sus correspondientes continuacin, se relacionan las proporciones observadas p i test especfico para detectar lala existencia gradiente o componente (creciente o que esque simtrico es simtrico alrededor alrededor de diferencia de2, la..., diferencia deun proporciones de proporciones muestrales muestrales conlineal una con amplitud una amplitud simplemente tomar los valores 1, r de indicando el orden de los grupos. A decreciente) entre las proporciones de los sucesivos grupos. : ualdad de proporciones H0 1 = 2 = , se cumple que puntuaciones si mediante el estadstico directamente directamente proporcional proporcional a la estimacin a puntuacin la estimacin de su error de su estndar. error continuacin, se relacionan las proporciones observadas piestndar. con sus correspondientes En primer lugar, se asigna una s i a cada una de las muestras ordenadas. Esta puntuacin puede representar un atributo numrico del grupo (ver Ejemplo 7.9), o simplemente 2 ..., 1orden 1 diferencias r Para determinar Para determinar si existen si existen diferencias en la probabilidad en la probabilidad subyacente subyacente de desarrollar de desarrollar la la mediante el estadstico puntuaciones s ~ i1, tomar los 2, r N p1valores , de los grupos. A continuacin, se relacionan las 0 , ( 1indicando ) p2 el n ( p p )( s s ) n1i correspondientes n2 proporciones observadas sus puntuaciones si mediante el estadstico i pi i con i 1 2 enfermedad enfermedad entre los entre sujetos los sujetos expuestos expuestos y no expuestos, y no expuestos, se contrasta la hiptesis la hiptesis nula H nula H0: 0: = , 2 se contrasta r r 2 p (1 p ) ni ( s i s ) ni ( p i p )( s i s ) nde corresponde probabilidad de enfermar comn para expuestos y no 1 a =la frente = 2 frente a la hiptesis a la hiptesis bilateral bilateral H1: 1H 2. la Bajo hiptesis la hiptesis nula de nula de ialternativa 1 i 1 .1 Bajo 21 1: 2 2 alternativa = , r 2 p (1 se p )puede ni ( s i s) es desconocida, su valor estimarse puestos. Aunque igualdad esta probabilidad = == , , se cumple que que igualdad de proporciones de proporciones H0: 1H 0: 21 2 = cumple 1 proporcin donde ni es el tamao de cada muestra, n = ni, p = nipi/n esi la
e es simtrico alrededor de la diferencia de proporciones muestrales con una amplitud 2. El intervalo de confianza de confianza al 100(1 al 100(1 - )%-para )%para se 2 se obtiene siguiendo siguiendo el mismo el mismo 2. El intervalo 1 - 2 1 - obtiene 7.5 TEST DE TENDENCIA EN UNA TABLA r2 ectamente proporcional a la estimacin de su error estndar. procedimiento utilizado utilizado para una para proporcin una proporcin como como A partirprocedimiento de una tabla r2, el test chi-cuadrado de Pearson permite contrastar la hiptesis nula de : = = ... = frente a la hiptesis alternativa H1: i j, donde igualdad de proporciones H 1 2 r Para determinar si existen diferencias en la0 probabilidad subyacente de desarrollar la i y j son 2 muestras cualesquiera. Un resultado significativo de indicara que al p1 (1 pp (1 ) p p12)(1 pp (1 ) esta p 2 prueba ) 11 22 p p z p , , menos 2 de las r proporciones poblacionales son heterogneas. En el caso de que los grupos o 1 p 2 1 1 2 / 2 z1 / 2 fermedad entre los sujetos expuestos y no expuestos, se contrasta lanhiptesis nula H0: n n n 1 1 2 2 simplemente tomar los valores 1, 2, ..., r indicando el orden de los grupos. A muestras estn intrnsecamente ordenados, cabra preguntarse adems si estas proporciones
dondecombinada ni es el tamao de cadaen muestra, n = n i, p = /n es = (an+ )/( n1 la + proporcin combinada en diante la proporcin de enfermos ambas muestras ipic 1 1 1 1 las ~ ~ combinada en todas las y s /n es la media. Notar que si todas lasmuestras muestras y s == nn /in es la puntuacin media. Notar que si las proporciones observadas ii de cada muestra, n = n ,) = nip /n es la proporcin donde ni es el tamao is i i p p p N2 N , 0 , (1 0 , (p 1 ) puntuacin 1 p 21 , estadstico ser grande. tienden a aumentar o disminuir con las puntuaciones, el numerador del n n n n 1 21 2 = m1/n. As, el estadstico propuesto para este test es Si, por el tienden contrario, las proporciones no varan en funcin de la de cada grupo, el proporciones observadas a aumentar o disminuir con las puntuaciones, elpuntuacin combinada en todas las muestras y s = nisi/n es la puntuacin media. Notar que si las numerador estar prximo a 0. Bajo la hiptesis nula de ausencia de una componente lineal en donde donde corresponde grande. corresponde a la por probabilidad a la de enfermar de enfermar comn comn para expuestos para expuestos y no chi-cuadrado y no la tendencia, el estadstico anterior seguir aproximadamente una distribucin numerador del estadstico ser Si, el probabilidad contrario, las proporciones no varan en proporciones observadas tienden a aumentar o disminuir con las puntuaciones, el con 1 grado de libertad. Esta prueba se conoce genricamente como test chi-cuadrado de es desconocida, es desconocida, su valor su puede valor puede estimarse estimarse expuestos. expuestos. Aunque Aunque esta probabilidad esta probabilidad tendencia y, a diferencia del test de independencia o asociacin, puede aplicarse incluso uncin de la puntuacin de cada grupo, el numerador estar prximo a 0. Bajo la numerador del estadstico ser grande. Si, por el contrario, lascon proporciones no varan ensea cuando algunas muestras un tamao reducido, basta que la muestra total = 174/2.408 = 0,072 yp = 0,094 de las 135/2.591 = 0,052, p2tengan 3 = 254/2.713 suficientemente grande ycombinada la proporcin no muy extrema, n7 5. Finalmente, p(1 = (a p) += c)/( (a n + + )/(n1 + mediante mediante la lacomponente proporcin combinada enfermos enfermos en ambas en ambas muestras muestras 1c hiptesis nula de ausencia deproporcin una linealde encombinada la de tendencia, el estadstico funcin de la puntuacin de cada grupo, el numerador estar prximo a 0. Bajo la cabe resear que el test de(Figura tendencia no permite contrastar la tendencia idoneidadcreciente de la relacin lineal; sucesivas categoras 7.1). Para contrastar si esta es este test nicamente determina la existencia de una componente lineal significativa, anterior seguir aproximadamente una distribucin chi-cuadrado con 1es grado de n2) = m n2 /n = . As, m1/n. el As, estadstico el estadstico propuesto propuesto para este para test este test es 1) hiptesis nula dese ausencia de una componente ensla=tendencia, el6,90 estadstico independientemente de cul sea la relacin subyacente. = 4,65, 5,72 y s3 = significativa, asignan las puntuaciones s1lineal 2 ibertad. Esta prueba se conoce genricamente como test chi-cuadrado de tendencia y, anterior seguir aproximadamente una distribucin chi-cuadrado con 1 grado de correspondientes laejemplo mediana del colesterol total de cada categora. Aunque Ejemplo 7.9 Enael anterior se detectaron diferencias significativas en el riesgo de muerte por enfermedad cardiovascular entre los participantes del NHANES II con a diferencia del test de independencia o asociacin, puede aplicarse incluso cuando test chi-cuadrado de tendencia y, un libertad. Esta prueba se conoce podran asignarse las puntuaciones 1, 2 y 3, como es utilizar una medida niveles de colesterol total < genricamente 5,20, 5,20-6,19 y preferible 6,20 mmol/l. De hecho, se de observa claro en las incidencias acumuladas p1total = 135/2.591 = 0,052, p2 = 174/2.408 = algunas muestras tengan unincremento tamao reducido, basta con que la muestra sea a diferencia del test de independencia o asociacin, puede aplicarse incluso cuando 7 si7 tendencia de cada categora (media o mediana) para preservar laPara distancia 0,072 y p3 central = 254/2.713 = 0,094 de las sucesivas categoras (Figura 7.1). contrastar esta tendencia creciente es significativa, se asignan las s1 = 4,65, s2 = 5,72 suficientemente grande y la proporcin combinada no muy extrema, n con p (1 - puntuaciones p la ) 5. algunas muestras tengan un tamao reducido, basta que muestra total sea y s3 =las 6,90 correspondientes a la mediana del colesterol total cada categora. Aunque entre mismas. As, el numerador del estadstico del test de de tendencia vendra podran asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de tendencia Finalmente, cabe resear que el test de tendencia no permite contrastar lamuy idoneidad de n p (1 - p ) 5. suficientemente grande y la proporcin combinada no extrema, central de cada categora (media o mediana) para preservar la distancia entre las mismas. dado por As, el numerador del estadstico del test de tendencia vendra dado por a relacin lineal; este test nicamente determina la existencia de una componente lineal Finalmente, cabe resear que el test de tendencia no permite contrastar la idoneidad de N = {2.591(0,052 0,073)(4,65 5,78) significativa, independientemente de cul sea la relacin subyacente. 5, +test 2.408(0,0 72 0,0 73)(5,72 la 78) la relacin lineal; este nicamente determina existencia de una componente lineal + 2.713(0,094 0,073)(6,90 5,78)}2 = 15.364,56 significativa, independientemente de diferencias cul sea la relacin subyacente. Ejemplo 7.9 En el ejemplo anterior se detectaron significativas en el
riesgo de muerte por enfermedad cardiovascular entre los participantes del Ejemplo 7.9 Enpor el ejemplo anterior se detectaron diferencias significativas en el y el denominador 106 Pastor-Barriuso R. NHANES II con niveles total < 5,20, 5,20 6,19 y 6,20 mmol/l. De riesgo de de colesterol muerte por enfermedad cardiovascular entre los participantes del D = 0,073(1 - 0,073){2.591(4,65 - 5,78)2
n1
n2
Medidas de efecto en una tabla de contingencia
p2 es un estimador puntual insesgado de la
entre expuestos y no expuestos, E(p1 - p2) = 1 -
2 )% para 1 - 2 se obtiene siguiendo el mismo
135/2.591 0,1 = 0,052, p = 174/2.408 = 0,072 y p3 = 254/2.713 = 0,094 de las

Incidencia acumulada de muertes por ECV
rcin como
sucesivas categoras (Figura 7.1). Para contrastar si esta tendencia creciente es

0,08
significativa, se asignan las puntuaciones s1 = 4,65, s2 = 5,72 y s3 = 6,90 p1 (1 p1 ) p 2 (1 p 2 ) , 0,06 a la mediana del colesterol total de cada categora. Aunque n1 n 2 correspondientes
podran asignarse las puntuaciones 1, 2 y 3, es preferible utilizar una medida de cia de proporciones muestrales 0,04con una amplitud tendencia central de cada categora (media o mediana) para preservar la distancia n de su error estndar. entre las mismas. As, el numerador del estadstico del test de tendencia vendra 0,02 s en la probabilidad subyacente de desarrollar la dado por y no expuestos, se contrasta la 0 hiptesis nula H0: simplemente tomar los valores 1, 2, ..., r indicando el orden de los grupos. A N = {2.591(0,052 - 0,073)(4,65 - 5,78) bilateral H1: 1 2. Bajo la hiptesis nula de continuacin, 4,5 5 6 proporciones 6,5 observadas 7 pi con sus correspondie se5,5 relacionan las + 2.408(0,072 - 0,073)(5,72 - 5,78) Colesterol total (mmol/l) , se cumple que puntuaciones s i mediante el estadstico Figura 7.1 2 Figura 7.1 Incidencia acumulada de muertes por enfermedad cardiovascular = 15.364,56(ECV) en 15 aos de + 2.713(0,094 - 0,073)(6,90 - 5,78)}
1 1 0, (1 ) n1 n 2
seguimiento del estudio NHANES II segn niveles de colesterol total < 5,20, 5,20-6,19 y 6,20 mmol/l.
r ni ( p i p )( s i s ) , 2 = i 1 r 2 p (1 p ) ni ( s i s ) 2 de enfermar comn para expuestos y D no= 0,073(1 0,073){2.591(4,65 5,78) i 1 + 2.408(5,72 5,78)2 es desconocida, su valor puede estimarse + 2.713(6,90 5,78)2} = 454,78, donde ni es el tamao de cada muestra, n = ni, p = nipi/n es la proporcin donde p = (563/7.712 a + c)/(n1 += 0,073 es la proporcin global de muertes por enfermedad nfermos en ambas muestras en todas muestras = (2.5914,65 nisi/n es la+puntuacin cardiovascular en todos combinada los participantes del las NHANES II y ys= 2.4085,72 media. Notar q donde p = 563/7.712 = 0,073 es la proporcin global de muertes por enfermedad + 2.7136,90)/7.712 = 5,78 es la puntuacin media. El estadstico resulta entonces 2 = para este test es proporciones observadas aumentar conchilas puntuaciones, N/D = 33,78, que corresponde a un valor P = P(2 33,78)a< 0,005 en o ladisminuir distribucin 1 tienden cuadrado con 1 en grado delos libertad (Tabla 6del delNHANES Apndice). confirma que el cardiovascular todos participantes II Este y s resultado = (2.5914,65 + numerador del estadstico ser grande. Si, por el contrario, las al proporciones no riesgo de mortalidad por enfermedad cardiovascular aumenta significativamente aumentar el+ nivel de colesterol total. 2.4085,72 2.713 6,90)/7.712 = 5,78 es la puntuacin media. El estadstico funcin de la puntuacin de cada grupo, el numerador estar prximo a 0. Bajo
, y el denominador por y el denominador por
resulta entonces 2 = N/D7= 33,78, que corresponde a un valor P = P( 12 33,78) hiptesis nula de ausencia de una componente lineal en la tendencia, el estadst 7.6 MEDIDAS DE EFECTO EN UNA TABLA DE CONTINGENCIA
< 0,005 en la distribucin chi-cuadrado con 1 grado de en libertad (Tabla 6 no delchi-cuadrado En epidemiologa y en otras aplicaciones del anlisis de datos salud pblica, slo interesa con 1 grado d anterior seguir aproximadamente una distribucin determinar el grado de significacin estadstica sino tambin obtener estimadores de efecto o Apndice). Este resultado confirma que el riesgo detabla mortalidad por enfermedad medidas de la magnitud de la libertad. asociacin. A partir de 22 pueden obtenerse distintas chi-cuadrado de tend Esta prueba seuna conoce genricamente como test medidas de efecto, tales como la diferencia de riesgos, el riesgo relativo y el odds ratio. La cardiovascular significativamente al el nivel de colesterol total. diferencia de riesgosaumenta o proporciones, que ya discuti en el Apartado 7.3, permite determinar a diferencia delse test deaumentar independencia o asociacin, puede aplicarse incluso cua la diferencia en la tasa de incidencia o prevalencia de la enfermedad entre los sujetos expuestos y no expuestos en un estudio algunas prospectivo o transversal, respectivamente. En estecon apartado muestras tengan un tamao reducido, basta que lase muestra total sea revisan los mtodos de inferencia sobre el riesgo relativo y el odds ratio, as como sus respectivos [Figura 7.1 aproximadamente aqu] mbitos de aplicacin. suficientemente grande y la proporcin combinada no muy extrema, n p (1 - p
17 R. 107 Pastor-Barriuso Finalmente, cabe resear que el test de tendencia no permite contrastar la idone
la relacin lineal; este test nicamente determina la existencia de una componen
Riesgo > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos 7.6.1 relativo
El riesgo o razn de riesgos es lasi medida de efecto ms utilizada en estudios querelativo en no expuestos. Por ejemplo, = 1,25, los sujetos expuestos tienen 1,25 prospectivos para comparar laun incidencia de la enfermedad entre expuestos y no que los veces ms riesgo o son 25% ms propensos a desarrollar la enfermedad 7.6.1 Riesgo relativo expuestos, y se como El riesgo relativo odefine razn de riesgos es la medida de = efecto ms utilizada en estudios prospectivos - 1) = 100(1,25 - 1) 25%). no expuestos (100( para comparar la incidencia de la enfermedad entre expuestos y no expuestos, y se define como < 1 indica una menor probabilidad P(contraer D | E ) la enfermedad en expuestos que 1 de = , 2 P( D | E c ) en no expuestos. Por ejemplo, si = 0,80, los sujetos expuestos son un 20% donde 1 = P(D|E) y 2 = P(D|Ec) representan la probabilidad de desarrollar la enfermedad D entre los sujetos expuestos Ec, respectivamente. As, el riesgo (100(0,80 relativo donde 1 = P( D|E) y 2 E = Pno (Dexpuestos |Ec) representan la probabilidad de desarrollar la determina menos propensos ay desarrollar la enfermedad que los no expuestos - 1) cuntas veces es ms frecuente la enfermedad en expuestos que en no expuestos. Se trata, por c tanto, de = una medida de efecto multiplicativa puede tomarE cualquier valor no negativo, -20%). , respectivamente. As, el de enfermedad D entre los sujetos expuestos Eque y no expuestos tal forma que: riesgo relativo veces es ms frecuente la enfermedad en expuestos =Un valordetermina de y su cuntas inverso 1/ representan el mismo nivel de asociacin, pero en yy 1 indica la misma probabilidad de enfermar en expuestos y no expuestos P(D |E) =
P(D|Ec); es decir, la exposicin y la enfermedad son independientes. Cuanto ms alejado que ensentido no expuestos. Se trata, por tanto, una medida de efecto multiplicativa que opuesto. Por ejemplo, si de = 4, los sujetos expuestos son 4 veces ms est de 1 en cualquier sentido, mayor ser la magnitud de la asociacin entre exposicin y enfermedad. puede propensos tomar cualquier valor no de tal forma que: a desarrollar lanegativo, enfermedad que los no expuestos, o equivalentemente yy > 1 indica una mayor probabilidad de desarrollar la enfermedad en expuestos que en no expuestos. Por ejemplo, siprobabilidad = 1,25, losde sujetos expuestos tienen 1,25 ms riesgo o = no 1 indica la misma enfermar expuestos y no veces expuestos los expuestos son un 75% menos propensos aen contraer la enfermedad que los son un 25% ms propensos a desarrollar la enfermedad que los no expuestos (100( 1) c = 100(1,25 P 1) =|E 25%). ); es- decir, la exposicin la enfermedad son independientes. P (D|E) = (D 1) = 100(0,25 - 1) =y-75%). expuestos (100(1/ yy < 1 indica una menor probabilidad de contraer la enfermedad en expuestos que en no expuestos. Por ejemplo, si = 0,80, los sujetos expuestos un 20% menos propensos a Esta medida de efecto tambin puede aplicarse a estudiosson transversales en trminos 18 desarrollar la enfermedad que los no expuestos (100(0,80 1) = 20%). de la razn Sin embargo, y alel igual quenivel ocurra la diferencia de sentido y y Un valor de de prevalencias. y su inverso 1/ representan mismo de con asociacin, pero en opuesto. Por ejemplo, si = 4, los sujetos expuestos son 4 veces ms propensos a riesgos, el riesgo relativo no que es directamente estimable a partir de estudios desarrollar la enfermedad los no expuestos, o equivalentemente los no expuestos son un 75% menos propensos a contraer la enfermedad que los expuestos (100(1/ 1) = retrospectivos ya la proporcin de casos est predeterminada por el propio diseo 100(0,25 1) =que 75%).
Esta medida de efecto tambin puede aplicarse a estudios transversales en trminos de la del estudio. razn de prevalencias. Sin embargo, y al igual que ocurra con la diferencia de riesgos, el riesgo relativo es directamente estimable a en partir estudios retrospectivos que la proporcin A no partir de los datos observados unade tabla 22 (Tabla 7.1), un ya estimador puntual de casos est predeterminada por el propio diseo del estudio.
del riesgo relativo viene determinado por tabla 22 (Tabla 7.1), un estimador puntual del A partir de los datos observados en una riesgo relativo viene determinado por RR = p1 a / n1 , p 2 c / n2
que corresponde al cociente entre la proporcin de enfermos en la muestra de sujetos expuestos p1 = a/n1 y no expuestos p2 = c/n2.
19 Ejemplo 7.10 De la Tabla 7.2 se desprende que la proporcin de muertes por enfermedad cardiovascular es p1 = 254/2.713 = 0,094 en los participantes del estudio NHANES II con niveles de colesterol total superiores a 6,20 mmol/l y p2 = 309/4.999 = 0,062 en aquellos con niveles inferiores a 6,20 mmol/l. As, la estimacin puntual del riesgo relativo es
RR = 0,094/0,062 = 1,51;
108
Pastor-Barriuso R.
El clculo de un intervalo de confianza y un test de hiptesis para no resulta

Medidas de efecto en una tabla de contingencia sencillo ya que la distribucin muestral de su estimador RR es muy asimtrica,
particularmente cuando el riesgo relativo subyacente dista mucho del valor nulo 1. Para es decir, la incidencia acumulada de muertes por enfermedad cardiovascular en 15 aos de seguimiento es un de 51% superior en los sujetostrabajar con niveles altos de colesterol total solventar este problema inferencia, es preferible con el logaritmo natural del que en quienes tienen niveles ms bajos. riesgo relativo, cuya distribucin presenta una mayor simetra. De hecho, puede El clculo de un intervalo de confianza y un test de hiptesis para no resulta sencillo ya que la distribucin muestral dede su ambas estimador RR esson muy asimtrica, particularmente cuando - 1) el probarse que si los tamaos muestras suficientemente grandes n11(1 riesgo relativo subyacente dista mucho del valor nulo 1. Para solventar este problema de inferencia, es preferible con el logaritmo naturalde del riesgo relativo, distribucin 5 y n2 - 2) 5,trabajar el log(RR ) tiende a distribuirse forma normal concuya media log() 2(1 presenta una mayor simetra. De hecho, puede probarse que si los tamaos de ambas muestras son grandes + 1/ c -5 1/y n2n , 22(1 2) 5, el log(RR) tiende a distribuirse ysuficientemente varianza aproximada 1/an1/ n1 1 1(1 1) de forma normal con media log() y varianza aproximada 1/a 1/n1 + 1/c 1/n2, ~ N log( ), 1 1 1 1 . log( RR) a n1 c n 2
Ejemplo 7.11 En las Figuras 7.2(a) y (b) se presentan las distribuciones muestrales delEjemplo RR y del7.11 log(RR deFiguras mortalidad por cardiovascular entre los sujetos con En )las 7.2(a ) yenfermedad (b) se presentan las distribuciones un colesterol total 6,20 y < 6,20 mmol/l obtenidos a partir de 1000 muestras aleatorias simples de tamao NHANES por II. enfermedad Como puede observarse, ambas muestrales del RR 500 y deldel log(estudio RR) de mortalidad cardiovascular distribuciones estn centradas alrededor de los parmetros subyacentes 1,51 y log(1,51) = 0,42 en todos los participantes del estudio. Sin embargo, la distribucin muestral del 20 RR presenta una clara asimetra, mientras que el log(RR) se distribuye de forma aproximadamente normal.
25 20 Frecuencia relativa (%) en muestras de tamao 500 15 10 5 0 0 1 2 3 4 25 20 15 10 5 0 -1 0 1 2
(a )
25 20 15 10 5 0 0 1
RR
25 20 15 10 5 0 2 3 4 -1
(b )
log(RR)
(c )
OR
(d )
log(OR)
Figura 7.2
Figura 7.2 Distribucin muestral del RR (a), log(RR) (b), OR (c) y log(OR) (d) de mortalidad por enfermedad cardiovascular entre los sujetos con un colesterol total 6,20 y < 6,20 mmol/l en 1000 muestras aleatorias simples de tamao n = 500 obtenidas a partir del estudio NHANES II. Las lneas verticales en trazo discontinuo corresponden a los parmetros subyacentes = 1,51, log() = 0,42, = 1,57 y log() = 0,45.
a normal n1 c n 2 RR), puede obtenerse un En base a la distribucin aproximadamente del log( [Figura 7.2 aproximadamente aqu]
Inferencia sobre proporciones intervalo de confianza
1 / 2
) como al 100(1 logartmica - )% para el Deshaciendo la transformacin enlog( ambos lmites de este intervalo, el IC al En base a la distribucin aproximadamente normal del log(RR), puede obtenerse un para el riesgo relativo subyacente determinado por 100(1 sigue aproximadamente una distribucin estandarizada. Conviene que bajo H 0 )% 1 queda 1normal 1 entonces 1 el log( ) como intervalo confianza alaproximadamente 100(1 - En base ade la distribucin del log( log( RR ) )% zpara RR), . puede obtenerse un intervalo 1 / 2 normal a n1 c n 2 de confianza al 100(1 )% para el log( )coincide como : = 1 con la hiptesis H : = 2 de la destacar que esta hiptesis nula H 0 1 1 1 1 0 1 explog( RR) z1 / 2 1 1 1 1 . a n c log( ) nde . este intervalo, el IC al RR z 1 2 1 / 2 Deshaciendo la transformacin logartmica en ambos lmites comparacin de proporciones en dos muestras independientes, a n1 c n 2as como con la hiptesis
2 el del riesgo relativo subyacente queda entonces determinado por 100(1 - )% Deshaciendo la para transformacin en ambos lmites de este intervalo, el IC un al 100(1 logartmica de Pearson en una tabla 2 2. Este test es, por nula de independencia test Notar que por tratarse de una medida de efecto multiplicativa, el intervalo detanto, confianza Deshaciendo la transformacin logartmica en ambos lmites de este intervalo, el IC )% para el riesgo relativo subyacente queda entonces determinado por que bajo H0 sigue aproximadamente una distribucin normal estandarizada. Conviene al procedimiento alternativo para la misma hiptesis nula,que resultados no es simtrico alrededor de la estimacin puntual RR laarroja hiptesis nula de contrastar 1 1 . Asimismo, 1 1 determinado 100(1 )% para el riesgo relativo subyacente queda entonces . 0: 1 = 2 depor ) lahiptesis H 1 / 2 destacar que esta hiptesisexp nula H0: RR = 1z coincide con la log( a No n1 obstante, c n2 muy similares cuando el tamao muestral es grande. si la muestra es no efecto H0: = 1 puede contrastarse frente a la hiptesis alternativa bilateral H1: comparacin de proporciones en dos muestras independientes, como con la confianza hiptesis no es Notar que por tratarse de una medida de efecto multiplicativa, el intervalo de 1 1 1 as 1 moderada o pequea, el valor P de este test puede resultar algo impreciso, en cuyo caso exp RR ) z1efecto RR / 2 . Asimismo, .intervalo log( 1 mediante el estadstico simtrico alrededor de la de estimacin puntual lan hiptesis nulade deconfianza no efecto H0: Notar que por tratarse una medida de multiplicativa, el a n c 1 2 2 la de Pearson en una tabla 22. H Este test es, por tanto, 2 un nula independencia del test a = 1de puede contrastarse frente hiptesis alternativa bilateral 1: 1 mediante el estadstico es preferible utilizar los contrates basados en la diferencia de proporciones o el test no es simtrico alrededor de la estimacinlog( puntual RR) RR. Asimismo, la hiptesis nula de procedimiento alternativo para contrastar laefecto mismamultiplicativa, hiptesis que arroja resultados z de , nula,el Notar que por tratarse de una medida intervalo de confianza 1 1 1 1 de no Pearson. a la hiptesis alternativa bilateral H1: efecto H0: = 1 puede contrastarse frente a n c No n 2obstante, muy cuando el tamao muestral es grande. si la esnula de 1 nosimilares es simtrico alrededor de la estimacin puntual RR . Asimismo, lamuestra hiptesis 1 bajo mediante el estadstico que H0 sigue aproximadamente una distribucin normal estandarizada. Conviene Ejemplo 7.12 Retomando de este nuevo los datos del NHANES II presentados encaso la destacar moderada o pequea, el valor contrastarse P de test puede resultar algo impreciso, en cuyo : = 1 puede frente a la hiptesis alternativa bilateral H no efecto H 0 1: de que esta hiptesis nula H : = 1 coincide con la hiptesis H : = de la comparacin
0 0 1 2
proporciones en dos muestras independientes, as como log( RR ) con la hiptesis nula de independencia 2 ) resulta ser Tabla 7.2, el IC al contrates 95% para el log( es preferible utilizar los basados z en la diferencia ,de proporciones o el test 1 mediante el estadstico 2 test es, por tanto, un procedimiento alternativo para del test de Pearson en una tabla 22. Este 1 1 1 1 contrastar la misma hiptesis nula, que arroja resultados muy similares cuando el tamao 21 de Pearson. a 1 n1 c 1 n 2 1 1 muestra muestral es grande. No obstante, si la es moderada o pequea, el valor P de este test log( RR ) , log(1,51) z 0,975 z 254 caso 2.713 309 4 .999 los contrastes basados en la puede resultar algo impreciso, en cuyo es preferible utilizar 1 1 1 1 diferencia de proporciones o el test 2 de Pearson. Ejemplo 7.12 Retomando de nuevo los datos del n NHANES II presentados en la a n1 c 2 = 0,415 1,960,081 = (0,256; 0,574). Ejemplo Retomando de nuevo los datos ) resulta ser del NHANES II presentados en la Tabla 7.2,7.12 el IC al 95% para el log( Tabla 7.2, el IC al 95% para el log( ) resulta ser 21 Aplicando la exponencial a ambos lmites del intervalo, el IC al 95% para
log( 1,51) z 0,975 vendra dado por
1 1 1 1 254 2.713 309 4.999
21
= 0,415 1,96= 0,081 = (0,256; (exp{0,256}, exp{0,574}) (1,29; 1,78), 0,574).

Aplicando la exponencial a ambos lmites del intervalo, el IC al 95% para vendra dado por que es ligeramente asimtrico respecto a la estimacin puntual = 1,51. El Aplicando la exponencial a ambos lmites del intervalo, el IC alRR 95% para (exp{0,256}, exp{0,574}) = (1,29; 1,78), que es ligeramente asimtrico a lade estimacin = 1,51. El estadstico 1 es estadstico para el contraste derespecto la hiptesis no efectopuntual H0: =RR vendra dado por para el contraste de la hiptesis de no efecto H0: = 1 es
log(1,51) (exp{0,256}, exp{0,574}) = (1,29; = 1,78), z = 5,11, 1 1 1 1 254 respecto 2.713 a la 309 4.999 puntual RR = 1,51. El que es ligeramente asimtrico estimacin que corresponde a un valor P bilateral 2P(Z 5,11) = 2{1 (5,11)} < 0,001. Como caba : = nulo 1 es estadstico para de la hiptesis de efecto H esperar, este test el arroja un resultado significativo dado que el0valor 1 queda fuera de que corresponde a contraste un valor P bilateral 2P(Z no 5,11) = 2{1 - (5,11)} <=0,001. los lmites del intervalo de confianza. As, se concluye que los sujetos con niveles de colesterol total superiores a 6,20este mmol/l un 51% (IC al 95% 29-78%; < 0,001) ms riesgo Como caba esperar, test presentan arroja un1 resultado significativo dadoP que el valor log( ,51 ) = 5,11, z = de morir por enfermedad cardiovascular que quienes tienen niveles inferiores a este umbral. 1 1 1 1 22 254 2.713 309 4.999
110
Pastor-Barriuso R.
que corresponde a un valor P bilateral 2P(Z 5,11) = 2{1 - (5,11)} < 0,001.
, medirse mediante D(|E 7.6.2 Odds ratio la probabilidad P(P D)c de | Eque ) un sujeto de la poblacin expuesta vendra dada por presente o desarrolle enfermedad. Otra medida de frecuencia de la Medidas a de efecto en enfermedad una de contingencia La frecuencia de una dicha enfermedad D en una poblacin expuesta un factor Etabla suele entre los expuestos y puede estimarse que se conoce como el odds de estar enfermo P( D | E ) , vendra por la probabilidad P(P medirse dada mediante D E)c de (|D | Eque ) un sujeto de la poblacin expuesta mediante 7.6.2 Odds ratio presente o desarrolle dicha enfermedad.P Otra de frecuencia de la enfermedad ( D | medida E) , odds de estar enfermo entre los expuestos estimarse que se conoce como el La frecuencia de una enfermedad D en poblacin expuesta y a puede un factor E suele medirse a /una n1( D ca P |. E) vendra dada por mediante la probabilidad P(D|E) de queb un sujeto /n b de la poblacin expuesta presente o desarrolle 1 mediante dicha enfermedad. Otra medida de frecuencia de la enfermedad vendra dada por entre que se conoce como el odds de estar enfermo P( D | E ) los expuestos y puede estimarse , a / n1 por ca Ejemplo 7.13 La proporcin de muertes enfermedad cardiovascular entre los P ( D | E ) . mediante b / n1 b que se conoce como el odds de estar enfermo entre los expuestos y puede estimarse mediante participantes del NHANES II con niveles de colesterol total 6,20 mmol/l es que se conoce como el odds de estar enfermo a / n1 entre a los expuestos y puede estimarse . b / n1 b Ejemplo 7.13 proporcin decon muertes por enfermedad cardiovascular entre los esto es, porLa cada 10 sujetos altos de colesterol que no fallezcan por a niveles 254 mediante 0,094 ; n1 2.713 por enfermedad cardiovascular entre los Ejemplo La proporcin de muertes participantes del NHANES II con niveles de colesterol total que 6,20 mmol/l enfermedad cardiovascular, habr aproximadamente 1 muerte por dicha es causa esto es,7.13 por cada 10 sujetos con niveles altos de colesterol no fallezcan por a a / n 1 dea participantes del NHANES II con niveles colesterol total 6,20 mmol/l es los Ejemplo 7.13 La proporcin de muertes por enfermedad cardiovascular entre . es decir, 1 dehabr cada 11 sujetos altosambas de colesterol b / n b con niveles 1 los 15aproximadamente aos de seguimiento. Aunque la medidas enfermedad cardiovascular, aproximadamente 1difiere, muerte por dicha causade a a 254 interpretacin ; niveles 0 ,094 participantes del NHANES II con de colesterol total 6,20 mmol/l es n1 2.713 fallecer por enfermedad cardiovascular a interpretacin los 15de aos dedifiere, seguimiento. Por otrapor frecuencia facilitan misma informacin. esto es, por cada 10 la sujetos con niveles altos colesterol queambas no fallezcan los 15 aos de seguimiento. Aunque la medidas de es decir, aproximadamente 1 de cada 11 sujetos con niveles altos de colesterol fallecer Ejemplo 7.13 La proporcin de a muertes por enfermedad cardiovascular entre los 254 parte, el odds de morir la por enfermedad cardiovascular estos sujetos escausa por enfermedad cardiovascular a los aproximadamente 15 aos de Por otra parte, el odds es decir, aproximadamente 1 dehabr cada 11 sujetos con niveles altos de colesterol ; entre 0 ,seguimiento. 094 enfermedad cardiovascular, 1 muerte por dicha a de frecuencia facilitan misma informacin. n 2 . 713 1 entre Departicipantes forma equivalente, el odds II decon estar enfermo entre loses no expuestos se define morir por enfermedad cardiovascular estos sujetos del NHANES niveles de colesterol total 6,20 mmol/l es fallecer enfermedad cardiovascular a los 15 aos de seguimiento. Por otra los 15 por aos de seguimiento. Aunque la interpretacin difiere, ambas medidas de a 254 enfermo 0,103 ; los no expuestos se define como Dees forma equivalente, el odds de estar entre decir, aproximadamente 1 b de cada 11 sujetos con niveles altos de colesterol a2.459 254 parte, el odds facilitan de morir la por enfermedad cardiovascular frecuencia misma informacin. 0,094 ; entre estos sujetos es esto es, por cada 10 sujetos con niveles altos de colesterol no fallezcan por n 2 . 713 como 1 c fallecer por enfermedad cardiovascular los 15 aosque de seguimiento. Porenfermedad otra 23 P( D | Ea ) cardiovascular, habr aproximadamente 1 muerte por dicha causa a los 15 aos de , c c a P254 E0 | ) ambas seguimiento. Aunque la difiere, medidas de frecuencia facilitan la (D ; los De formael equivalente, el interpretacin odds de estar enfermo entre no expuestos se define c ,103 parte, odds de morir por enfermedad cardiovascular entre estos sujetos es es decir, aproximadamente 1 b de cada 11 sujetos con niveles altos de colesterol P D E ( | ) 2 . 459 misma informacin. , P( D c | E c ) como y el odds ratio o razn de odds entre expuestos no15 expuestos entonces fallecer por enfermedad cardiovascular los aos de queda seguimiento. Por otra 23 254ay De forma equivalente, el odds de estaraenfermo entre los no expuestos se define como 0,103 ; b 2.459 c determinado por y el odds ratio o razn odds entre expuestos y queda entonces parte, el odds de de morir por enfermedad cardiovascular entre estos sujetos es P( D | E ) no expuestos , c c 23 P( D | E ) determinado por c c c / P( D ) (D | E ) P( D | E )expuestos P( D | E ) Pqueda a |E 254 y el odds ratio o razn de no expuestos entonces determinado por y 0,103 ; = odds entre , c c c c c b 2 . 459 ( | ) / ( | ) ( | ) ( | ) P D E P D E P D E P D E y el odds ratio o razn de odds entre expuestos y no expuestos cqueda entonces P( D | E ) / P( D c | E ) P( D | E ) P( D | E c ) , = 23 P( D | E c ) / P( D c | E c ) P( D c | E ) P( D | E c ) determinado por puntual cuya estimacin cuya estimacin puntual c cuya estimacin puntual P( D | E ) / P ( D ) /n ( D | ad E P E ) P( D c | E c ) (a / |n 1 )( d 2) = , c OR = c c c | ) ( | ) ( | ) P( D | E c ) / P( D E P D E P D E (b / n1 )(c / n 2 ) bc (a / n1 )(d / n 2 ) ad OR = de una tabla 22. coincide con la razn del producto cruzado de las celdas (b / n1 )(c / n 2 ) bc cuya estimacin puntual coincide conel lariesgo razn relativo, del producto cruzado deuna las celdas de una tabla 22. Al igual que el odds ratio es medida de efecto multiplicativa que toma valores no negativos. Si = 1, las probabilidades de enfermar en expuestos y no expuestos c relativo, Al igual el riesgo el odds detabla efecto coincide con razn del cruzado de celdas 2multiplicativa 2. (a / nratio d las /es n 2una ) medida ad de una 1 )( ), producto indicando coinciden P( D|que Ela )= P( D|E OR = independencia entre exposicin y enfermedad. Si por el contrario > 1, la probabilidad de contraer la enfermedad (b / n c / n 2 ) bcser mayor en expuestos que en no 1 )( odds = 1, las probabilidades de enfermar en expuestos y en que toma valores no negativos. Al igual que elque riesgo relativo, ratio es medida de efecto multiplicativa expuestos; mientras si < 1, Si la el probabilidad deuna desarrollar la enfermedad ser menor expuestos que en no expuestos. Resulta sencillo probar que el odds ratio estar siempre ms c coincide la razn del cruzado de las celdas de de una tabla 22. indicando independencia entre exposicin no expuestos coinciden Pproducto (D|E) Si =P (D =| E 1, ), las probabilidades enfermar en expuestos y y que tomacon valores no negativos.
c ratio es una medida de efecto multiplicativa Pastor-Barriuso Al igual que el riesgo el odds P > 1, la probabilidad de contraer laentre enfermedad sery R. enfermedad. Si por el contrario ), indicando independencia exposicin no expuestos coinciden Prelativo, (D|E) = (D |E
111
1, = la 1, probabilidad las probabilidades enfermar en expuestos que toma noel negativos. Si > de enfermedad ser y enfermedad. Si por contrario mayor en valores expuestos que en no expuestos; mientras que sicontraer de < 1, lala probabilidad de
254 4.690 = 1,57. 2.459 309 Inferencia sobre proporciones y no expuestos, de tal forma que P(Dc|E) y P(Dc|Ec) estn prximas a 1, el odds ratio Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% ser entonces aproximadamente igual al riesgo relativo. alejado del valor nulo 1 que el riesgo relativo. Adems, si la probabilidad de enfermar es baja en c superior en los sujetos con niveles de colesterol total superiores a 6,20 mmol/l que |E) y P(Dc|Ec) estn prximas a 1, el los sujetos expuestos y no expuestos, de tal forma que P(D odds ratio ser entonces aproximadamente igual al riesgo relativo. Ejemplo 7.14 A partir de datos observados el estudio 7.2), en aquellos con niveles inferiores a 6,20 en mmol/l. Este NHANES odds ratio II es(Tabla ligeramente OR =
Ejemplo 7.14 A partir de los datos observados en el estudio NHANES II (Tabla 7.2), la la estimacin del odds ratio mayor que puntual el riesgo relativo RR =es 1,51 estimado en el Ejemplo 7.10, aunque la estimacin puntual del odds ratio es
diferencia no es muy grande porque acumulada es relativamente baja 254 la 4.incidencia 690 = 1,57. OR = 2.459 309 tanto en expuestos 254/2.713 = 0,094 como en no expuestos 309/4.999 = 0,062. Por tanto, el odds de mortalidad por enfermedad cardiovascular es un 57% superior en los sujetos con niveles demortalidad colesterol total superiores a cardiovascular 6,20 mmol/l que aquellos Por tanto, el odds de por enfermedad esen un 57% con niveles inferiores a 6,20 mmol/l. Este odds obvio ratio es ligeramente mayor el riesgo relativo , resulta que el odds ratio puedeque estimarse a partir De la propia definicin de superior en los sujetos niveles 7.10, de colesterol total superiores a 6,20 RR = 1,51 estimado en con el Ejemplo aunque la diferencia no es muymmol/l grande que porque la incidencia acumulada es relativamente baja tanto en expuestos 254/2.713 = 0,094 de estudios prospectivos y transversales, ya que ambos diseos facilitan estimaciones como de aquellos con niveles inferiores a 6,20 mmol/l. Este odds ratio es ligeramente en no expuestos 309/4.999 = 0,062. las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definicin de que definicin el riesgo relativo RR = 1,51 estimado el Ejemplo 7.10, aunque la Demayor la propia de , resulta obvio que el en odds ratio puede estimarse a partir de estudios prospectivos y transversales, ya el que ambos diseos facilitan a estimaciones probabilidad condicional (ver Tema 2), odds ratio puede expresarse su vez en de las diferencia de no es muy grande la incidencia acumulada es relativamente baja la definicin de probabilidad probabilidades enfermar P(D|porque E) y P (D |Ec). Aplicando condicional 2), el odds expresarse a su vez enenfermos trminos de la probabilidad trminos (ver de laTema probabilidad de ratio estarpuede expuesto en enfermos y no como tanto en expuestos 254/2.713 0,094 como en no expuestos 309/4.999 = 0,062. de estar expuesto en enfermos y no = enfermos como P( D | E ) P( D c | E c ) P( D E ) P( D c E c ) c c c, |resulta obvio odds ratio a partir De la propia definicin P de Pel (D ) P(puede D Eestimarse ) (D E ) P( D | E c )que E
c ( E | D) P( E c ya | D que ) ambos diseos facilitan estimaciones de de estudios prospectivos yP transversales, , P( E | D c ) P( E c | D) las probabilidades de enfermar P(D|E) y P(D|Ec). Aplicando la definicin de de donde se desprende queodds el odds ratio tambin estimable a partir de estudios retrospectivos, estimacin puntual del ratio en es estudios retrospectivos coincide con la razn del aun cuando diseos (ver no facilitan informacin alguna sobre las probabilidades de dondeestos se desprende que el odds ratio es tambin estimable a partir devez estudios probabilidad condicional Tema 2), el odds ratio puede expresarse a su en absolutas de enfermar en cruzado expuestos y no expuestos. Por supuesto, la estimacin puntual del odds ratio en producto estudios retrospectivos coincide condiseos la razn del producto cruzado retrospectivos, aun cuando no facilitan informacin alguna sobre las trminos de la probabilidad deestos estar expuesto en enfermos y no enfermos como
(a /m ad 1 )( d / m 2 ) probabilidades absolutas de enfermar en expuestos y no expuestos. Por supuesto, la .c OR = c c c P( D | E ) P( D | E )m 2 P ( D E ) P ( D E ) ( b / )( c / m ) bc 1 P( D c | E ) P( D | E c ) P( D c E ) P( D E c ) Los estudios retrospectivos suelen conducirse en enfermedades de baja incidencia, para las c c cualesLos la obtencin de un nmero suficiente de estudios con estudios retrospectivos en requerira enfermedades de baja prospectivos incidencia, 25 P( E | D) Psuelen (E | Dconducirse ) de casos , gran tamao muestral y amplio seguimiento. En tales circunstancias, si la incidencia de la ( E | D cdel ) Pestudio ( E c | D)retrospectivo es adecuado (esto es, casos incidentes P enfermedad es baja y el diseo para las cuales la obtencin de un nmero suficientes de casos requerira de estudios y controles representativos del nivel de exposicin en la poblacin libre de enfermedad), el odds ratiose constituye una buena aproximacin al riesgo relativo subyacente. En adelante, con gran tamao muestral amplio seguimiento. En tales circunstancias, si el de prospectivos donde desprende que el odds ratio es y tambin estimable a partir de estudios odds ratio se utilizar e interpretar como estimacin del riesgo relativo, asumiendo que se cumplen las condiciones citadas la incidencia de la enfermedad es baja no y el diseo informacin del estudio retrospectivo adecuado retrospectivos, aun cuando estos anteriormente. diseos facilitan alguna sobrees las (esto es, casos incidentes y controles nivel dePor exposicin en la probabilidades absolutas enfermar enrepresentativos expuestos y no del expuestos. supuesto, la Ejemplo 7.15 En de el estudio EURAMIC se obtuvo una muestra de casos incidentes de infarto de miocardio procedentes de las unidades de cuidados intensivos y una muestra poblacin libre de enfermedad), el oddsaratio constituye una buena aproximacin al aleatoria de controles seleccionados partir de la poblacin de referencia. El nmero de casos y controles con valores de colesterol HDL superiores o inferiores a 0,90 mmol/l se 25 riesgo relativo subyacente. En adelante, el odds ratio se utilizar e interpretar como presenta en la Tabla 7.3. Aunque el diseo retrospectivo del estudio no permite conocer la
112
estimacin Pastor-Barriuso R.
del riesgo relativo, asumiendo que se cumplen las condiciones citadas
anteriormente.
retrospectivo delhombres estudio no permite conocer la incidencia de infartoscomo entreun losriesgo poblacin de adultos, este odds ratio puede interpretarse con un colesterol HDL inferior a 0,90 mmol/l (100(0,58 - 1) = -42%). Medidas de efecto ena una tabla de contingencia sujetos con valores altos bajos de colesterol HDL, ses es posible obtener una relativo concluir que sujetos con un colesterol HDL superior 0,90 mmol/l Como lay incidencia deylos infarto agudo de miocardio relativamente baja en la El odds ratio un es medida de efecto cuya distribucin muestral es medida relativa de la asociacin entre el colesterol HDL y el riesgo de infarto de presentan 42% menos riesgo de multiplicativa padecer un puede infarto de miocardio que aquellos poblacin de una hombres adultos, este odds ratio interpretarse como un riesgo incidencia de infartos entre los sujetos con valores altos y bajos de colesterol HDL, s es notablemente asimtrica 7.2(c )), mientras que suentre transformacin logartmica miocardio mediante el(Figura odds ratio con un colesterol HDL inferior a 0,90 (100(0,58 - superior 1) = -42%). posible obtener una medida relativa de lammol/l asociacin el colesterol HDL y el riesgo relativo y concluir que los sujetos con un colesterol HDL a 0,90 mmol/l de infarto de miocardio mediante el odds ratio log(OR ) tiende aun distribuirse normalmente (Figuraun 7.2( d)) con varianza presentan 42% menos riesgo de padecer infarto deuna miocardio que aquellos 158 269 El odds ratio es una medida de efecto cuya distribucin muestral es OR = multiplicativa = 0,58. 381 193 de las frecuencias de una tabla 22 aproximadamente igual HDL a la suma de los inversos con un colesterol inferior a 0,90 mmol/l (100(0,58 - 1) = -42%). notablemente asimtrica (Figura c)), de mientras que es su relativamente transformacin logartmica Como la incidencia de infarto7.2( agudo miocardio baja en la poblacin de hombres adultos, este odds ratio puede interpretarse como un riesgo relativo y concluir 1 1 1 1 log( OR ) tiende distribuirse normalmente (Figura d )) mmol/l con unapresentan varianza var{log( OR )} 7.2( . distribucin que los sujetos con colesterol HDL superior a 0,90 un 42% El odds ratioaes una un medida de efecto multiplicativa cuya muestral esmenos a que b aquellos c d con un colesterol HDL26 riesgo de padecer un infarto de miocardio inferior aproximadamente igual a(Figura la suma de los las frecuencias de una tabla 22 a 0,90 mmol/l (100(0,58 1) = 42%). notablemente asimtrica 7.2( c )), inversos mientrasde que su transformacin logartmica Utilizando esta aproximacin normal a la distribucin muestral del log(OR) y log(odds OR) tiende distribuirse normalmente unadistribucin varianza El ratio a es una medida de efecto(Figura multiplicativa cuya muestral es 1 1 7.2( 1 d))1con var{log( OR )} . deshaciendo a continuacin la 7.2( transformacin logartmica, se obtiene ellogartmica intervalo de notablemente asimtrica (Figura c)), mientras que su transformacin log(OR) a b c d aproximadamente igual a la suma de los inversos de las frecuencias de una tabla 2 2 a la tiende a distribuirse normalmente (Figura 7.2(d)) con una varianza aproximadamente igual )%frecuencias para el odds ratio confianza al 100(1de - suma de los inversos las de una subyacente tabla 22 Utilizando esta aproximacin normal a la distribucin muestral del log(OR) y 1 1 1 1 var{log(OR)} . 1 a 1 b 1 c 1 dse deshaciendo a continuacin la transformacin el intervalo de obtiene exp log( OR) z1 / 2 logartmica, , a bmuestral c d Utilizando esta aproximacin normal a la distribucin del log(OR) y deshaciendo a el odds a ratio subyacente confianza 100(1 - )% para continuacin la transformacin logartmica, obtiene el intervalo de confianza al 100(1 )% Utilizandoal esta aproximacin normal lase distribucin muestral del log(OR) y para el odds ratio subyacente que no es simtrico alrededor de la estimacin puntual OR. De forma anloga, la deshaciendo a continuacin la transformacin logartmica, se obtiene el intervalo de con el ejemplo anterior, 95% para el odds 1 1 el 1 1 Ejemplo 7.16 Continuando z1 / 2 de la hiptesis IC al log(OR) bilateral , significacin estadstica exp del contraste nula a b c d H0: = 1 se obtiene el odds ratio subyacente confianza al 100(1 - )% para ratio de infarto agudo de miocardio entre los sujetos con niveles altos y bajos de que es simtrico alrededor de la estimacin puntual OR. De forma anloga, la significacin a no partir del estadstico quecolesterol no es simtrico alrededor estimacin puntual De forma anloga, la estadstico estadstica del contraste bilateral nula = a partir del de la hiptesis 1 H0: 1OR 11. se 1 obtiene HDL es , explog(OR) z1 / 2 a) b c d log(OR , z bilateral de la hiptesis significacin estadstica del contraste nula H0: = 1 se obtiene 1 1 1 11 1 1 1 exp log(0,58) z 0,975 Ejemplo 7.16 Continuando con el ejemplo anterior, el IC al 95% para el odds a b c 193 d OR a partir del estadstico que no es simtrico alrededor de la estimacin puntual . De 269 381 158 forma anloga, la que bajo H0 sigue aproximadamente una distribucin normal estandarizada. ratio de infarto agudodel de miocardio entre los sujetos con niveles altos y1 bajos de := se obtiene significacin estadstica contraste bilateral de nula H 0 aproximadamente una distribucin normal= estandarizada. que bajo H0 sigue log(OR ) la hiptesis = exp(-0,55 1,96 0,134) (0,44; 0,75). , z Ejemplo 7.16 Continuando con el 1 ejemplo anterior, el IC al 95% para el odds ratio de 1 1 1 colesterol HDL es a partir del estadstico infarto agudo de miocardio entre losconfianza sujetos niveles altos y bajos decon colesterol HDL es Por tanto, puede afirmarse con una 95% que los sujetos niveles a b con cdel d
1un 1 1 menos 1 riesgo de padecer un log( OR) 56% altos de colesterol HDL entre exp log( 0,58)tienen z 0,975 25 y un , una z aproximadamente distribucin normal estandarizada. que bajo H0 sigue 27 269 381 1 193 1 1 1 158 infarto de miocardio que quienes tienen niveles ms bajos=(100(0,75 - 1) = -25% y a b c d = exp( 1,96 0,134) (0,44; 0,75). 0,55
100(0,44 1) = -56%). Asimismo, contraste bilateral delos la hiptesis de niveles no Por tanto, -puede afirmarse con una el confianza del 95% que sujetos con altos de que bajo H0 sigue aproximadamente una distribucin normal estandarizada. colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un infarto de miocardio Por tanto, afirmarse el con una confianza del 95% que los sujetos con niveles 27 tienen = 1 mediante estadstico efecto H0: puede que quienes niveles ms bajos (100(0,75 1) = 25% y 100(0,44 1) = 56%). Asimismo, el contraste bilateral de la hiptesis de no efecto H0: = 1 mediante el estadstico altos de colesterol HDL tienen entre un 25 y un 56% menos riesgo de padecer un log(0,58) z= = 4,10 infarto de miocardio que quienes ms 1 tienen 1 niveles 1 1 bajos (100(0,75 - 1) = -25% y 27 269 381 193 158 100(0,44 - 1) = -56%). Asimismo, el contraste bilateral de la hiptesis de no
R. arroja resultado muy significativo P = 2P(Z -4,10) = 2{1 - (4,10)} <Pastor-Barriuso 0,001. efecto un H0: = 1 mediante el estadstico 113
Notar que este test es equivalente al contraste de hiptesis realizado en el Ejemplo log(0,58)
arroja un resultado muy significativo P = 2P(Z 4,10) = 2{1 (4,10)} < 0,001. Notar que este test es equivalente al contraste de hiptesis realizado en el Ejemplo 7.5 sobre la igualdad en la proporcin de sujetos con niveles bajos de colesterol HDL entre los casos de infarto y los sujetos libres de la enfermedad, de tal forma que los valores P resultantes de ambos procedimientos son virtualmente idnticos. 7.7 COMPARACIN DE PROPORCIONES EN DOS MUESTRAS DEPENDIENTES Hasta este punto se han presentado distintos mtodos para la comparacin de proporciones a partir de muestras independientes. Con cierta frecuencia, sin embargo, suelen emplearse muestras dependientes, que surgen tanto de observaciones tomadas en los mismos sujetos como en distintos sujetos emparejados de acuerdo a determinados factores pronsticos. En el Apartado 6.4 del tema anterior, se presentaron diversos diseos o mecanismos de generacin de datos dependientes. En general, el propsito de los diseos emparejados es aumentar la precisin de las comparaciones y, en mayor medida, mejorar la validez de las inferencias al controlar por posibles factores de confusin. En este apartado se aborda el tratamiento estadstico de datos binarios o dicotmicos procedentes de parejas dependientes. La muestra consiste en n parejas dependientes o correlacionadas, donde cada pareja est compuesta por dos observaciones de una variable dicotmica procedentes de distintas poblaciones. As, por ejemplo, en comparaciones antes y despus de un tratamiento, cada pareja de datos est constituida por la respuesta en un mismo sujeto antes y despus de dicho tratamiento. Igualmente, en un estudio de casos y controles emparejados, cada pareja de observaciones est formada por la presencia o ausencia de exposicin en cada caso y su correspondiente control. Para simplificar la presentacin, nos centraremos en adelante en un estudio de casos y controles emparejados. Para preservar el emparejamiento muestral, la unidad de anlisis ser cada pareja y no cada individuo. As, la organizacin de los datos por individuo mediante la Tabla 7.1 no resulta adecuada ya que se pierde la informacin relativa al emparejamiento. La forma apropiada de presentar los datos se muestra en la Tabla 7.6. Cada unidad de esta tabla representa una pareja, de tal forma que hay a parejas donde ambos caso y control estn expuestos al factor de riesgo, b parejas donde el caso est expuesto y el control no, c parejas donde el control est expuesto y el caso no, y d parejas donde ninguno est expuesto. Las a + d parejas donde ambos o ninguno de los miembros estn expuestos se denominan parejas concordantes, mientras las restantes b + c parejas son discordantes. Ejemplo 7.17 En el Ejemplo 6.12 se seleccionaron 50 casos de infarto de miocardio y 50 controles del estudio EURAMIC emparejados por grupos quinquenales de edad. A partir de sus valores del colesterol HDL (Tabla 6.1), se desprende que hay 23 parejas donde el caso de infarto y su correspondiente control presentan niveles altos de colesterol HDL (superior a 0,90 mmol/l), 6 parejas donde el caso tiene un nivel alto y el control bajo, 17 parejas donde el caso tiene un nivel bajo y el control alto, y 4 parejas donde ambos presentan niveles bajos de colesterol HDL. Los datos de este estudio de casos y controles emparejados se resumen en la Tabla 7.7. Tabla 7.6 Tabla de contingencia en un estudio de casos y controles emparejados.
Controles Casos Expuestos No expuestos Total
Expuestos a c a+c
No expuestos b d b+d
Total a+b c+d n
Comparacin de proporciones en dos muestras dependientes [Tabla 7.7 aproximadamente aqu]
Con objeto de evaluar la asociacin entre exposicin y enfermedad controlando por Tabla 7.7 Colesterol HDL en 50 casos de infarto de miocardio y 50 controles del estudio EURAMIC emparejados por grupos quinquenales aquellos factores de confusin utilizados en el emparejamiento, cada caso ha de ser de edad. comparado con su correspondiente control; esControles decir, las comparaciones deben estar donde la ltima igualdad refleja su relacin con el odds ratio subyacente . Despejando condicionadas a cada pareja. Por ello,23 los pares concordantes,6donde ambos miembros HDL > 0,90 mmol/l 29 de esta expresin, se tiene que estn o Total no expuestos, no aportan informacin sobre la asociacin a estudio y,50 en 40 10
HDL 0,90 mmol/l 17 4 21 Casos HDL > 0,90 mmol/l HDL 0,90 mmol/l Total
a las . consecuencia, el anlisis estadstico se limita 1 parejas discordantes. La probabilidad Con objeto de evaluar la asociacin entre exposicin y enfermedad controlando por aquellos factores de confusin utilizados en elexpuesto emparejamiento, cada caso ha de viene ser comparado de observar una pareja con el caso y el control no expuesto dada por con su puede mediante deben la proporcin observada b/( + c) pareja. de Como la probabilidad correspondiente control; es decir, estimarse las comparaciones estar condicionadas abcada c c Por ello, los concordantes, ambos de miembros estn o nocon expuestos, no aportan |D ), mientras que ladonde probabilidad obtener una pareja el control P( E|D)P (Epares parejas discordantes donde el a caso est y, expuesto, la estimacin puntual del odds ratio de a informacin sobre la asociacin estudio en consecuencia, el anlisis estadstico se limita c c lasexpuesto parejas discordantes. La probabilidad observar una pareja casoes expuesto y el )P( E |D). As, dado que con una el pareja y el caso no expuesto es P(E|Dde . Despejando donde laexpuesto ltima igualdad refleja su relacin con ratioque subyacente c enfermar entre expuestos y nopor expuestos es |Dcel ), odds mientras la probabilidad de obtener control no viene dada P( E|D)P (E c c discordante, de que expuesto es P(E|D )P(E |D). As, dado que una pareja con la el probabilidad control expuesto y el el caso casoest no expuesto de esta expresin, se tiene que una pareja es discordante, la probabilidad caso c)est /(b b /(b de c) quebel b expuesto es , OR = c P E E |D )P ) . Despejando (c 1( /(b )c | D /( ) c subyacente b c b cratio donde la ltima igualdad refleja su relacin con el odds , c c c c P( E | D) P( E | D ) P( E | D . ) P( E | D) 1 1 de esta expresin, se refleja tiene que que coincide con la razn entre tipos de Si el nmero de donde la ltima igualdad suambos relacin con elpares oddsdiscordantes. ratio subyacente . Despejando de
esta expresin, se tiene que puede estimarse mediante la proporcin observada b/(b + c) de Como la probabilidad parejas discordantes b con el caso expuesto es superior al nmero de parejas . 1 parejas discordantes elexpuesto, caso est el expuesto, la estimacin del odds ratio de discordantes c con eldonde control odds ratio ser mayor puntual de 1 y la exposicin 30 Como la probabilidad puede estimarse mediante la proporcin observada b/(b + c) de parejas enfermar entre expuestos y no expuestos es discordantes donde el caso expuesto, la estimacin del de enfermar entre est puede estimarse mediante lapuntual proporcin observada b/( c) de Como la probabilidad estar directamente asociada con la enfermedad; mientras que siodds b es ratio inferior abc+ , el expuestos y no expuestos es odds ratio ser menor de 1 y exposicin estar con la ratio de parejas discordantes donde ella caso est expuesto, labestimacin puntual del odds b /(b c) b inversamente /( c) b asociada , OR = 1 b /(b c) c /(b c) c enfermedad. enfermar entre expuestos y no expuestos es
que coincide con la razn entre ambos tipos de pares discordantes. Si el nmero de parejas Al igual en muestras independientes, el log( OR ) tambin se Si distribuye de de forma que coincide con la raznexpuesto entre ambos tipos pares discordantes. el nmero discordantes bque con el caso superior nmero discordantes c con el c) de al /(b bes b /( b c) de b parejas exposicin , directamente asociada con OR = mayor de 1 y la estar control expuesto, el odds ratio ser 1 b /( b c) c /(b c) media c parejas )y varianza aproximadamente normal muestras dependientes, parejas discordantes bque conen elb caso expuesto es superior al nmero de la enfermedad; mientras si es inferior ac , el oddscon ratio ser log( menor de 1 y la exposicin estar inversamente asociada con la enfermedad. discordantes c con el expuesto, el odds ser mayor de Si 1 el yel la exposicin aproximada b +la 1/ c.control El intervalo de confianza al 100(1 - )% para odds ratio que coincide1/ con razn entre ambos tipos de ratio pares discordantes. nmero de Al igual que en muestras independientes, el log(OR) tambin se distribuye de forma estar directamente asociada enfermedad; mientras que by es inferior a c, el aproximadamente normal en muestras dependientes, con media log(si ) varianza aproximada 1/b subyacente resulta entonces parejas discordantes b con el con casola expuesto es superior al nmero de parejas + 1/c. El intervalo de confianza al 100(1 )% para el odds ratio subyacente resulta entonces odds ratio ser menor de 1 y la exposicin estar inversamente la discordantes c con el control expuesto, el odds ratio ser mayorasociada de 1 y la con exposicin 1 1 explog(OR) z1 / 2 . enfermedad. b c estar directamente asociada conla enfermedad; mientras que si b es inferior a c, el
Alratio igual quemenor en muestras el log( OR) tambin se distribuye de forma odds ser y independientes, la exposicin estar inversamente asociada con slo la Ejemplo 7.18 Ende la 1 Tabla 7.7 se tienen 6 parejas discordantes donde el caso de infarto tiene7.18 un nivel de colesterol HDL y 17discordantes parejas discordantes donde slo el Ejemplo En la alto Tabla 7.7 se tienen 6 parejas donde slo el caso ) y varianza aproximadamente normal en muestras dependientes, con media log( enfermedad. de infarto tiene un nivel alto de colesterol HDL y 17 parejas discordantes donde aproximada 1/b en + 1/ c. El intervalo de confianza al 100(1 - )% para el odds ratio Pastor-Barriuso Al igual que muestras independientes, el log( OR) tambin se distribuye de forma R. aproximadamente normal en muestras dependientes, con media log() y varianza subyacente resulta entonces
115
slo el control presenta un nivel alto, de lo cual se deduce que la estimacin slo el control presenta puntual del odds ratio es un nivel alto, de lo cual se deduce que la estimacin puntual del odds un ratio es alto, de lo cual se deduce que la estimacin puntual del odds control presenta nivel 6 OR = = 0,35, ratio es 17 6 OR = = 0,35, 17 y su IC al 95% y su IC al 95% y su IC al 95% 1 1 explog(0,35) z 0,975 6 17 1 1 explog(0,35 )exp( z 0 , 975 = 1,04 1,96 0,475) = (0,14; 0,90). 6 17
Por tanto, el riesgo de infarto agudo de miocardio es inferior en un 65% (IC al 95% = exp(-1,04 1,960,475) = 0,90). respecto a aquellos 10-86%) los sujetos con niveles > (0,14; 0,90 mmol/l Por tanto, en el riesgo de infarto agudo de de colesterol miocardioHDL es inferior en un 65% (IC al con niveles 0,90 mmol/l. La conclusin de este estudio emparejado es consistente con la obtenida los Ejemplos 7.15 y 7.16 en la muestra completa e independiente Por tanto, elen riesgo de infarto agudo de miocardio es inferior un 65% (IC al de casos 95% 1086%) en los sujetos con niveles de colesterol HDL >en 0,90 mmol/l y controles del estudio EURAMIC. Aunque esta estimacin de efecto es ms imprecisa por disponer nicamente de 50 parejas, ser menos propensa a0,90 posibles sesgos derivados 95% 10 en los sujetos con niveles de colesterol HDL > mmol/l respecto a86%) aquellos con niveles 0,90 mmol/l. La conclusin de este estudio de la diferencia de edad entre casos y controles. 2 bc respecto a aquellos con niveles 0,90 mmol/l. La conclusin de estudio emparejado es consistente con la 2obtenida 7.15 yeste 7.16 en la b en los Ejemplos 2 El mtodo ms extendido para contrastar la hiptesis nula de independencia entre exposicin { ( )} ( ) b E b b c 2 2 = . y enfermedad en un estudio emparejado en la frecuencia b de emparejado es consistente con en los comparar Ejemplos 7.15 y 7.16 enobservada la b var( b) la obtenida b del c estudio muestra completa e independiente deconsiste casos yccontroles EURAMIC. pares discordantes donde el caso est expuesto4con su frecuencia esperada bajo la hiptesis nula. Aunque Si no hubiera asociacin entre exposicin y frecuencia esperada sera muestra completa e independiente de casos y enfermedad, controles delesta estudio EURAMIC. esta estimacin de efecto es ms imprecisa por disponer nicamente de simplemente la mitad del nmero total de parejas discordantes (b + c)/2, con lo cual el estadstico Bajo la hiptesis nula de no efecto, este estadstico sigue aproximadamente una de del contraste viene determinado Aunque esta estimacin depor efecto es ms imprecisa por disponer de 50 parejas, ser menos propensa a posibles sesgos derivados de la nicamente diferencia
b c permite obtener el valor P sesgos distribucin chi-cuadrado con 1 grado a de libertad, 50 parejas, ser menos propensa posibles la diferencia de edad entre casos y controles. b lo que derivados de 2 (b c) 2 {b E (b)} 2 2 = . 2 2 en 1 . Este como edad la probabilidad derecha delbestadstico b c la distribucin var( ) bc entre casosayla controles. El mtodo ms extendido para contrastar la hiptesis 4 nula de independencia entre contraste se conoce como el test de McNemar y se aplica cuando la varianzauna de b bajo Bajo hiptesis de no efecto, este estadstico sigue aproximadamente distribucin El la mtodo msnula extendido para contrastar la hiptesis nula de independencia entre exposicin y enfermedad en un estudio emparejado consiste en comparar la frecuencia chi-cuadrado con 1 grado de libertad, que permite obtener el valor P como la probabilidad Bajo la hiptesis nula de no efecto, lo este estadstico sigue aproximadamente una la hiptesis nula es var( b ) = ( b 2 + c)(1 - ) = (b + c)/4 2 5; es decir, cuando el nmero la distribucin consiste se conoce como el test a la derecha del estadstico en 1 . Este contraste exposicin enfermedad en un estudio en comparar la frecuencia observada by de pares discordantes dondeemparejado el caso est expuesto con su frecuencia de distribucin McNemar y se aplica cuando varianza de b bajo la hiptesis nula es var( b) P = (b + c) chi-cuadrado con 1 la grado de libertad, lo que permite obtener el valor de parejas discordantes es superior o igual a 20. (1 ) = b (b +pares c)/4 5; es decir, cuando el nmero de parejas es superior o observada discordantes donde el caso est expuesto con discordantes su frecuencia esperada bajode la hiptesis nula. Si no hubiera asociacin entre exposicin y enfermedad, 2 2 igual a 20. como la probabilidad a la derecha del estadstico en la distribucin 1 . Este esperada bajo la hiptesis nula. Si del no hubiera asociacin entre exposicin y enfermedad, esta frecuencia esperada sera simplemente la McNemar mitad del nmero total de toma parejas Ejemplo 7.19 El estadstico test de en la Tabla 7.7 el valor contraste se 7.19 conoce como el test del de McNemar y se aplica la varianza de b bajo Ejemplo El estadstico test de McNemar en lacuando Tabla 7.7 toma el valor esta frecuencia esperada sera simplemente la mitad del nmero total de parejas discordantes (b + c)/2, con lo cual el estadstico del contraste viene determinado por 2 )17 6 ) 2(1(= ( b + )/4 5; es decir, cuando el nmero la hiptesis nula es var(b) = (b + c) = =c 5,26. 6 17 discordantes (b + c)/2, con lo cual el estadstico del contraste viene determinado por de A parejas es superior o igual a 20.1 grado de libertad (Tabla 6 del Apndice), partir discordantes de la distribucin chi-cuadrado con
2
116
Pastor-Barriuso R.
A partircomprobarse de la distribucin con 1est grado de libertad (Tabla puede que chi-cuadrado este estadstico comprendido entre6 del los percentiles 2 2 1 Ejemplo y El = 6,63, de lo cual se tiene que 0,01 < P <7.7 0,025. As, el riesgo de ;0,975 = 5,02 1 ;0,99 7.19 estadstico del de McNemar en la Tabla toma ellos valor Apndice), puede comprobarse quetest este estadstico est comprendido entre infarto agudo de miocardio difiere significativamente entre los sujetos con niveles de 32 colesterol HDL superiores e inferiores a 0,90 mmol/l. = 6,63, percentiles 12;0,975 = 5,02 y 12;0,99 2 (6 de 17lo ) 2 cual se tiene que 0,01 < P < 32 = = 5,26. 6 17 0,025. As, el riesgo de infarto agudo de miocardio difiere significativamente A partir de la distribucin chi-cuadrado con 1 grado de libertad (Tabla 6 del entre los sujetos con niveles de colesterol HDL superiores e inferiores a 0,90 Apndice), puede comprobarse que este estadstico est comprendido entre los
siguen argumentos similares a los descritos en este apartado y pueden consultarse en los CE: CORRECCIN POR CONTINUIDAD
libros de anlisis de datos categricos referenciados en este tema. Apndice: correccin por continuidad ice se derivan las versiones con correccin porun continuidad del intervalo cada paciente que conforma grupo de emparejamiento). Estas generalizaciones
. Si k es nmero y del test de hiptesis para una proporcin poblacional 7.8 APNDICE: CORRECCIN POR CONTINUIDAD siguen argumentos similares a los descritos en el este apartado y pueden consultarse en los La inferencia sobre proporciones puede extenderse a estudios donde se empareja ms de un por muestra de (por ejemplo, unintervalo estudio de casos y controles donde cada caso est emparejado eventos en una sujeto muestra aleatoria tamao , las el de confianza aleste libros de anlisis se de datos n categricos referenciados en tema. En este apndice derivan versiones con correccin por continuidad del intervalo con mltiples controles, o un ensayo clnico donde cada paciente que recibe un nuevo tratamiento est emparejado con varios pacientes bajo tratamiento estndar), as como a estudios donde se para vendr determinado por aquellos valores ( inf, que proporcin verifiquen poblacional . Si k es el nmero sup) una de confianza y del test de hiptesis para comparan ms de dosCORRECCIN muestras dependientes (por ejemplo, un ensayo clnico donde se asignan 7.8 APNDICE: POR CONTINUIDAD aleatoriamente distintos tratamientos a cada paciente que conforma un grupo de emparejamiento). observado eventos muestra aleatoria de a tamao n, el intervalo confianza al P(X k | de = en /2, una Estas generalizaciones argumentos similares los descritos en este de apartado y pueden inf) = siguen En este apndice se derivan las versiones con correccin por continuidad del intervalo consultarse en los libros de anlisis de datos categricos referenciados en este tema. )% para vendr determinado por aquellos valores ( , ) que verifiquen 100(1 inf sup P(X k | = sup) = /2, de confianza y del test de hiptesis para una proporcin poblacional . Si k es el nmero 7.8 APNDICE: CORRECCIN POR CONTINUIDAD P(se X k | = en inf ) = /2, a distribucin binomial de parmetros n en y . Como discuti el de eventos una muestra aleatoria de tamao por n, elcontinuidad intervalo de del confianza al de En observado este apndice se derivan las versiones con correccin intervalo confianza y del test de hiptesis para poblacional . Si k es el nmero observado Ppueden (una X proporcin k | aproximarse = sup) = /2, 2, si n(1 - ) 5,100(1 estas probabilidades binomiales )% para vendr determinado por aquellos valores ( inf , sup) que verifiquen de eventos en una muestra aleatoria de tamao n, el intervalo de confianza al 100(1 )% para vendr determinado por aquellos valores (inf, sup) que verifiquen istribucin normaldonde estandarizada como X es unaZdistribucin binomial de parmetros n y . Como se discuti en el P(X k | = inf) = /2, P(X k | = sup) = /2, Apartado si n/ 2 (1 -n ) 5, 3.3.2, estas probabilidades binomiales pueden aproximarse k 1 inf = /2, P(X k | = inf) P Z distribucin de parmetros n y . Como se discuti en el Apartado 3.3.2, donde X es una binomial n ( 1 ) inf inf la distribucin mediante normal estandarizada Z como aproximarse mediante la distribucin si n(1 ) 5, estas probabilidades binomiales pueden donde X es una distribucin binomial de parmetros n y . Como se discuti en el normal estandarizada Z como k 1 / 2 n sup 3.3.2, estas n inf /2. P(X k | = Apartado =) siP sup) P Z n( (1 -k ) = 5, probabilidades pueden Z k 1 / 2binomiales = /2, aproximarse X | P inf n sup (1 sup ) n ( 1 ) inf inf mediante la distribucin normal estandarizada Z como k 1 / 2 n sup = /2. = sup)aambas P(X k | se P Z rmino 1/2 de la correccin por continuidad aade expresiones n ( 1 ) sup sup k 1 / 2 n inf incluir la probabilidad de observar exactamente k eventos. Para = /2, P(X k | = inf) P Z n inf ) k 1 / 2 por Notar que el trmino 1/2 de la correccin aade a ambas expresiones con inf n inf (1 se continuidad = z1-/2, objeto de incluir de observar k eventos. Para simplificar los s clculos, las desviaciones tpicasla deprobabilidad estas distribuciones normales se np(1 por p) exactamente Notar que el trmino 1/2 de la correccin continuidad se a ambas expresiones clculos, las desviaciones tpicas de estas distribuciones normalesaade se sustituyen por la estimacin k 1 / 2 n sup ksup P(X deduce k | = que Z = /2. Para (1 p) , de lo cual se la estimacin np )1 / 2P con objeto de incluir la probabilidad de observar exactamente k eventos. n sup n= ( 1/2 sup z1. sup ) k np 1 / (2 n p 1 ) inf = z 1/2, simplificar los clculos, las desviaciones tpicas np(1 p) de estas distribuciones normales se Notar que el trmino 1/2 de la correccin por continuidad se aade a ambas expresiones k 1 /p 2 n lo Finalmente, despejando inf y , se obtiene el intervalo de confianza al 100(1 - )% sup sup sustituyen por la estimacin np ( 1 ) , de cual deduce que = zse 1/2. con objeto de incluir la probabilidad de exactamente k eventos. Para np (1observar p) para 34 simplificar los clculos, las desviaciones tpicas de estas normales separa Finalmente, despejando inf y sup, se obtiene el intervalo de distribuciones confianza al 100(1 )%
intervalo Finalmente, despejando inf y sup , se obtiene de confianza al 100(1 - )% cual p(lo 1 el p ) se 1 1z p/)2 , de deduce sustituyen por la estimacin pnp . que ( 1 n 2 n 34 para Este intervalo de confianza difiere de la versin sin correccin presentada en el Apartado 7.2 en que ambos lmites del sedifiere amplan cantidad 1/(2n) inversamente al Este intervalo deintervalo confianza deen la una versin sin correccin presentadaproporcional en el p ( 1 p ) 1 tamao muestral. La utilizacin de esta se fundamenta z1correccin . en el hecho de aproximar una p / 2 del en n 2 n distribucin discreta una distribucin normal Cuanto menor Apartado binomial 7.2 en que ambosmediante lmites intervalo se amplan una cantidad 1/(2 n) sea el continua. tamao muestral, ms imprecisa ser la aproximacin normal y, en consecuencia, la correccin 34por inversamente proporcional al tamao muestral. La utilizacin de esta correccin se Este intervalo de confianza difiere de la versin sin correccin presentada en el Pastor-Barriuso fundamenta en el hecho de aproximar una distribucin binomial discreta mediante una R. Apartado 7.2 en que ambos lmites del intervalo se amplan en una cantidad 1/(2n) distribucin normal continua. Cuanto menor sea el tamao muestral, ms imprecisa ser inversamente proporcional al tamao muestral. La utilizacin de esta correccin se
117
la aproximacin normal y, en consecuencia, la correccin por continuidad 1/(2n) ha de ser mayor. Por el contrario, si el tamao muestral es grande, la distribucin binomial k n 0 1 / 2 P = 2P(X k | H0) 2 P Z la correccin ) ser insignificante. estar muy prxima a la normal, por lo que 1/(2 n n ( 1 ) 0 0 continuidad 1/(2 ) ha de mayor. bilateral Por el contrario, si el tamao es grande, la distribucin El valor Pnpara el ser contraste de la hiptesis nulamuestral H0: = 0 puede obtenerse a binomial estar muy prxima a la normal, por lo que la correccin 1/(2 n ) ser insignificante. n 0 k 1 / 2 , = 2 P Z partir de P lapara aproximacin normal a lade distribucin binomial como n ( 1 ) : = 0 puede obtenerse a partir El valor el contraste bilateral la hiptesis nula H 0 0 0 de la aproximacin normal a la distribucin binomial como
118
que k n 0 1 / 2 resultados, se al doble de si p 0. Combinando ambos , tiene P = 2P (X k | H0) el valor P corresponde 2 P Z nn / 02) 1 k 0( 01 = 2P(X k | a H 2 PZdel test estadstico 0) derecha la probabilidad normal P estandarizada la n 0 (1 0 ) si la proporcin observada p > 0, o alternativamente como si la proporcin observada p > 0, o alternativamente como 10 1 / 2 k n p n | 0 k 0 P = 2P ( X k | H Z 1/ 2 0) 2 P| , | k n 0 | 1 = / 22 P Z n 2(n 1 ) 0 . 0) z n 1 0 0 (1 00() n 0 (1 0 ) nn 0 k 1/ 2 , = 2 P Z quenel valor P corresponde al doble de si p 0. Combinando ambos resultados, se tiene 0 (1 0 ) El test con correccin por continuidad incorpora el trmino -1/(2n) en el numerador la probabilidad normal estandarizada a la derecha del el test estadstico si p 0. Combinando ambos resultados, se tiene que valor P corresponde al doble de la probabilidad normal estandarizada a la derecha del test estadstico del si estadstico, de tal forma que el valor P ser mayor el obtenido el 35 ambos resultados, se ligeramente tiene que el valor Pque corresponde al en doble de p 0. Combinando 1 | p 0 | correspondiente contraste sin correccin por continuidad (Apartado 7.2). Esta la probabilidad normal estandarizada la del test estadstico | k n 0 a| 1derecha /2 2n . z 0 ) sea 0 (1 0 (1 0 ) correccin ser tanto mayor cuantonms reducido el tamao muestral. 1 | p n 0 | | k n 0 | 1 / 2 2n . el trmino z continuidad El Ejemplo test con correccin por incorpora 1/(2 n) en EURAMIC el numerador del 7.20 En el Ejemplo 7.1 los controles estudio incorpora el 0 ) del n 0se (1utilizaron 0) 0 (1 El test con correccin por continuidad trmino -1/(2 n ) en el estadstico, de tal forma que el valor P ser ligeramente mayor que el numerador obtenido en el n correspondiente contraste sin correccin por continuidad (Apartado 7.2). Esta correccin ser de hombres adultos para realizar inferencias sobre la prevalencia poblacional delmayor estadstico, de tal forma que el valor P ser ligeramente mayor que el obtenido en el tanto cuanto ms reducido sea el tamao muestral. El test con correccin por continuidad incorpora el trmino -1/(2n) ense el calculan numerador con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuacin correspondiente contraste sin correccin por continuidad (Apartado 7.2). Esta Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC para realizar inferencias sobre la prevalencia poblacional de hombres adultos niveles del estadstico, de tal forma que elde valor P ser ligeramente mayor que el obtenido el los correspondientes intervalos confianza y sea test el detamao hiptesis utilizando la conen correccin ser tanto mayor cuanto ms reducido muestral. bajos de colesterol HDL ( 0,90 mmol/l). A continuacin se calculan los correspondientes intervalos confianza y test de hiptesis utilizando la (Apartado correccin por continuidad. El IC correspondiente contraste sin correccin porpara continuidad Esta vendra dado por7.2). correccinde por continuidad. El IC al 95% al 95% para vendra dado por Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC correccin ser tanto mayor cuanto ms reducido sea el tamao muestral. 0,293(1 0,293) 1 de hombres adultos para realizar inferencias poblacional 0,293 z 0 , 975 sobre la prevalencia 539 2 539 Ejemplo 7.20 En el Ejemplo 7.1 se utilizaron los controles del estudio EURAMIC con niveles bajos de colesterol HDL ( 0,90 mmol/l). A continuacin se calculan = 0,293 (1,960,020 + 0,001) = (0,254; 0,333), para realizar inferencias sobre la prevalencia poblacional de hombres adultos los correspondientes intervalos de confianza y test hiptesis nula utilizando la0,30 sera y el estadstico corregido para el contraste bilateral de de la hiptesis H0: = niveles bajos de colesterol HDL ( bilateral 0,90 mmol/l). A continuacin se calculan y elcon estadstico corregido para el de la nula H0 : = 1 contraste 1 hiptesis vendra dado por correccin por continuidad. El IC al 95% para | p 0 | | 0,293 0,30 | 2 de 539 2n de confianza y test los correspondientes intervalos hiptesis utilizando la = 0,30, z= 0,30 sera 0,30(1 0,30) 0 (1 0 ) 0,293(1 0,293) 1 dado por 0,293 vendra correccin por continuidad. El IC al 95% para 975 539 z 0,n 539 2 539 36 con un valor P asociado en las tablas de la distribucin normal estandarizada P = 2P(Z con un asociado las tablas estandarizada Pcorregido = en 0 , 293 (de 1cabra la 0,distribucin 293 )+ 0,001) 1 0,30) = valor 2{1 P (0,30)} 0,764. Como esperar, elnormal intervalo confianza = 0,293 (1,96 0,020 = 0,333), z (0,254; de 0,293 = 0 , 975 539 2 539 el intervalo de 2P(Z 0,30) = 2{1 - (0,30)} = 0,764. Como cabra esperar, Pastor-Barriuso R. y el estadstico corregido para el contraste bilateral de la hiptesis nula H0: = = 0,293 (1,96 0,020 0,001) = (0,254; 0,333), confianza corregido por continuidad (IC al 95%+ 25,4 33,3%) es ligeramente ms 0,30 sera
Tabla 7.8 Intervalos de confianza (IC) y tests de hiptesis con correccin por continuidad.
IC al 100(1 )% Test estadstico
7.8 Intervalos de confianza (IC) y tests decon hiptesis con correccin por continuidad. Tabla 7.8 Tabla Intervalos de confianza (IC) y tests de hiptesis correccin por continuidad.
IC 100(1 - )% )% IC al 100(1 - al
Test estadstico Test estadstico
Una muestra muestra Una Una muestra Una muestra
1 p) 1 1 p) p( p (1 p z1 z1 / 2 1 // 2 2p z p 1 / 2 n 2n n 2 2nn n
1 1 0 | 0 | | p 0 | p 0 2 n 2n z z z (1 0 ) 0 (1 0 0 ) 0 0 0 0 n n n 1
1 p p 1 (1 p1 1 ) p1 2 2 ) p2 12 1 p2 1 p1 p (1p p 1 11 1 1 1( 1) 2( 2) 2 Dos muestras independientes independientesp1 z1 Dos muestras independientes 1 p2 2 1 22 //p Dos muestras p Dos muestras independientes z1 n n 1 2 z1 /2 2 / 1 2 n 2 n 2 n1 1 2 1 22 n1 n2 2n n2 n1 1 n2 2 n1 1 2
1 1 1 1 p2) 1 1 1) p(1 p ) p1 ( p (1p p ) p 2 (1
1 1 1 1 11 | p1 p2 | p1 | 1 p2 2 | 1 2 n2 n2 1 22 1 2 n1 2 n1 z z z 1 1 1 1 1 p ) p (1 p ) p ( n2 1 2 n1 n1 n2 1 2
2 2 2 2 2 2 (|| 2 )E O (2| Oij 2 E 1ij/ 2 ij | 1 / 2) 2 2 ij 2 ijij ij Eij 2 2 2 1 1 ii 1 jj 1 2
2 2 de Pearson* Test 2 de Pearson* Test deTest Pearson*
ij i j 1 1 ij i 1 j 1
Eij ij
Test de McNemar Test McNemar Test de de McNemar

2
() | b c | 1 ) 1 2 2| c2 (| b 2 bc
2 b c | 1 ) 2 () |2 ( | b c2 | 1 bc bc
* La correccin por continuidad no se aplica al test 2 de Pearson en tablas de contingencia mayores de 22.
2 * correccin por se test de Pearson tablas mayores de * La La correccin correccin por continuidad no se se aplica aplica no al test test 2 de al Pearson en tablas de en contingencia mayores de de 2 2 2. 2. * La La correccin por continuidad continuidad no se aplica aplica al test 2en detablas Pearson en tablas de de contingencia contingencia mayores de 2 2 2. 2. * por continuidad no al de Pearson de contingencia mayores
Apndice: correccin por continuidad
Pastor-Barriuso R.
119
46
46
por continuidad (IC al 95% 25,4-33,3%) es ligeramente ms amplio que su correspondiente intervalo sin correccin (25,5-33,2%, Ejemplo 7.1), y el valor P aumenta al aplicar dicha correccin (P = 0,764 versus 0,726, Ejemplo 7.1). No obstante, los resultados con y sin correccin son muy similares dado que el tamao muestral utilizado en este ejemplo es moderadamente grande. La correccin por continuidad tambin se aplica a la comparacin de proporciones en muestras independientes o dependientes y al test chi-cuadrado de asociacin en una tabla 22, ya que estos mtodos de inferencia utilizan una distribucin continua (normal o chi-cuadrado) para representar una distribucin de frecuencias discreta. Las versiones corregidas de estos procedimientos, cuya derivacin es similar al caso de una proporcin, se presentan en la Tabla 7.8. En general, la utilizacin de la correccin por continuidad da lugar a resultados ms conservadores; esto es, intervalos de confianza ms amplios y mayores valores P de los contrastes. El principal objetivo de esta correccin es aumentar la cobertura de los intervalos de confianza y reducir la probabilidad de un error de tipo I en los contrastes, especialmente cuando el tamao muestral es reducido. 7.9REFERENCIAS 1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002. 2. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth Edition. Oxford: Blackwell Science, 2001. 3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980. 4. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987. 5. Collett D. Modelling Binary Data, Second Edition. London: Chapman & Hall, 2002. 6. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. 7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition. New York: John Wiley & Sons, 2003. 8. Hennekens CH, Buring JE. Epidemiology in Medicine. Boston: Little, Brown and Company, 1987. 9. Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research: Principles and Quantitative Methods. New York: John Wiley & Sons, 1982. 10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. 11. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: Lippincott Williams & Wilkins, 2008.
120
Pastor-Barriuso R.
TEMA 8 MTODOS NO PARAMTRICOS

8.1 INTRODUCCIN En los temas anteriores se han presentado distintos mtodos de inferencia para datos de carcter continuo (Tema 6) y categrico (Tema 7). Estos procedimientos se conocen como mtodos paramtricos y asumen que los datos proceden de una poblacin cuya distribucin de probabilidad es conocida (normal o binomial), o que al menos la distribucin de los estadsticos empleados puede aproximarse mediante el teorema central del lmite. As, las inferencias se fundamentaban en la aproximacin normal a la distribucin de las medias y proporciones muestrales. Aunque en la mayora de las ocasiones estas asunciones son razonables, pudiera ocurrir que no se cumplan las condiciones necesarias para la realizacin de anlisis paramtricos, especialmente cuando los tamaos muestrales son muy reducidos. En tales circunstancias, es posible utilizar mtodos alternativos que realizan asunciones mnimas acerca de la distribucin de la variable a estudio, y que reciben colectivamente el nombre de mtodos no paramtricos o de distribucin libre. Antes de proceder a la descripcin de los mtodos no paramtricos ms utilizados, conviene apuntar sus principales ventajas e inconvenientes. Entre las ventajas fundamentales cabe destacar que: yy Los mtodos no paramtricos son muy robustos y, en consecuencia, pueden aplicarse a situaciones donde la utilizacin de pruebas paramtricas es cuestionable. As, por ejemplo, la comparacin de medias en dos muestras independientes requiere de tamaos muestrales suficientemente grandes para aplicar el teorema central del lmite y de una varianza homognea en ambas poblaciones, mientras que su equivalente no paramtrico permite contrastar globalmente la igualdad de distribuciones bajo la nica asuncin de que ambas distribuciones sean continuas. yy Como se ver ms adelante, la propia naturaleza de las pruebas no paramtricas las hace particularmente tiles para comparar variables cualitativas ordinales, cuyo tratamiento mediante mtodos paramtricos clsicos entraa problemas conceptuales ya que estas variables carecen de interpretacin numrica (ver definicin de tipos de variables en el Tema 1). Sin embargo, los mtodos no paramtricos presentan una serie de limitaciones que impiden su uso generalizado: yy Los mtodos no paramtricos se emplean casi exclusivamente para determinar la significacin estadstica de la comparacin entre grupos. Aunque existen procedimientos no paramtricos para obtener estimadores de efecto e intervalos de confianza, stos requieren de asunciones adicionales y su aplicacin es ms compleja. yy Si se cumplen las condiciones de aplicacin de las pruebas paramtricas, el uso de mtodos no paramtricos es un tanto ineficiente, lo que conlleva una leve prdida de potencia en el anlisis. Estudios de simulacin bajo la asuncin de normalidad han mostrado una perdida de potencia aproximada del 5% de las pruebas no paramtricas respecto a sus equivalentes paramtricos. yy Los mtodos paramtricos pueden extenderse fcilmente al anlisis multivariante de situaciones ms complejas. Aunque en la actualidad los mtodos no paramtricos han experimentado un fuerte desarrollo, su utilizacin es an limitada por la mayor complejidad y menor disponibilidad en los programas de anlisis estadstico de uso rutinario.
Mtodos no paramtricos
En general, los mtodos no paramtricos se emplean como complemento o alternativa a las pruebas paramtricas cuando no se cumplen las condiciones mnimas para la aplicacin de estas ltimas. En este tema se revisan los mtodos no paramtricos de uso ms frecuente, tales como el test de la suma de rangos de Wilcoxon, el test de los rangos con signo de Wilcoxon y el test exacto de Fisher. la variable (empates), se asigna a cada una de ellas la media de los rangos correspondientes. Finalmente, seRANGOS suman los DE rangos de una cualquiera de las dos 8.2 TEST DE LA SUMA DE WILCOXON la variable (empates), se asigna a cada una de ellas la media de los rangos muestras, seleccionemos por ejemplo la muestra, En el Apartado 6.3 se trat el problema deprimera la comparacin de variables continuas en dos muestras correspondientes. Finalmente, se suman los rangos de una cualquiera de las dos independientes. Si ambos tamaos muestrales n1 y n2 son suficientemente grandes para aplicar el teorema central del lmite, el test de la t de n1 Student permite realizar inferencias acerca de la muestras, seleccionemos por ejemplo la primera muestra, U = r diferencia de medias entre ambas poblaciones. Sin i . embargo, si la distribucin subyacente dista 1 mucho de ser normal y las muestras son muyi = pequeas, las medias muestrales no se distribuirn n1 de forma normal y la anterior prueba paramtrica no ser aplicable. Bajo estas circunstancias, U = ri . ha estadstico de utilizarse el equivalente no al test de la t de Student para muestras El del test de Wilcoxon se paramtrico basa en i =1 esta suma de rangos. independientes, que se conoce como el test de la suma de rangos de Wilcoxon. Este procedimiento permite contrastar globalmente la igualdad de distribuciones bajo la nica asuncin de que la El estadstico del test de una Wilcoxon se basa en esta suma de n rangos. variable a estudio tenga distribucin subyacente continua. Ejemplo 8.1 Supongamos que la muestra consiste en 1 = 10 casos de infarto de Si no se asume nada sobre la forma de la distribucin, parece razonable basar el contraste en miocardio y n2 = 10se controles aleatoriamente del estudio la variable (empates), asigna a seleccionados cada una de ellas media de rangos el orden de las observaciones deque ambas muestras y nola en sus verdaderos valores. Ejemplo 8.1 Supongamos la muestra consiste en n1 = 10 los casos de infartoPara de ello, se combinan las dos muestras ordenando los valores de menor a mayor. A continuacin, se asigna EURAMIC. LaFinalmente, Tabla 8.1 muestra los los niveles de de -caroteno en tejido correspondientes. se seleccionados suman rangos una cualquiera de adiposo las dos para que ocupa cada observacin dentro de la muestra combinada. Si existen el rango ri o posicin miocardio y n2 = 10 controles aleatoriamente del estudio varias observaciones con el mismo valor de la variable (empates), se asigna a cada una de ellas muestras, seleccionemos por ejemplo la primera muestra, estos sujetos. Al menor valor de ambas muestras 0,04 g/g se le asigna la media de20 los rangos correspondientes. Finalmente, suman los rangos de unael cualquiera de EURAMIC. La Tabla 8.1 muestra los niveles dese -caroteno en tejido adiposo para las dos muestras, seleccionemos por ejemplo la primera muestra, rango20 1, sujetos. al siguiente valor 0,05 g/g se le notorga el rango 2g/g y as 1 estos Al menor valorde ambas muestras 0,04 se sucesivamente le asigna el U = ri. i =1 hasta asignar el rango 20 al mayor valor 0,57 g/g. A los dos sujetos con idntico rango 1, del al siguiente valor 0,05 g/g se otorga elde rango 2 y as sucesivamente El estadstico test de Wilcoxon se basa en le esta suma rangos. El nivel estadstico del test de Wilcoxon se basa en esta suma de rangos. 0,13 g/g de -caroteno les corresponden las posiciones 7 y 8 y, en idntico hasta asignar el Supongamos rango 20 al mayor valor 0,57 g/g. A los con Ejemplo 8.1 que la muestra consiste endos n1 sujetos = 10 casos de infarto de = 10 controles seleccionados aleatoriamente del estudio EURAMIC. La miocardio y n consecuencia, 2se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones. nivel 0,13 g/g de -caroteno les corresponden las posiciones 7 y 8 y, en Tabla 8.1 muestra los nivelesque de la -caroteno en tejido adiposo estos 20 sujetos. Ejemplo 8.1 Supongamos muestra consiste en n1 = 10para casos de infarto de Al menor valor de ambas muestras 0,04 g/g se le asigna el rango 1, al siguiente valor 0,05 As, la suma de rangos en los casos de infarto es consecuencia, se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones. g/g se le otorga 2 y as sucesivamente hasta asignar el rango 20 al mayor valor miocardio y n2el =rango 10 controles seleccionados aleatoriamente del estudio 0,57 g/g. A los dos sujetos con idntico nivel 0,13 g/g de -caroteno les corresponden 10 As, la suma de rangos en8.1 los casos de infarto es el las EURAMIC. posiciones 7La y8 y, en consecuencia, asigna rango medio + 8)/2 = 7,5 a ambas Tabla muestra -caroteno en(7 tejido adiposo para ri = 1 +los 9 se +niveles ... + 19de = 96,5 observaciones. As, la suma de rangos en los casos de infarto es i =1 10 valor de ambas muestras 0,04 g/g se le asigna el estos 20 sujetos. Al menor ri = 1 + 9 + ... + 19 = 96,5 y en los controles i =1 rango 1, al siguiente valor 0,05 g/g se le otorga el rango 2 y as sucesivamente y en los controles
10 y en los controles hasta asignar el rango 20 al 0,57 A los dos sujetos con idntico = 13 +valor 2 + ... + 6 =g/g. 113,5. r j mayor j =1
nivel 0,13 g/g de entre -caroteno corresponden las posiciones 7 y 8 y, Notar que la eleccin una les u otra suma de rangos es arbitraria. Laen suma total de r j = 13 + 2 + ... + 6 = 113,5. rangos en ambas muestras es ( n + n )( n + n + 1)/2 = 20 21/2 = 210, de tal forma 2 suma 1 2 Notar que la eleccin entre una1u otra de rangos es irrelevante. La suma que una j =1 consecuencia, se asigna el rango medio (7 + 8)/2 = 7,5 a ambas observaciones. vez calculada la suma de rangos 96,5 en la primera muestra, la otra queda determinada por 210 96,5 = 113,5. total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 2021/2 = 210, de Notar que la eleccin entreen una ucasos otra suma de rangos As, la suma de rangos los de infarto es es irrelevante. La suma
10
122
Pastor-Barriuso R. tal forma
que una vez calculada la suma de rangos 96,5 en la primera muestra, la total de rangos en ambas muestras es (n1 + n2)(n1 + n2 + 1)/2 = 2021/2 = 210, de 10 r = 1 + 9 + ... + 19 = 96,5 otra queda determinada por 210 - i96,5 = 113,5. i = 1 tal forma que una vez calculada la suma de rangos 96,5 en la primera muestra, la
Test de la suma de rangos de Wilcoxon
Tabla 8.1 -caroteno en tejido adiposo en 10 casos de infarto miocardio y 10 y 10 Tabla 8.1 -caroteno en tejido adiposo en 10 casos de de infarto de miocardio
Tabla 8.1 -caroteno en tejido adiposo en 10 casos de infarto de controles seleccionados aleatoriamente del EURAMIC. [Tablaseleccionados 8.1estudio aproximadamente aqu] del estudio controles seleccionados aleatoriamente del estudio EURAMIC. miocardio y 10 controles aleatoriamente EURAMIC. Caso Caso ControlControl El objetivo es contrastar si las distribuciones F1 y F2 en Control ambas poblaciones son Caso -caroteno (g/g) (g/g) RangoRango (Rango ri) (r )(ri) -caroteno (g/g) (g/g) Rango (Rango r) -caroteno ( r j) -caroteno [Tabla 8.1 aproximadamente aqu] -caroteno (g/g) -caroteno (g/g) Rango (rj) j esta iguales H0: F1 = F2 frente a la hiptesisi alternativa bilateral H1: F1 F2. Bajo 0,04 1 0,25 13 0,04 0,04 1 0,25 13 1 0,25 13 0,14 9 0,05 2 s contrastar si las distribuciones F y F en ambas poblaciones son hiptesis nula, la suma de rangos esperada en la primera muestra sera igual a la suma 1 2 0,14 0,14 9 0,05 0,05 2 9 2 0,20 11 0,36 17 8.1 aproximadamente aqu] 0,20 0,20 11[Tabla 0,36 0,36 17 11 17 0,08 3 0,09 0,09 44 total de rangos 0,08 por la proporcin deFsujetos dicha muestra, = F2 frente a la hiptesis alternativa bilateral H1:3 F1 . Bajo en esta 0,08 0,09 2 3 4 0,21 12 0,33 0,33 16 8.1 aproximadamente aqu] 0,21 0,21 12[Tabla 0,33 16 12 16 El objetivo es contrastar si las distribuciones F1 y F poblaciones 2 en ambas 0,10 muestra 5 0,37 a suma de rangos esperada en la primera igual 0,10 18 son 0,10 5 a la suma 18 nsera n1 (0,37 n1 + n 2 + 1) 18 (n1 + 5 n1 0,37 2 )( n1 + n 2 + 1) . E ( U ) = = 0,13 0,28 14 0,13 7,5 0,28 0,28 14 0,13 7,5 14 7,5 n1F + n 2 2 2F en ambas El objetivo es contrastar si las distribuciones y poblaciones son : F = F frente a la hiptesis alternativa bilateral H : F F . Bajo esta iguales H 1 2 0 1 2 1 1 2 por la proporcin de sujetos en dicha muestra, 0,29 0,29 15 0,17 10 15 10 0,29 15 0,17 0,17 10 [Tabla7,5 8.1 aproximadamente aqu] 0,13 0,13 7,5 0,57 20 7,5 20 0,13 0,57 0,57 20 : F = F frente a la hiptesis alternativa bilateral H : F F . Bajo esta iguales H hiptesis nula, la suma de rangos esperada en la primera muestra sera igual a la suma 0 1 2 1 1 2 19 0,12 si de la primera el valor 0,48 19 0,12 muestra, 6 0,48 la 19 0,12 66 n1 +tanto, n 2 0,48 +1 n1suma n 2 rangos (n1 + n 2 )(Por ) u denota (n1 + ) observada en +1 n 1 E(U) = . = 10 10 10 10 n1 es + n 2 Elde 2las por 2 la proporcin objetivo contrastar si distribuciones F F2 en ambas poblaciones son 1 y muestra, total rangos por de sujetos enla dicha hiptesis nula, la suma de rangos esperada en primera muestra sera igual suma exacto de P vendra determinado la probabilidad bajo H de obtener una suma de 0 r = 96,5 r = 113,5 r = 96,5 rj a =la 113,5 i j i
i =1
i =1 j =1
iguales H0: F = F2distante frente a la muestra, hiptesis alternativa bilateraluH 1: F 1 F2. Bajo esta total de rangos por la proporcin de sujetos en dicha rangos tanto o1ms E (U ) que elvalor valor observado es decir, enota la suma de rangos observada en la primera el +n n1 (n; (n1 de n1 muestra, 2 )( n1 + n 2 + 1) 1 + n 2 + 1) E(U) = . = n + n 2 2 1 2 hiptesis nula, suma rangos esperada en laF primera muestra igual a lason suma El objetivo es la contrastar si las distribuciones ambassera poblaciones iguales 1 y F 2 en suma dra determinado por la probabilidad bajo de H 0 1de + obtener n 2 )(n +una nP n1 (n1 + n 2 + 1) (n 1 ) u de n 1= 2 (+ 1 0), P 2 U | H E ( U ) = . = H0: F1 = F2 frente a la hiptesis alternativa bilateral H1: F1 F2. Bajo esta hiptesis nula, la suma 2 sujetos 1 + n2 total de rangos por proporcin de en n dicha muestra, de rangos esperada en la primera sera igual a la suma total2de rangos el por la proporcin Por tanto, si u denota la suma de rangos observada en la primera muestra, valor ms distante de E (U ) que el valor observado u; esmuestra decir, de si sujetos dicha muestra, u > Een (U), o alternativamente una suma de exacto de P vendra determinado por la probabilidad H0 1de Por tanto, si u denota la suma de rangos observada la n primera muestra, el valor (n1 + n n + obtener n1 enbajo 1 (n 2 + 1) 2 )( n1 + n 2 + 1) P = 2P(U u | H ), 0( E U) = . = 2 = 2P(U n 2 P u1 | + Hn 2 0), rangos tanto o ms distante de E(U ) que el valor observado esobtener decir, una suma de de exacto de P vendra determinado por la probabilidad bajo Hu 0; ternativamente Por tanto, si u denota la suma de rangos observada en la primera muestra, el valor exacto de P Por tanto, si Esta u la observada en la primera muestra, el la valor vendra determinado por lasuma probabilidad bajo H0 de obtener una suma debajo rangos tanto o ms si u Etanto (U). probabilidad puede calcularse teniendo en cuenta que hiptesis rangos o denota ms distante dede E(rangos U) que el valor observado u ; es decir, P = 2P(U u | H0), distante de E(U) que el valor observado u; es decir, P = 2Pde (U P vendra u | H0), determinado por la probabilidad bajo H de obtener una suma de exacto nula de igualdad de distribuciones, cualquier combinacin de 0 rangos en la primera P = 2P(U u | H0), si u > E(U), o alternativamente rangos o ms distante de E(As, U) que ella valor observado u; es decir, de los n1 + n2 muestra probable. como el nmero de combinaciones si u > calcularse E(Utanto ),es o igualmente alternativamente a probabilidad puede teniendo en cuenta que bajo hiptesis si u > E(U), o alternativamente P = 2P(U u | H0), n(1U + n2 de distribuciones, cualquier combinacin de rangos P en=la primera P 2 u | ,H 0), la probabilidad posibles tomados depuede n1 en calcularse n1 es 0 para si u E(U). rangos Esta probabilidad teniendo en cuenta quebajo bajoH la hiptesis nula de n P=2 P(U 1 u| H0), si u E ( U ). Esta probabilidad puede calcularse teniendo en cuenta que bajo laes hiptesis igualdad de distribuciones, cualquier combinacin de rangos en la primera muestra igualmente mente probable. As, como el nmero de combinaciones de los n1 + n2 si u > E (U),como o alternativamente probable. As, el nmero de combinaciones de los n1 + n2 posibles rangos tomados de n1 cualquier combinacin r1, ..., rpuede dada por n1 viene si u E ( U ). Esta probabilidad calcularse teniendo en cuenta que la hiptesis nula de igualdad de distribuciones, cualquier combinacin de rangos enbajo la primera n1 + n 2 tomados de n1 en n es , la probabilidad bajo H para en n11 bajo H00 para cualquier combinacin r1, ..., rn viene dada por P = 2P(U u | H0), n1 muestra es igualmente probable. As, como1elcombinacin nmero de combinaciones de los n1 + n2 nula de igualdad de distribuciones, cualquier de rangos en la primera . n1 + n 2 nacin r1, ..., rn1 viene dada si u E(U ). Esta probabilidad puede teniendo cuenta que bajo la hiptesis muestra espor igualmente probable. As, calcularse como eln nmero de en combinaciones de los n1 + n2 n1 + 2 n posibles rangos tomados de n1 en n1 es , la probabilidad bajo H para 1 0 n 1 nula de del igualdad de distribuciones, cualquier combinacin de rangos en la primera n2 nel 1 + 1 valor exacto El clculo de P se ilustra en siguiente ejemplo. posibles rangos , la probabilidad bajo H0 para . tomados de n1 en n1 es en n El clculo del de P se ilustra el siguiente ejemplo. 1 n1 +combinacin n 2 valor exacto cualquier r , ..., r viene dada por n 1 1 muestra es igualmente probable. As, como el nmero de combinaciones de los n1 + n2 n 1 27 27 cualquier combinacin r1, ..., rn1 viene dada n2 +por n1 1 posibles rangos tomados de n1 en n1 es nn ., la probabilidad bajo H0 para Pastor-Barriuso 1 2 n1 + 5 R. 123 alor exacto de P se ilustra en el siguiente ejemplo. 1 n . 1 n1 + por n2 cualquier combinacin r1, ..., rn1 viene dada
1
j =1
Ejemplo 8.2 Si la distribucin del -caroteno fuera igual en los casos de infarto y 10(10 + 10 + 1) E(U) = = 105. 2 en los controles libres de enfermedad, la suma de rangos esperada en al los 10 casos = 96,5 es inferior esperado, Como el valor observado de esta suma de rangos u Mtodos no paramtricos Ejemplo 8.2 Si la distribucin del -caroteno fuera igual en los casos de infarto y de infarto del ejemplo anterior sera igual a u = 96,5 es inferior al esperado, Como el P valor observado de esta suma de rangos se obtiene mediante el valor en los controles libres de enfermedad, la suma de rangos esperada en los 10 casos Ejemplo Si la distribucin b-caroteno fuera igual en los casos de infarto y en los se obtiene mediante del el valor P8.2 10(10 de + 10 +96 1) esperada en los 10 casos de infarto del controles de enfermedad, la suma rangos de infartolibres del ejemplo anterior sera igual a E ( U ) = = 105. P = 2P(U 96,5 | H0) = 2 P (U = k | H0). 2 k =55 ejemplo anterior sera igual a P = 2P(U 96,5 | (H = 2+ 0)+ 10 10 10 1)P(U = k | H 0 ) . E ( U ) = == 105. k = 55 u 96,5 es+ inferior Como el valor observado de esta sumamnimo de rangos Notar que la suma arranca en el valor posible 1+2 ... + 10al = esperado, 55 y slo 2
96
Como elP valor observado de suma de rangos u = 96,5 es inferior el valor se suma obtiene mediante el valor Notar que la arranca enesta el valor mnimo posible 1 + facilitar 2+ ... + los 10al =esperado, 55 y slo toma valores enteros (se excluyen posibles empates para clculos). La Como el valor observado de esta suma de rangos u = 96,5 es inferior al esperado, P se obtiene mediante
96 toma valores enteros excluyen posibles empates para facilitar clculos). La para cualquier combinacin de rangos en lalos primera muestra probabilidad bajo H0(se el valor P se obtiene P mediante = 2P(U 96,5 | H0) = 2 P(U = k | H 0 ) . k = 55
probabilidad bajo H0 para cualquier combinacin de rangos en la primera muestra es Notar que la suma arranca en el valor mnimo96posible 1 + 2 + ... + 10 = 55 y slo toma P = 2P(en Uposibles | empates H P(facilitar U= H 0). 0) = 2 Notar que la suma el96,5 valor mnimo posible 1k +| 2 + ... + 10 = 55 slo valores enteros (se arranca excluyen para los clculos). Layprobabilidad es k = 55 10! (20 10)! 1 1 bajo H0 para cualquier combinacin , muestra es = de rangos en = la primera 20! empates 184para .756 facilitar los clculos). La 20 toma valores enteros (se excluyen posibles 10! (20 10)! 1 1 Notar que la suma arranca en el posible 1 + , 2 + ... + 10 = 55 y slo = valor mnimo = 10 20 20 ! 184 . 756 cualquier combinacin de rangos en la primera muestra probabilidad bajo H0 para 10 toma valores enteros (se excluyen posibles empates para facilitar los clculos). La de lo cual se sigue que es de lo cual se sigue que probabilidad bajo H 0 para cualquier combinacin de rangos en la primera muestra de lo cual se sigue que P(U = 55 | H0) = P (1, 2,10 3,! 4, 5,6, 7, (20 10 )! 8, 9, 10 1 1 | H0) = 1/184.756, es , = = P(U = 56 | H0) =P (1, 2, 3, 4,20 5,!6, 7, 8, 184 9, 11 | H0) = 1/184.756, 20 .756 P(U = 55 | H0) = P(1, 2, 3, 4, 5, 6, 7, 8, 9, 10 | H0) = 1/184.756, 2, 3, 4, 5, 6, 7, 8, 9, 12 | H 10 P(U = 57 | H0) = P (1, 0) 1 10! (20 10)! 1 , = = P (1, 2, 3, 4, 5, 6, 11 |H ) 0= 1/184.756, P(U = 56 | H0) = + P (1, 5,! 6,7, 7,8, 8,9, 10, |0 H )= 2/184.756 20 184 .11 756 2, 3, 4,20 de lo cual se sigue que 10 2, 3, P (1, 4, 5, 6,el 7, 8, 9, 12 | H0) resulta muy laborioso incluso P(U = 57 | H 0) = y as sucesivamente. Como puede intuirse, procedimiento
para estas pequeas muestras de tamao 10, ya que requiere determinar el nmero de P(U = con 55 | igual H0) = P(1, 2, 4, 5, 6, 7, 8, 9, 10 |mltiples H == 1/184.756, 2/184.756 +suma 10, 11 |H 0) 0) combinaciones de3, rangos. Despus de clculos, se tiene que de lo sucesivamente. cual se sigue que y as Como puede intuirse, el procedimiento resulta muy laborioso
96
== Pk (1, 2,0 3, 4,2(1 5, 6, 7,+ 8, |H P(U 56 |H 0 0) = 1/184.756, P=2 P () U |H )intuirse, = + el 1 29, + 11 ...ya + 4.397)/184.756 y as sucesivamente. Como puede procedimiento resulta muy laborioso incluso para pequeas muestras tamao 10, que se requiere determinar P(Uestas = 55 H0) = P(1, 2, 3, 4, de 5, 6, 7, 8, 9, 10 |H k =| 55 0) = 1/184.756, 4, 5, 6, 7, 8, 9, 12 | H0) P(U = = 97.708/184.756 57 | H0) = P(1, 2, = 3, 0,529. incluso para estas pequeas muestras desuma tamao 10, ya que se requiere determinar el nmero combinaciones con igual Despus de mltiples 2, 3, 4, 5, 6, 7,de 8, rangos. 9, 11 | H P(de U= 56 | H0) = P(1, 0) = 1/184.756, Aunque los casos de infarto muestran inferiores -caroteno que los controles 2/184.756 + P(1, 2, 3, 4, niveles 5, 6, 7, 8, 10, 11 | de H0)b= el nmerose detiene combinaciones con igual suma de rangos. Despus de mltiples clculos, que (la suma P de observada en3, los casos 4, 5, 6, 7,es 8,menor 9, 12 | que H0) la esperada), no se alcanzan (Urangos = 57 | H 0) = P(1, 2, Aunque los casos de infarto muestran niveles inferiores de -caroteno los diferencias estadsticamente significativas. No obstante, dado el que reducido tamao 6 y as sucesivamente. clculos, se tiene que Como puede intuirse, el procedimiento resulta muy laborioso muestral, cabe esperar que de contraste sea muy pequea para detectar 2/184.756 + Pla (1,potencia 2, 3, 4, 5, 6,este 7, 8, 10, 11 | H 0) = controles sumadiferencia de rangos en observada en los casos es menor que la esperada), cualquier (la posible los niveles subyacentes de b-caroteno entre los no casos de 6 incluso para estas pequeas muestras de tamao 10, ya que se requiere determinar infarto y los sujetos libres de la enfermedad. y as sucesivamente. Como puede intuirse, el procedimiento resulta muy se alcanzan diferencias estadsticamente significativas. No obstante, dadolaborioso el el nmero de combinaciones con igual suma de rangos. Despus de mltiples Para simplificar los clculos de esteesperar test, la Tabla del Apndice los percentiles incluso para estas pequeas muestras deque tamao 10, ya que sefacilita requiere determinar reducido tamao muestral, cabe la8 potencia de este contraste sea muy de la distribucin de la suma de rangos de Wilcoxon bajo la hiptesis nula de igualdad de distribuciones, clculos, se tiene que cuando menor las dos muestras es de tamao inferior o igualsubyacentes a mltiples 8. Para un el la nmero dede combinaciones con igual suma de rangos. Despus de pequea para detectar cualquier posible diferencia en los niveles de nivel de 6 de significacin bilateral, la hiptesis nula se rechazar si la suma de rangos en la muestra menor tamao es inferior al percentil /2 oysuperior al percentil enfermedad. /2 de dicha tabla. clculos, seentre tienelos que -caroteno casos de infarto los sujetos libres de1la
6
Para simplificar los clculos de este test, la Tabla 8 del Apndice facilita los
124 Pastor-Barriuso R. la distribucin de la suma de rangos de Wilcoxon bajo la hiptesis nula percentiles de
de igualdad de distribuciones, cuando la menor de las dos muestras es de tamao
Ejemplo 8.3 En un estudio hipottico a partir de dos muestras independientes de
Test de la suma de rangos de Wilcoxon
tamaos n1 = 5 y n2 = 10, la suma de rangos en la muestra ms pequea es 23.

Ejemplo 8.3 En unbajo estudio hipottico a rangos partir es de simtrica dos muestras independientes de la suma de alrededor de E(U) Como la distribucin H0 de tamaos n1de = que 5yn = 10, la suma de rangos en la muestra ms pequea es 23. Como la En el caso ambos tamaos muestrales sean superiores a 8, puede emplearse el 2 distribucin H0= de la + suma de rangos esse simtrica alrededor de E(U) = n1(n1 + n2 + 1)/2 + 1)/2 5(5 10 + 1)/2 = 40, tiene que = n1(n1 + n2 bajo En el + caso que ambos muestrales a de 8, puede emplearse = 5(5 10 de + 1)/2 = 40, setamaos tiene que siguiente mtodo aproximado. Como el contrastesean parasuperiores la igualdad distribuciones se el En el caso de que ambos muestrales superiores emplearse el P =tamaos 2P (U 23 H0) = 2sean Ppara (U 57 | H0). a 8, siguiente Como el |contraste la igualdad depuede distribuciones basa en el mtodo rango o aproximado. posicin de las observaciones, resulta lcito sustituir los valores se En el caso de que ambos muestrales a 8, emplearse Utilizando la Tabla 8 del tamaos Apndice con n1 = 5sean y n2 superiores =la 10, puede comprobarse que el valor siguiente aproximado. Como el contraste para igualdad depuede distribuciones seel basa en elmtodo rango o posicin de las observaciones, resulta lcito sustituir los valores Utilizando la Tabla 8 del Apndice con n = 5 y n = 10, puede comprobarse que observados x por sus correspondientes rangos r en el estadstico de la t de Student para 1 2 i comprendido entre los percentiles i u0,975 u = 57 est 56 y u0,99 = 58, de lo cual se deduce siguiente mtodo aproximado. Como el contraste para la igualdad de distribuciones la en desigualdad < P(U 57observaciones, | H0) < 0,025, que corresponde a 0,02 <P < 0,05.se basa el rango o0,01 posicin delas resulta lcito sustituir valores observados rangos ri en el estadstico de tlos de Student i por u0,975 obtenindose = 56 y la u0,99 = 58, de lo para el valor ux= 57 sus estcorrespondientes comprendido entre los percentiles muestras independientes con igual varianza (Apartado 6.3.1), basa en el rango o sus posicin de las observaciones, resulta lcito sustituir correspondientes rangos ri en el estadstico de la tlos de valores Student para observados xi por muestras independientes con igual varianza (Apartado 6.3.1), obtenindose En el caso de que ambos tamaos muestrales sean superiores a 8, puede emplearse el r 57 | H0) < 0,025, que corresponde asiguiente cual se deduce la desigualdad 0,01 < P(r U 1 2 mtodo aproximado. Como el contraste para la igualdad de distribuciones se basa en elpara rango o z = rangos , estadstico observados xi por sus correspondientes ri en el de la t de Student muestras independientes con igual varianza (Apartado 6.3.1), obtenindose 1 1 posicin las observaciones, resulta lcito sustituir los valores observados xi por sus 0,02de <P < 0,05. r2 s r r1 + z = , correspondientes rangos ri en el estadstico de la paraobtenindose muestras independientes con n nStudent 1t de 2 muestras independientes con igual varianza (Apartado 6.3.1), 1 1 7 r r igual varianza (Apartado 6.3.1), obtenindose 1 2 s + z = r n1 n 2 , 1 r donde la diferencia de rangos medios ess r r1 1 2 + z= n1 n 2 , 1 1 donde la diferencia de rangos medios es snr + n1 1 1 2 n1 n 2 r r r = i 1 2 donde la diferencia de rangos medios es r j n1 i = n 2 =2 1 n1 1 1 es 1 jn donde la diferencia de rangos medios r r r = i 2 donde la diferencia1 de rangos medios es r j 1 n n 1 n 2 n in j( = = n1 + n 2 )(n1 + n 2 + 1) n1 1 1 11 21 1 1 r = ri r1 r2 = n rii n r j 2 1 2 = 1 i i= n n1 1 1 n n 1 i 2 n= n j= 1n1 + n 2 )(n1 + n 2 + 1) 11 2( 1 1 1 1 r r = i r1 r2 = rii n1 r j n11 n22 2 n 2 + 1) n1 (n1 + n = 11 1 11 n n j =( 1 1) in= 11 ii= 1 + n 2 )(n1 + n 2 + r1in = + 1 r r = n i i n 2 2 1 n11 1 i= 2 2n1 n= i 11 11 nn n + + 1 ) 1 n ) in= 1 (n 1n 2n n + + + ( )( 1 1 1 1 2 1 2 ri = +ri ri = n n 2 1n 2in= 11 n i =1 n1 (n1 2 + n 2 + 1) 11i =1 12 y, si no hay empates, la varianza los rangos ri en la muestra combinada es = + de n in= 2 n n1 (n1 + n 2 + 1) 11 12 11 y, si no hay empates, la = varianza ri en la muestra combinada es rangos + delos n1 + n2 n n 21 2 i =1 y, si no hay empates, la varianza rangos en la muestra combinada es 2 1 de los s = (ri en r )2 r y, si no hay empates, la varianza de los rangos la muestra combinada es n1 + n 2 1 ni1= 1n2 + 1 2 s r2 = de los rangos (ren r )muestra i la y, si no hay empates, la varianza combinada es 2 n + n 1 2 n1 + 1 n 2 1 n1i+ =n 12 n1 + n 2 + 1 1 rii s r2 = = n + n 1 r)2 2 ( 1 2 2 i 1 = n + n 1 2 n1 + 1 n 2 1 n1i+=n 12 n + n + 1 1 2 1 2 = 2 i i r ) s r = (n + n )(n ( r + n n11 + n222 1 ii= 2 2 + 1) 2 12 = + n 1 1 1 1n1 = n1 + n n1. + n 2 + 1 = 12 i (n +nn )(1 nn11i+= + n 2 2 + 1) 1 1+ 2 2 2 n 12 n 1 n1 .+ n 2 + 1 = = 12 i 1 n nn ntiene + (n )( 1 1++ 2 2 2 + 1) 2 1i = 1 n Sustituyendo en la expresin=anterior, se . Sustituyendo en la expresin anterior, se tiene 12 (n1 + n 2 )(n1 + n 2 + 1) Sustituyendo en la expresin =n1anterior, se tiene . n1 (n 1 + n 2 + 1) 12 ri se tiene Sustituyendo en la expresin anterior, U E (U ) 2 i= n1 1 n1 (n1 + n 2 + 1) = , z= 2 (n1 ri1 n SE (U ) +tiene n n 2 + 1) Sustituyendo en la expresin anterior, se U E (U ) 2 11 n1 (12 n1 + n 2 + 1) = , z = in= rn i 1 SE (U ) n 2 (n1 + n 2 + 1) U E (U ) 2 11 n1 (n , z = in= 1 + n 2 + 1) = 12 rn i SE (U ) 1 n 2 ( n1 + n 2 + 1) U E (U ) 2 , z = i =1 = 12 Pastor-Barriuso R. SE (U ) n1 n 2 (n1 + n 2 + 1) 8 12 8
125
Las medidas Las medidas de tendencia de tendencia central central informan informan acerca acerca de cul de es cul el valor es el valor ms representati ms represe
de una dedeterminada una determinada variable variable o, dicho o, dicho de forma de forma equivalente, equivalente, estos estos estimadores estimadores indican ind
alrededor alrededor de qu devalor qu valor se agrupan se agrupan los datos los datos observados. observados. Las medidas Las medidas de tendencia de tendenc que corresponde simplemente a la suma de rangos estandarizada; es decir, la diferencia entre la central central de la de muestra lala muestra sirven sirven tanto tanto para resumir para resumir los resultados los resultados observados observados comocomo para p suma de rangos observada y esperada en primera muestra dividida por su error estndar bajo la hiptesis nula de igualdad de distribuciones. Bajo H0, este estadstico seguir aproximadamente realizar inferencias inferencias acerca de los de parmetros los en parmetros poblacionales poblacionales correspondientes. correspondientes. A A una distribucin normalrealizar estandarizada si n1,acerca n2 > 8. Notar que, general, este tamao muestral es muy inferior al que se requerira para aplicar la prueba paramtrica de la t de Student en dos continuacin continuacin se describen se describen los principales los principales estimadores estimadores de la de tendencia la tendencia central central de una de muestras independientes.
variable. variable. Ejemplo 8.4 A partir del estudio EURAMIC, se seleccionan 1000 muestras aleatorias simples de n1 = 10 casos de infarto de miocardio y n2 = 10 controles. En cada una de estas muestras, se calcula la diferencia de niveles medios de b-caroteno entre casos y controles, as 1.2.1 1.2.1 Media Media aritmtica aritmtica como la suma de rangos para los casos de infarto. Las Figuras 8.1(a) y (b) presentan las La media Lade media aritmtica, aritmtica, denotada por xpor se x define sede define como como la suma larangos suma de cada de cadade uno los de los la suma de U,uno distribuciones muestrales la diferencia dedenotada medias 1, 2, y respectivamente. Como la distribucin poblacional del b-caroteno es marcadamente asimtrica (ver Figura 4.3) yvalores las muestras son muy pequeas, la diferencia de muestrales se Si denotamos valores muestrales muestrales dividida dividida por el por nmero el nmero de observaciones demedias observaciones realizadas. realizadas. Si denota distribuye de forma asimtrica alrededor de la diferencia subyacente 1 2 = 0,09 mg/g, de npor el tamao n condicin el tamao muestral muestral y pory xipor elnecesaria valor xi el valor observado observado para para sujeto el la sujeto it -simo, i = 1,i..., = 1, n tal forma que no sepor cumple la de normalidad para aplicar elel test de de i-simo, Student. Por el contrario, la suma de rangos s se distribuye de forma aproximadamente normal media la media vendra vendra dada dada por E por en torno a su valorla esperado en esta poblacin (U) = 96,9. As, aun cuando se disponga de muestras tan reducidas, se podra aplicar la aproximacin normal al test de la suma de rangos de Wilcoxon. + ... x + x 2++x... 1 n 1 n x1 + x n + xn . . = xi = x i = 21 x= x n i =1 n i =1 n n
30 Frecuencia relativa (%) 25 20 15 10 5 0 -0,9 -0,6
25 1.2 MEDIDAS 1.2 MEDIDAS DE TENDENCIA DE TENDENCIA CENTRAL CENTRAL interpretacin. interpretacin. Corresponde Corresponde al centro al centro de gravedad de gravedad de los de datos los datos de la de muestra. la muestra. Su S 20 Las medidas Las medidas de tendencia de tendencia central central informan informan acerca acerca de cul dees cul el valor es el valor ms repres ms 15 principal principal limitacin limitacin es que es est que muy est influenciada muyvariable influenciada por los por valores los valores extremos extremos y, enestimado y, este enin de una de determinada una determinada variable o, dicho o, dicho de forma de forma equivalente, equivalente, estos estos estimadores 10 alrededor alrededor de qu valor qu se agrupan secentral agrupan los central datos los observados. observados. Las medidas Las medidas de tenden de te caso, caso, puede puede no ser no un ser fiel un reflejo fiel reflejo de lade de tendencia lavalor tendencia dedatos la de distribucin. la distribucin. 5
La media La media es la medida es la medida de tendencia de tendencia central central ms utilizada ms utilizada y de ms y defcil ms fcil
30
-0,3
Ejemplo Ejemplo 1.4 En 1.4 este En y este en los y en sucesivos los sucesivos ejemplos ejemplos sobre estimadores estimadores muestrales, muestr realizar realizar inferencias inferencias acerca acerca de losde parmetros los sobre parmetros poblacionales poblacionales correspondientes. correspondien A
0 0,3 0,6
central central de la muestra de la muestra sirvensirven tanto tanto para resumir para resumir los resultados los resultados observados observados como c 0
utilizarn utilizarn los valores los valores del colesterol del colesterol HDL HDL obtenidos en los en 10 los primeros 10 primeros sujetos suje d x U obtenidos 1 x2
variable. variable. 1.2.1 1.2.1 Media Media aritmtica aritmtica
50 70 90 110 130 150 continuacin continuacin se describen se describen los principales los principales estimadores estimadores de la tendencia de la tendencia central cent de
estudio European European StudyStudy on Antioxidants, on Antioxidants, Myocardial Infarction Infarction and Cancer and Canc of (a) estudio (b) Myocardial
, se x define , se define como como la suma la suma de cada de uno cada de uno lo La media La medios media aritmtica, aritmtica, denotada por xpor Figura 8.1 Distribucin muestral de la diferencia de niveles de denotada -caroteno 1 2 entre casos y controles (a) y de la suma de rangos U en los casos de infarto (b) en 1000 muestras aleatorias Figura simples 8.1 de valores valores muestrales muestrales dividida dividida por el nmero elenmero de observaciones de observaciones realizadas. realizadas. Si deno Si entre 1991 1991 y 1992 y 1992 en ocho en ocho pases pases Europeos Europeos e por Israel Israel para evaluar para evaluar el efecto el efecto de los d n1 = 10 casos de infarto de miocardio y nentre 2 = 10 controles obtenidos a partir del estudio EURAMIC. Las lneas verticales en trazo discontinuo corresponden a los parmetros subyacentes 1 2 = 0,09 g/g y E(U) = 96,9. la media la media vendra vendra dada por dada por
the Breast the Breast (EURAMIC), (EURAMIC), un estudio un estudio multicntrico multicntrico de casos de casos y controles y controles realizad rea
por n por el tamao n el tamao muestral muestral y por y xi por xi el valor el valor observado observado para el para sujeto el sujeto i-simo, i-simo i=1
+ +... ++ ... + x n x2 xn 1 n 1 n x1 + xx . . = xi = xi = 21 x= x n i =1 n i =1 n n
La media La media es la medida es la medida de tendencia de tendencia central central ms utilizada ms utilizada y de ms y defcil ms fci
interpretacin. interpretacin. Corresponde Corresponde al centro al centro de gravedad de gravedad de losde datos los datos de la muestra. de la mu
principal principal limitacin limitacin es que es est quemuy estinfluenciada muy influenciada por los por valores los valores extremos extremos y, en
caso, caso, puedepuede no serno unser fiel un reflejo fiel reflejo de la tendencia de la tendencia central central de la distribucin. de la distribucin
Si se producen empates en la asignacin de rangos en la muestra combinada, la T t i (t i + 1)(t i 1) Test de combinada, la suma de rangos de Wilcoxon varianza de la suma de rangos es menor que la obtenida en ausencia de empates y el i 1 = Si se producen empates la , f = en la asignacin de rangos en la muestra (n1 + n 2 )(n1 + n 2 + 1)(n1 + n 2 1) estadstico del test de la suma rangos Wilcoxon resulta varianza de la suma de rangos de es los menor que de la obtenida en ausencia de empates y el Si empates en la asignacin de rangos la muestra combinada, varianza de ti se el producen nmero empates para el valor i-simo de laen variable. Notar que, si nola hay con estadstico delde test de la suma de los de Wilcoxon resulta n1 rangos la suma de rangos es menor que la obtenida en ausencia de empates y el estadstico del test de n1 (n1 + n 2 + 1) r i la suma de los rangos de Wilcoxon resulta al citado anteriormente. 2 empates, f= 0y este estadstico se reduce Finalmente, como la , z = in=11 n n + n + ( 1 ) 1 n 1 + 1)( 21 f ) n1 nr2i ( n1 + 2 suma de rangos es un variable discreta que se aproxima mediante una distribucin 12 2 , z = i =1 n1 n 2 (n1 + n 2 + 1)(1 f ) normal continua, es frecuente aplicar la correccin por continuidad a estos estadsticos. 12 donde
La versin con correccin por continuidad del test de la suma de rangos de Wilcoxon donde donde T (con o sin empates) se presenta en la Tabla t8.2. i (t i + 1)(t i 1) i =1 , f = T (n1 + n 2 )(nt1i ( + n + 1 )( n + n 1 ) 2 1 2 t i + 1)(t i 1) [Tabla 8.2 aproximadamente aqu] i =1 , = el valor i-simo de la variable. Notar con ti el nmero de empates fpara que, si no hay empates, ( n 1 + n 2 )( n1 + n 2 + 1)( n1 + n 2 1) f =con 0 y teste estadstico se reduce al citado anteriormente. como la si suma de rangos de empates para el valor i-simo de la Finalmente, variable. Notar que, no hay i el nmero es una variable discreta que se aproxima mediante una distribucin normal continua, es frecuente aplicar por a estos estadsticos. versin con correccin empates, f = 8.5 0 y Como este estadstico reduce al citado anteriormente. Finalmente, como Ejemplo lacontinuidad muestra de casos y controles laLa Tabla 8.1 es n1 = n =hay 10 la por tila el correccin nmero de empates parase el valor i-simo de lade variable. Notar que, si no con 2 continuidad del test de la suma de rangos de Wilcoxon (con o sin empates) se presenta en la Tabla 8.2. suma de rangos unestadstico variable discreta que se aproxima mediante una > 8, puede la aproximacin normal a laanteriormente. suma de rangos Udistribucin = 96,5 en los la empates, f = 0 aplicarse y es este se reduce al citado Finalmente, como normal es frecuente aplicar la correccin por continuidad a8.1 estos estadsticos. casos de infarto. Bajo lamuestra hiptesis nula de una misma distribucin del -caroteno Ejemplo 8.5es Como la de casos controles de la Tabla es n suma decontinua, rangos un variable discreta que sey aproxima mediante una distribucin 1 = n2 = 10 > 8, puede aplicarse la aproximacin normal a la suma de rangos U = 96,5 en los casos de La en versin con correccin continuidad del test de la suma rangos de estadsticos. Wilcoxon infarto. Bajo la nula dela una misma distribucin -caroteno en casos y normal continua, es hiptesis frecuente aplicar correccin por continuidad ab estos casos y controles, el por valor esperado de esta de rangos sera 10 10 (10 + 10 + 1 )( 1 suma 0 ,00075 ) dedel var( U ) = = 174,87, controles, el valor esperado de esta suma de rangos sera 12 (con o sin empates) se presenta en la Tabladel 8.2. La versin con correccin por continuidad test de la suma de rangos de Wilcoxon 10(10 + 10 + 1) E(U) = = 105 2 donde (con o sin empates) se presenta en la Tabla 8.2. 10 10(10 + 10 + 1)(1 0,00075) = 174,87, y su varianza var(U) = [Tabla 8.2 aproximadamente aqu] 12 y su varianza 2 (2 + )(2 1) 10 10 (10 +1 10 + 1)( 1 0,00075= ) 0,00075 f= [Tabla 8.2 aproximadamente aqu] var( U) = (10 + 10)(10 + 10 +12 1)(10 + 10 1) = 174,87, 10 donde Ejemplo 8.5 Como la muestra de casos y controles de la Tabla 8.1 es n1 = n2 = 10 donde 2 = 96,5 en los es el factor deaplicarse correccin de la 2 varianza debido a de t1 =U donde (2 + casos 1)(2normal y 1)controles > 8, puede lamuestra aproximacin a la la presencia suma de rangos Ejemplo 8.5 Como la de de la Tabla 8.1 es n1 = n2 = 10 f= = 0,00075 (10 + 10)(10 + 10 + 1)(10 + 10 1) g/g.misma Por tanto, el estadstico la observaciones empatadas para el valor 0,13 casos de infarto. Bajo hiptesis una distribucin del de -caroteno 2 (2 + 1nula )(2 de 1) > 8, puede aplicarse lala aproximacin normal a la suma de rangos U = 96,5 en los f = = 0,00075 es el factor de correccin de la varianza debido a la presencia de t1 = 2 observaciones (10 + 10)( 10 + 10 + 1)(10 por + 10 1) suma de rangos de con correccin continuidad es empatadas para el Wilcoxon valor 0,13 m g/g. Pordebido tanto, el estadstico de tsera la=suma de rangos de 2 -caroteno es casos el factor de correccin de la varianza a la presencia de 1 en casos y controles, el valor esperado de esta suma de rangos de infarto. Bajo la hiptesis nula una misma distribucin del Wilcoxon con correccin por continuidad es g/g. Por tanto, elde estadstico de la observaciones empatadas para el valor 0,13 tsera es el correccin la| varianza debido la presencia 1=2 96 ,5 10 105 | 1 / 2a enfactor casos de y controles, elde valor esperado de esta de rangos (10 + 10 +suma 1)0,60, z =E(U = ) = 174,87 = 105 2por suma de rangos de Wilcoxon correccin g/g.continuidad Por tanto, eles estadstico de la observaciones empatadas paracon el valor 0,13 10 ( 10 + 10 + 1 ) que corresponde a un valor P F(0,60)} = 0,549 a partir de la E(= U2 )P =(Z 0,60) = 2{1 = 105 2por suma de rangos de Wilcoxon correccin continuidad es distribucin normal estandarizada de la Tabla 3 del Apndice. Este valor aproximado de = 2 P ( Z 0,60) = 2{1 (0,60)} = 0,549 a partir de que a un valor P con y corresponde su varianza | 96,5 105 | 1 / 2 z = = 0,60, P es muy similar al valor exacto calculado en el Ejemplo 8.2, no habiendo as suficiente 10 174 ,87 evidencia para rechazar la hiptesis igualdad distribuciones del nivel de b-caroteno la distribucin normal estandarizada la| Tabla 3 del Apndice. Este valor y su varianza | 96,5 de de 105 1 / 2de z= 0,60, en los casos de infarto de miocardio y los sujetos = libres de la enfermedad. 174 , 87 10 P es muy similar al valor exacto calculado en el= Ejemplo no aproximado de 0,549 a 8.2, partir de que corresponde a un valor P = 2P(Z 0,60) = 2{1 - (0,60)}
habiendo as suficiente evidencia para la de igualdad la distribucin normal estandarizada la Tabla 3 hiptesis del Este valor P = 2P (Z de rechazar 0,60) = 2{1 - Apndice. (0,60)} = 0,549 ade partir de que corresponde a un valor
-caroteno en casos de infarto miocardio y los distribuciones nivel de P es muy similar al valor exacto calculado en de el Ejemplo 8.2, no aproximado dedel la distribucin normal estandarizada de lalos Tabla 3 del Apndice. Este valor
sujetos libres de habiendo asde suficiente evidencia para rechazar hiptesis de Pla esenfermedad. muy similar al valor exacto la calculado en eligualdad Ejemplode 8.2, no aproximado
128 Mtodos no paramtricos
Pastor-Barriuso R.
Tabla 8.2 Estadsticos para el test la de suma deyrangos y rangos de los rangos signo con decon Wilcoxon con correccin por continuidad. Tabla Estadsticos para el test de la de y con signo de correccin por continuidad. Tabla 8.28.2 Estadsticos para el test de la suma rangos de los rangos con signo decon Wilcoxon correccin por continuidad. Tabla 8.2 Estadsticos para el test dede la suma suma de rangos rangos y de de los los rangos con signo de Wilcoxon Wilcoxon con correccin por continuidad.
empates SinSin empates Sin empates Sin empates Sin empates
n (n + n + 1) 1 r r n n+ + n 1) + 1) 1 rn (n (+ 1 r r 2 2 2 2 2 2 = z =z 2 2 2 2 z=
1 1 1 2 2 1 1 2 2
Tabla Estadsticos para el test la suma rangos y de rangos con signo Wilcoxon con correccin por continuidad. Tabla 8.28.2 Estadsticos para el test de de la suma de de rangos y de loslos rangos con signo de de Wilcoxon con correccin por continuidad.
Con empates Con empates Con empates Con empates Con empates Con empates
n1n ++ n1 + 1) 1 1 n1 (n11( + ) 12 2 2 n1n ++ n1 + 1) 1 1 n (n11( + ) 12 2 2 + n +1 1)( z =z =n nn + n 1f (n 1 )( ) f) 1 n n( n ++ n2 (n 12 2 + 1)(1 f ) n1 n2 +1 1)( n nn(n (+ n+ 1f 1)( )f) 2 + 12 12 12 12 12
T T iii
n1 n 1 n 1 1 n1 n1 ii 1 i i i 1 i =1 ii= = 1 i =1 i =1 1 21 1 1 2 2 1 21 2 1
Test de la suma de rangos Test de la suma Test de la de de rangos Test desuma la suma de rangos rangos
Test la suma rangos Test de de la suma de de rangos
z =z =
n1 n 1 n 1 n1 n1 ii i i i 1 i =1 ii= = 1 i =1 i =1 1 1
n2 n1n + n + 1) ( n nn + ( 1 ) 1 2 1 n ++ n2 1n 2 (n 12 2 + 1) n2 n1 n2 + 1) n nn + n+ ( 1) 21 1( 2 + 12 12 12 12 12
T T T i i 1 = i =1 ii 1 = i =1 i =1 1 2 2 1 1 2 1 2 21
m m
n (n + n + 1) 1 r r n n+ + n 1) + 1) 1 rn (n (+ 1 r r 2 2 2 2 2 2 = z =z 2 2 2 2 z=
i ii i i con con f =ff = con = n + n )( n + n + 1 )( n )) con =1(( + n )( n + n + 1 )( n + n+ 1) con f =f(n 1 2 2 1 2 n n + n )(n1 + n 2 + 1)( n11 + n22 1 1 n n+ )( n n)(+ n1n+ +n 1)( n1 1) (n1(+ +21)( n+ 21) 2 n 1 + 2 n
m m
+ 1 )( tt1) )) t (ttt ( + (tt1)( +t 1 )( 1 1 t 1)( +t 1)( t 1) 1) t (tt ( +
ii
ii
TestTest deTest los rangos con signo de rangos con signo de loslos rangos con signo
Test rangos con signo Test de de los rangos con signo Test de los los rangos con signo
m m n( n (n ))1 1 n+ +1 1) 1 1 m r n( n + r iin i (n n+ + 1) 1 (n 1) r 1 4 2 r 4 2 r i i 1 ii= =1 i 4 2 = 1 z =z 4 4 2 2 z= = i =1 i =1 z =z = ( 1 )( 2 1 ) n n + n + 1 )( 2 1 ) n( n + n + n(n + 1)(2n + 1) (n 1)( n+ +2 + 1) 1)( 1) n( n n2 +n 24 24 24 24 24
m m n( n ((n ))1 1 n + + 1) 1 1 n n +1 m r r iin i (n 1) 1 n+ + (n 1) r 1 r 4 2 4 2 r i i i = 1 i =1 4 2 =1 z =z 4 4 2 2 z= =i =1 ii= 1 z =z =n ( 1 )( 2 1 ) n n + n + (n 1 )( 2 1 ) + n + f n(n + 1)(2n + 1) ff n+ +2 + (n 1)( 1)f f n( n n2 +n 1)( 1) 24 24 24 24 24 T t ( + tti1 )) t )( ) i (t ii + i)( t +t1 1 (tti1 1 )( 1 1 t ii1)( +t t ii1) 1) t + (ttiii ( i i)( = 1 ii =1 i = 1 con con f =ff = con = =1 i =1 con 2 2 con f =f i= 2 2 2 T T T T
28 28 28 28 28
Test de los rangos con signo de Wilcoxon
El test de la suma de rangos de Wilcoxon es tambin conocido como el test de MannWhitney. Aunque este ltimo se deriva siguiendo un procedimiento distinto, ambas pruebas de hiptesis son completamente equivalentes, obtenindose el mismo valor P con cualquiera de ellas. La comparacin no paramtrica de distribuciones continuas en ms de dos muestras independientes se conoce como el test de Kruskal-Wallis. Este procedimiento es una generalizacin del test de la suma de rangos de Wilcoxon y puede consultarse en los textos sobre mtodos no paramtricos referenciados en este tema. 8.3 TEST DE LOS RANGOS CON SIGNO DE WILCOXON En este apartado se describe el procedimiento de contraste no paramtrico equivalente al test de la t de Student para muestras dependientes. Como se discuti en el Apartado 6.4, la prueba t para datos emparejados permite comparar dos medias poblacionales a partir de las diferencias observadas en cada pareja de datos dependientes. Esta prueba paramtrica requiere que el nmero de parejas sea suficientemente grande para asegurar que la media de las diferencias se distribuya de forma normal. En aquellas circunstancias donde se produzcan violaciones claras de este supuesto de normalidad (particularmente cuando el nmero de parejas sea muy reducido), resulta ms apropiado utilizar el test no paramtrico de los rangos con signo de Wilcoxon. Bajo la asuncin de que la variable a estudio sea continua, este procedimiento permite contrastar si las diferencias se distribuyen simtricamente alrededor de 0. La hiptesis nula establece, por tanto, que las diferencias de cualquier magnitud a favor de los sujetos de una poblacin son igualmente probables que a favor de los sujetos de la otra poblacin. Con objeto de preservar el emparejamiento, se calculan las diferencias di en cada pareja de datos dependientes. La asignacin de rangos a estas diferencias se realiza mediante el siguiente procedimiento. En primer lugar, se excluyen las parejas donde di = 0 y se asignan rangos ri a las restantes n diferencias no nulas, comenzando en 1 para la diferencia con menor valor absoluto hasta n para aquella con mayor valor absoluto. Si existen diferencias con el mismo valor absoluto (empates), se asigna a cada una de ellas la media de los rangos correspondientes. Finalmente, a cada rango se le otorga el signo correspondiente a su diferencia. Estos rangos con signo constituyen as una representacin estandarizada de las diferencias, que preserva tanto el orden de magnitud como el signo de las mismas. El test de los rangos con signo de Wilcoxon se basa en la suma de los rangos positivos (o, equivalentemente, de los rangos negativos) W=
r,
i i =1
donde m denota el nmero de rangos positivos. donde m denota el nmero de rangos positivos. Ejemplo 8.6 A partir del estudio EURAMIC, se seleccionan aleatoriamente 20 casos de infarto de miocardio y 20 controles emparejados por grupos quinquenales de edad. Ejemplo A partir delpara estudio EURAMIC, aleatoriamente 20 en la Los niveles 8.6 de b -caroteno estas 20 parejas se deseleccionan casos y controles se presentan Tabla 8.3. Una vez excluida la pareja con di = 0, el nmero efectivo de parejas es n = 19. casosde de infarto de miocardio y 20 controles por grupos A partir estas parejas con diferencias no nulas, emparejados se asignan rangos del 1 al 19 comenzando en la menor diferencia absoluta 0,01 mg/g hasta la mayor diferencia absoluta 1,00 mg/g. A las quinquenales de edad. Los niveles de -caroteno para estas 20 parejas de dos parejas con diferencia absoluta 0,27 m g/g se les otorga el rango medio (9 +casos 10)/2 y = 9,5, y a otras dos parejas con diferencia absoluta 0,38 mg/g se les asigna su rango medio se presentan en la Tabla 8.3. un Una vez positivo excluidaa la pareja con di = 0, el (12controles + 13)/2 = 12,5. Finalmente, se otorga signo los rangos correspondientes nmero efectivo de parejas es n = 19. A partir de estas parejas con diferencias no nulas, se asignan rangos del 1 al 19 comenzando en la menor diferencia Pastor-Barriuso absoluta R. 0,01 g/g hasta la mayor diferencia absoluta 1,00 g/g. A las dos parejas con
129
otras dos parejas con diferencia absoluta 0,38 g/g se les asigna su rango medio
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos correspondientes Mtodos no paramtricos
(12 + 13)/2 = 12,5. Finalmente, se otorga un signo positivo a los rangos

a diferencias positivas y un signo negativo a los rangos
correspondientes diferenciasnegativas. positivas La y un signo a los rangos correspondientes a a diferencias suma de negativo rangos positivos resulta correspondientes a diferencias negativas. La a suma de rangos positivos resulta a diferencias positivas y un signo negativo los rangos correspondientes a diferencias 9 negativas. La suma de rangos positivos resulta ri = 17 + 12,5 + ... + 3 = 91
i =9 1
y la suma de rangos negativos y la suma de rangos negativos 10
y la suma de rangos negativos
r
i =1
= 17 + 12,5 + ... + 3 = 91
r
j =1
= ( 4) + ( 14) + ... + ( 9,5) = 99.
r j = de (-4) + (-14) + absolutos ... + (-9,5)es =n -99. En este ejemplo la suma total los rangos (n + 1)/2 = 1920/2 = 190. As, j = 1 En este ejemplo la suma total de los rangos absolutos es n ( n + 1)/2 =rangos 1920/2negativos = una vez determinada la suma de rangos positivos 91, la suma de viene dada por 91 190 = 99. 190. As, una vez determinada la suma de rangos positivos 91, la suma de rangos En este ejemplo la suma total de los rangos absolutos es n(n + 1)/2 = 1920/2 =
negativos viene dada por 91 -tejido 190 = -99. Tabla 8.3 -caroteno adiposo eny20 casos y controles del estudio Tabla 8.3As, -caroteno tejidoen adiposo en 20 casos controles 190. una vezen determinada la suma de rangos positivos del 91,estudio la sumaEURAMIC de rangos EURAMIC emparejados segn grupos quinquenales de edad. emparejados segn grupos quinquenales de edad. negativos viene dada por 91 - 190 = (g/g) -99. -caroteno -caroteno (g/g)
Pareja Caso 0,47 Caso 0,75 0,47 0,78 0,75 0,78 0,66 0,66 0,09 0,09 0,20 0,20 0,08 0,08 0,08 0,08 0,31 0,31 0,30 0,30 0,16 0,16 0,13 0,13 0,06 0,06 0,25 0,25 0,39 0,39 0,95 0,95 0,33 0,33 0,53 0,53 0,16 0,16 0,23 0,23 Control 0,55 Control 0,09 0,55 0,40 0,09 0,40 0,13 0,13 0,49 0,49 0,31 0,31 0,28 0,28 0,46 0,46 0,16 0,16 0,87 0,87 1,16 1,16 0,13 0,13 0,37 0,37 0,04 0,04 0,37 0,37 0,14 0,14 0,06 0,06 0,50 0,50 0,17 0,17 0,50 0,50
10
Pareja 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Diferencia Diferencia 0,08 0,08 ( di ) absoluta 0,66 0,66 -0,08 0,08 0,38 0,38 0,66 0,66 0,38 0,38 0,53 0,53 0,53 0,53 0,40 0,40 -0,40 0,40 0,11 0,11 -0,11 0,11 0,20 0,20 -0,20 0,20 0,38 0,38 -0,38 0,38 0,15 0,15 0,15 0,15 0,57 0,57 -0,57 0,57 1,00 1,00 -1,00 1,00 0 0 0 0 0,31 0,31 -0,31 0,31 0,21 0,21 0,21 0,21 0,02 0,02 0,02 0,02 0,81 0,81 0,81 0,81 0,27 0,27 0,27 0,27 0,03 0,03 0,03 0,03 -0,01 0,01 0,01 0,01 -0,27 0,27 0,27 0,27
Diferencia (di)
Diferencia absoluta
Rango absoluto
Rango 4 absoluto 17 4 12,5 17 12,5 15 15 14 514 75 7 12,5 12,5 6 6 16 16 19 19 1111 88 22 18 18 9,5 9,5 3 3 11 9,5 9,5
9 9
i i= =1 1
Rango con 13 signo (ri)
Rango con 4 (ri) signo 17-4 13 12,5 17 12,5 15 15 14 -14 5 7-5 -7 12,5 -12,5 6 6 16 -16 19 -19 11 -11 88 22 18 18 9,5 9,5 33 1-1 -9,5 9,5
rii == 91 Suma de rangos positivos r Suma de rangos positivos 91

99 Suma de rangos negativos r Suma de rangos negativos rjj= = -99
j =1 j =1 10 10
130
Pastor-Barriuso R.
de 0, se esperara la misma suma de rangos positivos que negativos [Tabla 8.3 aqu] y, por consiguiente, 2 aproximadamente 2 4 la suma esperada de rangos positivos sera de la1suma total de rangos absolutos + mitad 1) n( n+ ) Test 1 n(nla deel losapartado rangos con signo de Wilcoxon E(W )= = Al donde n la indica el nmero deque diferencias no nulas. igual ,que en anterior, Bajo hiptesis nula de las diferencias se distribuyen simtricamente alrededor 2 2 4 1 n(n + 1) n(n + 1) el de la P misma para el suma contraste bilateral vendr dado bajo H0 E(Wde ) =rangos = que ,por la probabilidad devalor 0, se exacto esperara positivos negativos y, por consiguiente, 2 2 4 donde n indica el nmero de diferencias no nulas. Al igual que en el apartado anterior, Bajo la hiptesis nula de que las diferencias se distribuyen simtricamente alrededor de 0, se de obtener una suma de positivos tanto o ms distante de E(W ) que susuma valor la suma de rangos positivos sera la negativos mitad de la total de rangos absolutos esperara laesperada misma suma de rangos rangos que y, suma por consiguiente, la esperada el valor exacto de P para el contraste bilateral vendr dado por la probabilidad bajo H0 de rangos positivos la mitad de la suma total de Al rangos absolutos donde n indica elsera nmero de diferencias no nulas. igual que en el apartado anterior, observado w; esto es, si w > E(W), 1 n(n + 1) n(n + 1) devalor obtener una de suma de rangos positivos tanto vendr o= ms distante de (W) que su valor E(W ) = bilateral el exacto P para el contraste dado, por laE probabilidad bajo H0 2 2 4 P = 2P(W w | H0) observado w ; esto es,de si w diferencias > E(W ), no nulas. de obtener una suma rangos positivos tanto o ms distante de (W) que anterior, su valor el valor donde n indica el nmero de Al igual que en elE apartado donde n indica el nmero de diferencias no nulas. Al igual que en el apartado anterior, obtener una exacto de P para el contraste bilateral vendr dado por la probabilidad bajo H0 de y, si w E ( W ), observado w; esto es, si w > E( W ), P = suma de rangos positivos tanto o ms distante de E ( W ) que su valor observado w; esto es, 2P(W w | H0) el valor exacto de P para el contraste bilateral vendr dado por la probabilidad bajo H0 preestablecido, la hiptesis nula se rechazar si la suma de rangos positivos es inferior si w > E(W),
donde 2nE es el nmero de subconjuntos de=cualquier que pueden obtenerse a partir de ..., rm igualmente probable y1su viene determinada por positivos r (W )1, = n(n +es 1)/4 = 12(12 + 1)/4 39, deprobabilidad lo tamao cual se deduce que P = 2 P ( W w | H ). n 0 /2 superior alsubconjuntos percentil - /2.cualquier al , de tamao las npercentil parejas con diferencias no nulas. 1 Haciendo uso este resultado, la Tabla 9 del Apndice el o nmero de de que pueden obtenerse a donde 2 es n 2 facilita los percentiles de la distribucin de la suma de rangos positivos bajo la hiptesis nula de w0,05 = n(n + 1)/2 1 - w0,95 = 78 60 = 18, que las diferencias se distribuyen simtricamente alrededor 0, cuando elresultado, nmero de diferencias partir de lashiptesis n parejas con diferencias no nulas. uso de arbitrario este la Tabla , Haciendo Bajo dicha nula, cualquier combinacin de unde nmero de rangos n n Ejemplo 8.7 Como ilustracin, supongamos que la suma de rangos positivos es w 2 no nulas 16. Para unde nivel de significacin preestablecido, la pueden hiptesis nula se rechazar el nmero subconjuntos de cualquier tamao que obtenerse a dondees 2 nes donde w = 60 se obtiene de la Tabla 9 del Apndice para n = 12. Como la suma 9 del Apndice facilita los percentiles de la distribucin de la suma de rangos positivos si la suma derrangos positivos es inferior al percentil /2 o superior al percentil 1 /2. 0,95 , ..., r es igualmente probable y su probabilidad viene determinada por positivos = 25 a1partir m de n = 12 parejas de datos dependientes con diferencias no nulas. La partir de n parejas diferencias no nulas. Haciendo uso de pueden este resultado, la Tabla es el nmerocon de subconjuntos de cualquier tamao que obtenerse a donde 2n las bajo la hiptesis nula de que las diferencias se distribuyen simtricamente alrededor observada w = 25 > w = 18, se sigue que P ( W 25 | H ) > 0,05. As, el 0,05 0 Ejemplo 8.7 bajo Como ilustracin, supongamos que la de rangos positivos es de w = 25 distribucin H0 de la suma de rangos es suma simtrica alrededor de 1 positivos 9 del Apndice facilita losdiferencias percentiles de nulas. la distribucin de la suma de rangos positivos , partir de las nn parejas con no Haciendo uso de este resultado, la Tabla a partir de = 12 parejas de datos dependientes con diferencias no nulas. La distribucin n 20,10. 16. Para un nivel de = 0, cuando nmero de diferencias no nulas es n bilateral arroja un valor P> la rangos positivos es alrededor de Esignificacin (W) = n(n + 1)/4 bajo H Econtraste (W ) 0el =de n (n +suma 1)/4 =de 12(12 + 1)/4 = 39, de lo simtrica cual se deduce que bajo la hiptesis de que las se diferencias se distribuyen alrededor de 9 del Apndice los percentiles de la distribucin desimtricamente la suma de rangos positivos 12(12 + 1)/4 facilita =nula 39, de lo cual deduce que n donde 2 es el nmero de subconjuntos de cualquier tamao que pueden obtenerse a w0,05 = el n(nmero n + 1)/2 wdiferencias = nulas 18, sea superior a 16, 0,95 = 78 60 Enla aquellas muestras donde de no un nivel de significacin 0, cuando el nmero no nulas es n 16. Para bajo hiptesis nulade dediferencias que las diferencias se distribuyen simtricamente alrededor de partir de las n= parejas con diferencias no9nulas. Haciendo uso de este resultado, laobservada Tabla donde w0,95 60 se obtiene de la Tabla del Apndice para n= 12. Como la suma puede la= siguiente aproximacin normal. Dado que los rangos con signo = 60 se obtiene de la no Tabla 9 del Apndice para n nivel =el 12. Como la suma w0,95 16. Para un de significacin 0, cuando nmero de diferencias nulas es n w donde =utilizarse 25 el > w 18, se sigue que P ( W 25 | H ) > 0,05. As, contraste bilateral arroja 0,05 0 14 9 del un Apndice valor P > facilita 0,10. los percentiles de la distribucin de la suma de rangos positivos observada wrepresentacin = 25 > w0,05 = 18, se sigue quede P(W 25 | H0) > 0,05. As, el en cada constituyen una estandarizada lasdiferencias observadas bajo la hiptesis nula de que las diferencias se distribuyen simtricamente alrededor de 14 contraste bilateral arroja un P > 0,10. pareja de datos dependientes, podra construirse un estadstico sustituyendo las a 16, puede En aquellas muestras donde elvalor nmero de diferencias no nulas sea superior utilizarse la siguiente aproximacin normal. Dado los rangos con de signo constituyen 16. Para un nivel significacin una 0, cuando el nmero de diferencias no nulas es n que 14 los rangos con signo ri en el en test de la t de Student diferencias no nulas di porde representacin estandarizada las diferencias observadas cada pareja de datospara dependientes, En aquellas muestras donde el nmero de diferencias no nulas sea superior a 16, podra construirse un estadstico sustituyendo las diferencias no nulas di por los rangos con muestras (Apartado 6.4). As, eldependientes estadstico resulta signo ri en eldependientes test de la t de Student para muestras (Apartado 6.4). As, el estadstico puede utilizarse la siguiente aproximacin normal. Dado que los rangos con signo resulta
constituyen una representacin estandarizada de r las diferencias observadas en cada
P P (( W ). w w || H H ) P= =2 2 P W 00 y, percentil si w E(una W ), suma de obtener de rangos positivos al /2 o superior al percentil 1 - tanto /2. o ms distante de E(W) que su valor y, si w E(W), Bajo dicha hiptesis observado w ; ), esto es,nula, si w cualquier > E(W), combinacin de un nmero arbitrario de rangos y, si w E( W P = 2P(W w | H0). Ejemplo 8.7 Como ilustracin, supongamos que la suma de rangos positivos es w es igualmente y su probabilidad viene determinada porpositivos positivos r1, ..., rm nula, Bajo dicha hiptesis cualquierprobable combinacin de un nmero arbitrario de rangos w | H0 ) P= 2P(W 0). Bajo dicha hiptesis nula, cualquier combinacin de un nmero arbitrario de rangos r1, ..., rm = es25 igualmente probable y su probabilidad viene determinada por a partir de n = 12 parejas de datos dependientes con diferencias no nulas. La 1 , probabilidad , ..., es nula, igualmente probable y nsu viene determinada por positivos r( y, si w E ), rm bajo 1W Bajo dicha hiptesis cualquier combinacin de un nmero arbitrario de rangos distribucin H0 de la suma de rangos positivos es simtrica alrededor de 2 preestablecido, la hiptesis nula se rechazar si la suma de rangos positivos es inferior
z=
pareja de datos dependientes, podra construirse un nestadstico sustituyendo las diferencias no nulas di por los rangos con signo ri en el test de la t de Student para muestras dependientes (Apartado 6.4). As, el estadstico resulta
z= r
sr
14
donde la media de los m rangos positivos y n - m rangos negativos es
Pastor-Barriuso R.
131
sr
nm 1 n 1 m + r = 1 r r n ri = m n m i j 1 n n i =1 ri = i =1 ri + j =1 r j r= n i =1 y n donde la media de los m rangos positivos es =1 rangos j =1 negativos im 1 ) + nn(n 1 n m mm m =1 ) m ri +1 m ri 1 ( +j 1 n n 2 n = + r= r r r iri=+ i 1 ri i =1 i= n i =i1=1 ni =i1 =1 j =12 n m n(n + 1) 2 m ri m =2 m 1 ) n(n4+ i =1 + n(n + 1) ri 1 =n rii n =1 1 i =14 2 ii=
y, en el caso de que no haya empates, n(n + 1)bajo 2 m la varianza H0 de los rangos con signo se = r i y, en el caso de que no haya empates, la varianza bajo 4 H0 de los rangos con signo se n i =1 estima mediante estima mediante el problema, supongamos que se dispone n los pares de observaciones y, Para en elconcretar caso de que no haya empates, la varianza bajo H0de de rangos con signo se estima H de los rangos con signo se y, en el caso de que no haya empates, la varianza bajo mediante 0 1 n 2 1 n 2 (n + 1)(2n + 1) 2 de una variable aleatoria continua. En cada dependientes, una sr = 1 = (datos n r n i de i = pareja 2n + 1) . n + 1)( 1 2 2 2 6 n n i i = 1 = 1 estima mediante s r = ri = i = . n i =1 muestra n i =1 y la otra observacin 6 observacin x1 corresponde a la primera x2 a la segunda
n n Aplicando ambas resultados, se el 1 estadstico (n + 1)(2n + 1) 1 tiene 2 se tiene 2 estadstico Aplicando ambos resultados, el muestra. El objetivo se centra en comparar las medias . 1 y 2 a partir de s = r = i 2 = poblacionales r i Aplicando ambas resultados, se tiene el estadstico 6 n i =1 n i =1 m estas dos muestras dependientes. m ri n(n + 1) n(n4+ 1) W E (W ) i= 1 ri Aplicando ambas resultados, se tiene el estadstico z= = W E (W ) , 4 Los procedimientos desarrollados en el Apartado 6.3 no(pueden =1 W ) , aplicarse a esta (n + 1)(2n + 1) = SE z = in SE (W ) n )(2n + 1) m (n + 1 24 n(n +no 1) son independientes por provenir de situacin, ya que las medias de ambas r muestras i 24 E (W ) W que representa la diferencia entrey, elen valor observado y esperado de de la suma de rangos positivos, 4 i= 1 consecuencia, distribucin asimtrica la utilizacin , la prueba de la t de = z= dividida por su error estndar bajo Si nmero diferencias node nulas es n > 16, que representa la diferencia entre el valor y esperado de la suma rangos observaciones correlacionadas. SinH embargo, la comparacin se notablemente SE (Wcon ) simplifica 0. +el n ( n 1)( 2observado n+ 1)de parejas que representa la diferencia entre el valor observado y esperado de la suma de rangos este estadstico sigue una distribucin normal estandarizada bajo la hiptesis Student para aproximadamente muestras dependientes 24 resulta cuestionable. Sin embargo, a pesar de Si las el nmero de parejas con diferencias nula de simetra las por diferencias de 0. positivos, dividida su d error estndar bajo H0.de - x2 en cada una n observaciones emparejadas. si se calculan las de diferencias = x1alrededor . Si el nmero de parejas con positivos diferencias positivos, dividida por su error estndar bajo H 0 contar nicamente con 20 parejas, la distribucin de la suma de rangos que representa diferencia entre el valor observado y esperado de la suma de rangos de 20 es n > la 16, este estadstico sigue aproximadamente una distribucin normal Porno unnulas lado, como las distintas no estn relacionadas entre s, estas diferencias Ejemplo 8.8 A partir delparejas estudio EURAMIC, se seleccionan 1000 muestras aleatorias no parejas nulas es n > 16, este estadstico sigue aproximadamente una distribucin normal presenta un aspecto mucho ms normal, asedad. el uso de la aproximacin de casos y controles agrupados segn permitiendo quinquenios de La Figura 8.2 presenta la . Si el nmero de parejas con positivos, dividida por su error estndar bajo H estandarizada bajo la hiptesis nula de simetra de las diferencias alrededor de 0. as como 0 casos y controles, distribucin muestral delado, la diferencia media de b-caroteno d entre son independientes. Por otro la media de las diferencias coincide con la diferencias estandarizada bajo la hiptesis nula de simetra de las diferencias alrededor de 0. normal al test de los de rangos conde signo de Wilcoxon. la distribucin muestral la suma rangos positivos W (esto es, la suma de rangos en las no nulas es n > 16, este estadstico sigue aproximadamente una distribucin normal diferencia de medias muestrales, parejas donde el caso presenta un nivel superior de b-caroteno que el control). Debido al Ejemplo 8.8 A partir della estudio EURAMIC, se seleccionan 1000 muestras reducido nmero de parejas, media de las diferencias de b-caroteno presenta una distribucin Ejemplo 8.8 A partir del estudio EURAMIC, se seleccionan 1000 muestras estandarizada bajo la hiptesis nula de simetra de las diferencias alrededor de 0. muestras asimtrica y, en consecuencia, la utilizacin de la prueba de la t de Student para n 1 controles aleatorias de 20 parejas1 den casos y agrupados segn quinquenios de [Figura 8.2 aproximadamente aqu] dependientes resulta cuestionable. de contar nicamente con 20 parejas, = embargo, d = d i Sin ( x i1 axpesar i2 ) aleatorias de 20 parejas de casos n y controles agrupados segn quinquenios de i =1 rangos i =1 la distribucin de la suman de positivos presenta un aspecto mucho ms normal, Ejemplo 8.8 A partir del estudio EURAMIC, se seleccionan 1000 muestras edad. La Figura 8.2 presenta la distribucin muestral de la diferencia media de permitiendo as el uso de la aproximacin n n normal al test de los rangos con signo de Wilcoxon. 1 1 En edad. el caso de existir diferencias con el mismo valor absoluto, ha de utilizarse lade La Figura 8.2 presenta distribucin muestral de la diferencia media = xla xi 2 = x 1 x2 i1 aleatoriasddeentre 20 parejas de casos y agrupados segn quinquenios de n controles =1 1 como la distribucin muestral de la suma i controles, i= casosny as caroteno siguiente versin corregida del estadstico del test de rangos ha con signo En el caroteno caso de existir diferencias con el mismo valor absoluto, de utilizarse lasuma siguiente d entre casos y controles, as como lalos distribucin muestral de la edad. La Figura 8.2 presenta la distribucin muestral de la diferencia media de versin corregida del estadstico del test de los rangos con signo de rangos positivos W (esto es, la suma de rangos en las parejas donde el caso y, en consecuencia, d es un estimador insesgado derangos la diferencia de medias de rangos positivos W (esto es, lamsuma n de (n + 1) en las parejas donde el caso rias como d nivel entre superior casos y controles, lacontrol). distribucin muestral de la suma caroteno un que Debido al reducido presenta de -caroteno 4 el ila =1 comparacin poblacionales . As, el problema de de medias en dos muestras 1 2 , z = presenta un nivel superior de -caroteno que el control). Debido al reducido nla + 1)(2 n+ (nsuma 1) f en las parejas donde el caso de rangos Wmedia (esto es, de rangos nmero depositivos parejas, la de las diferencias de -caroteno presenta una dependientes queda a una simple inferencia la media depresenta una nica 24 sobre -caroteno una nmero dereducido parejas, la media de las diferencias de 16 presenta un nivel superior de -caroteno que el control). Debido al reducido muestra de n diferencias independientes. 16 cuya varianza incluye el trmino de correccin por empates nmero de parejas, la media de las diferencias de -caroteno presenta una Los mtodos 132 Pastor-Barriuso R. del Apartado 6.2.1 para la media de una muestra pueden entonces T 16 t i (t i +al t i 1)- )% para - como 1)( utilizarse para calcular un intervalo de confianza 100(1 1 2 f = i =1 ,
distribucin asimtrica y, en consecuencia, la utilizacin de la prueba de la t de

Test de los rangos cona signo de Wilcoxon Student para muestras dependientes resulta cuestionable. Sin embargo, pesar de
contar nicamente con 20 parejas, la distribucin de la suma de rangos positivos
Frecuencia relativa (%)
Para concretar el problema, supongamos que se dispone de n pares de observaciones 25 25 presenta un aspecto mucho ms normal, permitiendo as el uso de la aproximacin de una variable aleatoria continua. En cada pareja de datos dependientes, una
20 20 normal al test de los rangosacon signomuestra de Wilcoxon. la primera y la otra observacin x2 a la segunda observacin x1 corresponde 15 15 muestra. El objetivo se centra en comparar las medias poblacionales 1 y 2 a partir de
10 estas dos muestras dependientes. [Figura 8.2 5
aproximadamente aqu]
10
5 6.3 no pueden aplicarse a esta Los procedimientos desarrollados en el Apartado
En el0caso de existir el muestras mismo valor ha de 0 son absoluto, situacin, ya quediferencias las medias decon ambas no independientes porutilizarse provenir dela
observaciones correlacionadas. la comparacin se simplifica -0,6 -0,3 0 Sin embargo, 0,3 0 rangos 30 60 signo 90notablemente 120 150 siguiente versin corregida del estadstico del test de los con si se calculan las diferencias d = x1 - x2 en cada una de las n observaciones d W emparejadas. Por un lado, como las parejas rino estn relacionadas entre s, estas (adistintas ) (b)diferencias
180
Figura 8.2 Distribucin muestral deotro la diferencia casos y la controles (a) y de la son independientes. Por lado, las diferencias d entre coincide con n(la n media + media n de + f 1)(2de 1-caroteno ) suma de rangos positivos W (b) en 1000 muestras aleatorias de n = 20 parejas de casos y controles agrupados 24 Figura 8.2 segn quinquenios de edad a partir del estudio EURAMIC. Las lneas verticales en trazo discontinuo diferencia de medias muestrales, corresponden a los parmetros subyacentes 1 2 = 0,09 g/g y E(W) = 80,3.
1 n 1 n cuya varianza incluye el trmino de por xi 2 ) d =correccin di = ( x i1empates n n Ejemplo 8.9 En la Tabla 8.3 se obtuvieron n = 19 > 16 parejas de casos y 1 1 i i = = cuya varianza incluye el trmino de correccin por empates = de x x i-caroteno 2 xi 2 = controles con diferencias no nulas y, en consecuencia, puede (1t i+ 1x )1 t i n n 1)(t i
i =1
i =1 i =1
z=
i =1
n(n + 1) 4
1T
, f = 2 de rangos positivos W = 91. Bajo la utilizarse la aproximacin normal a la suma y, 8.9 en consecuencia, d 8.3 es un insesgado de > la 16 diferencia dede medias Ejemplo En la Tabla seestimador obtuvieron n = 19 parejas casos y donde ti es el nmero de empates para la i-sima diferencia absoluta. Esta correccin conlleva hiptesis nula de simetra deefecto las diferencias alrededor de 0, apreciable el valor esperado de 1 -empates y As, el problema deel lan comparacin de medias en casos dos muestras 2. 8.3 una reduccin de la varianza su sobre estadstico ser cuando el la nmero el nmero para la i-sima absoluta. Esta correccin donde ti espoblacionales Ejemplo 8.9 la de Tabla se obtuvieron =diferencia 19y, > en 16consecuencia, parejas de y controles conEn diferencias no nulas de -caroteno puede de empates sea elevado (tal es el caso de las variables cualitativas ordinales). Dado el carcter dependientes queda reducido a una simple inferencia sobre la media de una nica suma de positivos es discreto de una la rangos suma de rangos y nulas el reducido tamao inherente a las pruebas no conlleva reduccin de la no varianza y su efecto sobre elconsecuencia, estadstico ser apreciable controles con diferencias de -caroteno y,muestral en puede utilizarse la aproximacin normal a la suma de rangos positivos W = 91. Bajo la paramtricas, la aproximacin normal a estos estadsticos suele incorporar adems la correccin
porcuando continuidad de la de Tabla 8.2 para la de incurrir en=un error de I. el nmero empates sea reducir elevado (tal el caso de las variables cualitativas (probabilidad 19es + 1 )rangos utilizarse la aproximacin normal a= la19 suma de positivos W 91. Bajo latipo hiptesis nula de simetra de las diferencias alrededor de 0, el valor esperado de la E(6.2.1 W ) =una 95 muestra Los mtodos del Apartado para la media de pueden entonces 4 ordinales). Dado el carcter discreto de la sumaalrededor de rangos yparejas el reducido tamao Ejemplo 8.9 En la Tabla 8.3 se obtuvieron n =al 19 > 16 de casos y controles hiptesis nula de simetra de las diferencias de 0, el valor esperado de la con utilizarse calcular es un intervalo de confianza 100(1 - )% para 1 - 2 como suma de rangospara positivos diferencias no nulas de b-caroteno y, en consecuencia, puede utilizarse la aproximacin y la varianza muestral inherente a las no paramtricas, aproximacin normal a estos suma de positivos es positivos normal arangos la suma de pruebas rangos W = 91.la la hiptesis nula de simetra de las sBajo d d t , 19 ( 19 + 1 ) n /2 1,1 diferencias alrededor de 0, el E valor de la (W) esperado = = suma 95 de rangos positivos es n estadsticos suele incorporar adems la+correccin por continuidad de la Tabla 8.2 para 19(19 1)(2 4 19 + 1 )6 = 617,25, var(W) = 19(19 + 1) E(W) = 24 = 95 reducir la probabilidad de incurrir en un error4de tipo I. y la varianza 24 y la varianza donde el trmino de correccin de la varianza por los t1 = 2 empates con y la varianza 19(19 + 1)(2 19 + 1) 6 W )g/g = y los t2 = 2 empates con= 617,25, absoluta 0,38 diferencia diferencia absoluta var( 0,27 24 19(19 + 1)(2 19 + 1) 6 = 617,25, var(W) = donde el trmino de correccin de la varianza por los t1 = 2 empates con diferencia 17 g/g es 24 con donde el 0,27 trmino de de la varianza por los tabsoluta absoluta mg/g y correccin los t2 = 2 empates con diferencia 0,38 m g/g es 1 = 2 empates
muestra de n diferencias independientes.
donde el trmino de0,27 correccin de lavarianza por 2(2 + 1 )(2 1) + 2(2 + 1)(los 2 t1 1)= 2 empates con absoluta 0,38 diferencia absoluta f =g/g y los t2 = 2 empates con diferencia = 6. 2 diferencia absoluta 0,27 g/g y los t2 = 2 empates con diferencia absoluta 0,38 g/g es Pastor-Barriuso R. Aplicando la correccin por continuidad, el test estadstico de los rangos con g/g es 2(2 + 1)(2 1) + 2(2 + 1)(2 1) f = entonces = 6. signo de Wilcoxon resulta 2
133
f=
2(2 + 1)(2 1) + 2(2 + 1)(2 1) = 6. 2
Aplicando la correccin por continuidad, el test estadstico de los rangos con signo de Wilcoxon resulta entonces Aplicando la correccin por continuidad, el test estadstico de los rangos con signo de Wilcoxon resulta entonces
z=
| 91 95 | 1 / 2 617,25
= 0,14,
con un valor P = 2P(Z 0,14) = 2{1 F(0,14)} = 0,889. Notar que el resultado del test sera idntico de suma de rangos negativos W =Notar 99, que ya que su valor esperado con un valor P = utilizar 2P(Z la 0,14) = 2{1 - (0,14)} = 0,889. el resultado es E(W) = 95 y su varianza coincide con var(W) = 617,25. As, una vez controladas las diferencias de edad, las de b-caroteno favor de W los=casos deque infarto -99, ya su no son del test sera idntico dediferencias utilizar la suma de rangosa negativos significativamente distintas de las diferencias a favor de los sujetos libres de la enfermedad. valor esperado es E(W) = -95 y su varianza coincide con var(W) = 617,25. As, La comparacin no paramtrica de una variable continua en ms de dos muestras dependientes vez controladas diferencias de edad, las diferencias dede -caroteno a favorsigue la puedeuna realizarse mediante las el test de Friedman . Bajo la asuncin que la variable misma distribucin continua excepto posibles diferencias de localizacin (traslaciones), esta prueba permite contrastar la hiptesis nula de una misma localizacin de la variable en cada una de las poblaciones. Este procedimiento tambin se fundamenta en la definicin de rangos y puede consultarse en los libros especficos de mtodos no paramtricos. 18 8.4 TEST EXACTO DE FISHER En el Apartado 7.4 se present el test 2 de Pearson como un procedimiento general para evaluar la asociacin estadstica entre las variables de una tabla 22. Esta prueba se basa en la asuncin de que el tamao muestral es suficientemente grande para justificar la aproximacin chicuadrado a la distribucin nula del estadstico 2 de Pearson. En concreto, si los marginales de la tabla son pequeos, de tal forma que la frecuencia esperada en alguna de las celdas sea inferior a 5, esta aproximacin puede resultar imprecisa. En tales circunstancias, es preferible utilizar mtodos alternativos basados en la distribucin exacta de las frecuencias de las celdas de una tabla 22. En este apartado se describe el ms conocido de estos procedimientos, el test exacto de Fisher. Ejemplo 8.10 La Tabla 8.4 presenta el nmero de sujetos con niveles de b-caroteno Ejemplo 8.1. Bajo la hiptesis de independencia nivel de -caroteno y el superiores e inferiores a 0,30 m g/g entre los 10 entre casosel de infarto y los 10 controles del estudio EURAMIC seleccionados de forma independiente en el Ejemplo 8.1. Bajo la riesgo de de infarto de miocardio, la frecuencia esperada en cada celda sera de miocardio, hiptesis independencia entre el nivel de b-caroteno y el riesgo de infarto la frecuencia esperada en cada celda sera E11 = E12 = E21 = E22 =
5 10 = 2,5, 20 15 10 = 7,5. 20
Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la prueba 2 de Pearson no ser aplicable a esta tabla 2 2y la asociacin ha de contrastarse mediante otro Como los valores esperados en dos de las cuatro celdas son inferiores a 5, la procedimiento.
prueba 2 de Pearson no ser aplicable a esta tabla 22 y la asociacin ha de contrastarse mediante otro procedimiento.
[Tabla 8.4 aproximadamente aqu]
Test exacto de Fisher
Tabla 8.4 -caroteno en tejido adiposo en 10 casos de infarto de miocardio y 10 controles seleccionados aleatoriamente del estudio EURAMIC.
-caroteno (g/g) > 0,30 0,30 Total Infarto de miocardio Caso 1 9 10 Control 4 6 10 Total 5 15 20
El test exacto de Fisher se basa en determinar la probabilidad exacta de observar una tabla cualquiera con frecuencias a, b, c y d, bajo la hiptesis nula de independencia y asumiendo que todos los marginales n1, n2, m1 y m2 son fijos (Tabla 7.1). La condicin de marginales fijos se impone por conveniencia matemtica, ya que los clculos se simplifican notablemente y los marginales contienen poca informacin sobre la asociacin a estudio. Bajo H0, la probabilidad de enfermar es comn en los sujetos expuestos y los no expuestos. As, el nmero de enfermos entre los expuestos sigue una distribucin de parmetros n1 y , mientras que entre los n1 binomial a n1 a n 2 c n2 c ) = ( 1 ) ( 1 . )Como P ( a , b , c , d | H 0 no expuestos sigue una distribucin binomial de parmetros las muestras de a c n2 y expuestos y no expuestos son independientes, la probabilidad de obtener una tabla con frecuencias a, b, c y d es el producto de las probabilidades binomiales de observar a sujetos n1 n 2 m1 expuestos, m2 enfermos entre los expuestos y c entre los no = a m1 a (1 ) . n1 a n1 a n 2 c n2 c P(a, b, c, d | H0) = ( 1 ) a c (1 ) Para marginales n1, n2, m1 y m2 fijos, el rango de valores posibles k para el nmero de n1 n 2 m1 (1 n ) m,2 m . ). Por tanto, la = a m 1 n ) y k = min( casos expuestos vara entre k1 = max(0, 2 2 1 1 m a 1 Para marginales de n1,obtener n2, m1 y m2tabla fijos,con el rango de valores posibles k para el nmero de casos probabilidad una frecuencias a, b, c y d condiciona a unos expuestos vara entre k = max(0, m n ) y k = min( n , m ). Por tanto, la probabilidad 1 , m y m fijos, 1 2 de valores 1 posibles 1 Para marginales n1, n el2 rango k para el nmero de de 2 1 2 obtener una tabla frecuencias aviene , b, c y d condicionada a unos marginales n1, n2, m1 y m2 fijos marginales n1, con n2, m dada por 1 y m2 fijos viene dada por casos expuestos vara entre k = max(0, m - n ) y k = min(n , m ). Por tanto, la
1 1 2 2 1 1
n1 n 2 m1 condiciona (1 ) m2 a unos probabilidad de obtener una tabla con frecuencias , b, c y a am d a 1 P(a, b, c, d | n1, n2, m1, m2; H0) = k 2 n1 n 2 m1 marginales n1, n2, m1 y m2 fijos viene dada por m2 k m k (1 ) k = k1 1 n n n1 n2 m1 ( 1 2 1 1n ) m2 n 2 a m1 a a m a a m1 a 1 P(a, b, c, d | n1, n2, m1, m2; H0) = = , = k2 n 1 2 k2 n m1 n1 + m 2 n n n 1 2 2 ( 1 ) k m1 k m k = k1 1 k = k1 k m1 k n 2 las propiedades n1 de n1 n coeficientes 2 los donde el denominador de la ltima igualdad se obtiene de binomiales. Esta distribucin de probabilidades entre todas las tablas con donde el denominador de la ltima igualdad se de propiedades de loslos mismos m1 a a m1 alas obtiene posibles a = , = marginales se conoce como distribucin hipergeomtrica y determina la distribucin bajo H0 k2 n1 n 2 n1 + n 2 coeficientes binomiales. Esta distribucin de probabilidades entre todas m las posibles 1 k = k1 k m1 k Pastor-Barriuso R. tablas con los mismos marginales se conoce como distribucin hipergeomtrica y
135
donde el denominador de la ltima igualdad se obtiene de las propiedades de los determina la distribucin bajo H0 del nmero de casos expuestos y no expuestos en una
del nmero de casos expuestos y no expuestos en una muestra de m1 casos obtenidos a partir de un total de n1 sujetos expuestos y n2 sujetos m no expuestos. Notar que esta probabilidad depende 1 m 2 n1 n 2 una nicamente del nmero a de casos expuestos, dado que vez a a conocido a las frecuencias de a 1 1 a los n de la m las restantes celdas quedan determinadas por marginales tabla. Cabe destacar tambin P(a | n1, n2, m1, m2; H0) = = m2 que aunque los clculos se han derivado de prospectivo, mun n1 + n 2 se obtendra el mismo 1 + estudio m de sujetos expuestos entre resultado a partir de un estudio retrospectivoen trminos del nmero 1 n1 casos y controles,
m m n1 !n ! n1 n 2 1m 2! 1! m 22 = , a n ! aa ! b !c d 1! a !n m1 a P(a | n1, n2, m1, m2; H0) = = m1 + m 2 n1 + n 2 asociada m lo cual confirma que la probabilidad condicional tabla no 1 n1 a una determinada
vara en funcin del diseo prospectivo o retrospectivo del n1 ! n 2 ! m1 ! m 2 ! estudio. =, n! a! b! c! d!

lo cual confirma que la probabilidad asociada a una determinada tabla no vara en Ejemplo 8.11 Bajo la hiptesis condicional nula de independencia entre el nivel de -caroteno funcin del diseo prospectivo o retrospectivo del estudio. lo cual confirma que la probabilidad condicional asociada a una determinada tabla no y el riesgo de infarto agudo de miocardio, la probabilidad exacta de obtener la Ejemplo 8.11del Bajo la hiptesis nula independencia entre el nivel de b-caroteno y el vara en funcin diseo prospectivo ode retrospectivo del estudio. riesgo 8.4 de manteniendo infarto agudo de miocardio, la probabilidad exacta de obtener la Tabla 8.4 Tabla los marginales fijos es manteniendo los marginales fijos es Ejemplo 8.11 Bajo la hiptesis nula de independencia entre el nivel de -caroteno 10 10 1 4 5!15!10!10!exacta de obtener la la probabilidad y el riesgo de| infarto agudo miocardio, P(1 5, 15, 10, 10; de H0) = = 0,136, = 20!1! 4! 9! 6! 20 fijos es Tabla 8.4 manteniendo los marginales 5 que corresponde a la probabilidad de que, de los 5 sujetos observados con niveles de 10 10 sujetos b-caroteno superiores a 0,30 mg/g,de 1 sea caso y los restantes 4 sean controles. Notar que que corresponde a la probabilidad que, de los 5 observados con niveles 1 4 !15! 10primera !10! la tabla se refiere por la frecuencia a = 1 observada la celda, dado que las 5en = 0,136, P(1 | 5, 15, 10, 10; H0) = = dems frecuencias b = 4, a c 0,30 = 9 y d = 61vienen entonces dadas por los marginales. -caroteno superiores g/g, sea caso y los restantes 4 sean controles. de 20 20!1! 4! 9! 6! 5 Notar que la la tabla se refiere por la frecuencia a= 1 una observada en celda, Para contrastar independencia entre las variables de tabla 2 2,la el primera test exacto de Fisher consiste en enumerar todas las posibles tablas con los mismos marginales que la tabla observada, que las dems frecuencias b = 4,de c = 9 yde d= 6 vienen entonces por losbajo la que corresponde a la probabilidad que, los 5 sujetos observados con niveles para adado continuacin calcular la probabilidad exacta asociada a cada una dedadas estas tablas hiptesis nula de independencia. El valor P bilateral del test exacto de Fisher corresponde marginales. -caroteno a 0,30 g/g, 1 sea caso y los restantes 4 sean controles. de entonces a la suma de superiores probabilidades para todas aquellas tablas con probabilidad inferior o igual a la de la tabla observada (esto es, la suma de probabilidades de las tablas tanto o menos Notar que la tabla se refiere la frecuencia a = 1 observada en la primera celda, compatibles con la hiptesis nula quepor la tabla observada). Para contrastar la independencia entre las variables de una tabla 22, el test exacto dado que las La dems frecuencias b= 4, c = 9 posibles y d = 6 vienen entonces dadas marginales por los Ejemplo 8.12 Tabla 8.5 presenta todas las tablas con los mismos de Fisher consiste en enumerar todas las posibles tablas con los mismos marginales que n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la asociacin entre el marginales. b-caroteno y el infarto de miocardio. Bajo la nulaexacta de independencia entre ambas la tabla observada, para a continuacin calcular la hiptesis probabilidad asociada a cada variables, la probabilidad exacta asociada a cada tabla viene dada por la distribucin hipergeomtrica una de estas tablas bajo la hiptesis nula de independencia. valor P bilateral delexacto test Para contrastar la independencia entre las variables deEl una tabla 22, el test
exacto de Fisher corresponde entonces a las la suma de probabilidades para todas aquellas que de Fisher consiste en enumerar todas posibles tablas con los mismos marginales
la tabla observada, para a continuacin calcular la probabilidad exacta asociada a cada

22 una de estas tablas bajo la hiptesis nula de independencia. El valor P bilateral del test
tablas con probabilidad inferior o igual a la de la tabla observada (esto es, la suma de
Test exacto de Fisher
probabilidades de las tablas tanto o menos compatibles con la hiptesis nula que la tabla Tabla 8.5 Todas las posibles tablas con los mismos marginales que la Tabla 8.4, junto con sus probabilidades observada). tablas con probabilidad inferior o igual a la de nula la tabla observada (esto es, la suma de asociadas bajo la hiptesis de independencia.
Tabla Probabilidad bajo H Odds rationula que la tabla 0 probabilidades las tablas tanto o menos compatibles con la hiptesis Ejemplo de 8.12 La Tabla 8.5 presenta todas las posibles tablas con los mismos 0 5
observada). 5 m1 = 10 y m0,016 0 la Tabla 8.4 para la 5, n2 = 15, marginales n1 = 10 2 = 10 observados en

9 -caroteno 6 0,136 0,17 asociacin entre el y el infarto de miocardio. Bajo la hiptesis nula de Ejemplo 8.12 La Tabla 8.5 presenta todas las posibles tablas con los mismos 0,58 independencia variables, la0,348 probabilidad exacta asociada a cada tabla marginales n1 = 5, n2 = 15, m1 = 10 y m2 = 10 observados en la Tabla 8.4 para la 0,348 1,71 viene dada por hipergeomtrica asociacin entre el -caroteno y el infarto de miocardio. Bajo la hiptesis nula de 3 2 7 8 la distribucin 4 6 1 9 2 8 entre 3 7 ambas 1 4
5!probabilidad 15!10!10! exacta asociada a cada tabla independencia entre ambas variables, la P(0) = 0,016, 5 0 = P(5) = 20 ! 0! 5!10! 5! 5 10 0,016 viene dada por la distribucin hipergeomtrica 5!15!10!10! P(1) = P(4) = = 0,136, 20 1 !1 4 !! 9 !0 6 ! 5 !1! 5 ! 0 1 ! P(0) = P(5) = = 0,016, 20! 0! 5!10! 5! 5!15!10!10! P(2) = P(3) = 5!15!10!10! = 0,348, P(1) = P(4) = 20! 2! 3! 8! 7! = 0,136, 20!1! 4! 9! 6! 5!15!10!10! tablas con a = 0, 1, 4 y 5 cuya suma de probabilidades igual P(2) =es P(3) = a 1. Como las = 0,348, 20! 2! 3! 8! 7! tienen asociadas probabilidades menores o iguales que la probabilidad P(1) = cuya suma de probabilidades es igual a 1. Como las tablas con a = 0, 1, 4 y 5 tienen asociadas probabilidades menores o iguales quedel la probabilidad PFisher (1) = 0,136 P bilateral test exacto de es de la tabla 0,136 de la tabla observada, el valor a = 0, 1, 4 y5 cuya suma de probabilidades es igual a 1. Como las tablas con observada, el valor P bilateral del test exacto de Fisher es
P = P(0) + Pmenores (1) + P(4) P(5) que la probabilidad P(1) = tienen asociadas probabilidades o+ iguales
0,136
= 0,016 + 0,136 + 0,136 + 0,016 = 0,304. 0,136 de la tabla observada, el valor P bilateral del test exacto de Fisher es Notar que se obtendra el mismo valor P si se sumaran las probabilidades asociadas a todas tablas con un oddsvalor ratio P tanto osumaran ms alejado del valor nulo 1 que el OR = Notaraquellas que se obtendra el mismo si+se las probabilidades P=P (0) + P(1) + P(4) P(5) 16/(49) = 0,17 de la tabla observada; es decir, las probabilidades de las tablas con OR 0,17 o OR 1/0,17 = 6. aquellas As, partir esta muestra reducida, no puede concluirse que exista asociadas a todas tablas con un odds tan ratio tanto o ms alejado del valor =a 0,016 +de 0,136 + 0,136 + 0,016 = 0,304. una asociacin significativa entre el nivel de b-caroteno y el riesgo de infarto de miocardio. nulo 1 que el OR = 16/(49) = 0,17 de la tabla observada; es decir, las P si el se nmero sumarande las probabilidades Notar que se obtendra el es mismo Cuando el tamao muestral muy valor pequeo, posibles tablas con los mismos marginales ser muy reducido, de tal forma que el valor P del test exacto Fisherde podr probabilidades de las tablas con OR 0,17 OR 1/0,17 = 6. As,de a partir esta tomar asociadas a todas aquellas tablas con un odds ratio tanto o ms alejado del valor muy pocos valores, siendo as particularmente difcil obtener resultados significativos. Para un nivel de significacin preestablecido, el test exacto de Fisher tender a ser conservador con muestra tan reducida, no puede concluirse que exista una asociacin significativa OR = 1 6/(4 9) = 0,17 de la tabla observada; es decir, las nulo 1 que el una verdadera probabilidad de error de Tipo I menor que el valor nominal . Un contraste alternativo conservador consiste en calcular el valor mid-P bilateral, que se define como y el riesgo de infarto de miocardio. entremenos el nivel de -caroteno probabilidades de las tablas con OR 0,17 OR 1/0,17 = 6.menos As, a verosmiles partir de esta la probabilidad de la tabla observada ms la probabilidad de las tablas bajo H0. Este valor mid-P ser siempre inferior o igual al valor exacto de P, obtenindose resultados 23 muestra tan reducida, no puedees concluirse muy similares si el tamao muestral grande. que exista una asociacin significativa entre el nivel de -caroteno y el riesgo de infarto de miocardio.
23
Ejemplo 8.13 De todas las posibles tablas enumeradas en la Tabla 8.5, slo las tablas con a = 0 y 5 tienen probabilidades bajo H0 menores que la probabilidad P(1) = 0,136 de la tabla observada, as que el valor mid-P bilateral se calcula como mid-P = P(0) + P(1) + P(5) = 0,016 + 0,136 + 0,016 = 0,168, que es considerablemente menor que el valor exacto de P = 0,304 calculado en el ejemplo anterior. No obstante, ambos valores de P arrojan resultados no significativos para el nivel de significacin estndar = 0,05. El test exacto de Fisher puede generalizarse para evaluar la asociacin estadstica entre las variables categricas de una tabla rc, cuando algunas frecuencias esperadas sean muy bajas y no pueda aplicarse el test 2 de Pearson. Aunque el valor P del test exacto de Fisher para tablas mayores de 22 se define igualmente como la suma de probabilidades para aquellas tablas tanto o menos probables que la tabla observada, su clculo requiere de algoritmos de computacin dado el elevado nmero de posibles tablas con los mismos marginales. 8.5 REFERENCIAS 1. Agresti A. Categorical Data Analysis, Second Edition. New York: John Wiley & Sons, 2002. 2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. Englewood Cliffs, NJ: Prentice Hall, 1977. 3. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 1, The Analysis of Case-Control Studies. Lyon: International Agency for Research on Cancer, 1980. 4. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. 5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley & Sons, 1998. 6. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley & Sons, 1986. 7. Fleiss JL, Levin B, Paik MC. Statistical Methods for Rates and Proportions, Third Edition. New York: John Wiley & Sons, 2003. 8. Hollander M, Wolfe DA. Nonparametric Statistical Methods, Second Edition. New York: John Wiley & Sons, 1999. 9. Lehmann EL. Nonparametrics: Statistical Methods Based on Ranks. San Francisco: Holden and Day, 1975. 10. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. 11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State University Press, 1989.
138
Pastor-Barriuso R.
TEMA 9 DETERMINACIN DEL TAMAO MUESTRAL

9.1INTRODUCCIN Las inferencias poblacionales derivadas a partir de una muestra conllevan indefectiblemente un margen de error. As, en el diseo de un estudio epidemiolgico o clnico, es necesario plantearse de antemano el nmero de sujetos que deben ser estudiados para responder a la pregunta de investigacin con un grado razonable de certidumbre. La determinacin a priori del tamao muestral es una parte importante del diseo de un estudio por distintos motivos: yy Permite concretar la hiptesis de trabajo. El investigador ha de precisar la hiptesis principal del estudio y, en funcin de su experiencia, investigaciones previas o estudios piloto, especificar la magnitud de efecto clnica o biolgicamente relevante que se pretende detectar. yy Permite evaluar la factibilidad del estudio. Una de las limitaciones ms frecuentes en los estudios epidemiolgicos es la imposibilidad de reclutar un nmero suficiente de pacientes, bien sea por limitaciones en los recursos econmicos, en el nmero de pacientes disponibles o en el tiempo de duracin del estudio. yy Previene la obtencin de resultados no concluyentes. Como se describi en el Tema 5, la precisin de una estimacin y la potencia estadstica de un contraste de hiptesis aumentan conforme aumenta el tamao muestral, de tal forma que una muestra insuficiente dar lugar a estimaciones imprecisas y contrastes de baja potencia. Desde un punto de vista puramente terico, basta con aumentar el tamao muestral para obtener estimaciones arbitrariamente precisas o para detectar como estadsticamente significativo cualquier efecto por pequeo que sea. Aun cuando esto sea posible en la prctica, la utilizacin de muestras excesivamente grandes es ineficiente, ya que la posible deteccin de efectos trivialmente pequeos y de escasa utilidad prctica no justificara los recursos empleados. En ltimo trmino, el objetivo de la determinacin a priori del tamao muestral consiste en estimar la muestra mnima necesaria para asegurar estimaciones razonablemente precisas o para tener una potencia suficiente en la deteccin de efectos clnicamente relevantes. Con cierta frecuencia, el nmero de sujetos disponibles para un estudio viene dictado de antemano por las limitaciones econmicas o temporales. En tales circunstancias, es importante determinar qu magnitudes de efecto tendran una probabilidad razonable de ser detectadas con la muestra disponible, para contar as con una idea aproximada de las posibilidades que ofrecera la realizacin de dicho estudio. Como se ver a continuacin, el clculo del tamao muestral requiere de informacin previa a la realizacin del estudio. Estos datos suelen proceder de investigaciones previas relacionadas y, en la medida de lo posible, han de ajustarse a unas hiptesis de trabajo verosmiles. En cualquier caso, las asunciones realizadas en el clculo del tamao muestral pueden diferir de los resultados posteriores del estudio y, en consecuencia, estas determinaciones deben servir como gua orientativa ms que como norma rgida para la estimacin del tamao muestral. Conviene apuntar tambin que la muestra resultante se refiere al nmero de sujetos necesarios para el
acin de tamao esencialmente infinito. La correccin de las frmulas del tamao
Determinacin del tamao tral para otros tipos de muestreo ymuestral para poblaciones finitas puede consultarse en
bros sobre muestreos complejos citados al final del tema.
anlisis y no a los inicialmente incluidos. As, la muestra estimada ha de incrementarse en previsin de las posibles prdidas de sujetos que pudieran ocurrir en el estudio. TAMAO MUESTRAL PARA LA ESTIMACIN DE UN PARMETRO En este tema se revisan las frmulas del tamao muestral ms frecuentemente utilizadas en LACIONAL el diseo de estudios epidemiolgicos y clnicos, tanto para la estimacin de una media y una proporcin en una nica muestra, como para la comparacin de medias y proporciones en muestras dependientes e independientes. En adelante, se asume que las muestras se obtienen mediante un 1.2 MEDIDAS DE TENDENCIA CENTRAL sta seccin se presentan las frmulas para determinar el tamao muestral necesario muestreo aleatorio simple a partir de una poblacin de tamao esencialmente infinito. La correccin de las frmulas del tamao muestral para otros tipos de muestreo y para poblaciones obtener estimaciones fiables de un parmetro poblacional (tpicamente la media de Las medidas de tendencia central acerca de cul e finitas puede consultarse en los libros sobre muestreos complejos citados al final del informan tema.
variable continua o la proporcin de sujetos con una determinada caracterstica) a de una determinada variable o, dicho de forma equivalente
9.2 TAMAO MUESTRAL PARA LA ESTIMACIN DE UN PARMETRO r de una nica muestra. Esta situacin concierne esencialmente a los estudios alrededor de qu valor se agrupan los datos observados. La POBLACIONAL
obtener estimaciones fiables de un parmetro poblacional (tpicamente la media de una variable mo necesario para estimar poblacional con un grado de continua o el la parmetro proporcin de sujetos con unadeterminado determinada caracterstica) a partir de parmetros una nica poblacionales realizar inferencias acerca de los poblacional con un determinado grado de precisin, que suele cuantificarse mediante la amplitud del intervalo confianza. variable. Tamao muestral para la de estimacin de una media
iptivos o transversales. El objetivo se centra las en calcular elpara tamao muestral En esta seccin se presentan frmulas determinar el muestral necesario para los resultado central de latamao muestra sirven tanto para resumir
muestra. Esta situacin concierne esencialmente a los estudios descriptivos o transversales. El sin, que puede cuantificarse mediante la amplitud del intervalo confianza. objetivo se centra en calcular el tamao muestral de mnimo necesario para estimar el parmetro continuacin se describen los principales estimadores de la
tamao de una muestra precede a su seleccin y, en consecuencia, no se dispone de rtir de la aproximacin normal N(, 2/n) a la distribucin de una1.2.1 media muestral Media aritmtica 9.2.1 Tamao muestral para la estimacin de una media tamao de una muestra precede a su seleccin y, en consecuencia, no se dispone de por informacin muestral. La precisin de la estimacin queda entonces determinada 2 uede construirse intervalo de confianza al 100(1N -( )% para media Aun partir de la aproximacin normal , / n) a la la distribucin de una media muestral La media aritmtica, denotada por x ,, puede se define como la su informacin muestral. La precisin de la100(1 estimacin queda entonces determinada por construirse un del intervalo dede confianza al )% para la media poblacional como la amplitud intervalo confianza o, ms concretamente, por la distancia del centro valores muestrales dividida por el nmero de observacione acional como x z1 /2 / n . Notar que este intervalo incluye incluye la la desviacin desviacin tpica poblacional en lugar de amplitud confianza o, ms concretamente, poruna la distancia centroa su su la estimacin muestral, ya de que la determinacin del tamao de muestradel precede a los lmitesdel delintervalo intervalo por n el tamao muestral y por x para e i el valor y, su en consecuencia, no se de informacin de observado la en lugar de estimacin muestral, yadispone que la determinacin del muestral. La precisin a poblacional seleccin a los lmites del intervalo estimacin queda entonces determinada por la amplitud del intervalo de confianza o, ms media vendra dada por la concretamente, por la distancia del centro a los z1lmites = , del intervalo3 /2 n = z1 / 2 , x1 + x 2 + ... + x n 1 n n = = x x i de donde puede despejarse el tamao muestral n para obtener n i =1 n de donde puede despejarse el tamao muestral n para obtener de donde puede despejarse el tamao muestral n para obtener z 2 2 La media es la medida de tendencia central ms utilizad n = 1 / 2 .
2
z2 2 n = 1 / 2 . interpretacin. Corresponde al centro de gravedad de los 2 muestral para la estimacin de una media De esta expresin se desprende que el tamao De esta expresin desprende que el tamao muestral para la estimacin de una poblacional depende de se tres elementos, que deben ser determinados parainfluenciada poder principal limitacinde es antemano que est muy por los v aplicar la frmula: De esta expresin se desprende el tamao muestral para la estimacin una media poblacional depende de tres que elementos, que deben ser determinados dede antemano caso, puede no ser un fiel reflejo de la tendencia central de yy El nivel de confianza 100(1 )%. Cuanto mayor sea este nivel de confianza, mayor media poblacional depende de elementos, que deben ser determinados de confianza antemano del ser el tamao En tres la prctica, suele utilizarse por convenio una para poder aplicarmuestral. la frmula: 95% ( = 0,05), de tal forma que el percentil de la distribucin normal estandarizada es Ejemplo 1.4 En este y en los sucesivos ejemplos sob para aplicar la frmula: =nivel z0,975 = 1,96. z1poder /2 El de confianza 100(1 - )%. Cuanto mayor sea este nivel de confianza,
140
yy La varianza poblacional 2. Cuanto ms dispersa sea una variable, mayor ser la muestra utilizarn los valores del colesterol HDL obtenidos e El nivel de confianza 100(1 - )%. Cuanto mayor sea este nivel de confianza, mayorpara ser describirla el tamao muestral. En la prctica, suelepor utilizarse por convenio una necesaria aceptablemente. Se requiere, tanto, de un valor aproximado estudio European Study on una Antioxidants, Myocardia mayor ser el tamao muestral. En laforma prctica, suele utilizarse por convenio confianza del 95% ( = 0,05), de tal que el percentil de la distribucin Pastor-Barriuso R. the Breast (EURAMIC), un estudio multicntrico de confianza del 95% ( es = 0,05), de tal forma que el percentil de la distribucin normal estandarizada z1-/2 = z0,975 = 1,96. entre 1991 y 1992 en ocho pases Europeos e Israel p
Ejemplo 9.1 En un pequeo estudio piloto realizado en personas adultas de una Tamaopara muestral para la estimacin de un parmetro precisin de un kilogramo puede ser aceptable estimar el peso medio en poblacional determinada poblacin, la media y la desviacin tpica de la presin arterial personas adultas, pero resulta claramente insuficiente en recin nacidos. sistlica resultaron ser 130 a y estudio, 20 mm Hg, esta similares ya de la varianza de la variable que respectivamente. suele obtenerse a Utilizando partir de trabajos realizados o de un estudio piloto. informacin preliminar, se planea obtener muestra Ejemplo 9.1 En un pequeo estudio piloto una realizado en aleatoria personas simple adultasde demayor una yy La precisin deseada . El tamao muestral ser tanto mayor cuanto mayor sea la precisin exigida la estimacin (esto es, cuanto menor sea ). El criterio para establecer la precisin tamaoapara estimar el nivel medio de presin arterial sistlica con una precisin determinada poblacin, la media y la desviacin tpica de la presin arterial de una estimacin ha de fundamentarse en el conocimiento previo sobre la magnitud aproximada del Asumiendo parmetro. As, por de ejemplo, unadel precisin de un kilogramo puede ser Hg. un nivel confianza 95% y una desviacin de 2 mm sistlica resultaron ser 130 y 20 mm Hg, respectivamente. Utilizando esta tpica aceptable para estimar el peso medio en personas adultas, pero resulta claramente insuficiente recin nacidos. informacin preliminar, se planea obtener una muestra aleatoria simple de mayor similar a la en del estudio piloto, se tiene Ejemplo 9.1 En un pequeo estudio piloto realizado en personas adultas de una tamao para estimar el nivel medio de2presin arterial sistlica con una precisin 2 1 , 96 20 determinada poblacin, la media tpica de la presin arterial sistlica n = y la2 desviacin = 384,16; 2 resultaron ser 130 y 20 mm Hg, respectivamente. Utilizando estadesviacin informacin preliminar, tpica de 2 mm Hg. Asumiendo un nivel de confianza del 95% y una se planea obtener una muestra aleatoria simple de mayor tamao para estimar el nivel medio de presin arterial sistlica con una385 precisin 2 estimar mm Hg. Asumiendo similar a la del estudio piloto, se tiene es decir, se requeriran aproximadamente sujetosde para la presin un nivel de confianza del 95% y una desviacin tpica similar a la del estudio piloto, se tiene arterial sistlica media de esta poblacin con una precisin de 2 mm Hg. 1,96 2 20 2 n= = 384,16; 2 2 Obsrvese que el tamao muestral aumenta de forma cuadrtica con la precisin es decir, se requeriran aproximadamente 385 sujetos para estimar la presin arterial sistlica media de esta poblacin con una precisin de mm Hg. Obsrvese que el es decir, se aproximadamente 385 sujetospara estimar la = 12 mm Hg, elpresin tamao deseada, derequeriran tal forma que para el doble de precisin tamao muestral aumenta de forma cuadrtica con la precisin deseada, de tal forma que para el doble de precisin = 1 poblacin mm Hg, el tamao muestral necesario Hg. sera cuatro arterial sistlica media de esta con una precisinmnimo de 2 mm muestral mnimo necesario sera cuatro veces mayor veces mayor Obsrvese que el tamao muestral aumenta de forma cuadrtica con la precisin 1,96 2 20 2 n= = 1.536,64 1.537. 12 deseada, de tal forma que para el doble de precisin = 1 mm Hg, el tamao
muestral mnimo necesario sera cuatro veces mayor mediante p z ) /la n . As, la precisin proporcin en la estimacin de una proporcin 9.2.2 Tamao muestral estimacin de una 1-/2 (1para 9.2.2 Tamao muestral para la estimacin de una proporcin 2 la2 precisin Siguiendo unpargumento apartado anterior, puede utilizarse la aproximacin normal mediante z1-/2 determinada similar (1 ) al / ndel .,96 As, en la estimacin de una proporcin 1 20 poblacional viene por Siguiendo un argumento similar al del apartado anterior, puede utilizarse la n = = 1.536,64 1.537. N(, (1 )/n) a la distribucin de una proporcin muestral p para obtener un intervalo de 12 poblacional mediante confianza al 100(1 )% para la proporcin mediante p z1/2 (1 ) / n . As, As, la precisin poblacional viene determinada por aproximacin normal N ( , (1 )/ n ) a la distribucin de una proporcin muestral p poblacional (1 ) la precisin en la estimacin de una proporcin viene determinada por = z1 / 2 , n poblacional viene determinada por 9.2.2 Tamao muestral la estimacin de una para obtener un intervalopara de confianza al 100(1 proporcin para (1)% ) la proporcin poblacional = z1 / 2 , n y el tamao muestral mnimo para alcanzar Siguiendo un argumento similar necesario al del apartado anterior, dicha puedeprecisin utilizarsees la (1 = z1 / 2 y el tamao muestral mnimo necesario para alcanzar dicha precisin es n y el tamaonormal muestral para alcanzar dicha precisin es 2 N(mnimo , (1 - necesario )/n) a lazdistribucin de una proporcin muestral p aproximacin (1 ) n = 1 / 2 2 . y el muestral mnimo para alcanza 5 2 para obtener un intervalo de confianza al 100(1 la tamao proporcin poblacional necesario z1 / 2-( 1 )% para ) n= El clculo del tamao muestral para la estimacin de. una proporcin precisa, por tanto, de 2 los siguientes elementos: El clculo del tamao muestral para la estimacin de una proporcin precisa, por z 2 (1 n = 1 / 2 2 yy El nivel de confianza 100(1 )%, que se establece habitualmente en el 95%. tanto, de los siguientes elementos: El clculo del tamao muestral para la estimacin de una proporcin precisa, por yy La proporcin poblacional . 5 para la estimacin El clculo del tamao muestral tanto, de nivel los siguientes elementos: precisin El de confianza - )%, queque se establece habitualmente en el 95%. yy La deseada o 100(1 el error absoluto se considere aceptable.

tanto, de los siguientes El de confianza 100(1 - .)%, que se establece habitualmente en elelementos: 95%. La nivel proporcin poblacional
El nivel de confianza 100(1 - )%, que se est La proporcin poblacional . absoluto que se considere precisin deseada o el error aceptable.
La objeto proporcin poblacional . La precisin deseada o elaproximado error absoluto que se considere aceptable. El conocimiento previo del valor de la proporcin de estudio es
Determinacin del tamao muestral
El conocimiento previo del valor aproximado de la proporcin objeto de estudio es necesario no slo para sustituirlo explcitamente en la frmula, sino tambin para establecer la precisin deseada en la estimacin. Por ejemplo, un error absoluto del 5% podra ser admisible en la estimacin de una proporcin prxima 50%, mientras que este mismo error informacin, se pretende realizar al un estudio transversal para estimar la sera claramente inaceptable para una proporcin pequea, pongamos del 5% (o equivalentemente para una proporcin muy grande, ya que cuando se estima una proporcin tambin se est estimando su prevalencia de hipertensin en esta poblacin con un error absoluto del 3% complementario). As, para determinar de antemano qu error se considera admisible, ha de contarse con alguna informacin sobre la magnitud de , bien sea a travs de investigaciones (error del 10%). Asumiendo el nivel de confianza estndar informacin, se pretende realizar un estudio transversal para estimar del la 95%, = previas o, enrelativo su defecto, de un estudio piloto.
se necesitara una mnima deerror absoluto del 3% 0,30 y = 0,03, prevalencia de En hipertensin estamuestra poblacin conanterior, un Ejemplo 9.2 el estudioen piloto del ejemplo la proporcin de hipertensos (presin arterial sistlica 140 mm Hg) fue del 30%. En base a esta informacin, se = (error relativo delun 10%). Asumiendo nivel de confianza estndar del 2 pretende realizar estudio la prevalencia de 95%, hipertensin en 1, 96transversal 0,30(1 el 0,para 30 ) estimar = 896,37 897. n = esta poblacin con un error absoluto 0,03 2 del 3% (error relativo del 10%). Asumiendo el = 0,03, se necesitara una muestra de 0,30 y nivel de confianza estndar del 95%, = mnima 0,30 y = 0,03, se necesitara una muestra mnima de Si, por el contrario, el estudio 2se diseara para estimar la prevalencia de diabetes, 1,96 0,30(1 0,30) n= = 896,37 897. 0,un 03 2error absoluto del 1% (error relativo del que se asume prxima al 5%, con Si, por el contrario, el estudio se diseara para estimar la prevalencia de diabetes, que se 20%), secontrario, requerira un tamao considerablemente mayor asume al 5%, con un error absoluto del 1% (error relativo del 20%), se Si, por prxima el el estudio semuestral diseara para estimar la prevalencia de diabetes, requerira un tamao muestral considerablemente mayor que se asume prxima al 5%, 2 con un error absoluto del 1% (error relativo del 1,96 0,05(1 0,05) = 1.824,76 1.825. n= 0,012 20%), se requerira un tamao muestral considerablemente mayor Como se desprende de este ejemplo, para estimar fiablemente una proporcin extrema (muy o muy se necesitar una fiablemente muestra mayor que para estimar una Comopequea se desprende de grande) este ejemplo, para estimar una proporcin 1,96 2 0,05(1 0,05) proporcin cercana n al= 50%. = 1.824,76 1.825. 0,012 se necesitar una muestra mayor que para extrema (muy pequea o muy grande) La frmula del tamao muestral presentada en este apartado se basa en la aproximacin normal a lase distribucin de una Aunque esta aproximacin es estimar una proporcin cercana al 50%. Como desprende demuestral este ejemplo, para proporcin. estimar fiablemente una proporcin razonable en la mayora de las circunstancias, existen frmulas alternativas, tales como las basadas en (muy la aproximacin normal con correccin por continuidad o en la aproximacin extrema pequea o muy grande) se necesitar una muestra mayor que para La frmula del tamao muestral presentada en este apartado se basa en la de Poisson, que pueden ser tiles cuando se prev trabajar con muestras de reducido tamao o conuna proporciones extremas. estimar proporcinmuy cercana al 50%.Una descripcin y comparacin ms detallada aproximacin normal a la distribucin de una proporcin. Aunque esta de los distintos mtodos de clculo delmuestral tamao muestral puede encontrarse en la bibliografa de este tema. aproximacin razonable en la mayora de lasen circunstancias, La frmula es del tamao muestral presentada este apartado existen se basa frmulas en la alternativas, tales como las basadas en muestral la aproximacin normal DE conMEDIAS correccin por 9.3 TAMAO MUESTRAL PARA LA COMPARACIN aproximacin normal a la distribucin de una proporcin. Aunque esta
Muchos diseos bien sean de cohortes o de casos y continuidad o en la aproximacin de Poisson, que pueden ser(estudios tiles cuando se prev aproximacin esepidemiolgicos, razonable en la mayora deobservacionales las circunstancias, existen frmulas controles) o experimentales (ensayos clnicos), se realizan con un afn comparativo, donde el objetivo no es tanto estimar la magnitud de un determinado parmetro poblacional, trabajar con muestras delas reducido tamao o con proporciones muy Una alternativas, tales como basadas en la aproximacin normal conextremas. correccin por sino ms bien comparar parmetros entre distintas poblaciones. En tales diseos, el problema radica en determinar el muestral necesario en cada mtodos grupo dede comparacin, de tal forma descripcin y comparacin msmnimo detallada de los distintos clculo tamao continuidad otamao en la aproximacin de Poisson, que pueden ser tiles cuando sedel prev que el contraste de hiptesis que se pretende realizar tenga una potencia suficiente para detectar posibles diferencias clnica o epidemiolgicamente En extremas. este apartado muestral puede encontrarse en la bibliografa de proporciones esterelevantes. tema. muy trabajar con muestras de reducido tamao o con Una se presentan
descripcin y comparacin ms detallada de los distintos mtodos de clculo del tamao

142
muestral puede encontrarse en la bibliografa de este tema. 7
Pastor-Barriuso R.
determinada minada variable variable o, dicho o, dicho de forma de forma equivalente, equivalente, estos estos estimadores estimadores indican indican
Tamao muestral para la comparacin de medias
independientes or qu de valor qu valor se agrupan se agrupan los datos los datos observados. observados. Las medidas Las medidas de tendencia de tendencia
Supongamos que se resultados pretende contrastar la hiptesis nula H0: 1 = 2 de igualdad de de muestra la muestra sirven sirven tanto tanto para para resumir resumir los los resultados observados observados como como para para
1 2 en dos distribuciones conde una medias frente la hiptesis alternativa bilateralA H 1: A las frmulas del a tamao muestral para contrastar diferencias en los niveles medios rencias inferencias acerca acerca de los de parmetros los parmetros poblacionales poblacionales correspondientes. correspondientes. variable cuantitativa a partir de dos muestras dependientes o independientes. 2 2 2 n acin se describen se describen los principales los principales estimadores estimadores tendencia la tendencia central central de una de una = la de . Segn los resultados del Apartado 6.3, la distribucin igual varianza 1 = 2de
9.3.1 Tamao muestral para la comparacin de medias en dos muestras independientes muestral de la diferencia de medias x1 - x 2 en muestras independientes de tamao n1 y Supongamos que se pretende contrastar la hiptesis nula H0: 1 = 2 de igualdad de medias 2 n2 ser normal con H media 2 - en 2 dos = 0 bajo H0 y 1 - 0 bajo H1, y 1 edia aritmtica aritmtica distribuciones con varianza frente a la aproximadamente hiptesis alternativa bilateral 2 igual 1: 1 1 2 = 2. Segn los resultados del Apartado 6.3, la distribucin muestral de la diferencia de = 2 2 suma 2 tmtica, a aritmtica, denotada denotada por por x 1, se x define ,2en se define la de cada uno de uno los de los muestras independientes de n y nPara aproximadamente normal con medias /n1 +como 2 /como n2 =suma la (1/ n1 cada +de 1/n (Figura 9.1). una probabilidad varianza 2) tamao 21 1 2 serasegurar 2 2 /n1 + 2 /n2 = 2(1/n1 + 1/n2) (Figura media 1 2 = 0 bajo H0 y 1 2 0 bajo H1, y varianza 1 strales muestrales dividida dividida por el por nmero el nmero de observaciones de observaciones realizadas. realizadas. Si denotamos Si denotamos 9.1). asegurar una probabilidad hiptesis de cometer un error de tipo I, la hiptesis nula se rechazar Para de cometer un error de tipo I, la nula se rechazar slo si el estadstico slo si el estadstico valor observado observado para para el sujeto el sujeto i-simo, i-simo, i = 1, i= ..., 1, n, ..., n, ao tamao muestral muestral y por yx por i el x i el valor x1 x 2 x1 x 2 z1 /2 z1 /2 adra vendra dadadada por por /n + 1 / n 1 / n + 1 / n x1 - x 2 -1 z1 1 / n + 1 / n x x z 1/ n + 1/ n . 1 2 /2 1- /2 2 1 2 1
1 2 1 2
o, equivalentemente, si la diferencia de medias +x ... + +x ... 1 n 1 n x1 + x12 + 2 la n + xn o, equivalentemente, diferencia de medias bajo la hiptesis alternativa, la potencia del test para detectar una diferencia . . = x = x i =x = x si x As, x i z 2 n 1 n i =1 n i =1 1 n /2 1 / n1 + 1 / n 2 x1 x 2 z1 /2 1 / n1 + 1 / n 2 .
subyacente 1 - 2 vendr dada la por As, bajo la hiptesis alternativa, potencia del test para detectar una diferencia subyacente 2 vendr por ms 1 As, bajo ladada hiptesis alternativa, la potencia del test para detectar una diferencia edia es laes medida la medida de tendencia de tendencia central central ms utilizada utilizada y de y ms de ms fcilfcil 8 los = P (los x1 x 2 la de zla 1 / n1Su + 1 / n 2 | H1 ) 1 de 2 vendr dada por tacin. n. Corresponde Corresponde al subyacente centro al centro de gravedad de de datos datos de muestra. 1 muestra. /2 Su 1 - gravedad
x1 extremos x2 z1 y, 1este /en n1 este + 1 / n 2 | H1 ). + P( valores mitacin l limitacin es que es est que est muymuy influenciada influenciada por los por valores los extremos eny, /2 1 - = P( x1 - x 2 -z1- /2 1 / n1 + 1 / n 2 | H1 )
H0: 1 = 2
no ede ser noun ser fiel un reflejo fiel reflejo de lade tendencia la tendencia central central de lade distribucin. la distribucin. Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad + P( x1 - x 2 z1- /2 1 / n1 + 1 / n 2 | H1 ).
H1: 1 2
x1 se sea apreciablemente mayor de lasucesivos expresin anterior, que representa el evento de que lo emplo 1.4 En 1.4este En este y en y los en los sucesivos ejemplos ejemplos sobre sobre estimadores estimadores muestrales, muestrales, ~ ~se x1 x2 N ( 1 2 , 2 (1 / n1 + 1 / n2 )) x1 x2 N (0, 2 (1 / n1 + 1 / n2 )) Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad rn ilizarn los valores los valores delque colesterol del x colesterol HDL HDL obtenidos obtenidos en los en 10 los primeros 10 primeros sujetos del del a virtualmente cero. La potencia sesujetos reduce entonces 2 , ser de la expresin anterior, que representa el evento de que x1 sea apreciablemente mayor o tudio European European Study Study on Antioxidants, on Antioxidants, Myocardial Myocardial Infarction Infarction and Cancer and Cancer of of 1 - = P( x1 - x 2 -z1- /2 1 / n1 + 1 / n 2 | H1 ) que x 2 , ser virtualmente cero. La potencia se reduce entonces a east e Breast (EURAMIC), (EURAMIC), un estudio un estudio multicntrico multicntrico de casos de casos y controles y controles realizado realizado x1 x 2 ( 1 2 ) z1 / 2 1 / n1 + 1 / n 2 ( 1 2 ) x1e -Israel 1e H 1 Europeos - =Europeos P( x para -z1- para 1 / nel + 1 / n | H ) tre 991 1991 y 1992 y 1992 en ocho en ocho pases pases Israel evaluar evaluar efecto el efecto de los de los 2- /2 1 1 1 2 1/ n + 1/ n 1 / n1 + 1 / n 2 1 2
x1 x 2 ( 1 2 ) z1 / 2 1 / n1 + 51 / n 52 ( 1 2 ) = P | H1 | 1 2 , 1 / n1 + 1 / n 2 /n z11 = + 1 + 1 / n 2 /2 /2 /2 1 / n1 + 1 / n 2
1 - 2 0 | 1 2 | z , = + donde la ltima igualdad se deriva de la1distribucin normal de x1 - x 2 bajo la hiptesis 1 / 2 1 n1+ 21 z1 / 2 1 / n1 + 1 / n2 z1/ 1 //nn / n2 / 2 1+
2. Esta expresin alternativa. Notar que se eldel mismo resultado si 1> Figura 9.1 Representacin dealcanzara la potencia contraste bilateral de medias a partir de dos muestras Figura 9.1 donde la ltima igualdad se deriva de la distribucin normal de x1 - x 2 bajo la hiptesis independientes.
permite determinar a posteriori la potencia de un contraste para detectar una diferencia alternativa. Notar que se alcanzara el mismo resultado si 1 > 2. Esta expresin Pastor-Barriuso R. n1 y de medias subyacente 1 - 2 a partir de dos muestras independientes de tamaos permite determinar a posteriori la potencia de un contraste para detectar una diferencia n2.
143
+P ( xdescriben 1 - x 2 z1- /2 1 / n1 + 1 / n 2 | H1 ). continuacin se los principales continuacin estimadores se describen de la tendencia los principales central de estimadores una
variable. Determinacin del tamao muestral
Las medidas Las medidas de tendencia de tendencia central central informan informan acerca acerca de cul dees cul el valor es el valor ms re m variable. Asumiendo sin prdida de generalidad que 1 < 2 (Figura 9.1), la segunda probabilidad de una de determinada una determinada variable variable o, dicho o, dicho de forma de forma equivalente, equivalente, estos estos estimadore estim 1.2.1 Media aritmticael evento de que 1.2.1 Media aritmtica x1 sea apreciablemente mayor de la expresin anterior, que representa Asumiendo sin prdida de generalidad que de 1 < (Figura 9.1), segunda de lamedidas 2 valor alrededor alrededor qu de qu valor se agrupan se la agrupan los datos losprobabilidad datos observados. observados. Las Las medidas de ten d La media aritmtica, denotada por La media aritmtica, denotada por x , se define como la suma de cada uno x , de se los define como expresin anterior, que representa el evento de que sea apreciablemente mayor que que x 2 , ser virtualmente cero. La potencia se reduce 1 entonces a 2 ser virtualmente cero. La potencia se reduce a central central de laentonces de muestra la muestra sirven sirven tanto tanto para resumir para resumir los resultados los resultados observados observad co valores muestrales dividida por el nmero valores demuestrales observaciones dividida realizadas. por el nmero Si denotamos de observa 1 = P( x1 x 2 z1realizar 1 /inferencias n1 + 1 / n 2 |acerca H1 ) acerca /2 realizar inferencias de los de parmetros los parmetros poblacionales poblacionales correspondientes correspond por n el tamao muestral y por xi el valor por nobservado el tamaopara muestral y por xi el valor el sujeto i-simo, i = observado 1, ..., n, p x1 x 2 ( 1 2 ) z1 / 2 1 / n1 + 1 / n 2 ( 1 2 ) aleatoriamente pacientescontinuacin hipertensos al de monoterapia estndar otros de la de continuacin segrupo describen se describen los principales los principales estimadores estimadores tendencia la tendencia centra c = P 50 Hy 1 media la vendra dada por la media vendra dada por 1 / n + 1 / n 1 / n + 1 / n 1 2 1 2 50 pacientes de similares caractersticas al grupo de tratamiento combinado con el variable. variable. | 1 2 | z , 1 n x1 + x 2 + ... + x n x + x2 + . 1 n = + 1 / 2 nuevo frmaco. 4 semanas de tratamiento, la media y la desviacin . = = = x x x xi = 1 Despus de i 1 / n + 1 / n 1 2 1.2.1 1.2.1 Media Media aritmtica aritmtica n i =1 n n i =1 n tpica de la presin arterial sistlica fueron 155 y de 22 monoterapia mm Hg en elestndar grupo de aleatoriamente 50 pacientes hipertensos al grupo y otros La media La aritmtica, aritmtica, denotada denotada por xpor se x define se define como como la suma la suma de cada de uno cadad donde la ltima igualdad se deriva de lamedia distribucin normal de la hiptesis 1, 2, bajo La media es la medida de tendencia central La media ms es utilizada la medida y de de ms tendencia fcil central ms ut alternativa. Notar que se y alcanzara elen mismo si 1 > combinado. 2. combinado Esta expresin permite monoterapia, y 150 18 mm Hg el grupo de tratamiento Como 50 pacientes de similares caractersticas al resultado grupo de tratamiento con el valores valores muestrales muestrales dividida dividida por el por nmero el nmero de observaciones de observaciones realizadas Si d donde la ltima igualdad se deriva de la distribucin normal de x x bajo la hiptesis 1 2 determinar a posteriori la potencia de un contraste para detectar una diferencia de mediasrealizadas. interpretacin. Corresponde al centro interpretacin. de gravedadCorresponde de los datos de al centro la muestra. de gravedad Su a la partir de dos independientes tamaos nde n2. subyacente frmaco. paso previo comparacin medias, contrastade la igualdad varianzas 1 2 a 1 nuevo Despus demuestras 4 de semanas dese tratamiento, la media y laydesviacin por n por el tamao n el tamao muestral muestral y por y x por el valor x el valor observado observado para el para sujeto el sujeto i-simo, i-si i i alternativa. Notar que se alcanzara el mismo resultado si 1 > 2. Esta expresin principal limitacin es que est muy influenciada principal limitacin por los es valores que est extremos muy influenciada y, en este por mediante elpresin estadstico tpica de 9.3 la arterial sistlica fueron 155 yla 22 mm Hg en el grupo de de un nuevo Ejemplo En un ensayo clnico para evaluar eficacia antihipertensiva la media la media vendra vendra dada por dada por permite determinar a posteriori la potencia de un contraste para detectar una frmaco en combinacin con un tratamiento se asignaron aleatoriamente caso, puede no ser un fiel reflejo estndar, de la caso, tendencia puede central no ser un de fiel ladiferencia distribucin. reflejo de50 la tendencia cent 2 monoterapia, y 150 y 18 mm Hg en el grupo de tratamiento combinado. Como 2 pacientes hipertensos al grupo de monoterapia estndar y otros 50 pacientes de similares s1 dos 22 n tamaos n1 y 1 - de 2 a partir muestras independientes de caractersticas medias subyacente = F = de = 1,49, +... +x x1 + Despus xx + x 2++ x... 1 n frmaco. 1de al grupo tratamiento combinado con el nuevo de n 4 2 2 . n. = = = x x x x i = 21 18 s i 2 Ejemplo 1.4 En este y en los sucesivos Ejemplo ejemplos 1.4 sobre En este estimadores y en los sucesivos muestrales, ejemplo se paso previo a la comparacin de medias, se contrasta la igualdad de varianzas semanas de tratamiento, la media y la desviacin tpica de n lai =presin arterial n sistlica n 1 n i =1 n2.fueron 155 y 22 mm Hg en el grupo de monoterapia, y 150 y 18 mm Hg en el grupo de utilizarn valores del colesterol HDL utilizarn obtenidos los valores en se loscontrasta 10 delprimeros colesterol HDL obten del mediante eldistribucin estadstico tratamiento combinado. Como paso previo a la comparacin de medias, la sujetos que bajo la F de los Fisher con n 1 1 = 49 y n2 1 = 49 grados de La media La media es la medida es la medida de tendencia de tendencia central central ms utilizada ms utilizada y de ms y de fcil ms igualdad de varianzas mediante el estadstico [Figura 9.1 aproximadamente aqu] estudio European Study on Antioxidants, estudio Myocardial European Infarction Study on and Antioxidants, Cancer ofMyo 2 libertad, corresponde a un valor P bilateral 2P (F 49,49 1,49) = 20,082 = 0,164. s12 22Corresponde interpretacin. interpretacin. Corresponde al centro al centro de gravedad de gravedad de los de datos los datos de la de mues la F = 2 = 2 = 1,49, s 2 18 un estudio the the Breast (EURAMIC), multicntrico Breast (EURAMIC), de casos y controles un estudio realizado multicntr As, la comparacin del nivel medio de presin arterial sistlica entre ambos principal principal limitacin limitacin es que es est quemuy est influenciada muy influenciada por los por valores los valores extremos extre y 9.3 En un ensayo paran evaluar la eficacia antihipertensiva de un queEjemplo bajo la distribucin F de clnico Fisher con 1 1 = 49 y n2 1 = 49 grados de libertad, entremediante 1991 y 1992 en ocho pases Europeos entre muestras 1991 e Israel y 1992 para en evaluar ocho pases el efecto Europeos de los e Is grupos puede la prueba de t1,49) 1 =Student 49 y reflejo nfiel 1 = 49 de que bajo la distribucin de Fisher n1 = un 20,082 = 0,164. As, la comparacin corresponde a realizarse un valor PF bilateral 2 Pcon ( Fpuede 2 para 49,49 caso, caso, puede no ser no un ser fiel reflejo de la grados de tendencia la tendencia central central de la de distribucin. la distribuc frmaco en combinacin con un tratamiento se asignaron del nuevo nivel medio de presin arterial sistlica entre ambosestndar, grupos puede realizarse mediante independientes asumiendo igualdad de varianzas, cuyo estadstico resulta asumiendo 1,49) = 20,082 = 0,164. libertad, a para un valor P bilateral 2P(F49,49 la pruebacorresponde t de Student muestras independientes igualdad de varianzas, 5 cuyo estadstico resulta Ejemplo Ejemplo 1.4 En 1.4 este Enyeste en los y en sucesivos los sucesivos ejemplos ejemplos sobresobre estimadores estimado m 9 As, la comparacin del nivel medio de presin arterial sistlica entre ambos x1 x 2 155 150 t= = utilizarn = 1,24, utilizarn los valores los valores del colesterol del colesterol HDL HDL obtenidos obtenidos en los en 10 los primeros 10 prim 1 1 1 1 grupos puede realizarse mediante la prueba t de Student para muestras s + + 20,1 n1 n 50 50StudyStudy 2 estudio estudio European European on Antioxidants, on Antioxidants, Myocardial Myocardial Infarction Infarction and independientes asumiendo igualdad de varianzas, cuyo estadstico resulta donde la varianza combinada es s2 = {(50 1)222 + (50 1)182}/(50 + 50 2) = 404. the Breast the Breast (EURAMIC), un un estudio multicntrico multicntrico deP casos de casos y controle y co 2 (EURAMIC), 2 estudio (50 2 = -98 grados de el valor Utilizando la distribucin t de es Student con -n1)22 1)18 }/(50 +libertad, 50 - 2) = donde la varianza combinada s2 = {(50 1 + n2 + x1 x 2 = 0,216; 155 150 los resultados del estudio no aportan es decir, bilateral es 2P(t98 1,24) = 20,108 1,24, = entre t= entre 1991 1991 y 1992 y 1992 en= ocho en ocho pases pases Europeos Europeos e Israel e Israel para evaluar para evaluar el efe suficiente evidencia para afirmar que el tratamiento es ms 2 = 98 grados de eficaz que la 404. Utilizando la distribucin t de Student con 1 1 1 n1 + 1 n2combinado s + + 20,1 monoterapia. n1 n 2 50 50 1,24) = 2si 0,108 = 0,216; ambos es decir, los libertad, el valor bilateral es 2P(t98 A partir de estosP resultados cabra preguntarse en realidad tratamientos son igualmente eficaces o si, por el contrario, el estudio carece de potencia suficiente para 2 2 2 resultados del estudio no aportan suficiente evidencia para afirmar que el - 2) donde la varianza combinada es s = {(50 1)22 + (50 1)18 }/(50 + 50 = trminos detectar una diferencia que, aun siendo moderada o pequea, sea importante en clnicos. Si se considera clnicamente relevante una diferencia absoluta de |1 2| = 5 tratamiento combinado es ms eficaz que lacon monoterapia. 98 grados de 404. Utilizando la distribucin t de Student n 1 + n2 2 = mm Hg en la presin arterial sistlica media, y asumiendo un nivel de significacin =
144
Pastor-Barriuso R.
A partir de estos P resultados en realidad ambos tratamientos 20,108 = 0,216; es decir, los libertad, el valor bilateral cabra es 2P(tpreguntarse 98 1,24) = si
son igualmente eficaces si, por el contrario, el estudio carece de potencia resultados del estudio nooaportan suficiente evidencia para afirmar que el
1 2 Por tanto, no es sorprendente que el estudio anterior arrojara un resultado noHg. detectaran como estadsticamente significativa una diferencia real de 5 mm
= 0,05 y una desviacin = 20 mm asumiendo un nivel de significacin significativo, aun cuando exista una diferencia subyacente detpica dicha magnitud Por tanto, no es sorprendente que el estudio anterior arrojara un resultado no de medias Tamao muestral para la comparacin
Hg en ambos grupos, la potencia para detectar dicha diferencia en un estudio con entre ambos tratamientos. significativo, aun cuando exista una diferencia subyacente de dicha magnitud
0,05 y2una desviacin tpica = 20 mm Hg en ambos grupos, la potencia para detectar = 50 sera n1 = n entre ambos tratamientos. = diseo n2 = 50de sera dicha diferencia en un estudio con n1el Como ilustra el ejemplo anterior, en un estudio es importante determinar 5 ejemplo muestral = 1el 1,ser 96 +necesario =estudio ( 0,71) 0,239. para a priori qu tamao en cada grupo de comparacin evitar la Como ilustra en el diseo de un es = importante determinar anterior, 20 1 / 50 + 1 / 50 obtencin de resultados no 23,9% concluyentes poren falta degrupo potencia. Supongamos, en el caso a priori qu tamao muestral ser necesario cada de comparacin para evitar la Es decir, nicamente un de los estudios con este tamao muestral detectaran como
estadsticamente significativa una diferencia realcon de 5este mmtamao Hg. Pormuestral tanto, no es sorprendente Es decir, nicamente un 23,9% de los estudios donde ms general, que se pretende asignar distinto tamao a ambas muestras 2 = kn obtencin de resultados no concluyentes por falta de potencia. Supongamos, en1,el caso una que el estudio anterior arrojara un resultado no significativo, aunncuando exista diferencia subyacente de dicha magnitud entre ambos tratamientos. detectaran como estadsticamente significativa una diferencia real de 5 mm Hg. k es un nmero positivo prefijado. A partir detamao la frmula de la muestras potencia n con 2= 1, y kn donde ms general, que se pretende asignar distinto a ambas 2 =n 1, kn Como anterior, que en el diseo deanterior un estudio es importante determinar a priori Porilustra tanto, el noejemplo es sorprendente el estudio arrojara un resultado no ) = 1 , se sigue que recordando que ( z = kn , k es un nmero positivo prefijado. A partir de la frmula de la potencia con n 1 2 obtencin 1 y qu tamao muestral ser necesario en cada grupo de comparacin para evitar la de resultados no concluyentes por falta de potencia. Supongamos, en el caso magnitud ms general, que se significativo, aun cuando exista una diferencia subyacente de dicha ambas , se sigue que n2|= recordando que (z1-tamao ) = 1 - a pretende asignar distinto muestras 1, donde k es un nmero positivo prefijado. kn 1 2 | z1 con = z + , que (z1) = 1 , se sigue que =/ 2 kn , y recordando A partir de la frmula de la potencia n12 entre ambos tratamientos. 1 1 1 | + 2 | 1 n kn1 , z1 = z1 / 2 + 1 1 estudio 1 Como ilustra el ejemplo anterior, en el diseode un es importante determinar + n1 kn1 de donde puede despejarse n1 para obtener a priori qu tamao muestral ser necesario en cada grupo de comparacin para evitar la de donde puede despejarse n1 para obtener de donde puede despejarse n1 para obtener 2 2 Supongamos, en el caso obtencin de resultados no concluyentes por de potencia. (k + en 1 )( la z1falta que corresponde al tamao necesario y n2 = kn1 al de la segunda primera / 2 + z 1muestra ) n1 = , 2 k ( 1 2 )a ambas 2 muestras n2 = kn1, donde ms general, que pretende asignar distinto tamao muestra. En el se caso particular de que se desee un mismo muestral en ambos (k + 1)( z1 / 2 + z1 ) 2 tamao n = , que corresponde al tamao necesario en la primera muestra y n = kn1 al de la segunda muestra. 1 kde ( la 2 ) 2 de la 2potencia 1 ,y k es un nmero prefijado. A partir frmula con n 2 = kn1k En el caso particular de que se desee un mismo tamao muestral en ambos grupos = 1, ste grupos k = 1,positivo ste vendr determinado por 11 vendr determinado por recordando que (z1-) = 1 - , se sigue que 2( z1 / 2 + z1 ) 2 2 11 n1 = n 2 = . 2 ( 1 2) | | 1 2 z1 = z1 / 2 + , La asignacin de igual tamao a ambas muestras 1 es, 1 en general, ms eficiente ya que da + es, lugar a un menor tamao total del estudio. No obstante, hay situaciones prcticas en ya lasque que es La asignacin de igual tamao a ambas muestras en general, ms eficiente n1 kn 1 preferible seleccionar muestras de distinto tamao, aun cuando ello conlleve un aumento de la muestra total alcanzar la misma potencia; tal es el caso de loshay estudios donde la disponibilidad da lugar apara un menor tamao total del estudio. No obstante, situaciones prcticas en de sujetos donde puede despejarse n1 entre para obtener de o los costes difieren los grupos, o cuando se requieren estimaciones ms precisas en uno de los grupos. Adems de estas consideraciones, el clculo del tamao las que es preferible seleccionar muestras de distinto en tamao, aun cuando ellomuestral conlleve para la comparacin de medias es necesario determinar previamente los siguientes elementos: (k + 1)( z1 / 2 + z1 ) 2 2 un aumento de la muestra total para alcanzar la misma potencia; tal es ella caso de los n1 = del contraste bilateral, , yy El nivel de significacin que representa probabilidad de 2 k (1 2 ) rechazar errneamente la hiptesis nula y se establece usualmente en = 0,05. estudios donde la disponibilidad de sujetos o los costes difieren entre los grupos, o yy La potencia 1 del contraste, que determina la probabilidad de detectar hiptesis alternativas ciertasestimaciones y se fija habitualmente en en 1 uno =de 0,80 0,90. Adems de estas cuando se requieren ms precisas losgrupos. 11 2 yy La varianza poblacional . En la determinacin del tamao muestral suele asumirse que consideraciones, en el clculo del tamao muestral la comparacin de medias es la varianza es comn para ambos grupos, ya que para generalmente se carece de informacin previa suficiente para determinar una varianza especfica en cada uno de los grupos. necesario determinar previamente los siguientes elementos: yy La diferencia mnima detectable |1 2|. El tamao muestral ser tanto mayor cuanto menor sea la diferencia que se pretende detectar. La magnitud de esta diferencia debe ser El nivel de significacin del contraste bilateral, que representa la probabilidad
de rechazar errneamente la hiptesis nula y se establece usualmente en = 0,05.
Pastor-Barriuso R.
145
La potencia 1 - del contraste, que determina la probabilidad de detectar
= 0,80 para detectar posibles diferencias de dicha magnitud. Asumiendo que se

potencia suficiente para detectar una diferencia subyacente de 5 mm Hg en la pretende asignar el mismo Determinacin del tamao muestral nmero de pacientes a ambos brazos del ensayo presin arterial sistlica media de los hipertensos bajo monoterapia y tratamiento
clnico, un nivel de significacin = 0,05 y una desviacin tpica = 20 mm Hg combinado, se planea realizar un nuevo ensayo clnico que tenga una potencia 1 un valor plausible basado en conocimientos previos, o bien relevante desde el punto de similar a la del estudio anterior, el tamao muestral necesario en cada uno de los vista clnico o detectar epidemiolgico. = 0,80 para posibles diferencias de dicha magnitud. Asumiendo que se
grupos sera Ejemplo 9.4 Dado que el estudio descrito en a el ejemplo anterior careca de potencia pretende asignar el mismo nmero de pacientes ambos brazos del ensayo suficiente para detectar una diferencia subyacente de 5 mm Hg en la presin arterial 2 2 2 tratamiento sistlica media de hipertensos monoterapia combinado, se planea zsignificacin 2(los bajo = 0,05 una = 20 mm Hg clnico, un nivel de 2 (1,y 96 + 0desviacin ,84)y 20 2 tpica 0 , 975 + z 0 ,80 ) = n = ==250,88 251, n = 1 nuevo 2 realizar un ensayo clnico 1 0,80 para detectar posibles 2 que tenga una potencia 2 ( 1 2 ) 5 diferencias magnitud. que se pretende asignar el uno mismo nmero de similar a la de deldicha estudio anterior,Asumiendo el tamao muestral necesario en cada de los pacientes a ambos brazos del ensayo clnico, un nivel de significacin = 0,05 y una desviacin tpica total = de 20 251 mm+Hg similar la del estudio anterior,por el el tamao muestral para una muestra 251 = 502 a pacientes. Supongamos, grupos sera necesario en cada uno de los grupos sera contrario, que el tratamiento combinado con el nuevo 2frmaco es muy costoso y concretar el que se dispone de n pares de observac 2( z 0,975 Para )2 2 2 + z 0,80 (1problema, ,96 + 0,84)supongamos 20 2 n1 = n2 = = 250,88 251, = 2 52 2 ) de que se decide estudiar( la1 mitad sujetos bajo tratamiento combinado que bajo de una variable aleatoria continua. En cada pareja de datos dependientes, una 9.3.2 Tamao muestral para la comparacin de medias en dos muestras para una muestra total esto de 251 =n 502 pacientes. por el contrario, que = 0,5 tal caso, Supongamos, el tamao muestral monoterapia estndar; es, + n2251 1. En corresponde amuy laSupongamos, primera muestra y otra observacin x2 a la segu x1= para una muestra totalobservacin de 251 502 pacientes. porse ella el tratamiento combinado con + el251 nuevo frmaco es costoso y que decide estudiar dependientes la mitad de bajo combinado que bajo monoterapia estndar; esto es, necesario ensujetos el grupo de tratamiento monoterapia sera 9.3.2 Tamao muestral para la comparacin de medias en muestras contrario, que el tratamiento combinado con el nuevo frmaco es muy costoso y sera muestra. El muestral objetivo se centra en comparar las medias poblacionales 1 y 2 a par = 0,5 n . En tal caso, el tamao necesario en el dos grupo de monoterapia n 2 1 Supongamos que se planea seleccionar n parejas de datos dependientes procedentes de 2 dependientes (0,mitad 5+ 1)(1 ,96 + 0,84 ) 2 20tratamiento que se decide estudiarestas la de sujetos bajo combinado que bajo dos muestras dependientes. = = 376,32 377a la hiptesis n 1 2 : = frente dos poblaciones para contrastar la hiptesis nula H 0 1 2 0,5 5 Supongamos que se planea seleccionar n parejas de caso, datos el dependientes procedentes n1. En desarrollados tal tamao monoterapia estndar; esto es, n2 = 0,5 Los procedimientos en el muestral Apartado 6.3 node pueden aplicarse a est y en el grupo de tratamiento combinado n = 0,5376,32 = 188,16 189. El nmero en el Apartado 6.4, la media de las total alternativa bilateral H1: 1 2. Como se discuti 2 de pacientes necesarios para el estudio sera entonces 377 + 189 = no 566; decir, 64 = 0,5 = 188,16 189. El en el grupo degrupo tratamiento combinado n de 2 frente a la hiptesis dosy poblaciones para contrastar la hiptesis nula H0:376,32 2 medias necesario en el de monoterapia sera situacin, ya que las ambas muestras sones independientes por proven 1= pacientes ms de los requeridos en el caso de igual tamao muestral para alcanzar una diferencias en cada pareja d se distribuir de forma aproximadamente normal N(0, misma potencia. nmero total de pacientes necesarios para el2 estudio sera 377 + 189 correlacionadas. Sin entonces embargo, lamedia comparacin discuti en 6.4, la de=las se simplifica notabl alternativa bilateral H1: observaciones 1 2. Como se 2 el Apartado ( 0 , 5 + 1 )( 1 , 96 + 0 , 84 ) 20 2 2 2 = 376,32 377 n1 d /n) bajo H0 y N(1 -= 2, d /n) bajo H1 2, donde d es la varianza de las diferencias. 0 , 5 5 566; es decir, 64 pacientes ms de los requeridos en igual tamao si se calculan las diferencias del = caso x1 -dos xde cada una de las 2 en diferencias en muestral cada pareja d se distribuir de forma aproximadamente normal N (0, n observaciones empar 9.3.2 Tamao para la comparacin de medias en muestras dependientes
preestablecido, el contraste arrojar un resultado Para un nivel de significacin para alcanzar unaun misma potencia. 2muestral 2 2 Por lado, como las distintas no estn relacionadas entre Supongamos que se planea seleccionar nHparejas de procedentes de dos s, estas diferen d /nen ) bajo H0 y N ( d /n ) bajo datos es parejas ladependientes varianza de las diferencias. 376,32 = 188,16 189. El y el grupo de tratamiento combinado n 1 - 2, 1, donde 2 = 0,5 d poblaciones para contrastar la hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa bilateral cuando la media de las diferencias : 1 nmero 2. Como se discuti en independientes. el Apartado 6.4, el la estudio media de las diferencias en+ cada H1significativo son Por otro lado, la media de las diferencias coincide con la total pacientes necesarios para sera entonces 377 189pareja = 13 d se preestablecido, el contraste arrojar un resultado Para un nivel de de significacin 2 2 distribuir de forma aproximadamente normal N(0, d /n) bajo H0 y N(1 2, d /n) bajo H1, 2 diferencia de muestrales, es varianza de las diferencias. Para nivel de significacin preestablecido, el donde d d z1-las /medias n un d z1dcaso / n de . igual tamao 566; esla decir, 64 pacientes ms de requeridos en el /2 dlos /2 significativo cuando la media de diferencias contraste arrojar un resultado significativo cuando la media de las diferencias muestral para alcanzar una misma potencia. 1< n 1 n Por tanto, asumiendo como apartado anterior que , la potencia 1/ 2 =d = x i 2detectar d d ( x i1para ) d en n . zel i 1/2 d / n d z1 /2 n n i =1 i =1 13 una Por tanto, asumiendo como en anterior que 1 igual < 2n, a la potencia para detectar 2apartado ser aproximadamente una diferencia de medias n 1 -el 1 1 2,xla potencia Por tanto, como enaproximadamente el apartado anterior quea 2 ser igual diferencia deasumiendo medias 1 =1 < = x1detectar x2 i1 xi 2para n i =1 n i =1 = P( d z12 / n | H1 ) - ser igual a una diferencia1de medias /2 d aproximadamente 1
146
d de la diferencia de medias z1d 2) n ( 1 ( y, en consecuencia, insesgado d / estimador / es 2 un 1 2 ) = P H1 1 - = P(d -z 1-/2d / n | H1) d / n d / n poblacionales 1 - 2. As, el problema de la comparacin de medias en dos mues | 1 2 | d z1 ( + z = ./ 2 d / n ( 1 2 ) 1 2) 1 / 2 = P dependientes H1 queda reducido a una simple inferencia sobre la media de una nica / n d d / n d / n muestra de n diferencias independientes. | 1 2 | Pastor-Barriuso R. . + = z1 / 2 mtodos del Apartado 6.2.1 para la media de una muestra pueden entonces Los / n se que Como por definicin ( z1-) = 1 - , d sigue
utilizarse para calcular un intervalo de confianza al 100(1 - )% para 1 - 2 com
| 2 | . = z1 / 2 + 1 / n d Tamao muestral para la comparacin de medias 2 ( z1 / 2 + z1 ) 2 d n= . ( 1 que 2) 2 Como por definicin (z1-) = 1 - , se sigue 2 + z1 ) 2 d z1 / 2que Como por definicin (z1) = 1 , se ( sigue n= . ( 1 directamente 2) 2 En la prctica, resulta difcil determinar | 2 | la varianza de las diferencias z1 = z1 / 2 + 1 , d / n 2 dEn ya que los datos de una misma pareja estn correlacionados. Asumiendo igual la prctica, resulta difcil determinar directamente la varianza de las diferencias de donde puede despejarse n para obtener el nmero mnimo de parejas que sern necesarias 2 donde puede 2 de despejarse n para obtener el nmero mnimo de que sern unade potencia 1 parejas , entre para detectar subyacente 1 2 concorrelacionados. los datos depoblaciones una misma pareja estn Asumiendo igual una endiferencia ambas y un coeficiente correlacin los valores de varianza d ya que 2 2 ( z1 / 2 + z1 ) d 1 -determinada 1, necesarias para detectar una diferencia subyacente 2 = n . 2 con una potencia una misma pareja, la varianza de las diferencias viene segn los resultados coeficiente varianza en ambas poblaciones y un ( ) 2 de correlacin entre los valores de
1 2
2 della Apartado 3.4 por En prctica, resulta difcil determinar directamente la varianza de segn las diferencias d ya que una misma pareja, la varianza de las diferencias viene determinada los resultados 2 En la resulta difcil determinar directamente la varianza las diferencias los datos deprctica, una misma pareja estn correlacionados. Asumiendo igualde varianza en ambas 2 2 2 los valores 2 2 poblaciones y un3.4 coeficiente de entre de una misma pareja, la varianza del Apartado por 14 correlacin d = + - 2 = 2 (1 - ). 2 de las viene de determinada segn los resultados del Apartado 3.4 por igual d diferencias ya que los datos una misma pareja estn correlacionados. Asumiendo
2 2 2 2 2 d = + 2 = 2 (1 ). 2 As, el nmero de parejas necesarias tambin puede expresarse como entre los valores de varianza en ambas poblaciones y un coeficiente de correlacin As, el nmero de parejas necesarias tambin puede expresarse como 2 2 As, misma el nmero de parejas necesarias tambin puede expresarse como una pareja, la varianza de 2 las viene determinada segn los resultados ( z1diferencias / 2 + z1 ) (1 ) n= ( 1 2 ) 2 del Apartado 3.4 por 2( z1 / 2 + z1 ) 2 2 (1 ) n= que, adems de los parmetros descritos en apartado depende de la correlacin ensayo clnico emparejado donde, enel lugar de distintos pacientes a ambos entre ( 2 asignar ) 2anterior, 1 2 2 en 2 anterior, depende de la que, adems de los parmetros apartado cada pareja de datos. Si el emparejamiento efectivo, forma que est prximo a 0, el 2 =descritos 2 + no - es 2el = 2 de (1tal - ).
d
nmero de parejas necesarias para un estudio emparejado ser aproximadamente igual al nmero grupos, cada paciente es sometido a la monoterapia estndar durante un primer correlacin entre cada pareja de datos. Si no es efectivo, de que, adems de los parmetros descritos enel elemparejamiento apartado anterior, depende de de sujetos por grupo para un estudio con muestras independientes (notar que si la = 0,tal la frmula As, el nmero de parejas necesarias tambin puede expresarse como anterior se reduce a semanas la obtenida en el caso de muestras independientes del mismodurante tamao). Si, por periodo de 4 y al tratamiento combinado con el nuevo frmaco entre est prximo a 0, elefectivo, nmero necesarias para un estudio forma queel correlacin cada pareja de datos. Side el parejas emparejamiento no es efectivo, de tal el contrario, emparejamiento es los datos de cada pareja estarn correlacionados 2 2 positivamente y, en consecuencia, nmero ser inferior un segundo periodo de igualel duracin. Se asume que la desviacin tpica de la al nmero 2 ( z1 / 2 de + (1 substancialmente ) zparejas 1 ) de emparejado aproximadamente al nmero sujetos bajo por grupo para un estudio de forma sujetos requeridos en cadaagrupo deigual un estudio independiente las mismas condiciones. ser est prximo 0, de parejas necesarias para un estudio que = nmero n el (1 2 ) 2 presin arterial sistlica bajo ambos tratamientos es 20 mm Hg, y que el =comparabilidad 0, la de frmula anterior se reduce a hipertensos la con muestras independientes que si emparejado ser aproximadamente igual al nmero sujetos por grupo para un estudio Ejemplo 9.5 Con objeto (notar de asegurar la de los pacientes bajo monoterapia y tratamiento combinado, decide disear un ensayo clnico emparejado coeficiente de correlacin entre las determinaciones tomadas en un mismo que, adems de los parmetros descritos en el se apartado anterior, depende de lasujeto obtenida en el caso de muestras independientes del mimo tamao). Si, por el contrario, donde, en lugar de asignar (notar distintos pacientes grupos, cada laambos frmula anterior se paciente reduce aes la sometido con muestras independientes que si = 0, a a la monoterapia estndar durante un primer periodo de 4 semanas y al tratamiento con un intervalo de 4 semanas es aproximadamente 0,50. Para detectar una correlacin entre cada pareja de datos. Si el emparejamiento no es efectivo, de tal el emparejamiento es efectivo, los datos de cada pareja estarn correlacionados combinado el nuevo frmaco durante un segundo periodo de igual duracin. Se asume obtenida en el con caso de muestras independientes del mimo tamao). Si, por el contrario, que la desviacin tpica de la presin arterial sistlica bajo ambos tratamientos es 20 mm diferencia subyacente 5 mm Hg en de la presin sistlica media al final de prximode a 0, el nmero parejas arterial necesarias para un estudio forma que est positivamente y, en consecuencia, el nmero de parejas ser substancialmente inferior Hg, y que el coeficiente de correlacin determinaciones tomadas en un mismo el emparejamiento es efectivo, los datos deentre cada las pareja estarn correlacionados sujeto con un intervalo de 4 semanas es aproximadamente 0,50. Para detectar ambos tratamientos con una potencia 0,80 y un nivel de significacin deun 0,05, emparejado ser aproximadamente igual de al nmero de sujetos por grupo para estudiouna al nmero de sujetos requeridos en cada grupo de un estudio independiente bajo las diferencia subyacente de 5 mm Hg en la presin arterial sistlica media al final de ambos positivamente y, en consecuencia, el nmero de parejas ser substancialmente inferior tratamientos con una potencia de 0,80 y un nivel de significacin de 0,05, el nmero de el nmero de sujetos necesarios este estudio sera se reduce a la = 0, laemparejado frmula anterior con muestras independientes (notaren que si mismas condiciones. parejas necesarias sera al nmero de sujetos requeridos en cada grupo de un estudio independiente bajo las
obtenida en el caso de muestras 2(1,96 + independientes 0,84) 2 20 2 (1 0del ,50)mimo tamao). Si, por el contrario, mismas condiciones. 126; n = = 125,44de los Ejemplo 9.5 Con objeto de asegurar la comparabilidad pacientes 52 el emparejamiento es efectivo, los datos de cada pareja estarn correlacionados es decir, la mitad demonoterapia los sujetos que seran necesarios en de cada uno de los grupos hipertensos y tratamiento combinado, selos decide disear un de un Ejemplo 9.5bajo Con objeto de asegurar la comparabilidad pacientes es decir, la mitad de los sujetos el que seran de necesarios en cada uno de los grupos de positivamente y, en consecuencia, nmero parejas ser substancialmente inferior diseo no emparejado (Ejemplo 9.4). hipertensos bajo monoterapia y tratamiento combinado, se decide disear un un diseo emparejado 9.4). al de no sujetos en cada grupo de un estudio las 15 Lanmero determinacin del requeridos tamao (Ejemplo muestral para la comparacin de independiente medias en ms bajo de dos muestras dependientes o independientes sigue argumentos similares a los descritos en este apartado. No mismas condiciones. La determinacin del tamao muestral para la comparacin de medias en ms de dos 15
Pastor-Barriuso R.
147
muestrasEjemplo dependientes o independientes siguela argumentos similares a los descritos en 9.5 Con objeto de asegurar comparabilidad de los pacientes
aproximacin normal la frmulas distribucin muestral de una proporcin y, en consecuencia, en el Apartado 9.2.2, a las descritas a continuacin se fundamentan en la
(1 - ) 5 muestral en ambos grupos de comparacin. En las sern vlidas siempre aproximacin normal a lan distribucin de una proporcin y, en consecuencia, Determinacin del tamao muestralque
referencias de siempre este tema pueden consultarse otros mtodos alternativos de clculo ) 5 en ambos grupos de comparacin. En las del sern vlidas que n(1 obstante, para preservar la incertidumbre global del proceso de inferencia, es necesario utilizar tamao muestral particularmente tiles para la comparacin de proporciones muy del referencias de este tema pueden consultarse otros mtodos de clculo tcnicas de correccin por las mltiples comparaciones que se alternativos pretendan realizar en el anlisis (por ejemplo, un ensayo clnico en el que se comparan varios tratamientos frente a placebo). Estos extremas en muestras reducidas. tiles para la comparacin de proporciones muy tamao muestral particularmente mtodos pueden consultarse en los libros de tamao muestral referenciados al final del tema.
extremas en muestras reducidas. 9.4.1 Tamao muestral para la comparacin de proporciones en dos muestras 9.4 TAMAO MUESTRAL PARA LA COMPARACIN DE PROPORCIONES independientes 9.4.1 Tamao muestral para la comparacin de proporciones en dos muestras En esta seccin se aborda el problema de la determinacin del tamao muestral en estudios observacionales o ensayos clnicos donde se pretende contrastar diferencias entre proporciones El propsito se centra en contrastar la hiptesis nula de igualdad de proporciones independientes a partir de dos muestras dependientes o independientes. Al igual que en el Apartado 9.2.2, las frmulas descritas se en la aproximacin a2la distribucin : continuacin 1 = en 2 frente a fundamentan la la hiptesis alternativa bilateral de Hnormal : 1 a partir de poblacionales Ha El propsito se centra contrastar hiptesis nula de igualdad 0 1proporciones muestral de una proporcin y, en consecuencia, sern vlidas siempre que n(1 ) 5 en ambos grupos deindependientes comparacin. En de este tema bilateral pueden mtodos 7.3consultarse se1: desprende que lade dos muestras delas tamaos n1 y n a referencias la hiptesis alternativa H 1 2otros a partir poblacionales H0: 1 = 2 frente 2. Del Apartado alternativos de clculo del tamao muestral particularmente tiles para la comparacin de proporciones muy extremas en muestras reducidas. seguir una distribucin diferencia de proporciones muestrales p1 -np n2. Delaproximadamente Apartado 7.3 se desprende que la dos muestras independientes de tamaos 1 2y
muestral (1 - )(1/n n2)) bajo H 1 2, aproximadamente 1(1 - 1)/en n1 + 2(1 - distribucin normal N(0, seguir una diferencia de proporciones muestrales p10 -ypN 1 + 1/ 2)/n2) bajo 2( 9.4.1 Tamao para la comparacin de proporciones dos muestras independientes ( (1 )(1/ n n+ y N(1 - 2, 1(1 - 1)/n 2(1 - 2)/ n2) bajo normal N(0, = n11 + n2 )/(1/ n1 nbajo la0proporcin combinada que asume comn a H 12+ 2)) 1 + se 1, donde 2) es H El propsito se centra en contrastar la hiptesis nula de igualdad de proporciones poblacionales donde =bajo (na n + n2 ) es la proporcin que se comn a H El contraste resultar significativo un nivel asume cuando la grupos H 1 la hiptesis bilateral Hcombinada partir de dos muestras H0:ambos 1 1+ 2 2)/(n1 alternativa 0. 1, = 2 frente 1: para 1 2 a independientes de tamaos n1 y n2. Del Apartado 7.3 se desprende que la diferencia de pcontraste una distribucin normal N(0, (1 ) proporciones muestrales diferencia de proporciones muestrales resultar significativo para un nivel cuando la ambos grupos bajo Hp 0.1 El 2 seguir aproximadamente (1/n1 + 1/n2)) bajo H0 y N(1 2, 1(1 1)/n1 + 2(1 2)/n2) bajo H1, donde = (n11 + n22)/ n2) es la proporcin combinada que se asume comn a ambos grupos bajo H0. El contraste (n1 + diferencia de proporciones muestrales p ( 1 )(1 / n1 + 1 /proporciones n2 ) p 1 2 1- /2 resultar significativo para un nivel zcuando la diferencia de muestrales
o o p1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) p1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) .
As, asumiendo sin prdida de 2 , /la detectar una diferencia - p2 z1-/2 que (1 )( 1 n1potencia + 1 / n 2 ) para . p1generalidad 1 < As, asumiendo sin prdida de generalidad que < , la potencia para detectar una 1 2 de proporciones subyacente 1 2 vendr determinada por
As, asumiendo prdida de generalidad que 1 < para detectar una 1 - determinada por diferencia de proporciones subyacente 2, la potencia 2 vendr 1 = sin P( p 1 p2 z1 /2 (1 )(1 / n1 + 1 / n 2 ) | H1 ) -2 p diferencia de proporciones subyacente 2 )vendr determinada por 1 p 2 ( 11 = P (1 ) / n + (1 ) / n 1 1 2 2 2 1
z1 / 2 (1 )(1 / n1 + 1 / n 2 ) ( 1 2 )
1 (1 1 ) / n1 + 2 (1 2 ) / n 2
H1
17 17
| 2 | z1 / 2 (1 )(1 / n1 + 1 / n 2 ) . = 1 1 (1 1 ) / n1 + 2 (1 2 ) / n 2
148
Pastor-Barriuso R. Si las limitaciones
prcticas determinan de antemano el tamao muestral disponible
para un estudio o si el estudio ya ha sido llevado a cabo, la frmula anterior permitir
Tamao muestral para la comparacin de proporciones
Si las limitaciones prcticas determinan de antemano el tamao muestral disponible para un estudio o si el estudio ya ha sido llevado a cabo, la frmula anterior permitir calcular la potencia estadstica que tendra dicho estudio con la muestra disponible para detectar diferencias de una determinada magnitud. Ejemplo 9.6 Se planea realizar un estudio de cohortes para evaluar la asociacin entre el = uso de anticonceptivos orales ella riesgo de cncer de (vase mama Apartado en mujeres entre 0,00750. Aplicando la regla y de probabilidad total 2.4), la 40 y 49 aos. Para ello, se dispone de una cohorte de 6.000 mujeres en este rango de edad sin evidencia cncer de mama, que sern seguidas un en periodo decohorte 5 aos para relacinbasal entrede esta probabilidad combinada de cncerdurante de mama toda la determinar casos incidentes de la enfermedad. Se estima que un 40% de estas mujeres han utilizado regularmente especficas anticonceptivos orales que la tasa de incidencia y las probabilidades por grupo deyexposicin vendr dada porde cncer de mama en este grupo de edad es de I = 150 casos por 100.000 personas-ao. Para un nivel de significacin = 0,05, cul sera la potenciacde este estudio para detectar un hipottico c = P ( D ) = P ( E ) P ( D | E ) + P ( E ) P ( D | E ) aumento del riesgo de cncer de mama del 50% entre las usuarias de anticonceptivos orales? = 0,40 1 + 0,60 2 = 0,401,50 2 + 0,60 2 = 1,20 2 , Asumiendo una tasa de en los 5 aos deApartado seguimiento, = 0,00750. Aplicando laincidencia regla de laconstante probabilidad total (vase 2.4),la laincidencia acumulada o probabilidad de desarrollar un cncer de mama en esta cohorte durante los ya queentre se que aproximadamente un 40% de las mujeres son usuarias de anticonceptivos = Aplicando la prximos 5 estima aos sera de = IA 5 = 0,001505 relacin esta probabilidad combinada cncer de mama en0,00750. toda la cohorte regla de la probabilidad total (vase Apartado 2.4), la relacin entre esta probabilidad 1 detoda padecer un cncer devendr mama dada entrepor lasespecficas usuarias es por orales y que la probabilidad combinada de cncer de mama en lade cohorte y las probabilidades y las probabilidades especficas por grupo exposicin grupo de exposicin vendr dada por As, la probabilidad de un 50% superior a la probabilidad 2 entre clas no usuarias. c = P(D) = P(E)P(D|E) + P(E )P(D|E )
desarrollar un cncer mama en los 5 aos de seguimiento sera 2 = /1,20 = = 0,40de 1 + 0,60 2 = 0,401,50 2 + 0,60 2 = 1,20 2 ,
ya0,00750/1,20 que se estima= que un 40% de las mujeres sony usuarias de orales y que 1 = 1,50 anticonceptivos = 0,00625 entre no usuarias 2 = 1,500,00625 la 1que de padecer de mama entre lasde usuarias es un 50% superior a yaprobabilidad que se estima un 40% un de cncer las mujeres son usuarias anticonceptivos entre las no usuarias. As, la probabilidad de desarrollar cncer de la 0,00938 probabilidad 2 entre las usuarias de anticonceptivos orales. Como se espera que un n1 = /1,20 de = 0,00750/1,20 = 0,00625 mama los la 5 aos de seguimiento sera un 2 = cncer 1 de padecer mama entre las usuariasentre es las orales en y que probabilidad = 1,50 = 1,500,00625 = 0,00938 entre las usuarias de anticonceptivos no0,40 usuarias y 2 6.000 =12.400 mujeres de la muestra sean usuarias de estos anticonceptivos y orales. Como se espera que n1 = 0,406.000 = 2.400 mujeres de la muestra sean usuarias un 50% superior a la probabilidad 2 entre las no usuarias. As, la probabilidad de = 0,606.000 = 3.600 no usuarias, lasera potencia delas estos anticonceptivos y las restantes n2 usuarias, = 3.600 no la potencia de este estudio restantes n2 = 0,606.000 de este estudio sera desarrollar un cncer de mama en los 5 aos de seguimiento sera 2 = /1,20 =
| 0,00938 0,00625 | 1,96 0,00750(1 0,00750)(1 / 2.400 + 1 / 3.600) 0,00750/1,20 1 = = 0,00625 entre las no usuarias y 1 = 1,502 = 1,500,00625 = 0 , 00938 ( 1 0 , 00938 ) / 2 . 400 + 0 , 00625 ( 1 0 , 00625 ) / 3 . 600 0,00938 entre las usuarias de anticonceptivos orales. Como se espera que n1 = 0,00313 1,96 0,00227 = = ( 0,56) = 0,287; 0 , 00237 sean usuarias de estos anticonceptivos y 0,406.000 = 2.400 mujeres de la muestra
es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer de las restantes n = 0,606.000 = 3.600 no usuarias, la potencia de este estudio sera mama del 50%2 entre las usuarias y no usuarias de anticonceptivos orales sera nicamente es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer del 28,7% a partir de una cohorte de 6.000 mujeres seguidas durante 5 aos. | 0,00938 0,00625 | 1,96 0,00750(1 0,00750)(1 / 2.400 + 1 / 3.600) de mama 1 - = del 50% entre las usuarias y no usuarias de anticonceptivos orales sera La expresin anterior de la potencia permite asimismo determinar a priori la muestra mnima 0 , 00938 ( 1 0 , 00938 ) / 2 . 400 + 0 , 00625 ( 1 0 , 00625 ) / 3 . 600 que sernicamente necesaria en cada uno de los grupos para alcanzar una potencia 1 5 en del 28,7% a partir de una cohorte de 6.000 mujeres preestablecida seguidas durante la deteccin de una diferencia subyacente de proporciones 1 2. En general, si se prev asignar 0,00313 1,96 0,00227 , se sigue a partir de la frmula de la potencia que distinto aos. tamao a = (-0,56) = 0,287; = ambas muestras n2 = kn1 0,00237
Pastor-Barriuso La expresin anterior de la potencia permite asimismo determinar a priori la muestra R. es decir, la probabilidad de detectar un hipottico incremento del riesgo de cncer 149
mnima que ser necesaria en cada uno de los grupos para alcanzar una potencia de mama del 50% entre las usuarias y no usuarias de anticonceptivos orales sera
2 1 | 1 2 | z1 / 2 (1 ) n + kn 1 1 z1- = asignar distinto tamao a ambas muestras n = kn , se sigue a 2. En general, si se prev partir de la frmula de la potencia que 2 1 1 (1 1 ) 2 (1 2 ) Determinacin del tamao muestral + n kn1 partir de la frmula de la potencia que 1 1 1 | 1 2 | z1 / 2 (1 ) + (k + 1) ( 1n 1 ) kn1 | | z z1- = 1 1 2 1 / 2 1 kn | 1 2|1 (1 ) z + 1 ( 1 ( 1 ) 1 /1 2) 2 2 = , 1 n1 kn + k 1 (1 ) + 2 (1 12 ) z1 = n kn 1 1 1 (1 2 (1 2 ) 1) kn 1 + n1 kn (k + 1) (1 1 ) | 1 2 | z1 / 2 kn de tal forma que el tamao muestral requerido ser (k + 1 )1(1 ) , = | | z 1 2 1 / 2 k 1 (1 1 ) + 2 (1 kn 21 ) = , 2 kn ( z1 / 2 (k + 1) (1 1 ) +z ( 1 ) + 1 k k (1 ) + ( 1 ) 1 1 1 2 (1 2 ) ) 1 2 2 n1 = k ( 1kn 1 2 ) 2 de tal forma que el tamao muestral requerido ser de en tal la forma que muestra el tamao muestral requerido ser primera yn 2 = kn1 en la segunda muestra, donde la proporcin combinada de tal forma que el tamao muestral requerido ser ( z1 / 2 (k + 1) (1 ) + z1 k 1 (1 1 ) + 2 (1 2 ) ) 2 n1 = viene dada por = (n11 + n22)/( n + n2) = (1 + k2)/(1 + k). En el en ambas muestras k ( 1 2 ) 2 1 ( z1 / 2 (k + 1) (1 ) + z1 k 1 (1 1 ) + 2 (1 2 ) ) 2 n1 = de asignar igual ambos grupos de comparacin k = 1, el tamao muestral en caso la primera muestra ytamao n2 = kna 1 en la segunda k ( 1 muestra, 2 ) 2 donde la proporcin combinada en + n )/( n = (1 + En el caso de ambas muestras viene dada por = ( n en la primera muestra y n2 = kn1 en la segunda lak proporcin 1 1 2 2 muestra, 1 + n2) donde 2)/(1 + k). combinada en cada una de las a muestras se reduce a asignar igual tamao ambos grupos de comparacin k = 1, el tamao muestral en cada una de las en muestras se reduce a donde proporcin combinada enambas la primera muestra yn la = segunda (n11 + nmuestra, n2) = la (1 + k2)/(1 + k). En el muestras viene dada por 2 = kn 1 en 22)/(n1 + 2
( z1 / 2 2 (1 ) + z1 1 (1 1 ) + 2 (1 2 ) ) 2 (n11 + n2 2)/(n1 + n2) = (1, 2)/(1 k). En el en ambas muestras dada por =grupos caso de asignar igual a ambos de comparacin k= elktamao 1+ , + muestral n1 = n 2 viene =tamao ( 1 2 ) 2 caso de una asignar igual tamao ambosagrupos de comparacin k = 1, el tamao muestral en cada de las muestras seareduce donde la proporcin combinada es = (1 + 2)/2. Como se coment anteriormente, la asignacin de donde igual tamao a las dos muestras ms eficiente al requerir un menor tamao total la proporcin combinada es es = ( + 2)/2. Como se coment anteriormente, la del en cada una de las muestras se reduce a 1 2 estudio para alcanzar una ( misma Sin embargo, diseo de determinados estudios z1 / 2 potencia. 2 (1 ) +z el 1 (1 en 1 1 ) + 2 (1 2 ) ) n1igual , menor = n 2 tamao = la a (ver ejemplos de posteriores), seleccin de muestras de distinto tamao puede resultar ms asignacin las dos muestras es ms eficiente al requerir un ( 1 2 )2 2 factible en trminos de coste disponibilidad de pacientes. En cualquier caso, la determinacin ( z1o / 2 2 (1 ) + z1 1 (1 1 ) + 2 (1 2 ) ) n1 = n deltamao tamaototal muestral para comparacin de proporciones en muestras independientes precisa 2 = la del estudio para alcanzar una misma potencia. Sin embargo, en ,el diseo ( 1 2 ) 2 de los siguientes elementos: donde la proporcin combinada es = (1 + 2)/2. Como se coment anteriormente, la de determinados estudios (ver ejemplos posteriores), la seleccin de muestras de yy El nivel de significacin del contraste bilateral, que suele establecerse por convenio en muestras = (1 + es Como se coment anteriormente, donde la proporcin combinada asignacin de igual tamao a las es dos ms eficiente al requerir un menor la 2)/2. = 0,05. distinto tamao puede resultar ms factible en trminos de coste o disponibilidad de yy La potencia 1 para detectar hiptesis alternativas ciertas. La mayora de los estudios asignacin igual tamao las dos muestras es potencia. ms eficiente al requerir un tamao totalde del estudio paraaalcanzar una misma Sin embargo, en elmenor diseo se disean con una potencia 1 = 0,80 0,90.
y y Las proporciones poblacionales 1 una yposteriores), 2misma . A diferencia de Sin la comparacin medias, no tamao total del estudios estudio para potencia. embargo, en de el diseo de determinados (ver alcanzar ejemplos la seleccin de muestras de es suficiente con determinar la diferencia de proporciones que se pretende detectar, sino que estamao necesario especificar magnitud aproximada esta proporcin en cada grupo de determinados estudios (verla ejemplos posteriores), lade seleccin muestras de de distinto puede resultar ms factible en trminos de coste o de disponibilidad 20 de comparacin, para contar as con un valor aproximado de las varianzas poblacionales 1) y 2(1 2). 1(1 tamao distinto puede resultar ms factible en trminos de coste o disponibilidad de Ejemplo 9.7 Como se vio en el ejemplo anterior, una cohorte de 6.000 mujeres carece de potencia suficiente para detectar un hipottico incremento del 50% en la incidencia 20 acumulada de cncer de mama en 5 aos entre las mujeres usuarias y no usuarias de anticonceptivos orales. Segn los clculos del ejemplo anterior, la incidencia acumulada 20 en este periodo en una cohorte de mujeres entre 40 y 49 aos ser aproximadamente = 0,00750, siendo 1 = 0,00938 y 2 = 0,00625 las respectivas incidencias acumuladas
aos ser aproximadamente = 0,00750, siendo 1 = 0,00938 y 2 = 0,00625 las
mujeres usuarias de estos anticonceptivos y n2 = 1,510.202,55 = 15.303,82 respectivas incidencias acumuladas en usuarias y no usuarias. Como se prev que 15.304 no usuarias. As, para detectar un aumento subyacente del riesgo de cncer la cohorte est compuesta de un 40% de mujeres usuarias de anticonceptivos
Tamao muestral para la comparacin de proporciones
de mama del 50% entre las usuarias de anticonceptivos orales con una potencia de en usuarias y no de usuarias. Comose setiene prev que cohorte est compuesta de de un 40% de = 1,5 n1. Asumiendo un nivel orales y un 60% no usuarias, que n2 la mujeres usuarias de anticonceptivos orales y un 60% de no usuarias, se tiene que 0,80, se precisara de una cohorte inicial de 25.507 mujeres seguidas durante un nivel de significacin = 0,05 y una potencia 1 = 0,80, se n = 0,05 un y una potencia 1 - = 0,80, se necesitaran significacin 2 = 1,5n1. Asumiendo necesitaran periodo de 5 aos.
(1,96 2,5 0,00744 + 0,84 1,5 0,00929 + 0,00621 ) 2 n = El tamao necesario de la cohorte se reducira si el seguimiento del estudio se 1 1,5(0,00938 0,00625) 2
extendiera, por ejemplo, hasta los 10 aos, ya que el nmero esperado de eventos = 10.202,55 10.203
mujeres usuarias de estos anticonceptivos y n2 = 1,510.202,55 = 15.303,82 15.304 no aumentara considerablemente. Siguiendo argumentos similares a los del usuarias. As, para detectar un aumento subyacente del riesgo de cncer deejemplo mama del 50% entre las usuarias de anticonceptivos orales con una potencia de 0,80, se precisara de una 21 anterior, la incidencia acumulada toda ladurante cohorteun durante 10 de aos sera = cohorte inicial de 25.507 mujeresen seguidas periodo 5 aos. El tamao de la cohorte se reducira si elentre seguimiento del estudio se extendiera, 0,01500, y necesario las incidencias acumuladas especficas las usuarias y no usuarias por ejemplo, hasta los 10 aos, ya que el nmero esperado de eventos aumentara considerablemente. Siguiendo argumentos similares a 0,01250, los del ejemplo anterior, la incidencia 1 = 0,01875 y 2 = respectivamente. La de anticonceptivos orales seran acumulada en toda la cohorte durante 10 aos sera = 0,01500, y las incidencias acumuladas especficas entreentonces las usuarias cohorte necesaria consistira en y no usuarias de anticonceptivos orales seran 1 = 0,01875 y 2 = 0,01250, respectivamente. La cohorte necesaria consistira entonces en
n1 =
(1,96 2,5 0,01478 + 0,84 1,5 0,01840 + 0,01234 ) 2 1,5(0,01875 0,01250) 2
= 5.061,27 5.062
usuarias de anticonceptivos orales y n2 = 1,55.061,27 = 7.591,90 7.592 no usuarias; es decir, 12.654 mujeres seguidas a lo largo de 10 aos. usuarias de anticonceptivos orales y n2 = 1,55.061,27 = 7.591,90 7.592 no de la poblacin de referencia, la proporcin de utilizacin de anticonceptivos Dado que la realizacin de un estudio prospectivo Ejemplo es 9.8 usuarias; decir, 12.654 mujeres seguidas a lo largo de 10 aos. requerira de una gran 2 = 0,40. Ade casos de orales entre las mujeres del grupo control ser aproximadamente cantidad de personas-ao de seguimiento para obtener un nmero suficiente de la poblacin de referencia, proporcin de utilizacin de anticonceptivos cncer de mama, resultar msla viable llevar a cabo un estudio de casos y controles. En tal partir de la expresin del odds ratio en estudios de casos y controles (vase caso, el propsito se centrar en seleccionar un nmero suficiente de casos y controles Ejemplo 9.8 las Dado queratio ladel realizacin de estudio prospectivo requerira de una usuarias = 0,40. A orales entre grupo control ser aproximadamente para detectar unmujeres odds de cncer deun mama = 1,50 entre las y no usuarias 2 Apartado 7.6.2), se tiene que de anticonceptivos orales con una potencia 1 = 0,80. Si los controles seleccionados gran cantidad de personas-ao de seguimiento para obtener un nmero suficiente constituyen una muestra representativa de la poblacin decontroles referencia, la proporcin de partir de la expresin del odds ratio en estudios de casos y (vase utilizacin de anticonceptivos 1 (1mujeres 2 ) del grupo control ser ) P( E c | entre P( E | Dorales D c ) las , ratio de casos de cncer de mama, resultar ms viable llevar a cabo un estudio de de casos y = = = 0,40. A partir de la expresin del odds en estudios aproximadamente Apartado 7.6.2), se 2 tiene que P( E | D c ) P( E c | D) 2 (1 1 ) controles (vase Apartado 7.6.2), se tiene que casos y controles. En tal caso, el propsito se centrar en seleccionar un nmero P( E | D) P( E c | D c ) 1 (1 2 ) , = la proporcin = de donde puede despejarse 1 de mujeres que han usado 2 (ratio 1 1 ) cncer de mama = | D c detectar ) P( E c | D ) odds P( Epara suficiente de casos y controles un de
anticonceptivos entre la los casos de cncer mamaque como de donde puede orales despejarse proporcin 1 de de mujeres han usado anticonceptivos 1,50 entre las usuarias y no usuarias de anticonceptivos orales con una potencia 1 orales entre los casos de cncer de mama como de donde puede despejarse la proporcin 1 de mujeres que han usado
2 1,50 0,40 una muestra representativa seleccionados constituyen - = 0,80. Si los controles 1 = = 0,50. = cncer anticonceptivos orales entre los casos de 1 + ( 1) 2 1 + 0,50de 0,mama 40 como 22
2 1,50 0,40 1 = = 0,50. Para un nivel de significacin estndar = = 0,05 y asumiendo la seleccin del 1 + ( 1) 2 1 + 0,50 0,40
mismo nmero de casos que controles, de tal forma que la proporcin combinada Pastor-Barriuso R. Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del = (1 + 2)/2 = (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles mismo nmero de casos que controles, de tal forma que la proporcin combinada
151
Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del

Determinacin del nmero tamao muestral mismo de casos
que controles, de tal forma que la proporcin combinada
Para un nivel de significacin estndar = 0,05 y asumiendo la seleccin del mismo sera nmero de casos que controles, de tal forma que la proporcin combinada = (1 + 2)/2 = (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles sera
n1 = n2 =
(1,96 2 0,45(1 0,45) + 0,84 0,50(1 0,50) + 0,40(1 0,40) ) 2 (0,50 0,40) 2
= (1 + 2)/2 = (0,50 + 0,40)/2 = 0,45, el nmero necesario de casos y controles
= 386,90 387,
para una muestra total de 774 mujeres. Supongamos que,total dada la774 baja incidencia de cncer de mama, la disponibilidad de casos para una muestra de mujeres. incidentes de esta enfermedad en la poblacin es limitada y, por tanto, se decide reclutar el n1 y la proporcin combinada ser = (de 1 + k2)/ doble de controles que de As, n2 = 2de Supongamos que, dada lacasos. baja incidencia cncer de mama, la disponibilidad (1 + k) = (0,50 + 20,40)/3 = 0,43. La muestra necesaria estara entonces compuesta por casos incidentes de esta enfermedad en la poblacin es limitada y, por tanto, 2se (1,96 3 0,43(1 0,43) + 0,84 2 0,50(1 0,50) + 0,40(1 0,40) ) n1 = 2 (0,50 0,40)As, decide reclutar el doble de controles 2 que de casos. n2 = 2n1 y la proporcin
= 289,17 290 combinada ser = (1 + k2)/(1 + k) = (0,50 + 20,40)/3 = 0,43. La muestra casos de cncer de mama y n2 = 2289,17 = 578,33 579 controles libres de la enfermedad. necesaria estara entonces compuesta por El tamao total sera 290 y + 579 = 869; es decir, 95 mujeres ms de las requeridas en un casos de cncer de mama n 2 = 2289,17 = 578,33 579 controles libres de la estudio con el mismo nmero de casos que controles. enfermedad. El tamao total sera 290 + 579 = 869; es decir, 95 mujeres ms de 9.4.2 Tamao muestral para la comparacin de proporciones en dos muestras dependientes 23 las requeridas en un estudio con el mismo nmero de casos que controles. Supongamos que se pretende contrastar la hiptesis nula H0: 1 = 2 frente a la hiptesis alternativa n parejas de datos dependientes. Para simplificar la exposicin, bilateral H1: 1 2 a partir var( pde b - pc ) = var( pb ) + var( pc) - 2 cov( pb , pc ) supondremos adems que se trata de un estudio de casos y controles emparejados uno a uno, 9.4.2 Tamao muestrallas para la comparacin de proporciones enexpuestos dos muestras respectivas a un determinado donde 1 y 2 representan proporciones poblacionales 2de b c b (1 b ) c (1 c ) +las parejas concordantes + = factor antecedente entre casos y controles. Como reflejan una misma n de igualdad de n proporciones n en un diseo emparejado dependientes exposicin en caso y control, la hiptesis nula discordantes con el caso expuesto es equivalente a H0: b = c, donde b es la proporcin de parejas 2 Supongamos que se pretende contrastar la hiptesis nula H : la hiptesis ( + ) ( ) 0 1= 2 frente b c b c y c es la proporcin de parejas discordantes con el control expuesto. Segn la a notacin de la Tabla = , n pares discordantes sern pb = b/n y pc = c/n. 7.6, las proporciones muestrales de ambos tipos de 2 a partir correlacionadas, de n parejas de datos Para esperado de la alternativa bilateralestarn H1: 1 obviamente Estas proporciones de taldependientes. forma que el valor = b centre y su varianza (vase Apartado 3.4) , p ) = - /n. As, la diferencia ser E(pb pc)negativa y pc viene por cov( donde la covarianza pb b c c simplificar la exposicin, supondremos adems que dada se trata de un p estudio de b casos y var( pb pc ) = var( pb ) + var( pc) 2cov( pb , pc ) diferencia en la proporcin muestral de parejas discordantes pb - pc seguir y 2 )representan controles emparejados uno a uno, donde 1 b (1 c (1 c las ) respectivas 2 b + + b c = n (0, ( +n )/n) bajonH y N( - , {( + aproximadamente una distribucin normal b c factor antecedente 0 b entre c b proporciones poblacionales de expuestos a un N determinado 2 ( + c ) ( b c ) = b , 2 ) ( ) }/ n ) bajo H . c y controles. b c casos Como las 1 parejas concordantesn reflejan una misma exposicin en
152
dondePara la covarianza negativa entre pb y, p dada por cov( pb,resultado pc) = b c viene c/n. As, la diferencia el contraste arrojar un significativo un nivel de significacin caso y control, la hiptesis nula de igualdad de proporciones en un diseo emparejado en la proporcin muestral de parejas discordantes pb pc seguir aproximadamente una y py dada por pb ,( p -b2 c/n. As, la donde la covarianza entre pbH c viene c) = ) bajo N(b c, {( b cov( + c) distribucin N(0, (negativa + c)/n 0 b c) }/n) bajo H1. cuando normal , donde b es la proporcin de parejas discordantes con el es equivalente a H0: b = cb Para un nivel de significacin , el contraste arrojar un resultado significativo cuando diferencia en la proporcin muestral de parejas discordantes pb - pc seguir es proporcin el expuesto. caso expuesto y c pla ( bde + parejas c ) / n discordantes pb pc z1con ( control pb c z1 /2 /2 b + c)/n . aproximadamente una distribucin normal N(0, (b + c)/n) bajo H0 y N(b - c, {(b + Segn la notacin de la Tabla 7.6, las proporciones muestrales de ambos tipos de pares Pastor-Barriuso R. c) - ( c)2prdida }/n) bajo Hgeneralidad b - sin 1. Asumiendo de que b < c, la probabilidad del segundo evento discordantes sern pb = b/n y pc = c/n. Estas proporciones estarn obviamente , el contraste arrojar unpodr resultado significativo Para un nivelbajo de significacin ser despreciable la hiptesis alternativa y la potencia entonces aproximarse correlacionadas, de tal forma que el valor esperado de la diferencia ser E(p - p ) = -
Asumiendo sin prdida de generalidad que b < c, la probabilidad del segundo evento Tamao muestral para la comparacin de proporciones ser despreciable bajo la hiptesis alternativa y la potencia podr entonces aproximarse
Asumiendo mediante sin prdida de generalidad que b < c, la probabilidad del segundo evento ser despreciable bajo la hiptesis alternativa y la potencia podr entonces aproximarse mediante
1 = P( pb pc z1 / 2 ( b + c ) / n | H1)
z1 / 2 ( b + c ) / n ( b c ) p b p c ( b c ) = P H1 {( + ) ( ) 2 } / n {( b + c ) ( b c ) 2 } / n b c b c | b c | z1 / 2 ( b + c ) / n . = {( + ) ( ) 2 } / n b c b c
A partir de esta expresin, se sigue que el nmero total de parejas necesarias para alcanzar una potencia 1 es A partir de esta expresin, se sigue que el nmero total de parejas necesarias para ( z1 / 2 b + c + z1 ( b + c ) ( b c ) 2 ) 2 , n = alcanzar una potencia 1 - es ( ) 2
b c
para cuyo clculo se precisa de una idea aproximada de las probabilidades de obtener ambos para cuyo clculo se precisa de aproximada de las probabilidades de obtener y cidea . Aunque son pocos los diseos emparejados donde se tipos de parejas discordantes b una cuenta con informacin a priori de estas probabilidades, las siguientes consideraciones generales pueden resultar tiles en ladiscordantes prctica. Si el no fueralos efectivo, ambos tipos de parejas bemparejamiento y c. Aunque son pocos diseospongamos por 25 ejemplo un estudio de casos y controles donde las variables de emparejamiento no estuvieran asociadas con la exposicin principal, el nivel ade exposicin entonces virtualmente emparejados donde se cuenta con informacin priori de estas sera probabilidades, las independiente entre caso y control, de tal forma que la proporcin esperada de parejas con el 1(1 tiles 2) y con elprctica. control expuesto y el caso caso expuesto y el control no expuesto b = siguientes consideraciones generalessera pueden resultar en la Si el no expuesto c = 2(1 1), para una proporcin total de pares discordantes b + c = 1(1 2) + probarse quepor el ejemplo nmero un necesario parejas emparejamiento no caso, fuera puede efectivo, pongamos estudio de casos y coincidira 2(1 1). En tal aproximadamente con el nmero de sujetos por grupo en un estudio de casos y controles independientes; resultado esperable siempre que seno empareje porasociadas caractersticas controles donde las variables de emparejamiento estuvieran con lairrelevantes. Por el contrario, si el emparejamiento fuera efectivo, esto es, si los factores pronsticos empleados en principal, el emparejamiento estuvieran asociados con la exposicin a independiente estudio, los casos y exposicin el nivel de exposicin sera entonces virtualmente controles se asemejaran en su nivel de exposicin, induciendo as una correlacin positiva en entre caso y control, de talde forma la proporcin esperada de parejas con entonces el caso menos la exposicin de cada pareja caso que y control. Las parejas discordantes seran probables b + c < 1(1 2) + 2(1 1) y, en consecuencia, para obtener un nmero suficiente de expuesto pares discordantes para el anlisis, sera el nmero total de de ser superior b = 2parejas ) y con habra el control expuesto y al el nmero y el control no expuesto 1(1 de sujetos por grupo en un estudio independiente. En general, la comparacin de proporciones en caso muestras emparejadas tiene menor potencia que la comparacin cruda de proporciones c = una proporcin total de pares discordantes b + c en no expuesto 2(1 - 1), para muestras independientes, pero mayor validez interna al controlar los posibles sesgos derivados de = los de utilizados en el emparejamiento. 1factores (1 - 2) + confusin 2(1 - 1). En tal caso, puede probarse que el nmero necesario de parejas de y de controles del ejemplo anterior, Ejemploaproximadamente 9.9 En el estudio coincidira con el casos nmero sujetos independientes por grupo en un estudio de casos cabra esperar que la edad media de los casos sea superior a la de los controles ya que la incidencia de cncer de mama aumenta con la edad. Adems, como la edad est inversamente y controles independientes; resultado esperable siempre que se empareje por relacionada con el uso de anticonceptivos orales, esta variable podra provocar una confusin negativa en la asociacin a estudio, tal forma que el oddsefectivo, ratio obtenido de la caractersticas irrelevantes. Por el contrario, si elde emparejamiento fuera esto es, comparacin cruda de casos y controles independientes tendera a infraestimar el potencial efecto nocivo del uso de anticonceptivos orales en el riesgo de cncer de mama. si los factores pronsticos empleados en el emparejamiento estuvieran asociados con la
exposicin a estudio, los casos y controles se asemejaran en su nivel de exposicin, induciendo as una correlacin positiva en la exposicin de cada pareja de caso y
control. Las parejas discordantes seran entonces menos probables b + c < 1(1 - 2) +
Determinacin del tamao muestral
Para evitar esta posible confusin, se decide disear un estudio de casos y controles emparejados, donde cada caso de cncer de mama se empareja aleatoriamente con un control de su misma edad. Como consecuencia de este emparejamiento por edad, se inducira un cierto grado de correlacin positiva en la utilizacin de anticonceptivos de cada pareja. As, la proporcin esperada de pares discordantes sera inferior a 1(1 2) + 2(1 1) = 0,50(1 0,40) + 0,40(1 0,50) = 0,50, donde 1 = 0,50 y 2 = 0,40 son las proporciones poblacionales de usuarias de anticonceptivos orales entre casos y controles obtenidas del ejemplo anterior. Asumiendo una correlacin moderada, podra establecerse a priori una proporcin aproximada de parejas discordantes b + c = 0,40. Para un hipottico odds ratio de cncer de mama = b/c = 1,50, se esperara entonces una proporcin de parejas con el control usuario depotencia anticonceptivos orales y elnivel caso de no usuario y un necesarias para detectar dicho efecto con una 1 - = 0,80 c = (b + c)/( + 1) = 0,40/2,50 = 0,16, y con el caso usuario y el control no usuario = 0,24. = 0,05 sera As, el nmero total de parejas necesarias para detectar dicho significacin b = c = 1,500,16 efecto con una potencia 1 = 0,80 y un nivel de significacin = 0,05 sera
n=
(1,96 0,24 + 0,16 + 0,84 (0,24 + 0,16) (0,24 0,16) 2 ) 2 (0,24 0,16) 2
= 487,64 488, con lo que se tendran aproximadamente 0,40488 = 195 pares discordantes para el anlisis. Notar que el nmero de parejas requeridas para este estudio sera mayor que los 387 casos y controles necesarios en el correspondiente estudio independiente (Ejemplo con lo que se tendran aproximadamente 0,40488 = 195 pares discordantes para9.8). No obstante, el anlisis emparejado de casos y controles de igual edad eliminara la posibilidad de sesgos por diferencias de edadde entre casos y controles. el anlisis. Notar que el nmero parejas requeridas para este estudio sera
El clculo del tamao puede extenderse a la comparacin de tres oestudio ms proporciones mayor que los 387 muestral casos y controles necesarios en el correspondiente en muestras dependientes o independientes. Aunque las frmulas se derivan siguiendo procedimientos similares a los 9.8). aqu descritos, suelen emplearse mtodos de de casos correccin del nivel independiente (Ejemplo No obstante, el anlisis emparejado y de significacin para preservar la probabilidad global de obtener un resultado significativo entre las mltiples comparaciones que sela pretendan realizar (ver referencias bibliogrficas). controles de igual edad eliminara posibilidad de sesgos por diferencias de edad 9.5REFERENCIAS entre casos y controles. 1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The Design and Analysis Cohort Studies. Lyon: International for Research on Cancer, El clculo of del tamao muestral puede extenderse Agency a la comparacin de tres o ms 1987. 2. Cochran WG. Sampling Techniques, Third Edition. New York: John Wiley & Sons, 1977. proporciones enRaghavarao muestras dependientes o independientes. frmulas se 1990. 3. Desu MM, D. Sample Size Methodology. Aunque Boston: las Academic Press,
4. Fleiss JL. The Design and Analysis of Clinical Experiments. New York: John Wiley & derivan siguiendo procedimientos similares a los aqu descritos, suelen emplearse Sons, 1986. 5. Fleiss JL, Levin B, del Paik MC. Statistical Methods forpreservar Rates and Proportions, Third Edition. para la probabilidad global mtodos de correccin nivel de significacin New York: John Wiley & Sons, 2003. 6. Lemeshow S, Hosmer DW, Klar J, Lwanga SK. Adequacy of Sampleque Sizese in Health Studies. de obtener un resultado significativo entre las mltiples comparaciones New York: John Wiley & Sons, 1990. pretendan realizar (ver referencias bibliogrficas). 7. Levy PS, Lemeshow S. Sampling of Populations: Methods and Applications, Third Edition. New York: John Wiley & Sons, 1999. 8. Rosner B. Fundamentals of Biostatistics, Fifth Edition. Belmont, CA: Duxbury Press, 1999. 9.5 REFERENCIAS 9. Silva LC. Diseo Razonado de Muestras y Captacin de Datos para la Investigacin Sanitaria. Madrid: Daz de Santos, 2000. 1. Breslow NE, Day NE. Statistical Methods in Cancer Research, Volume 2, The
Design and Analysis of Cohort Studies. Lyon: International Agency for Research on Cancer, 1987.
TEMA 10 CORRELACIN Y REGRESIN LINEAL SIMPLE

10.1INTRODUCCIN En el Tema 6 se discutieron las tcnicas estadsticas adecuadas para comparar los niveles medios de una variable continua en dos grupos de sujetos definidos segn la presencia o ausencia de una determinada caracterstica dicotmica; esto es, la dependencia entre una variable continua y otra dicotmica. Asimismo, en el Tema 7 se presentaron distintos procedimientos para determinar la existencia o no de asociacin entre dos variables dicotmicas. Queda pendiente, por tanto, describir los mtodos necesarios para evaluar la relacin entre dos variables continuas. En este tema se presentan el coeficiente de correlacin y la regresin lineal simple como las dos tcnicas estadsticas ms utilizadas para investigar la relacin entre dos variables continuas X e Y. Como veremos ms adelante, ambos procedimientos estn estrechamente relacionados, aunque obedecen a estrategias de anlisis un tanto diferentes. Por un lado, el coeficiente de correlacin determina el grado de asociacin lineal entre X e Y, sin establecer a priori ninguna direccionalidad en la relacin entre ambas variables. Por el contrario, la regresin lineal simple permite cuantificar el cambio en el nivel medio de la variable Y conforme cambia la variable X, asumiendo implcitamente que X es la variable explicativa o independiente e Y es la variable 10.2 COEFICIENTE DE CORRELACIN respuesta o dependiente. Como ya se anticip en el Apartado 3.4, el parmetro ms utilizado para medir la 10.2 COEFICIENTE DE CORRELACIN asociacin lineal entre dos variables aleatorias X e Y es el coeficiente de correlacin Como ya se anticip en el Apartado 3.4, el parmetro ms utilizado para medir la asociacin xy, que se define como poblacional lineal entre dos variables aleatorias X e Y es el coeficiente de correlacin poblacional xy, que se define como
xy =
cov( X , Y )
x y
E{( X x )(Y y )}
x y
donde x y y son las respectivas medias poblacionales de X e Y y x y y son sus correspondientes desviaciones El numerador del coeficiente cov(X, Y) = y son poblacionales. las respectivas medias poblacionales de X e Y de y correlacin donde x ytpicas x y y son sus E{(X x)(Y y)} es la covarianza poblacional entre ambas variables y se define como la esperanza del producto de las desviaciones de cada variable respecto de del su media. As, si valores correspondientes desviaciones tpicas poblacionales. El numerador coeficiente de altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y, el producto de las )(,yY tender a ser y la covarianza ser positiva. Por ambas el contrario, desviaciones (xcov( xX )( Y -positivo y)} es la covarianza poblacional entre correlacin ) =y)E {(X - x si valores altos de una variable se relacionan con valores bajos de la otra variable, el producto de variables las desviaciones tender a la ser negativo del y laproducto covarianza ser negativa. No resulta y se define como esperanza de las desviaciones deobstante, cada complicado determinar el grado de asociacin lineal entre dos variables a partir de la magnitud de variable la covarianza, ya que sta depende las unidades de bajos) medida de variables. respecto de su media. As, de si valores altos (o de X las tienden a asociarse Al dividir la covarianza por el producto de las desviaciones tpicas de X e Y, el coeficiente de y - y) tender a o con valores altos (o bajos) de Y,unidades el producto de las desviaciones (xante - x)( correlacin poblacional carece de y permanece inalterable cambios de origen escala en cualquiera de las dos variables. Puede comprobarse, adems, que la covarianza entre positivo y la covarianza ser positiva. Por de el contrario, si valores altos X eser Y es menor en valor absoluto que el producto sus desviaciones tpicas y,de en una consecuencia,
variable se relacionan con valores bajos de la otra variable, el producto de las
Pastor-Barriuso R.
155
desviaciones tender a ser negativo y la covarianza ser negativa. No obstante, resulta
comprendido entre -1 y 1. En el caso extremo de que xy = 1, las variables

Correlacin y regresin lineal simple estandarizadas Zx = (X -
x)/x y Zy = (Y - y)/y verifican que (vase Apartado 3.4)
una variable constante igual a su valor esperado, Zx + Zy y, por tanto, Zx + Z se deduce que lasaleatoria variables X e Y presentan una relacin lineal negativa +Z y es y) = 0, de donde Z x (X xvar( ). Cuando xyZ= se dice las variables linealmente perfecta, Y = y var( + Zy )= Zx) + var( + 2cov( Zx, que Zy) = 2(1 + xy) = estn 0 y/x y) 0, de que donde deduce que las variables Xambas e Y presentan unaNotar relacin = E(Zx + Zy) = 0, ya incorrelacionadas nose existe relacin lineal entre variables. que si dos variables son estadsticamente independientes, en el sentido de que el conocimiento del valor + Zyno esaporta una variable aleatoria constante igual a su valor esperado, Zentonces y, por negativa tanto, Zx perfecta, x + Zy (X - x). Cuando = 0, se dice que las variables lineal Y= que toma una variable ninguna informacin sobre el de la otra variable, y - y/x xy valor estn incorrelacionadas; pero que la incorrelacin no implica necesariamente independencia, ya =las E(Z x + Zy) = 0, de donde se deduce que las variables X e Y presentan una relacin 0. que variables podran presentar una dependencia no lineal aun cuando xy =ambas incorrelacionadas ya que no existe relacin lineal entre estn linealmente
El coeficiente de correlacin por cuantificar else grado de asociacin lineal ypermite, - y/son - tanto, = 0, dice que lasel variables lineal negativa perfecta, Y= x(X estadsticamente x). Cuando xy independientes, variables. Notar que si dos variables en sentido entre dos variables, de tal forma que cuanto ms prximo est el coeficiente de correlacin a 1 1, mayor ser la dependencia lineal positiva o existe negativa entre lineal las variables. Este hecho se incorrelacionadas ya que no relacin entre informacin ambas estn linealmente de que el conocimiento del valor que toma una variable no aporta ninguna ilustra en los diagramas de dispersin de la Figura 10.1, donde se representan los valores de la variable X en el eje horizontal y los correspondientes valores de Y en el eje vertical. A medida variables. Notar que si dos variables son estadsticamente independientes, en la el sentido sobre el valor de la otra variable, entonces estn incorrelacionadas; pero que que los puntos del diagrama de dispersin se desvan de una lnea recta perfecta con pendiente positiva o el negativa, el coeficiente de que correlacin sevariable aleja de no 1 aporta 1. Aunque la interpretacin de de que conocimiento del valor toma una ninguna informacin incorrelacin no implica necesariamente independencia, ya que las variables podran la magnitud del coeficiente de correlacin depende del contexto particular de aplicacin, en trminos generales se que una correlacin baja por debajo de 0,30 en valor sobre el valor de laconsidera otra variable, entonces estn es incorrelacionadas; pero que la absoluto, = 0. presentar una dependencia no lineal aun cuando xy moderada entre 0,30 y 0,50, y alta por encima de 0,50. incorrelacin no implica necesariamente ya que las variables podran Notar, por ltimo, en la interpretacin coeficiente de el correlacin hay dos errores El coeficiente deque correlacin permite, independencia, pordel tanto, cuantificar grado de asociacin frecuentes que deben ser evitados: xy = 0. presentar una dependencia notal lineal aun cuando lineal entre dos variables, de forma cuanto ms prximo est el coeficiente de y y El coeficiente de correlacin entre X que e Y no es una medida de la magnitud de la pendiente de la recta de regresin entre ambas variables. El coeficiente de correlacin determina el El coeficiente de correlacin permite, por tanto, cuantificar elnegativa grado deentre asociacin correlacin 1 -1, mayor de ser la dependencia lineal positiva o grado de aaproximacin los puntos del diagrama de dispersin a una las lnea recta, independientemente de cul sea la magnitud de la pendiente de dicha recta. Como se lineal entre doshecho variables, de talen forma que cuantode ms prximo est el coeficiente de diagramas dispersin la Figura 10.1, variables. Este sea ilustra ilustra en los paneles y b de lalos Figura 10.2, el coeficiente de de correlacin es mayor en el panel a, a pesar de que la pendiente de la recta de regresin es mayor en el panel b. La correlacin a 1 -1, mayor ser la dependencia lineal positiva o negativa las donde se representan los valores de la X en el eje horizontal y losentre pendiente de la recta de regresin novariable se determina mediante el coeficiente de correlacin, sino mediante las tcnicas de regresin lineal simple que se discutirn en la segunda parte variables. Este hecho se ilustra en los diagramas de dispersin de la Figura 10.1, correspondientes de este tema. valores de Y en el eje vertical. A medida que los puntos del diagrama y y El coeficiente de correlacin no la es unaperfecta medida deeje la idoneidad del lineal. donde se representan los de valores de variable X en con el horizontal y losmodelo de dispersin se desvan una lnea recta pendiente positiva o negativa, el El coeficiente de correlacin slo determina la existencia de una componente lineal en la relacin entre dos variables, independientemente dela lainterpretacin forma de dicha relacin. correspondientes valores de en el eje A medida que subyacente los puntos del diagrama coeficiente de correlacin seY aleja de 1 vertical. -1. Aunque de la magnitud As, por ejemplo, el coeficiente de correlacin es mayor en el panel d que en el panel c de Figura 10.2, aun cuando relacin subyacente entre las variables panel el d es dela dispersin se desvan de una la lnea recta perfecta con pendiente positiva o del negativa, 3 claramente no lineal (en este caso, cuadrtica). Por ello, antes de analizar el grado de asociacin entre se dos variables, es Aunque aconsejable inspeccionar lalanaturaleza coeficiente delineal correlacin aleja de 1 -1. la interpretacin de magnitud de la relacin mediante un diagrama de dispersin. 3
comprendido entre -1 y 1. En el caso extremo de que xy = 1, las variables Zx - Zy) = var(Zx) + var( Zy) - 2cov(Z = 2(1 xy )= 0; extremo de que x, Zy) el coeficiente de var( correlacin siempre est comprendido entre 1 y 1. -En el caso (X - x)/x y ZyZ= (Y - y)/ (vase Zx =estandarizadas xy estandarizadas = 1, las variables )/verifican x y Zy =que (Y y)/yApartado verifican3.4) que (vase x = (X xy Apartado 3.4) es decir, Zx - Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx var(Zx Zy ) = var(Zx ) + var(Zy ) 2cov(Zx , Zy ) = 2(1 xy ) = 0; - Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relacin lineal es decir, Zx Zy es una variable aleatoria degenerada (constante) en su valor esperado, Zx Zy = Zy que esY una aleatoria degenerada en su valor esperado, Zx es decir, perfecta, Z0, x - lo implica que las variables X e Y (constante) presentan una relacin lineal positiva E(Z variable positiva = x Zy) = y + y/x(X - x). De igual forma, si xy = -1, se cumple que perfecta, Y = y + y/x(X x). De igual forma, si xy = 1, se cumple que - Zy = E(Zx - Zy) = 0, lo que implica que las variables X e Y presentan una relacin lineal var(Zx + Zy ) = var(Zx ) + var(Zy ) + 2cov(Zx , Zy ) = 2(1 + xy ) = 0 + y/x(aleatoria X - x). De igual forma, xyvalor = -1,esperado, se cumple positiva Y una = yvariable y, por tanto,perfecta, Z + Z es constante igual si a su Zque + Z = E(Z
x y x y
Coeciente de correlacin
(a) xy = 0,70
(b ) xy = 0,50
(c) xy = 0,30
x (d) xy = -0,70
x (e) xy = -0,50
x (f) xy = -0,30
Figura 10.1
Figura 10.1 Diagramas de dispersin entre dos variables aleatorias X e Y con coeficientes de correlacin positivos xy = 0,70 (a), 0,50 (b) y 0,30 (c), as como con coeficientes de correlacin negativos xy = 0,70 (d), 0,50 (e) y 0,30 (f).
(a) xy = 0,70
(b) xy = 0,50
x (c) xy = -0,70
x (d) xy = -0,80
Figura 10.2
Figura 10.2 Diagramas de dispersin, coeficientes de correlacin y rectas de regresin entre dos variables aleatorias X e Y con distintas pendientes de la recta de regresin (paneles a y b) y distintas formas de la relacin subyacente (paneles c y d).
Una vez descritas las propiedades e interpretacin del coeficiente de correlacin
poblacional, en este apartado se presentan los mtodos para estimar el coeficiente de Correlacin y regresin lineal simple AS DE TENDENCIA CENTRAL correlacin entre dos variables X e Y a partir de los valores observados de ambas
de tendencia central informan acerca de cul es el valor ms representativo una muestra demuestral n sujetos de mutuamente variables (xi, yi) ende 10.2.1 Coeficiente correlacin Pearson independientes, i = 1, ..., n.
minada variableUna o, dicho de forma las equivalente, estos estimadores indican vez descritas propiedades e interpretacin del coeficiente de correlacin El estimador muestral ms utilizado para evaluar la dependencia lineal entrepoblacional, dos en este apartado se presentan los mtodos para estimar el coeficiente de correlacin entre dos qu valor se agrupan los X datos observados. Las medidas de tendencia endenota una muestra variables eXYea los valores ambas de variables (xque variables Ypartir es el de coeficiente de observados correlacin de muestral Pearson, por de i, yi) se n sujetos mutuamente independientes, i = 1, ..., n. muestra sirven tanto para resumir los resultados observados como para o simplemente por ms r, y se define para como la covarianza muestral entreentre X e Ydos dividida r xy,estimador El muestral utilizado evaluar la dependencia lineal variables X e los Y es el coeficiente de correlacin muestral de Pearson, que se denota por rxy, o simplemente encias acerca de parmetros poblacionales correspondientes. A el se producto sus la desviaciones muestrales, porpor r, y define de como covarianzatpicas muestral entre X e Y dividida por el producto de sus desviaciones muestrales, se describen los principales tpicas estimadores de la tendencia central de una n 1 n ( x x )( y y ) ( x i x )( y i y ) i i n 1 i =1 i =1 , r= = n n sx s y ( xi x ) 2 ( y i y ) 2 aritmtica
i =1 i =1
mtica, denotada por x ,yse la y suma de cada uno de los donde sxdefine son lacomo media la desviacin tpica muestral de X y y y sy son la media y la donde xtpica y sx son la media y. la desviacin tpica muestral de Xmuestral y y y syde son la media y desviacin muestral de Y As, el coeficiente de correlacin Pearson se define trales dividida por el nmero de observaciones Si denotamos de forma anloga al coeficiente realizadas. de correlacin poblacional, reemplazando la covarianza y las desviaciones tpicas poblacionales por susel correspondientes estimadores muestrales. . As, coeficiente de correlacin muestral de Al igual la desviacin tpica muestral de Y que de correlacin poblacional, de correlacin muestral siempre o muestral y por xiel elcoeficiente valor observado para el sujeto i-simo, iel = coeficiente 1, ..., n, 1 yforma 1, de anloga tal forma cuanto ms se aproxime a 1 1, mayor ser la toma valores de Pearson se entre define al que coeficiente de correlacin poblacional, dra dada por dependencia lineal positiva o negativa entre las variables. reemplazando la covarianza y las desviaciones tpicas poblacionales por sus Ejemplo 10.1 En la Figura 10.3 se presenta el diagrama de dispersin entre el ndice de x + x 2 + ... + x n 1 n masa medida de. obesidad queAl se igual obtiene de dividir el peso en kilogramos por la = 1 x= x i corporal, correspondientes estimadores muestrales. que el coeficiente de correlacin n i =1 n
1,5 Ejemplo 10.1 En lade Figura 10.3 se presenta el diagrama de dispersin entre el no ser un fiel reflejo de la tendencia central la distribucin.
ndice de masa corporal, medida de obesidad que se obtiene de dividir el peso en o 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
1
n los valores del colesterol HDL obtenidos en los 10 primeros sujetos del European Study on Antioxidants, Myocardial Infarction and Cancer of 0,5
poblacional, el coeficiente de correlacin muestral siempre toma valores entre -1 y 1, de 2,25 es la medida de tendencia central ms utilizada y de ms fcil tal forma que cuanto ms se aproxime a 1 -1, mayor ser la dependencia lineal 2 n. Corresponde al centro de gravedad de los datos de la muestra. Su positiva o negativa entre las variables. itacin es que est muy influenciada por los valores extremos y, en este
ast (EURAMIC), un estudio 0,25multicntrico de casos y controles realizado

32 36
991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de 20 24 28 los
Indice de masa corporal (kg/m)
Figura 10.3 Figura 10.3 Diagrama de dispersin entre el ndice de masa corporal y el colesterol HDL en el grupo control del estudio EURAMIC.
158
Pastor-Barriuso R.
que indica una asociacin lineal negativa moderada entre el ndice de masa controles del estudio EURAMIC con valores para ambas variables. A simple corporal y el colesterol HDL. Coeciente de correlacin vista, se aprecia un cierto grado de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a decrecer conforme aumenta el ndice altura en metros al cuadrado, el colesterol HDL en los 533 controles del estudio [Figura y 10.3 aproximadamente aqu] de masa corporal. Esta apreciacin se confirma mediante clculo del EURAMIC con valores para ambasvisual variables. A simple vista, seel aprecia un cierto grado de dependencia lineal negativa entre ambas variables; esto es, el colesterol HDL tiende a coeficiente de de correlacin muestral de decrecer conforme aumenta elrndice dePearson, masa corporal. Esta apreciacin visual se confirma de Pearson tiene una distribucin muestral tanto ms El coeficiente correlacin mediante el clculo del coeficiente de correlacin muestral de Pearson, asimtrica cuanto ms distante 1 533 est la correlacin subyacente del valor 0. Cuando ( xi x )( y i y ) 0,285 532 i =1 est relativamenterprximo a 1 -1, las estimaciones muestrales del coeficiente de = = = 0,276, sx s y 3,50 0,295 en la de cola que corporal no est y el correlacin tendern por fuerza a desviarse del parmetro que indica una asociacin lineal negativams moderada entre el ndice masa que indicaHDL. una asociacin lineal negativa moderada entre el ndice de masa colesterol limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribucin con El coeficiente decolesterol correlacin r de Pearson tiene una distribucin muestral tanto ms asimtrica corporal y el HDL. un marcado sesgoest negativo o positivo. Por ello, el de un intervalo de confianza cuanto ms distante la correlacin subyacente clculo del valor 0. Cuando est relativamente prximo a 1 1, las estimaciones muestrales del coeficiente de correlacin tendern por fuerza no realizarse a partir de la por distribucin de r, y un test ms de hiptesis para a desviarse del parmetro ensuele la cola que no est limitada el rango muestral [1, 1] de valores [Figura 10.3 aproximadamente aqu] posibles de r, resultando en una distribucin con un marcado sesgo negativo o positivo. Por transformacin z de Fisher sino mediante ello, el clculo dela un intervalo de confianza y un test de hiptesis para no suele realizarse a partir de la distribucin muestral de r, sino mediante la transformacin z de Fisher El coeficiente de correlacin r de Pearson tiene una distribucin muestral tanto ms 1 1 + r z = log , 2no es r pequeo, del valor 0. Cuando asimtrica cuanto msy distante est la correlacin subyacente 1muy del modelo normal el tamao muestral tpicamente n > 50, la cuya distribucin muestral presenta una mayor simetra para cualquier valor de . Puede est relativamente prximo a1 distribuye -1, las estimaciones muestrales del de media transformacin z de Fisher se forma aproximadamente normal con probarse que si las distribuciones poblacionales de las variables X coeficiente eY no distan mucho . Puededel cuya distribucin muestral presenta una de mayor simetra para cualquier valor de modelo normal y el tamao muestral no es muy pequeo, tpicamente n > 50, la transformacin media en la cola que+no est correlacin tendern porde fuerza a desviarse ms del parmetro )/(1 - las )}/2 y varianza 1/( n - 3), log{(1 +se z de Fisher distribuye forma aproximadamente normal con mucho )/(1 )}/2 y probarse que si distribuciones poblaciones de las variables X e Y log{(1 no distan varianza 1/(n 3), limitada por el rango [-1, 1] de valores posibles de r, resultando en una distribucin con 6 1 + 1 1 ~ N . log , z 1el 3 un marcado sesgo negativo o positivo. Por n de clculo un intervalo de confianza 2 ello,
Notar que lahiptesis varianza para de z es inversamente proporcional al la tamao muestral e independiente de no suele realizarse a partir de distribucin muestral de r, y un test de Notar que la varianza de la correlacin subyacente . z es inversamente proporcional al tamao muestral e
sino mediante la transformacin z de Fisher independiente de laLas correlacin subyacente Ejemplo 10.2 Figuras 10.4( a) y (b ) .muestran las distribuciones del coeficiente de correlacin r de Pearson y de la transformacin z de Fisher entre el ndice de masa corporal 1 1 + r simples de tamao 50 obtenidas a partir y el colesterol HDL en 1000 muestras z = logaleatorias , 10.2 del Lasestudio FigurasEURAMIC. 10.4( (1 b) las distribuciones del coeficiente de Ejemplo los controles La muestral de r presenta un leve 2a) y muestran r distribucin sesgo positivo ya que el percentil 75 (0,18) est ligeramente ms alejado de la mediana de correlacin r de Pearson y de la transformacin de Fisher entre ndice de (0,28) que el percentil 25 (0,36). Para corregir esta z leve asimetra, lael transformacin z .inferior Puede de la cuya distribucin muestral presenta una mayor simetra para cualquier valor de de Fisher aumenta la dispersin de los valores de r ms distantes de 0 (cola masa corporal y el colesterol HDL constantes en 1000 muestras aleatorias simples de tamao distribucin) y mantiene virtualmente los valores prximos a 0 (cola superior), probarse que si las distribuciones poblaciones de las variables X e Y no distan mucho dando lugar as a una distribucin sensiblemente ms simtrica. 50 obtenidas a partir de los controles del estudio EURAMIC. La distribucin 6 En este ejemplo, la distribucin muestral del coeficiente de correlacin r de Pearson presenta unade leve asimetra ya quesesgo la correlacin 0,276 en los controles muestral r presenta un leve positivo subyacente ya que el percentil 75 todos (-0,18) est del estudio EURAMIC es moderadamente baja. En otras situaciones donde la correlacin subyacente sea alta, la distribucin muestral de r ser notablemente asimtrica ligeramente ms alejado de la mediana (-0,28) que el percentil 25 (-0,36). Para y, en consecuencia, el efecto normalizador de la transformacin z de Fisher ser mucho ms marcado. corregir esta leve asimetra, la transformacin z de Fisher aumenta la dispersin
de los valores de r ms distantes de 0 (cola inferior de la distribucin) y Pastor-Barriuso mantiene R. virtualmente constantes los valores prximos a 0 (cola superior), dando lugar as a
159
Correlacin y regresin lineal simple
20 Frecuencia relativa (%) 15 10 5 0
20
[Figura 10.4 aproximadamente aqu] 15

10 5
En base a la distribucin muestral de la transformacin z de Fisher, el intervalo de
confianza al 100(1 - )% para el parmetro log{(1 + )/(1 - )}/2 viene dado por [Figura 10.4 aproximadamente aqu] 0 1 z1 / 2 -0,8 , -0,6 -0,4 -0,2 (z1, z2)0= z -0,8 -0,6 -0,4 -0,2 0,2 0 0,2 3 n En base a la distribucin muestral de la transformacin z de Fisher, de 1 elintervalo 1+ r
(a) r
(b ) z =
Figura 10.4 Distribucin muestral del coeficiente de correlacin r de Pearson (a) y de la transformacin [Figura 10.4 aproximadamente aqu] z de Fisher ( b ) entre el ndice de masa corporal y el colesterol HDL en 1000 muestraspoblacional aleatorias simples correlacin de intervalo de confianza al 100(1 - )% para el coeficiente 1 de tamao 50 obtenidas a partir de los controles del estudio EURAMIC. Las lneas verticales en trazo discon, (z1, z2) = z z1 / 2 tinuo representan los parmetros subyacentes = 0,276 y log{(1 + )/(1 )}/2 = 0,284. n3
el log{(1 +normal )/(1 - estandarizada. )}/2 viene dado por confianza ales 100(1 - )% para el percentil 1- /2parmetro de la distribucin As, el donde z1-/2
log 1 r
se obtiene de el inverso de la transformacin de Fisher a Fisher, ambos el lmites del Figura En base a aplicar la distribucin muestral de la transformacin z de intervalo de 10.4
intervalo, para el log{(1 +normal )/(1 )}/2 viene dado por confianza al 100(1 - )%muestral el percentil 1- /2parmetro de As, el confianza donde z1-a En base laes distribucin de la la distribucin transformacin z de- estandarizada. Fisher, el intervalo de /2 al 100(1 )% para el parmetro log{(1 + )/(1 )}/2 viene dado por coeficiente de correlacin poblacional intervalo de confianza al 100(1 - )% 1 1 exp( 2 z1para ) 1 el exp( 2z ) ( z1 , z2 ) = z ,z1 / 2 2 , . exp(2 z ) + 1 exp(2 z n) 3 + 1 1 2 se obtiene de aplicar el inverso de la transformacin de Fisher a ambos lmites del donde z1/2 es el percentil 1 /2 de la distribucin normal estandarizada. As, el intervalo de intervalo, confianza 100(1 )% coeficiente de correlacin poblacional se obtiene elpercentil 1el - ms /2 de la distribucin normal As, el donde zal 1- /2 es para espara tanto asimtrico alrededor de laestandarizada. estimacin puntual r de aplicar Este intervalo el inverso de la transformacin de Fisher a ambos lmites del intervalo, para el coeficiente de correlacin poblacional intervalo de confianza al 100(1 - )% cuanto mayor sea r en valor absoluto menor sea el tamao muestral. Asimismo, el exp( 2 zy 1 ) 1 exp( 2 z 2 ) 1 . , exp(2 z ) + 1 exp(2 z ) + 1 1 2 de Fisher de se obtiene de aplicar el inverso la transformacin a ambos lmites del contraste de la hiptesis nula H 0: = 0 frente a la hiptesis alternativa bilateral H1: Este intervalo para es tanto ms asimtrico alrededor de la estimacin puntual r cuanto mayor intervalo, sea r valor absoluto menor sea tamao muestral. Asimismo, el contraste de la se intervalo realiza mediante eltanto estadstico msel asimtrico alrededor de la estimacin puntual r hiptesis Este para yes 0 en nula H0: = 0 frente a la hiptesis alternativa bilateral H1: 0 se realiza mediante el estadstico cuanto mayor sea r en valor absoluto sea2el exp(2 zy z 2 tamao )menor 1 exp( ) 1 muestral. Asimismo, el 11 1+ , 0 . exp(z log z1 2 z 2 )+ 1 2 ) + 1 exp( 2 alternativa bilateral H : 0hiptesis a la 1 contraste de la hiptesis nula H0: = 0 frente 1 , 1 realiza mediante eltanto estadstico ms asimtrico de la estimacin puntual r Este para es 0 se intervalo 3 n alrededor
que bajo H0 sigue aproximadamente una distribucin normal estandarizada. El valor P del cuanto mayor sea r en valor absoluto y menor sea el tamao muestral. Asimismo, el contraste se H calcula, tanto, como el una rea bajo lacurva normal estandarizada aquellos 1 + que bajo aproximadamente estandarizada. Elpara valor P 1 distribucin 0 sigue por 0 normal log z 1 del estadstico. valores tanto o ms distantes de 0 que el valor observado alternativa bilateral H : contraste de la hiptesis nula H0: = 2 a la0hiptesis 0 frente , curva normal estandarizada1 para del contraste se calcula, por tanto, como el rea bajo la 1 Ejemplo 10.3 A partir de 533 controles del estudio EURAMIC, la estimacin puntual del 0 se realiza mediante el estadstico nque 3 el corporal aquellos valores tanto o msentre distantes de 0 valor observado del estadstico. coeficiente de correlacin el ndice de masa y el colesterol HDL fue r = 0,276. La transformacin z de Fisher de esta correlacin es z = log{(1 0,276)/(1 + 0,276)}/2 = 0,284. Para una estimacin por una intervalo dela correlacin subyacente entre ambas 1 + que bajoobtener H0 sigue aproximadamente 1 distribucin 0 normal estandarizada. El valor P log Ejemplo 10.3 A partir de 533zcontroles del estudio EURAMIC, la estimacin 2 1 0 , curva normal estandarizada para del contraste se calcula, por tanto, como el rea bajo la puntual del coeficiente de correlacin1 entre el ndice de masa corporal y el Pastor-Barriuso R. 3 el valor observado del estadstico. aquellos valores tanto o ms distantes de 0nque 8
160
referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el 1 = -0,284 1,960,043 = (-0,369; -0,199) 0,284 z 0,975 entre ambas variables en la poblacin de intervalo de la correlacin533 subyacente 3 parmetro log{(1 + )/(1 - )}/2 como Coeciente de correlacin referencia del estudio EURAMIC, se calcula en primer lugar el IC al 95% para el y, a continuacin, se aplica el 1 inverso de la transformacin de Fisher a ambos = -0,284 1,960,043 = (-0,369; -0,199) 0,284 z 0,975 )}/2 como del estudio EURAMIC, se calcula en primer lugar parmetro log{(1 + )/(1 de variables en la poblacin referencia 533 3 lmites intervalo el IC al del 95% para el parmetro log{(1 + )/(1 )}/2 como asociacin lineal subyacente entre ambas variables. Adems, las inferencias basadas en 1 inverso de la transformacin de Fisher a ambos y, a continuacin, se aplica el ,284 0 z = 0,284 1,96 = ( 0,369; 0,199) 0, 975 exp{ 2 ( 0 , 369 )} 1 exp{ 2( 0,199 )} 0,043 1 muestral la transformacin de Fisher del coeficiente de correlacin asumen que las 533 3 = (-0,353; -0,196). , exp{2(0,369)} + 1 exp{2(0,199)} + 1 lmites del intervalo y, a continuacin, se aplica el inverso de la transformacin de Fisher a ambos lmites del variables se distribuyen de forma aproximadamente normal y que el tamao muestral es intervalo y, a continuacin, se aplica el inverso de la transformacin de Fisher a ambos Notar que el intervalo resultante es ligeramente respecto a la exp{ 2(0,En 369 )} 1 exp{ 2(0,199donde )} asimtrico 1 exista una suficientemente grande. aquellas situaciones clara evidencia en 0,196). = ( 0,353; , lmites del intervalo exp{2(0,369)} + 1 exp{2(0,199)} + 1 puntual r = -0,276. Para contrastar la hiptesis estimacin de ausencia contra de la normalidad, o bien cuando la muestra sea muy pequea, estasde inferencias Notar que el intervalo resultante es ligeramente asimtrico respecto a la estimacin lineal ausencia 2entre (0Para ,369 )} 1 exp{2 ( 0,199 )}0, de 1 se calcula elde estadstico asociacin ambas variables H 0,276. contrastar la hiptesis asociacin lineal entre puntual r= Notar que elexp{ intervalo resultante asimtrico respecto a la En este 0: = -0,196). , es ligeramente pueden resultar engaosas y es preferible utilizar mtodos no paramtricos. exp{ = (-0,353; 2 ( 0 , 369 )} 1 + exp{ 2 ( 0 , 199 )} + 1 ambas variables H0: = 0, se calcula el estadstico estimacin puntual = -0,276. Para contrastar la hiptesis dede ausencia de como un apartado se presenta elrcoeficiente de correlacin los rangos Spearman 6,53, 0,284 533 3 =de Notar que el intervalo resultante es ligeramente asimtrico respecto a la 0, se calcula el estadstico asociacin lineal entre ambas Hla que corresponde a un valor P variables bilateral bajo la=distribucin normal estandarizada 0: procedimiento no paramtrico para detectar existencia de una relacin montona 2P(Z que corresponde a un valor P bilateral bajo la distribucin normal estandarizada 6,53) = 2 F (6,53) < 0,001. En conclusin, existe una asociacin lineal estimacin puntual r = -0,276. Para contrastar la hiptesis de ausencia de moderada pero significativa entre el ndice de masa corporal y el colesterol con un coeficiente de (creciente o decreciente, aunque no necesariamente lineal) entreHDL dos variables -0,284 533 3 = -6,53, correlacin de 0,28 (IC al 95% 0,35 a 0,20; P < 0,001). -6,53) = 2 (-6,53) < 0,001. En conclusin, existe una asociacin 2 P ( Z asociacin lineal entre ambas variables H0: = 0, se calcula el estadsticolineal cualesquiera, que pueden ser variables continuas con distribuciones subyacentes no moderada pero de significativa entre el ndice masa corporal y el colesterol HDL que corresponde a correlacin un valor P bilateral bajo de la de distribucin normal estandarizada 10.2.2 Coeficiente de los rangos Spearman -0,284 533 3 = -6,53, normales o incluso variables cualitativas ordinales. Al igual que la media y la desviacin tpica muestral, el 95% coeficiente de correlacin de Pearson es con un coeficiente de correlacin de -0,28 (IC al -0,35 a -0,20; P < 0,001). existe una asociacin lineal 2P(Z -6,53) = 2(-6,53) < 0,001. En conclusin, sensible a la presencia de valores extremos en alguna de las variables, que podran distorsionar la Si se desea determinar el grado en que dos variables se relacionan de forma que corresponde a un valor P bilateral bajo la distribucin normal estandarizada estimacin resultante, no siendo entonces un buen reflejo decorporal la asociacin lineal subyacente moderada pero significativa entre el ndice de masa y el colesterol HDL entre ambas variables. Adems, las inferencias basadas en la transformacin de Fisher del coeficiente montona sin realizar ninguna asuncin sobre la poblacional de ambas 10.2.2 Coeficiente de correlacin de los En rangos dedistribucin Spearman -6,53) = 2 (-6,53) < 0,001. conclusin, existe una asociacin lineal 2 P ( Z de correlacin muestral asumen que las forma aproximadamente con un coeficiente de correlacin devariables -0,28 (ICse al distribuyen 95% -0,35 ade -0,20; P< 0,001). normal y que el tamao muestral es suficientemente grande. En aquellas situaciones donde exista variables, basta con utilizar el orden de las observaciones de cada variable en lugar Al igual que la media y la desviacin tpica muestral, el coeficiente de correlacin de de moderada pero significativa entre el ndice de masa corporal y el colesterol HDL una clara evidencia en contra de la normalidad, o bien cuando la muestra sea muy pequea, estas inferencias puedenvalores. resultar As, engaosas y es preferible utilizar mtodos no En este rangos ri variables, yparamtricos. si en funcin sus verdaderos a cada sujeto se le de asignan los Pearson es sensible a la presencia de valores extremos en alguna de las que de 10.2.2 Coeficiente de correlacin de los rangos Spearman con un coeficiente de correlacin de -0,28 (IC al 95% -0,35 a -0,20; P < 0,001). apartado se presenta el coeficiente de correlacin de los rangos de Spearman como un procedimiento no la paramtrico para detectar existencia valores de una observados relacin montona (creciente decreciente, yi de dentro de la o muestra posicin que ocupan susla respectivos xi eun podran distorsionar layestimacin resultante, no siendo entonces buen reflejo de la Al igual que la media la desviacin tpica muestral, el coeficiente correlacin de aunque no necesariamente lineal) entre dos variables cualesquiera, que pueden ser variables continuas con distribuciones subyacentes no normales o incluso variables cualitativas ordinales. 10.2.2 Coeficiente de correlacin de los rangos dede Spearman ordenada ascendentemente por de X evalores Y. En el caso que existan varias observaciones Pearson es sensible a la presencia extremos en alguna de las variables, que 9 sin Si se desea determinar el grado en que dos variables se relacionan de forma montona Al igual que la media y la desviacin tpica muestral, el coeficiente de correlacin de con el mismo valor de una variable (empates), se asigna a cada una de ellas la media de con realizar distorsionar ninguna asuncin sobre la distribucin poblacional deun ambas basta podran la estimacin resultante, no siendo entonces buen variables, reflejo de la utilizar el orden de las observaciones de cada variable en lugar de sus verdaderos valores. As, Pearson es sensible a la presencia valores en alguna de las variables, que Spearman se sus calcula los rangos correspondientes. Elde coeficiente de correlacin rs de funcin de la posicin que ocupan respectivos a cada sujeto se le asignan los rangos ri y si enextremos el caso valores observados xi e yi dentro de la muestra ordenada ascendentemente por X e Y. En 9 podran distorsionar la estimacin resultante, no siendo entonces un buen reflejo de la simplemente como el coeficiente de correlacin de Pearson reemplazando los valores de que existan varias observaciones con el mismo valor de una variable (empates), se asigna a cada una de ellas la media de los rangos correspondientes. El coeficiente de correlacin rs de por sus correspondientes rangos ( ri, correlacin si), observados (xi, yi)simplemente Spearman se calcula como el coeficiente de de Pearson reemplazando 9 los valores observados (xi, yi) por sus correspondientes rangos (ri, si), rs =
(r
i =1
r )( s i s )
(r
i =1
r)2
(s
i =1
s)2
Pastor-Barriuso R.
161
10
= -1, los verifican que si = n+ montona creciente perfecta. De igual forma, si rs de decir, los valores observados de valores las variables X e rangos Y presentan una relacin yi < yj; es que x sus correspondientes la variable Y preservan verifican xi < j, clculo del de correlacin desimplifica Spearman se simplifica notablemente yadicho que laorden lculo del coeficiente decoeficiente correlacin de Spearman se notablemente ya que la
de donde se deduce que losigual valores XY e presentan Y presentan una relacin 1 - ri,j; los rangos verifican que si = n + montona creciente perfecta. De forma, si variables rs = -1, X es los valores observados dede laslas variables e una relacin y Correlacin y regresin lineal simple i<y varianza de losdecir, rangos es varianza de los rangos es
= 0, rangos X estn montona decreciente perfecta. Cuando rsde se deduce queDe los valores las variables e Y incorrelacionados presentan una relacin 1 - ri, de donde rangos verifican que si y =no n+ montona creciente perfecta. igual forma, silos r s = -1, los n n n n 1 1 2 2 21 21 r rs)i = si s ) ( s (ri r montona ) )= (n = ( = donde losrelacin rangos medios son + (valores 1)/2. Elde coeficiente de correlacin de Spearman i alguna existe entre los ambas variables. = 0, rangos estn incorrelacionados y no montona decreciente perfecta. Cuando rsde de donde se deduce que los valores laslos variables X e Y presentan una relacin 1 -r i, n n 1 1 n n 1 1 i i 1 1 = = i i 1 1 = = siempre toma valores entre 1 y 1. Si rs = 1, los rangos son necesariamente idnticos si = ri, de 2 2 n n tal existe forma que si de dos observaciones cualesquiera de variable verifican xi < xel , sus n1 + n(en n +variables. 1) X nentre + n + 1perfecta. 1 idnticos (n0, ) 1de valores la ambas valores En el caso que no haya (empates) ninguna de las que variables, relacin montona alguna los = los rangos estn incorrelacionados y noj montona decreciente Cuando r s = = i = = i correspondientes valores variable Yi = preservan dicho orden n 1 12 yi < yj; es decir, los valores n de 1 i =la 2 1 12 2 1 observados de las variables X e Y presentan una relacin montona creciente perfecta. De el igual clculo del coeficiente de correlacin de Spearman se simplifica notablemente ya que la En el caso de que no haya valores idnticos (empates) envariables. ninguna de las variables, existe relacin montona alguna entre los valores de ambas forma, si rs = 1, los rangos verifican que si = n + 1 ri, de donde se deduce que los valores de y su es y su covarianza es covarianza las variables X ede Yrangos presentan una relacin decreciente perfecta. Cuando varianza de los es s = 0, clculo coeficiente de correlacin demontona Spearman se simplifica notablemente yarque la los En eldel caso que no haya valores idnticos (empates) en ninguna de las variables, el rangos estn incorrelacionados y no existe relacin montona alguna entre los valores de ambas n n n 1 del 1 2 de 1 nvariables. 1 1es varianza de los rangos n n 2 2 se simplifica clculo coeficiente de correlacin Spearman notablemente ya que la 2 2 1 ( r r )( s s ) = {( ri s ) ( s is ) (ri s i ) 2 } ( r r )( s s ) = {( r r ) + (s )(r (+ r 2 2 i (r i i i i r ) = i i) i ) s} s s i i ncaso 1 i= 2(n 1) i = n 1 i =1 En el 2(no n 1 )1 de haya valores idnticos 1 que 1 1 (empates) en ninguna de las variables, el clculo i =1 n n i =1 1 de los rangos es i = n n n n delvarianza coeficiente de correlacin de Spearman notablemente ya que la varianza de los n(n +21) se n( n + 1 ) 1n 1 1 1 simplifica 2 2 2 2 = ( r s ) . n + n n + r r s s = 1 1 ( 1 ) ( ) ( ) = ( r s ) . rangos es i (1 i i i i i= )i 12 n 12n 1 i = 2 ) i =1= n 2 i =1 i 1( n 1 =11 n n n 1 2 2 12 1 1 1 i= 2 n (s s )2 r r ( ) = n(n + 1) 1 i n +1 i = n 1 n 1 i =1 = i =1 i Aplicando ambos resultados, el de Spearman Aplicando ambos resultados, el coeficiente decoeficiente correlacinde de Spearman se reduce a se reduce a n correlacin 1 2 12 i =1 2 y su covarianza es n(n + 1) 1 n n +1 = = i 2 n 1 12 n i =1 n 6 6 2 2 y su covarianza es n 1= 1n 1 1 = ( r s ) , r ( r s ) , rs s i {( i i ri(n 2 r s)i i s) = 2 i ri r ) 2 + ( s i s ) 2 (ri s i ) 2 } )( y su covarianza es 1 (n =1 n( n 1) i = n 1 i =1 2(n 1) 1 i =1 y su covarianzanes n 1 1 n 2 (ri r )( s i s ) = = n(n + 1) {( r1 ( s s ).2 (ri s i ) 2 } 2 i r) + i ( r s ) i i frmula que slo emplearse cuando no hay rmula que slo puede emplearse no hay empates. 1 i =cuando n puede 2(n 1 ) i =1empates. 1 12 n 2( n 1) i =1 1 n 1 2 2 2 n (ri r )( s i s ) = n(n + 1) {( r1 2 ( ri s i ) } i r ) + (si s ) = se n 10.4 1 i =1 En la Tabla 10.1 2(n 1) (ri si ) . Ejemplo presentan 12 i =1 2(los n niveles 1) i =1 de -tocoferol y Aplicando ambos resultados, el coeficiente de correlacin de Spearman se reduce a n n(n + 1) 1 (r10 controles s ) 2 . 11 Aplicando ambos resultados, el coeficiente de correlacin de sedel reduce iSpearman i -tocoferol Ejemplo 10.4 En la Tabla 10.1 se 12 presentan los niveles de yestudio - a 11 caroteno en tejido adiposo en = una muestra aleatoria de 2(n 1) i =1 Aplicando ambos resultados, el coeficiente de Spearman se reduce a n 6 de correlacin 2 = ( r s ) ,valores r 1 s i ilos EURAMIC, junto con los rangos ade de ambas caroteno en tejido adiposo en unacorrespondientes muestra 10 controles del estudio n (n 2 1)aleatoria i =1 Aplicando ambos resultados, el coeficiente de correlacin de Spearman se reduce a n 6 2 1 correspondientes = (ri de a scorrelacin ) ,valores de Spearman srangos, frmula que slo puede cuando hay empates. variables. A partir de estos elno coeficiente se EURAMIC, junto emplearse con los rrangos ambas ilos n(n 2 1) i =1 frmula que slo puede emplearse cuando n empates. 6 no hay 2 1 = (ri de scorrelacin r calcula como s variables. A partir de estos rangos, el coeficiente de Spearman se Ejemplo 10.4 En la Tabla 10.1 se presentan los niveles y b-caroteno en i ) , de a-tocoferol 2 n(n 1) i =1 tejidoque adiposo una emplearse muestra aleatoria controles del estudio EURAMIC, junto con frmula slo en puede cuando de no10 hay empates. calcula como los rangos correspondientes a los valores de ambas variables. A partir de estos rangos, el 1 10 ( r )( s i no s ) calcula coeficiente de correlacin de se como frmula que slo puede emplearse cuando hay empates. rSpearman i 11 5,06 9 i =1 10 rs = = 0,552, = 1 3,03 3,03 1 10 (ri 1 s10 2 2 r )( i s) 11 ( ) ( ) r r s s 5,06 9 i i = 0,552, rs = 9 i =1 i =1 9 i =1 = 3,03 3,03 1 10 1 10 2 11 ( ) (si s ) 2 r r i 9 i =1 9 i =1 o de forma equivalente mediante la frmula simplificada en ausencia de empates o de forma equivalente mediante la frmula simplificada en ausencia de empates o de forma equivalente frmula simplificada en de empates 6 mediante la 6 ausencia 74 2 2 rs = 1 {( 7 3 ) + ... + ( 6 6 ) } = 1 = 0,552, 10(10 2 1) 10(10 2 1) 6 6 74 fuerte = 0,552, {(7 3) 2 + ... + (6 6) 2 } = 1 rs = 1 que refleja una 2 relacin montonamente creciente entre2 los niveles de a-tocoferol 10(10 1) 10(10 1) y b-caroteno. Cabe destacar que esta estimacincreciente no esta influenciada por elde valor que refleja una fuerte relacin montonamente entre los niveles - extremo 1,46 mg/g de b-caroteno ya que el rango de esta observacin continuara siendo 10 para cualquier valor arbitrariamente mayor que que esta los dems. que refleja una fuerte relacin montonamente creciente entre los influenciada niveles de -por tocoferol y -caroteno. Cabe destacar estimacin no esta
162 Pastor-Barriuso R. extremo tocoferol y -caroteno. Cabe queya esta estimacin noesta estaobservacin influenciada el valor 1,46 g/g dedestacar -caroteno que el rango de
por
el valor extremo 1,46 g/g cualquier de -caroteno que el rango de esta observacin continuara siendo 10 para valorya arbitrariamente mayor que los dems.
Coeciente de correlacin
Tabla 10.1 -tocoferol y -caroteno en tejido adiposo en una muestra aleatoria de 10 controles del estudio EURAMIC.
-tocoferol Control Valor (g/g) Rango (ri) -caroteno
t= 1 163,8 7 0,14 3 110 rs2 2 331,9 0,45 8 3 125,1 0,07 1 n4 2 4 42,9 1 0,44 7 5 211,0 8 1,46 10 sigue aproximadamente una distribucin t de Student con n - 2 grados de libertad,4 6 115,9 2 0,18 7 128,6 5 0,37 5 8 tamao muestral 271,0 sea n > 10. As, 9 el valor P bilateral 0,66 del contraste puede 9 siempre que el 9 118,8 3 0,11 2 10 128,7 6 0,40 6 aproximarse mediante el rea bajo la distribucin t para valores tanto o ms alejados
n-2
rs
Valor (g/g)
Rango (si)
igual que otros procedimientos no t paramtricos, el coeficiente de correlacin de Al 0 que el valor observado del estadstico . Aparte del mnimo requerimiento muestral,de los rangos de Spearman permite contrastar la hiptesis nula de ausencia de asociacin montona entre dos variables. esta hiptesis nula, se ha aplicarse comprobado que el coeficiente de correlacin este contraste tiene Bajo la ventaja adicional de poder a cualquier distribucin rs de Spearman tiende a distribuirse de forma normal o, ms concretamente, que el estadstico rs contraste paramtrico basado en el subyacente de las variables X e Y, a diferencia del t= 1 rs2 coeficiente de correlacin de Pearson que requiere de distribuciones poblacionales n2 sigue aproximadamente una distribucin t de Student con n 2 grados de libertad, siempre que aproximadamente normales. el tamao muestral sea n > 10. As, el valor P bilateral del contraste aproximarse sigue aproximadamente una distribucin t de Student con n - 2 puede grados de libertad, mediante el rea bajo la distribucin tn2 para valores tanto o ms alejados de 0 que el valor observado del estadstico tque . Aparte del mnimo requerimiento muestral, este contraste tiene la adicional Ejemplo 10.5 Como las distribuciones subyacentes del -tocoferol ycontraste el ventaja siempre el tamao muestral sea n > 10. As, el valor P bilateral del puede de poder aplicarse a cualquier distribucin subyacente de las variables X e Y, a diferencia del contraste paramtrico basado en el coeficiente de t correlacin de Pearson requiere de caroteno (Figura 4.3) marcadamente asimtricas en los controles delque estudio aproximarse mediante el son rea bajo la distribucin n-2 para valores tanto o ms alejados distribuciones poblacionales aproximadamente normales. elobservado contraste bilateral de la hiptesis no asociacin entre ambas de EURAMIC, 0 que el valor del estadstico t. Apartede del mnimo requerimiento muestral, Ejemplo 10.5 Como las distribuciones subyacentes del a-tocoferol y el b-caroteno variables a tiene partir de los 10 controles de Tabla 10.1 haade realizarse mediante el (Figura 4.3) son la marcadamente asimtricas en los controles del estudio EURAMIC, el este contraste ventaja adicional de la poder aplicarse cualquier distribucin contraste bilateral de la hiptesis de no asociacin entre ambas variables a partir de los 10 estadstico basado en10.1 la correlacin de losmediante rangos de controles de la Tabla ha elSpearman estadstico basado en la correlacin subyacente de las variables X e de Y, realizarse a diferencia del contraste paramtrico basado en el de los rangos de Spearman coeficiente de correlacin de Pearson rs que requiere 0,552 de distribuciones poblacionales = = 1,87, t= 2 2 1 r 1 0 , 552 s aproximadamente normales. 8 n2 que bajo la distribucin t de Student con 8 grados de libertad corresponde a un valor Ejemplo 10.5 las subyacentes del -tocoferol y elcorrelacin distribuciones 1,87) = 0,098. As, aunque el coeficiente de de aproximado de PComo = 2P(t que bajo la distribucin t8de Student con 8 grados de libertad corresponde a un Spearman rs = 0,55 estima una fuerte relacin montonamente creciente entre los valores caroteno de (Figura 4.3) son asimtricas en los controles del estudio observados a-tocoferol y(marcadamente -caroteno, esta asociacin no llega a ser estadsticamente valor aproximado de P = 2P tb 8 1,87) = 0,098. As, aunque el coeficiente de significativa, probablemente debido a la escasa potencia del test para detectar cualquier EURAMIC, el contraste bilateral de la hiptesis de no asociacin entre ambas asociacin con reducido tamao muestral. correlacinsubyacente de Spearman r tan = 0,55 estima una fuerte relacin montonamente
s
variables a partir de los 10 controles de laaTabla ha de realizarse mediante el una Cuando el tamao muestral inferior o de igual 10, la10.1 distribucin t de Student no es creciente entre los valoreses observados -tocoferol y -caroteno, esta buena aproximacin a la distribucin muestral del estadstico t y, en consecuencia, el contraste estadstico basado en la correlacin de los rangos de Spearman asociacin no llega a ser estadsticamente significativa, probablemente debido a la
Pastor-Barriuso R.
163
t=
rs 1 rs2
0,552 1 0,552 2
= 1,87,
dada por 1/n!. Haciendo uso de este resultado, es posible derivar la distribucin bajo la
Correlacin regresin simple hiptesisynula dellineal coeficiente
de correlacin de Spearman, cuyos percentiles en 10.3 REGRESIN LINEAL SIMPLE
muestras de tamao n 10 se presentan en la Tabla 10 del Apndice. Para un contraste Las tcnicas de regresin evalan la relacin entre dosde variables siguiendo una debe basarse en la distribucin exacta del coeficiente correlacin de Spearman bajo la bilateral con un nivel de significacin preestablecido, la hiptesis de no asociacin seri de la hiptesis nula. Si no existe ninguna relacin montona entre las variables, y los rangos estrategia anlisis distinta a cualquier la correlacin. Mientras que coeficiente dede correlacin ..., el sn de los rangos la variable Y variable X se de asumen constantes, permutacin s1, rechazar si elprobable coeficiente deprobabilidad correlacin r al percentil /2 o es igualmente y su viene dada por es 1/ninferior !. Haciendo uso de este resultado, s de Spearman determina el grado de asociacin lineal entre X e Y tratando ambas variables de forma es posible derivar la distribucin bajo la hiptesis nula del coeficiente de correlacin de Spearman, cuyos percentiles en muestras superior al percentil 1 - /2 de dicha tabla. de tamao n 10 se presentan en la Tabla 10 del simtrica, la regresin lineal estudia laun variacin el nivel medio de la variablela hiptesis 10.3 REGRESIN LINEAL SIMPLE Apndice. Para un contraste bilateral con nivel deen significacin preestablecido, de no asociacin se rechazar si el coeficiente de correlacin rs de Spearman es inferior al respuesta medida que cambia la explicativa X, estableciendo as una Ejemplo 10.6 El valor exacto 1 de P para contraste bilateral de la hiptesis percentil /2 Y oa superior al percentil variable /2 de el dicha tabla. Las tcnicas de regresin evalan la relacin entre dos variables siguiendo una de no direccionalidad en la entre variables. Aunque en ocasiones la eleccin asociacin entre elrelacin -tocoferol ydichas el -caroteno dado por estrategia de10.6 anlisis distinta a la correlacin. que el coeficiente de correlacin Ejemplo El valor exacto deP paraMientras el viene contraste bilateral de la hiptesis de no asociacin entre el a-tocoferol y el b-caroteno viene dado por entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la determina el grado lineal entre X e YH tratando variables P = Pde (r asociacin 0,552|H ) + P(r 0,552| ) = 2P(ambas r 0,552| H ), de forma
s 0 s 0 s 0
asociacin entre el -tocoferol y eldel la -caroteno), direccionalidad suele establecerse de ya que la distribucin bajo H coeficiente de correlacin de Spearman es simtrica simtrica, regresin lineal estudia variacinla en el nivel medio de la variable 0 ya que la distribucin bajo la H0 del coeficiente de correlacin es el percentil alrededor de 0. Utilizando Tabla 10 del Apndice para n = de 10,Spearman se tiene que forma natural por el propio diseo del estudio o la naturaleza de las variables (porEste valor 0,552, de loque cual se deduce que P = 2P(rs 0,552| H0) 20,05 as = 0,10. rs;0,95 = Y respuesta a medida cambia la variable explicativa X, estableciendo una simtrica de 0. la Tabla mediante 10 del Apndice para n =t 10, tiene en el exacto de alrededor P es similar al Utilizando valor aproximado la distribucin de se Student ejemplo, los cambios medios en el colesterol HDL conforme aumenta el ndice de masa ejemplo anterior. direccionalidad en la relacin entre dichas variables. Aunque en ocasiones la eleccin que el percentil rs;0,95 = 0,552, de lo cual se deduce que P = 2P(rs 0,552|H0) corporal). entre la variable respuesta y explicativa es un tanto arbitraria (por ejemplo, en la 10.3 2REGRESIN LINEAL SIMPLE 0,05 = 0,10. Este valor exacto de P es similar al valor aproximado mediante la El modelo de regresin lineal que la media de la variable suele respuesta Y cambia asociacin entre el -tocoferol y asume el -caroteno), la direccionalidad establecerse de Las tcnicas de regresin evalan la relacin entre dos variables siguiendo una estrategia de distribucin t de Student en el ejemplo anterior. linealmente con la variable explicativa X ; esto es, para un de valor fijo x de la variable el grado anlisis distinta a la correlacin. Mientras que el coeficiente correlacin determina forma natural por el propio diseo del estudio o la naturaleza de las variables (por de asociacin lineal entre X e Y tratando ambas variables de forma simtrica, la regresin lineal explicativa, el valor esperado de la variable respuesta es Y a medida que cambia la variable estudia la variacin en el nivel medio la variable respuesta ejemplo, los cambios medios en elde colesterol HDL conforme aumenta el ndice de masa explicativa X, estableciendo as una direccionalidad en la relacin entre dichas variables. Aunque en ocasiones la eleccin entreE la respuesta y explicativa es un tanto arbitraria corporal). (Yvariable | x ) = 0 + 1 x , 14 (por ejemplo, en la asociacin entre el a-tocoferol y el b-caroteno), la direccionalidad suele establecerse de forma natural lineal por elasume propioque diseo del estudio o la naturaleza de variables El modelo de regresin la media de la variable respuesta Ylas cambia donde y son la constante y la pendiente de la recta de regresin , respectivamente. 0 1 cambios medios en el colesterol HDL conforme aumenta el ndice de masa (por ejemplo, los corporal). linealmente con la variable explicativa X; esto es, para un valor fijo x de la variable La constante 0 determina la media de Y cuando X = 0, E(Y|0) = 0 + 10 = 0, y la El modelo de regresin lineal asume que la media de la variable respuesta Y cambia explicativa, el valor esperado de la variable respuesta linealmente con la variable explicativa X; esto es, para un es valor fijo x de la variable explicativa, pendiente corresponde al cambio en el valor medio de Y por cada aumento de una 1 el valor esperado de la variable respuesta es (Y|x) = 0 + 1 x, unidad en X, E(Y|x + 1) - E(Y|x) = E 0 + 1(x + 1) - (0 + 1x) = 1. La especificacin del donde 0 y 1 son la constante y la pendiente de la recta de regresin, respectivamente. La modelo se completa los valores de la variable respuesta se determina la media de Y pendiente cuando X de = individuales 0, (Y|0) de = constante donde 1 son la asumiendo constante yque la la E recta regresin respectivamente. 0 0y 0 + 10 =, 0, y la pendiente 1 corresponde al cambio en el valor medio de Y por cada aumento de una unidad en X, E(Y|x + 1) distribuyen forma alrededor del valor esperado definido la x determina + 1) normal (0 + especificacin del modelo se completa E (Y|x ) = 0 + de La constante la media de Y cuando X = 0, E (Y |0) = 0 por + 1 0 recta = 0, de y asumiendo la 1(0 1x) = 1. La que los valores individuales de la variable respuesta se distribuyen de forma normal alrededor As, la estructura general del de regresin lineal esgeneral del modelo de delregresin. valor esperado definido por la recta demodelo regresin. As, la estructura pendiente 1 corresponde al cambio en el valor medio de Y por cada aumento de una regresin lineal es unidad en X, E(Y|x + 1) - E(Y|x) = 0 (x - ( Y+ = ++ 1) ,0 + 1x) = 1. La especificacin del 10 1x +
donde el trmino de error aleatorio , que representa la desviacin de cada respuesta individual modelo se completa asumiendo que los valores individuales de la variable respuesta se 150 y Y respecto de la recta de regresin 0 + 1x, se distribuye de forma normal con media
distribuyen de forma normal alrededor del valor esperado definido por la recta de
regresin. As, la estructura general del modelo de regresin lineal es Y = + x + ,
individual Y respecto de la recta de regresin 0 + 1x, se distribuye de forma normal

lineal simple con media 0 y varianza 2. Por tanto, la regresin lineal establece que para Regresin un valor fijo
x de la variable explicativa, la variable respuesta Y sigue una distribucin normal con varianza 2. Por tanto, la regresin lineal establece que para un valor fijo x de la variable 2 media E(Y |x ) = 0 + respuesta 1x + E() 0 + una 1x distribucin y varianza var( Y|x) = var( ) = explicativa, la variable Y= sigue normal con media E(,Y|x) = 0 + 1x + E() = 0 + 1x y varianza var(Y|x) = var() = 2, Y|x ~ N( 0 + 1 x, 2 ),
de donde se derivan las siguientes asunciones: de donde se derivan las siguientes asunciones: yy Linealidad: El valor esperado de la variable respuesta Y es una funcin lineal de la variable explicativa X, de tal forma que cambios de magnitud constante a distintos niveles de X se Linealidad: El valor esperado de la variable respuesta Y es una funcin lineal de asocian con un mismo cambio en el valor medio de Y. yy Homogeneidad de la varianza La varianza la variable respuesta Y es la misma para la variable explicativa X, de : tal forma que de cambios de magnitud constante a cualquier valor de la variable explicativa X; es decir, a diferencia de la media, la varianza de Y no est relacionada X. distintos niveles de Xcon se asocian con un mismo cambio en el valor medio de Y. yy Normalidad: Para un valor fijo de la variable explicativa X, la variable respuesta Y sigue Homogeneidad de la varianza: La varianza de la variable respuesta Y es la una distribucin normal. Las asunciones subyacentes alvalor modelo devariable regresin lineal se X representan misma para cualquier de la explicativa ; es decir, agrficamente diferencia de en la la Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresin y su idoneidad debe ser evaluadade utilizando tcnicas diagnsticas, media, la varianza Y no est relacionada con X. algunas de las cuales se presentan al final de este tema. Normalidad Para unse valor fijo la dedistribucin la variable explicativa X,de la una variable respuesta En regresin lineal: simple estudia condicional variable respuesta continua en funcin de una nica variable explicativa. Esta variable explicativa puede ser tanto sigue una distribucin continua Y como categrica ya que normal. el modelo de regresin lineal no establece ninguna asuncin respecto a su distribucin. La extensin de estos modelos al anlisis de regresin lineal mltiple, Lasse asunciones subyacentes al modelo de regresin lineal se representan grficamente donde consideran simultneamente dos o ms variables explicativas, se tratar en el Tema 11.
en la Figura 10.5. Estas asunciones facilitan el proceso de inferencia sobre la recta de regresin y su idoneidad debe ser evaluada utilizando tcnicas diagnsticas, algunas de las cuales se presentan al final de este tema. [Figura 10.5 aproximadamente aqu] 0 + 1x3
0 + 1x2
Y
0 + 1x1 Enregresin lineal simple se estudia la distribucin condicional de una variable
0 + 1x4
Recta de regresin: E(Y|x) = 0 + 1x
respuesta continua en funcin de una nica variable explicativa. Esta variable explicativa puede ser tanto continua como categrica ya que el modelo de regresin
16
x1 x2 X x3 x4
Figura 10.5
Figura 10.5 Asunciones estadsticas subyacentes al modelo de regresin lineal simple.
Pastor-Barriuso R.
165
mutuamente independientes. Intuitivamente, se tratara de identificar la lnea recta que

Correlacin y regresin linealal simple ms se aproxime conjunto
de todos los puntos del diagrama de dispersin entre
ambas variables. Para formalizar esta idea, es preciso calcular la distancia de cada punto
10.3.1 Estimacin de la recta de regresin i ) = (xi, b0 + b1xi) sobre la observado (xi, yi) respecto al punto correspondiente (xi, y El primer objetivo de la regresin lineal es obtener estimaciones puntuales b0 y b1 de la constante 0 yrecta la pendiente 1 deestimada la recta de que mejor se se ajuste a los valores observados de regresin enregresin xi. Esta distancia, que representa en la Figura 10.6, (xi, yi) de las variables explicativa y respuesta en una muestra de n sujetos mutuamente independientes. Intuitivamente, se tratara laen lnea recta que ms se aproxime conjunto de todos al viene dada por el errorde deidentificar estimacin la variable respuesta ei = yi - y i = yi - b0 - b1xi. los puntos del diagrama de dispersin entre ambas variables. Para formalizar esta idea, es correspondiente preciso la distancia cada determinada punto observado (xi, yi) respecto As, calcular la recta de regresinde vendr por aquellos valoresal b0punto y b1 que hagan i) = (xi, b0 + b1xi) sobre la recta de regresin estimada en xi. Esta distancia, que se representa (xi, y i =que en la Figura 10.6, viene dada por el error de estimacin en la variable o, respuesta ei = yi y yi b0 este error lo ms pequeo posible para todas las observaciones equivalentemente, b1xi. As, la recta de regresin vendr determinada por aquellos valores b0 y b1 que hagan este error lo ms pequeo posible para todas las observaciones o, equivalentemente, que minimicen minimicen la suma de cuadrados del error la suma de cuadrados del error
SSE =
e
i =1
2 i
i ) 2 = ( y i b0 b1 x i ) 2, = ( yi y
i =1 i =1
tambin llamada suma de cuadrados residual. Notar que los errores se elevan al cuadrado para evitar llamada que se compensen los errores positivos negativos. Este procedimiento para tambin suma de cuadrados residual. Notaryque los errores se elevan al estimar los parmetros de la recta de regresin se conoce como el mtodo de mnimos cuadrados . para evitar que se compensen los errores positivos y negativos. Este cuadrado
procedimiento para estimar los parmetros de la recta de regresin se conoce como el

mtodo de mnimos cuadrados.
[Figura 10.6 aproximadamente aqu]
(xi, yi)
i ei = yi y
17
y
i ) = ( xi , b0 + b1 xi ) ( xi , y
Recta de regresin estimada: = b0 + b1 x y
Figura 10.6 Error o desviacin del valor observado de la variable respuesta respecto a su valor estimado Figura 10.6 por la recta de regresin.
166
Pastor-Barriuso R.
i =1 1 1 Para obtener los valores b0 yi = b 1 que minimizan la suma de cuadrados del error, se
calculan las derivadas parciales de SSE respecto a b0 y b1 y se igualan a cero, resultando cuya solucin eslos valores lineal simple Para obtener b0 y b1 que minimizan la suma de cuadrados delRegresin error, se el sistema de ecuaciones lineales calculan las derivadas parciales denSSE respecto a b0 y b1 y se igualan a cero, resultando x i x )( y i ( ) Para obtener los valores b0 y b1 que minimizan la y suma de s y cuadrados del error, se calculan in =1 n , b = r sistema de ecuaciones lineales 1= SSE y b y se igualan a cero, resultando el sistema de las el derivadas parciales de respecto a b 1 = 2 ein = 0 2 (y bx 2 i b0 s 1 x i ) = 0, ecuaciones lineales x) ( xi b0 i =1 i =1 i =1 n n 1.2el MEDIDAS DE TENDENCIA antioxidantes en riesgo de desarrollar un primerCENTRAL infarto agudo de miocardio en SSE = 2 e = 2 ( y b0 binfarto n n i i 1 x i ) = 0, 1.2 MEDIDAS DE TENDENCIA CENTRAL antioxidantes en el de desarrollar un primer agudo de miocardio en SSE b0riesgo i =1 b0 = yi =1 b x . 1 = 2 x e = 2 x ( y b b = 0, 1,42, 0,84, i i i0,89, i 0 1 x i ) 1,29, hombres adultos. Los valores obtenidos fueron 1,58, 0,79, Las medidas central informan acerca de cul es el valor ms representativo b1 de tendencia i =1 i =1 n fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, n hombres adultos. Los valores obtenidos SSE Las medidas de central informan acerca cul el valor ms representativo = tendencia 2 x media xi ( y i b0 b1 x ide ) = 0, es i e i = 2 1,06, 0,87, 1,96 1,53 mmol/l. La de los niveles del colesterol HDL en estimadores La pendiente estimada b de regresin es igual al producto del coeficiente de 1 de la recta deyuna determinada variable o, dicho de forma equivalente, estos indican b i =1 i =1 1 cuya solucin es 1,06,de 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en una determinada variable o, dicho de forma equivalente, estos estimadores indican estos 10 participantes esde correlacin r de Pearson porqu el cociente las los desviaciones tpicas muestrales de Y ytendencia cuya solucin es alrededor valor se entre agrupan datos observados. Las medidas de estos 10 participantes es alrededor de qu valor nse agrupan los datos observados. Las medidas de tendencia cuya solucin es y) ( x i xtanto )( y X. As, aunque central los signos de b1 y r coinciden, la de la pendiente b no slo 10 la i1 muestra para +sirven 1 de 0, 89 1,58 + ... + ,magnitud 53 resumir s y los resultados 1observados como para i =1 x x = 1,223 = = 10 , mmol/l. r los i b central de la muestra tanto para resumir resultados observados como para 1 = sirven + 1,58 + ... += 1 89 1,53 n n 0, 10 10 i = 1 s 2 xi = 1,223 mmol/l. = depende del coeficiente de correlacin r , sino tambin de las desviaciones tpicas sy y sx x= realizarxinferencias acerca de los parmetros poblacionales correspondientes. A y x xx xi ( i )( i) y ) 10 i =1 ( 10 s y i =1 i =1 realizar inferencias acerca de los parmetros correspondientes. A b1 = , = r poblacionales n de las variables. Una vez estimada la pendiente, la constante b = y b x tendencia corresponde 0 1la continuacin se describen los principales estimadores de central de una s x La media aritmtica presenta las siguientes propiedades: xb x )2 b = y 0( 1x. i continuacin se describen los principales estimadores de la tendencia central de una i =1 La media aritmtica presenta las siguientes propiedades: simplemente al valor que fuerza a la recta de regresin a atravesar el punto (x , y) variable. La pendiente estimada b de la recta de regresin es igual al producto del coeficiente de Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos 1 variable. correlacin r de Pearson por el entre las muestrales de Y yX . As, = - desviaciones b1 x . igual b Cambio de origen Si sey suma una constante a cada unocoeficiente de los datos 0 regresin decociente la recta de es altpicas producto del de La pendiente estimada b1(traslacin). correspondiente a la media muestral de ambas variables. Si la relacin subyacente entre aunque losmuestra, signos de b coinciden, la resultante magnitud es deigual la pendiente b1inicial no slo depende del de una la media la muestra a la media ms la 1.2.1 Media aritmtica 1 y r de coeficiente de correlacin r , sino tambin de las desviaciones tpicas s y s de las variables. Una de una muestra, la media de la muestra resultante es igual a la media inicial ms la 1.2.1 Media aritmtica correlacin r de Pearson el recta cociente entre las desviaciones tpicas muestrales de Y y y x La pendiente estimada b por de la de regresin es b igual al producto del coeficiente las variables lineal de linealidad), estimadores insesgados dede la que 0 1 vez estimada laes pendiente, la xconstante b0 = y por simplemente valor La media denotada x+,corresponde se define como suma que deal cada uno de los yi1aritmtica, = =bb x1y c .son Un cambio dela origen constante utilizada; si(asuncin i + c, entonces y = x + c , entonces y = x + c . Un cambio de origen que constante utilizada; si La media aritmtica, denotada por x , se define como la suma de cada uno de los fuerza a la recta de regresin a atravesar el punto ( , ) correspondiente a la media muestral de i y ri coinciden, la magnitud de la pendiente b1 no slo X. As, aunque los signospor de el b1 correlacin ry de Pearson cociente entre las desviaciones tpicas muestrales de Y y constante la pendiente de la recta de regresin. 0 1 valores muestrales dividida elvariables nmero de observaciones realizadas. Si denotamos ambas variables. Si la relacin entre es lineal (asuncin de linealidad), se realiza con frecuencia essubyacente el centrado de por la las variable, que consiste en restar a que facilita una estimacin del valor esperado o predicho de la variable respuesta para valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos b0 y b son estimadores insesgados de la centrado constante y variable, la pendiente de regresin. depende del coeficiente de correlacin r, sino la tambin de las desviaciones tpicas syay sx se realiza con frecuencia es el de consiste en restar 0la 1 de la recta X .1 As, aunque los signos de b1 y rviene coinciden, magnitud de que la pendiente b 1 no slo La valor recta de la regresin estimada entonces determinada por por n el tamao muestral y por de xi el valor observado para el sujeto i-simo, i = 1, ..., n, cada de muestra su media. La media una variable centrada ser, por cada valor de la variable explicativa. Paradeterminada completar lapor estimacin de los La recta de fijo regresin estimada viene por nUna el muestral y por xi media el valor observado para i-simo, i = 1, ..., n, de las variables. vez estimada la entonces pendiente, la constante b0 = y centrada -el b1sujeto x tpicas corresponde cada detamao la muestra su media. La de una variable ser, depende delvalor coeficiente de correlacin r, sino tambin de las desviaciones spor y y sx la media vendra dada por tanto, igual del a 0. ha y = b0 + b1 x = y tambin + b1 (x la x ), parmetros modelo lineal, de estimarse varianza 2 de la variable la media vendra dada por tanto, igual a 0. simplemente al valor que fuerza a la recta de regresin a atravesar el-punto (x, y) de las variables. Una vez del estimada pendiente, la constante b0variable = y b1 x corresponde que facilita una estimacin valor la esperado o predicho de la respuesta para cada Cambio de escala (unidades). Si se multiplica cada uno de los datos de una n + + ... + x x x 1 respuesta alrededor de dicha recta. A partir de la suma de cuadrados del error, esta 1 2 n valor fijo de la variable explicativa. Para completar la=estimacin de los parmetros . de x =variables. Cambio de escala (unidades). Si se multiplica cada de los datos una entre del n x correspondiente a la media muestral de ambas Si la relacin subyacente +uno + x 2 ix simplemente al de valor que fuerza a la recta de 1 regresin a atravesar elx punto ( x ,alrededor y) 1 la 2 + ... n n n de variable respuesta de modelo lineal, ha estimarse tambin la varianza = i 1 = x iresultante = x muestra muestra por una constante, la media de la es igual a .la media varianza residual puede estimarse mediante n n dicha recta. A partir deuna la suma de cuadrados del esta varianza residual puede estimarse i =1 muestra constante, la media deerror, la muestra resultante es igual a la media 18 las variables espor lineal (asuncin de linealidad), b0 y b1 son estimadores insesgados de la correspondiente a la media muestral de ambas variables. Si la relacin subyacente entre mediante y = cx , entonces y = c x . inicial por la constante utilizada; si i i tendencia central ms utilizada y de ms fcil La media es la medida de n y = cxi, entonces y = c x . y de ms fcil inicial por la constante utilizada; si SSE 1 La media es la medida de tendencia central ms 2 constante 0 y pendiente 1 de lalinealidad), recta dei regresin. = (b y b b1estimadores x i ) 2.utilizada s = las variables esla lineal (asuncin de b insesgados de la 0i y 10 son interpretacin. al centro decada gravedad los datos Cambio simultneo de origenCorresponde y escala. se multiplica uno dede los datos dede la muestra. Su n 2 n Si 2 i =1 interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de La recta de regresin estimada viene entonces determinada por constante 0 y la pendiente 1 de la recta de regresin. Cabe destacar que la suma de cuadrados del error se divide por n 2 ya que, una vez estimadas principal limitacin que estse muy influenciada por los la valores extremos y, en este una muestra por una constante y ales resultado le suma otra constante, media la constante y muestra la pendiente de la recta deyregresin, los n errores o desviaciones de la variable Cabe destacar que la suma de cuadrados error se divide por n - constante, 2 valores ya que, extremos una vez principal limitacin es que est muy influenciada por los y, en este una por una constante aldel resultado se le suma otra la media La recta de regresin estimada viene entonces determinada por , b y n 2 errores, respuesta respecto de la recta contienen n 2 grados de libertad (conocidos b y = b + b x = y + b ( x x ), 0 1 1 0 1 caso, puede ser a un reflejo de la tendencia central de la distribucin. de la muestra resultante es no igual la fiel media inicial por la primera constante, ms la los 2 errores seresultante derivan automticamente). Asumiendo que sencumplen las hiptesis estimadas la constante y laser pendiente de la media recta de regresin, errores o caso, puede no un fiel reflejo de la tendencia central de la distribucin. de restantes la muestra es igual a la inicial por2 lalos primera constante, ms lade linealidad y homogeneidad varianza, varianza residual s es un estimador insesgado del b,0entonces + bla (x xc ), = cla c2 =bc x-+ segunda constante; si2yi de 1x = yy + 11 1xy i += 2. . desviaciones de la variable respuesta respecto de la recta contienen - 2 grados de parmetro poblacional Ejemplo este en los sucesivos estimadores muestrales, se = cEn c2,y entonces y = c1 xejemplos + c2. n sobre segunda constante; si yi1.4 1 xi + Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se libertad (conocidos b ,b 2 errores, los errores restantes se derivan 18 sujetos del 0 1ynutilizarn los valores del colesterol HDL obtenidos en los primeros Ejemplo 10.7 En el estudio de la relacin entre el ndice de masa corporal y10 else colesterol Ejemplo 1.5 Para transformar los valores del2 colesterol HDL de mmol/l a mg/dl utilizarn los valores del colesterol HDL obtenidos enmmol/l los 10 primeros sujetos del HDL, resulta1.5 natural el los ndice de masa corporal como explicativa y el Ejemplo Paraconsiderar transformar valores del colesterol HDLvariable de a mg/dl se automticamente). Asumiendo que se cumplen las hiptesis de linealidad y estudio European Study on Antioxidants, Myocardial and Cancer of colesterol HDL como variable respuesta. El objetivo es, por tanto, estimar los cambios en 18 multiplica por el factor de conversin 38,8. As, utilizando la propiedad delInfarction estudio European Study on Antioxidants, Myocardial Infarction and Cancer of multiplica por el factor de conversin 38,8. As, 2 utilizando la propiedad del homogeneidad de la varianza, la varianza residual s es un estimador insesgado del Breast (EURAMIC), multicntrico cambio de escala, lathe media delcolesterol HDLun enestudio mg/dl se calculara de casos y controles realizado the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado cambio de escala, la 2 media del colesterol HDL en mg/dl se calculara Pastor-Barriuso R. 167 parmetro poblacional . entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los 38,8 = 47,45 mg/dl. directamente a partir de su media en mmol/l como 1,223 entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de los directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl.
Ejemplo 10.7 En el estudio de la relacin entre el ndice de masa corporal y6el 5
central de la muestra sirven tanto para resumir los resultados observados como para + 1 10 0,r 89 1,58 + ... 1,53 de estos datos, las estimaciones de la pendiente y variables de = -0,276. A+ partir x x iacerca = 1,223 mmol/l. = = realizar inferencias de los parmetros poblacionales correspondientes. A 10 yi =regresin Correlacin lineal simple10 1 lase constante delos la recta de regresin por elde mtodo de mnimos cuadrados continuacin describen principales estimadores la tendencia central de una son
La media aritmtica presenta las siguientes propiedades: aumenta variable. el nivel medio del colesterol HDL s y conforme 0 ,295 el ndice de masa corporal utilizando = 0,276 = -0,023 1 = r simple. un modelo de regresinblineal En este caso, tanto la variable respuesta como la ,50 de los datos sx Cambio de origen (traslacin). Si se suma una constante a cada3uno variable explicativa son continuas. 10.1 se obtuvo un coeficiente de correlacin de Pearson entre ambas 1.2.1 MediaEjemplo aritmtica
En n =de 533 del un estudio la media y la desviacin tpica del ndice de de una muestra, la y media lacontroles muestra resultante esEURAMIC, igual de a la media inicial ms la entre Ejemplo 10.1 se obtuvo coeficiente correlacin de Pearson ambas variables de r =fueron -0,276. partir de estos datos, lasde estimaciones de la pendiente y 2 26,0 ys = 3,50 kg/m , y los correspondientes valores del masa corporal La media aritmtica, denotada por xA ,= se define como la suma cada uno de los x HDL fueron = y s 0,295 mmol/l. en Ejemplo y10.1 se + cr , entonces yy x c . estos Un cambio de origen que de constante utilizada;colesterol si yi = xi de variables = -0,276. A partir de datos, las estimaciones lael pendiente y = -1,09 b1+ x = 1,09 +mtodo 0,023 26,0 =Adems, 1,69. b0 = la constante de la recta decorrelacin regresin por de mnimos cuadrados obtuvo un coeficiente de de el Pearson entre ambas deson r = 0,276. A valores muestrales dividida por el nmero de observaciones realizadas. Si variables denotamos partir de datos, las estimaciones de consiste la y mnimos la constante de la recta de regresin se realiza con frecuencia es estos el centrado de de la variable, ende restar a la constante de la recta regresinque por elpendiente mtodo cuadrados son La b = mnimos 1,69 es una estimacin del valor esperado de colesterol porconstante el mtodo de cuadrados son valor observado para el sujeto i -simo, i = 1, ..., n , por n el tamao muestral y0 por xi elmmol/l sy 0,295 b1 de =r = 0,276 =ser, -0,023 cada valor de la muestra su media. La media una variable centrada por 3 , 50 sx 0,295 igual a 0 kg/m2, extrapolacin y de masa corporal HDL dada para por un sujeto con b un= ndice la media vendra = 0,276 r = 0,023 1 sx 3,50 tanto, igual a 0. y carece de sentido biolgico. La pendiente b1 = -0,023 estima que, por cada que y x + x + ... + x n 1 n . de una = 1 uno 2de los datos x = x icada Cambio de escala (unidades). Si se multiplica y = b1 x = 1,09 + 0,023 26,0 1,69.medio de colesterol b n2 n 0 ien =1 y incremento de 1 kg/m el ndice de masa corporal, el=nivel muestra por una constante, la media de la es0,023 igual26,0 a la media = y - b1resultante x una = 1,09 + = 1,69. b0 muestra La constante b0 = 1,69 mmol/l es estimacin del valor esperado de colesterol HDL disminuye en 0,023 mmol/l. En general, la pendiente puede utilizarse para HDL La mediapara es la medida de tendencia central ms utilizada y de ms fcil 2 La constante b = 1,69 mmol/l es una estimacin del valor esperado de colesterol 0 un sujeto con un ndice de masa corporal igual a 0 kg/m , extrapolacin que carece inicial por la constante utilizada; si yi = cxi, entonces y = c x . 0,023 estima que,esperado por cada incremento de sentido biolgico. La pendiente b1 = La Corresponde constante b0 = 1,69 mmol/l es una estimacin del valor calcular el efecto asociado a incrementos delos cualquier magnitud c en la colesterol variable de 1 kg/ 2 de interpretacin. al centro de gravedad de datos de la muestra. Su HDL para un sujeto con un ndice de masa corporal igual a 0 kg/m , extrapolacin 2 m en el ndice de masa corporal, el nivel medio de colesterol HDL disminuye en 0,023 Cambio simultneo de origen y escala. Si sependiente multiplicapuede cada uno de los datos de 2el efecto asociado a mmol/l. En la utilizarse para a calcular HDL para ungeneral, sujeto con un ndice de masa corporal igual 0 kg/m , este extrapolacin explicativa, principal limitacin es que est muy influenciada por los valores extremos y, en que carece de sentido biolgico. La pendiente b = -0,023 estima que, por cada 1 incrementos de cualquier magnitud c en la variable explicativa, una muestra por una constante y al resultado se le suma otra constante, la media que carece de reflejo sentido biolgico. La pendiente b1 = -0,023 estima que, por cada 2 (x caso, puede incremento no ser un fiel de la tendencia ) y (0,023 x) = bde b1 (x de + cla ) distribucin. (b0 + cb1 . de colesterol de 1 y kg/m en el ndice corporal, el b nivel + 0central 1 x) = medio y =c 1,69 x ,+masa de la muestra resultante es igual a la media inicial por la primera constante, ms la 2 incremento de 1 kg/m en el ndice de masa corporal, el nivel 3,50 medio de colesterol 2 As, ejemplo, incrementos de una desviacin kg/m enpara el ndice de HDLpor disminuye en 0,023 mmol/l. general, la pendiente puede utilizarse En y = 1,69 - 0,023 x, tpica c = 2 As, por ejemplo, incrementos de una desviacin tpica c = 3,50 kg/m en el ndice que se muestra en la Figura 10.7. Esta recta regresin puede utilizarse para Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se se asocian y con disminucin media en el colesterol HDL de cb1 = c1 xi + c2 , entonces = cuna c2 . segunda constante;masa si yi =corporal 1x + HDL disminuye en 0,023 mmol/l. Enque, general, la pendiente puede utilizarse de para 3,50( 0,023) = 0,081 mmol/l. Notar como consecuencia de la linealidad, calcular el efecto asociado a incrementos de cualquier magnitud c hiptesis en la variable de masa corporal se asocian con una disminucin media en el colesterol HDL de que se muestra en la Figura 10.7. Esta recta de regresin puede utilizarse para estimarutilizarn o predecir el valor esperado del colesterol HDL en funcin del ndice de los valores del colesterol HDL obtenidos en los 10 primeros sujetos del esta disminucin se asume constante a lo largo de todo el rango observado del ndice de calcular el efecto asociado a incrementos de cualquier magnitud c en la variable masa corporal; esto es, el colesterol modelo de regresin lineal estima explicativa, Ejemplo 1.5 Para transformar los valores del HDL de mmol/l a mg/dl seuna misma reduccin de 2 cb = 3,50(-0,023) = -0,081 mmol/l. Notar que, como consecuencia de masa la estimar o predecir el valor esperado del colesterol HDL funcin del ndice de 1 , el masa corporal. Por ejemplo, para un ndice de masa corporal de 25 kg/m 2en and estudio European Study on Antioxidants, Myocardial Infarction Cancer ofhiptesis 0,081 mmol/l en el colesterol HDL entre 25 y 28,5 kg/m del ndice de corporal que explicativa, 2 multiplica por el factor conversin utilizando la(x propiedad del entrede 28,5 y 32 kg/m . c)As, 2 de para y (38,8. x + - y ( xHDL ) = b0de +b + c )casos - (a bcorporal + b1x) = cb . kg/m 0 1realizado de linealidad, esta disminucin se asume constante lo largo todo el rango , el masa corporal. Por ejemplo, un ndice de masa 25 1 modelo estima un medio colesterol y (25) = 1,69 de 25 = the Breast nivel (EURAMIC), un estudio multicntrico de y0,023 controles La recta de regresin estimada del colesterol HDL sobre el ndice de masa corporal es (x + HDL en y c) - y (xmg/dl ) = b0 + cambio de escala, la media del colesterol sebcalculara 1(x + c) - (b0 + b1x) = cb1. observado del ndice de masa corporal; esto es, el modelo de= regresin lineal 2 los (25) modelo estima un nivel medio de colesterol HDL y 1,69 -de 0,023 25 = entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar efecto 1,11 mmol/l. As, Por supuesto, los valores observados del colesterol HDL de una por ejemplo, incrementos de desviacin tpica c difieren =el 3,50 kg/m en el ndice y = 1,69 x ,de 0,023 directamente a partir de su media en mmol/l como 1,22338,8 = 47,45 mg/dl. 2 As, por ejemplo, incrementos una desviacin tpica c= 3,50 kg/m en25 el ndice estima una misma reduccin dede 0,081 mmol/l en el colesterol HDL entre y que se muestra en lala Figura 10.7. Esta recta regresin puede utilizarse para estimar o 1,11 mmol/l. Por supuesto, valores observados del colesterol HDL difieren de los valores medios predichos por recta los de regresin. La de varianza residual del de masa corporal se asocian con una disminucin media en el colesterol HDL de 5 que se muestra en la Figura 10.7. Esta recta de regresin puede utilizarse para predecir el valor esperado del colesterol HDL en funcin del ndice de masa corporal. Por 2 2 2 y 32 de masa corporal se asocian con una disminucin media en el colesterol HDL de medio 6 28,5 kg/m del ndice de masa corporal que entre 28,5 kg/m . , el modelo estima undel nivel ejemplo, para un ndice de masa corporal de 25 kg/m los valores medios predichos por la de regresin. La varianza residual colesterol HDL respecto a la recta de regresin esrecta cb = 3,50(-0,023) = -0,081 mmol/l. Notar que, como consecuencia de la hiptesis 1 estimar o predecir valor esperado del colesterol HDL en funcin ndice los de valores de colesterol HDLel de (25) = 1,69 0,023 25 = 1,11 mmol/l. Por del supuesto, cb = 3,50(-0,023) = -0,081 mmol/l. Notar que, como consecuencia de la hiptesis La recta de regresin estimada del colesterol HDL sobre el ndice de masa 1 observados del colesterol difieren de los valores por la recta de colesterol HDL respecto aHDL la recta de regresin es a lo medios de linealidad, esta disminucin se asume constante largo depredichos todo el rango 533 2 SSE 1 42,63 , el masa corporal. Por ejemplo, para un ndice de masa corporal de 25 kg/m 2 residual es = = La varianza { yi ( 1,69 0,del 023colesterol x i )} = HDL=respecto 0,080. a la recta de regresin s2 regresin. de 531 linealidad, esta disminucin se asume constante a lo largo de todo el rango corporal es 531 531 i = 1 observado del ndice masa 533 corporal; esto es, el modelo de regresin lineal SSE de medio 1 42,63 2 (25) modelo estima de y = 1,69 - 0,02325 = = y i colesterol (1,69 0HDL = 0,080. { ,023xde s2 = un nivel i )} = observado del ndice de masa corporal; esto es, el modelo de regresin lineal 531 531 HDL entre 531 i =1 estima una misma de 0,081 mmol/l en de el colesterol 25 y 20 Notar, por ltimo, que debido a reduccin la hiptesis de homogeneidad la varianza, la 1,11 mmol/l. Por supuesto, los valores observados del colesterol HDL difieren de Notar, ltimo, debido de a la hiptesis de homogeneidad de la estima por una misma que reduccin 0,081 mmol/l en el colesterol HDL entre 25la y desviacin 2 2 varianza, 28,5 kg/m del ndice de masa corporal que entre 28,5 y 32 kg/m . Notar, por ltimo, que debido a la hiptesis de homogeneidad de la varianza, laalrededor tpica residual del colesterol HDLss= = 0,080 = mmol/l se asume constante desviacin tpica residual del colesterol HDL =0,283 0,283 mmol/l se los valores2 medios predichos por la recta de regresin. La varianza 2 residual del de cualquier punto de de la recta regresin. 28,5 kg/m del ndice masade corporal que entre 28,5 y 32 kg/m . La recta de tpica regresin estimada del colesterol HDL ndice masa se desviacin residual del colesterol HDL = sobre 0,080el= 0,283de mmol/l asume constante alrededor derespecto cualquier punto de laregresin recta desregresin. colesterol HDL a la recta de es La recta de regresin estimada del colesterol HDL sobre el ndice de masa corporal es asume constante alrededor de cualquier punto de la recta de regresin. 533 168 Pastor-Barriuso R. 42,63 corporal ess2 = SSE = 1 { y i (1,69 0,023x i )}2 = = 0,080. [Figura 531 10.7 aproximadamente aqu] 531 i =1 531 20
Regresin lineal simple
2,25 2
1,5
0,5 0,25 20 24 28 32 36
antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en Indice de masa corporal (kg/m)
estudio EURAMIC.
Figura 10.7del Figura 10.7 de regresin del HDL sobre1,29, el ndice de masa en el grupo control hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 1,42, 0,84,corporal antioxidantes encolesterol el riesgo de 0,79, desarrollar un primer infarto agudo de miocardio en sentido deRecta que no facilita ninguna informacin sobre la idoneidad del modelo lineal
1,06, 0,87, 1,96 para y 1,53 mmol/l. media de losLos niveles dellas colesterol HDL en hombres adultos. valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, describir laLa relacin subyacente entre variables explicativa y respuesta.
En para general, el contraste de regresin lineal permite evaluar explicativa si el modelo su conjunto explica describir la relacin subyacente entre las variables yen respuesta. estos 10 participantes es 10significativa variable respuesta. Una vez estimada la recta de regresin, la desviacin de cada valor de la una parte de la variabilidad de la variable respuesta. En el caso particular 1 0,89 + 1,58 + ... + 1,53 x x = 1,223 mmol/l. = = i regresin lineal simple, hiptesis nula del contraste simplemente que la pendiente 1 de la La realizacin della contraste de regresin se basaes en el anlisis de la varianza de la 10 10 =1 a la media y puede separarse en dos componentes: el observado yi respecto recta de iregresin subyacente es 0,muestral ya que en tal caso la variable respuesta no se relacionar 10 1 0,89 + 1,58 + ... + 1,53 x i recta 1,223 de mmol/l. =explicativa = y, en linealmente con la nica variable el = modelo lineal no aportar variable respuesta. Una vez x estimada la de consecuencia, regresin, la desviacin cada valor 10 10 i =1 explicacin alguna sobre la variabilidad de la variable respuesta. Es importante resaltar error o desviacin del valor observado yi respecto a su valor estimado por la recta deque este a media aritmtica presenta las siguientes propiedades: contraste de regresin asume linealidad y, por tanto, separarse no debe interpretarse como unel test de a la media muestral y puede en dos componentes: observado yi respecto bondad del ajuste, en el sentido de que no facilita ninguna informacin sobre la idoneidad del i y la media regresin y b la distancia entre dicho valor estimado 0+ 1xi, y una i = Cambio de origen (traslacin). Si seb suma constante a cada uno depropiedades: los datos y La media aritmtica presenta las siguientes modelo para describir la relacin subyacente entre variables explicativa y respuesta. a sulas valor estimado por la recta de errorlineal o desviacin del valor observado yi respecto Lamedia realizacin del contraste de regresin basa el anlisis de de la de una muestra,muestral la de muestra resultante es igual se a la media inicial la la varianza y; la esto es, Cambio de origen (traslacin). Si se en suma una ms constante a cada uno devariable los datos i vez regresin y = b0estimada + b1xi, y la distancia entre dicho valor estimado y la media respuesta. Una recta de regresin, la desviacin de y cada valor observado yi i en dos el error desviacin respecto ai la media muestral =x c, una entonces y puede = +separarse c. Un cambio de componentes: origen quees igual constante utilizada; si y i+ de muestra, la x media de la muestra resultante a la o media inicialdel ms la i - y + yi - y i . yi - y estimado = y valor observado y respecto a su valor por la recta de regresin = b + b x , y la muestral y ; esto i es, i 0 1 i entre dicho valorde estimado i y yi la media muestral esto = x c, entonces y; = + c. Un cambio de origen que constante utilizada; si se realiza condistancia frecuencia es el centrado la variable, que consiste en restar ax es, i+ Elevando al cuadrado estas desviaciones y sumando sobre todas las observaciones, se i centrada . por yi variable y = y y + yi ser, y cada valor de la muestra su media. La media de una se realiza con frecuencia es el centrado de ila variable, que consiste en restar a tiene que suma de cuadrados total y es Elevando al la cuadrado estas desviaciones sumando sobre todas las observaciones, se tiene que tanto, igual a la 0. suma cada valor dees la muestra su media. La media unalas variable centrada ser, de cuadrados total Elevando al cuadrado estas desviaciones y sumando sobrede todas observaciones, se por
2 2 Cambio de escala (unidades). Si multiplica de datos dey tanto, igual 0. uno una (y y )a = cada y ) 2 los + ( yi SST tiene que la= suma de cuadrados es se (total i i y i ) + 2 ( y i y )( y i y i ) n n n n i =1 i =1 i =1 i =1
sentido de que no facilita ninguna informacin sobre la idoneidad del modelo lineal 10.3.2 Contraste del modelo regresin lineal simple estos 10 participantes es 1,06, 0,87, 1,96 de yde 1,53 mmol/l. La media de los niveles colesterol HDL en La realizacin del contraste regresin se basa en el anlisis de ladel varianza de la
muestra por una constante,la Cambio media de laescala muestra resultante es igual a la media n(unidades). n de Si se multiplica cadan uno de los datos de una n n n 2 i ) 2 2 = SSR = ( y y ) + ( y y + SSE, 2 2 i i i y ) +i i ) + 2 ( y i y )( y i y i ) (y ( yi y SST = ( y i y ) = i =1 =1 cxiuna , entonces y =la c media x . i =1 de la muestrai = inicial por la constante utilizada; si yi = muestra por constante, resultante es igual a la media i =1 i =1 1
n n de yi = cxdatos por lase constante utilizada; si Cambio simultneo de origen inicial y escala. Si multiplica cada uno los de y = c x . i, entonces i y) 2 + ( yi y i ) 2 = SSR + SSE, = incorrelacionadas (y ya que ambas componentes estn i =1 i =1
Pastor-Barriuso R.
169
una muestra por una constante y al resultado se le de suma otrayconstante, Cambio simultneo origen escala. Si la semedia multiplica cada uno de los datos de
=
i y) 2 + ( yi y i ) 2 = SSR + SSE, (y
i =1 i =1
1.2 en MEDIDAS DE TENDENCIA CENTRAL ya que ambas componentes estn incorrelacionadas es en el riesgo de desarrollar un primer infarto antioxidantes agudo de miocardio en el riesgo de desarrollar un primer infarto agudo de miocardio e ya que ambas componentes estn incorrelacionadas ultos. Los valores obtenidos fueron 0,89, 1,58, hombres 0,79, 1,29, adultos. Los 0,84, valores fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84 n n 1,42, n obtenidos n Las medidas de tendencia central informan acerca de cul es ( y y )( y y ) = b ( x x ) e = b x e b x e = 0 i i i i i 1 1 i i 1 i i =1 los niveles del i =1 La mediai = 1 HDL 1 los niveles del colesterol HDL en 1,96 y 1,53 mmol/l. La media de 1,06, colesterol 0,87,i = 1,96 y 1,53 en una mmol/l. de de determinada variable o, dicho de forma equivalente, e segn las ecuaciones de regresin derivadas del mtodo de mnimos cuadrados. As, la suma rticipantes es de cuadrados estos 10derivadas participantes es independientes: total SST se descompone en dos trminos la de As, cuadrados segn las ecuaciones de regresin del mtodo de qu mnimos la observados. Las alrededor de valor cuadrados. sesuma agrupan los datos de la regresin SSR, que representa la variabilidad de la variable respuesta explicada por la 10 variable del de regresin, y0 suma de cuadrados delresumir error los resultados suma de cuadrados total SST semodelo descompone en dos trminos independientes: suma central de la muestra sirven + +independiente + + + 1tanto 1 10 nica 0,89 1,58 ... + 1,53 1 ,89 1,58 ... ,53 lapara x = x iSSE, =variabilidad 1,223 mmol/l. x x i = respuesta que queda= 1,223 mmol/l. = que corresponde a la = residual de la variable sin explicar. 10 i =1 10 10 i =1 10 Conviene recordar la recta SSR, de regresin estimada por el procedimiento mnimos realizar acerca de los de parmetros poblacionales c que representa la inferencias variabilidad de la variable de cuadrados de que la regresin cuadrados minimiza la suma de cuadrados del error, maximizando entonces la capacidad predictiva o explicada explicativa del modelo de regresin. La Figurase 10.8 ilustra grficamente continuacin describen los principales estimadores de la t por la nica independiente modelo de regresin, y la esta mtica presenta lasrespuesta siguientes propiedades: La mediavariable aritmtica presenta lasdel siguientes propiedades: descomposicin. variable. suma cuadrados del error SSE, que a la Si variabilidad residual de la La de la de la variable mediante origen (traslacin). Sidescomposicin sede suma una constante variabilidad Cambio a cada uno de origen de corresponde los (traslacin). datos respuesta se suele suma representarse una constante a cada uno de los datos
la denominada tabla del anlisis de la varianza (Tabla 10.2). En primer lugar, esta tabla variable explicar. Conviene recordar que la recta de es regresin presenta lasrespuesta sumas deque cuadrados junto con inicial sus correspondientes grados de libertad. La suma de stra, la media de la muestra resultante es queda igual deasin una la media muestra, la media ms la de la muestra resultante igual a la media inicial ms 1.2.1 Media aritmtica cuadrados de la regresin contiene nicamente 1 grado de libertad ya que, una vez conocida la los estimados la recta de i = . Un muestral y , = xi + c, entonces x valores + c. Un cambio utilizada; depor origen que y xiregresin + c, entonces y+ =b x1(x +i c cambio origen que tilizada; si yi = media constante si La media aritmtica, denotada por x ), quedan se definede como la sum i= 22 completamente determinados por su pendiente; mientras que, como se vio en el apartado anterior, la suma cuadrados del error tiene nvalores 2 grados de libertad. continuacin, los dividida por el nmero de observaciones on frecuencia es el centrado de la de variable, que se realiza consiste con en frecuencia restar a esmuestrales el centrado de la A variable, que consiste en restar a trminos de la varianza se obtienen de dividir las sumas de cuadrados por sus grados de libertad. Finalmente, la razn varianzas define como el cociente entre la varianza explicada por la por n su el tamao muestral y por xivariable el valor observado para el s de la muestra su media. La media de de una variable cada se centrada valor de la ser, muestra media. La media de una centrada ser, por regresin y la varianza residual, que constituye el estadstico del contraste de regresin. la media vendra dada por a 0. tanto, igual a 0.
escala (unidades). Si se multiplica cada uno de Cambio los datos de escala de una (unidades). Si se multiplica cada uno datos de + x2 +una ... + x n 1 nde los x . x = xi = 1 n n i =1 r una constante, la media de la muestra resultante muestra es igual por una a laconstante, media la media de la muestra resultante es igual a la media
(xi, yi)
= c x . por la constanteLa yi medida = cxi, entonces y = ccentral x. a constante utilizada; si yi = cxi, entonces y inicial utilizada; si la media es de tendencia ms utilizada
i i
i multiplica ei = y y i se interpretacin. Corresponde al centro deuno gravedad de los d multneo de origen y escala. Si se multiplica cada Cambio unosimultneo de los datos de de origen y escala. Si cada de los datos de ) (x , y yi y
principal limitacin es que est muy influenciada por los val a por una constante y al resultado se le suma una otra muestra constante, por la una media constante y al resultado (x , y) y se le suma otra constante, la media y
y
i
caso, puede ser un fiel reflejo de la tendencia central de la ra resultante es igual a la media inicial por lade primera la muestra constante, resultante ms es la igualno a la media inicial por la primera constante, ms
c2 . nstante; si yi = c1xi + c2, entonces y = c1 x +segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2. Recta de regresin estimada: Ejemplo 1.4 En este y en los sucesivos ejemplos sobre
= b0 + b1 x = y + b1 ( x x ) y
utilizarn los valores del colesterol obtenidos en 5 Para transformar los valores del colesterol HDL Ejemplo de mmol/l 1.5 Para a transformar mg/dl se los valores del colesterol HDLHDL de mmol/l a mg/dl
estudio European Study on Antioxidants, Myocardial por el factor de conversin 38,8. As, utilizando multiplica la propiedad por eldel factor de conversin 38,8. As, utilizando la propiedad del
the Breast (EURAMIC), un estudio multicntrico de c escala, la media del colesterol HDL en mg/dlcambio se calculara de escala, la media del colesterol HDL en mg/dl se calculara
x
entre 1991 1992 en ocho pases Europeos Israel par 38,8 = 47,45amg/dl. Figura 38,8 = 47,45emg/dl. te a partir de su media en mmol/l como 1,223 directamente partir de su media en y mmol/l como 1,223 10.8
Figura 10.8 Descomposicin de la variabilidad de la variable respuesta en la parte explicada y no explicada por la regresin.
170
Pastor-Barriuso R.
libertad ya que, una vez conocida la media muestral y , los valores estimados por la i = y + b1(xi - x ) quedan completamente determinados por su recta de regresin y
pendiente; mientras que, como se vio en el apartado anterior, laen suma de cuadrados del Tabla 10.2 Tabla genrica del anlisis de la varianza regresin Tabla 10.2 Tabla genrica del anlisis de la varianza en regresin lineal simple.* lineal simple.* varianza var(b1). As, bajo la hiptesis nula H0: 1 = 0, el cociente SSR/ 2 es el error tiene n - 2 grados de libertad. se Suma de A continuacin, Gradoslos de trminos de la varianza Razn de cuadrado de una distribucin normal estandarizada, definicin a cuadrados libertadque corresponde por varianzas obtienen de dividir las sumas nde cuadrados por sus gradosVarianza de libertad. Finalmente, la
2
Suma de cuadrados
Grados de libertad
Varianza
Razn de varianzas
SSR
i y) Regresin chi-cuadrado SSR = con (y 1 SSR F = con 2 que se una distribucin 1 grado de libertad. Por otra parte, basta i =1 razn de varianzas se define como el cociente entre la varianza explicada porsla
n n cumplan las asunciones subyacentes al modelo lineal para que la varianza residual s2 SSE 2 2 2 i ) ( y i constituye y n estadstico 2 s =del contraste de regresin. Error SSE = regresin y la varianza residual, que el ei =
sea un estimador insesgado de 2 y el cociente

Total y) 2 SST =[Tabla ( y i 10.2
i =1 n
i =1
i =1
n2
n 1 aproximadamente aqu] 2 2 (n H 2) s varianza var(b1). As, bajo la hiptesis nula 0: 1 = 0, el cociente SSR/ es el 2 2 2 * Coeficiente de determinacin R = SSR/SST. * Coeficiente de determinacin R = SSR/SST. preciso conocer la distribucin de la razn Para realizar el contraste de regresin, es cuadrado de una distribucin normal estandarizada, que corresponde por definicin a =2 0. Por un lado, sela tiene que de varianzas bajo la hiptesis H siga una distribucin chi-cuadrado con n grados de libertad. Combinando ambos 0: 1es Para realizar el contraste de nula regresin, preciso conocer distribucin de la razn de una distribucin chi-cuadrado con 1 grado de libertad. Por otra parte, basta con que se varianzas bajo la hiptesis nula H0: 1 = 0. Por un lado, se tiene que 2 resultados, sebtiene quen bajo hiptesis nula : 1= la razn entre las varianzas 2 SSR/ 2 1= n HH varianza lala hiptesis nula 0,0 el es el s2 1). As, 0: 0 b12cociente (que n 1 ) s varianza b b12 residual SSR 1 bajo cumplan var( las asunciones subyacentes al la 2 2 para x 1 modelo lineal = = = = , ( y y ) ( x x ) i i 2 2 2 2 var( b ) i i 1 1 = = 1 explicada y residual cuadrado de una distribucin normal estandarizada, que corresponde por definicin a sea un estimador insesgado de 2 y el cociente donde var(b1) = 2/{(n 1)s2 x} es la varianza de la pendiente estimada. Como se comprobar en 2 2 con 1 grado de 2 2 otra parte, basta con que se una distribucin chi-cuadrado Por donde var( b1) = /{( 1) s x } eslas la varianza de la estimada. Como se el siguiente apartado, si n se- cumplen asunciones dependiente la regresin lineal simple, la pendiente SSR SSR / libertad. 1 2 = F = ~ ( n 2 ) s 2 2 2 estimada b1 seguir una distribucin media y2varianza var(b1). As, 2 bajo la 1 s 2 normal smodelo n n / con /( ) la varianza 2 2 lineal cumplan las asunciones subyacentes al para que residual s 2 hiptesis nula en H0:elsiguiente cociente si SSR/ es ellas cuadrado de de una normal comprobar se cumplen asunciones ladistribucin regresin lineal 1 = 0, el apartado, estandarizada, que corresponde por 2 definicin a una distribucin chi-cuadrado con 1 grado de seadistribuye unPor estimador insesgado de de dos yse elchi-cuadrado cociente las asunciones se como el cociente independientes divididas libertad. otra parte, basta con cumplan subyacentes modelo bque normal con mediaal por y sus lineal simple, ladistribucin pendiente estimada 1 seguir 1 siga una chi-cuadrado con nuna - 2 distribucin grados de libertad. Combinando ambos 2 2 para que la varianza residual s sea un estimador insesgado de y el cociente respectivos grados de libertad, que es una distribucin F de Fisher con 1 grado de 23 2 (n 2)H s0 resultados, se tiene que bajo la hiptesis nula : 1 = 0 la razn entre las varianzas
libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del explicada y residual siga una distribucin chi-cuadrado con n 2 grados de libertad. Combinando ambos resultados, se tiene que distribucin bajo la hiptesis nula H0: =n 0la entre las varianzas explicada y residual contraste de regresin de la hiptesis H : 1 = 0 frente a la Combinando hiptesis alternativa 1 nula 0 siga una chi-cuadrado con 2razn grados de libertad. ambos 12 SSR SSR / 2 = ~ F = 2= 0 la razn 2 H1se : tiene calcula entonces como a la entre derecha estadstico bilateral resultados, que bajo la hiptesis nula H0probabilidad : las del varianzas 1 0 se s2 s / 2la 1n 2 /( n 2)
se distribuye como el cociente de dos chi-cuadrado independientes divididas por sus respectivos F bajo la distribucin F1,n-2. explicada y residual grados de libertad, queel escociente una distribucin F de Fisher con 1 grado de libertad enpor el numerador se distribuye como de dos chi-cuadrado independientes divididas sus yn2 grados de libertad en el denominador. El valor P del contraste de regresin de la hiptesis La tabla del anlisis de la varianza suele ir 2acompaada del coeficiente de 2 SSR SSR / nula H0: 1 = 0 grados frente a lalibertad, hiptesis alternativa bilateral :1 0 se calcula entonces respectivos de es distribucin de Fisher con 1 grado de como la 1 = una F = que ~ 2 H1F 2 2 2 2 . probabilidad a la derecha del estadstico F bajo la distribucin F s s n / /( 2 ) determinacin R , que se define como la proporcin de la variabilidad de la variable 1,n2 n2 libertad en el numerador y n - 2 grados de libertad en el denominador. El valor P del La tabla del anlisis de la varianza suele ir acompaada del coeficiente de determinacin R2, respuesta se explica por el modelo de regresin, que se defineque como la el proporcin de dos la variabilidad de independientes la variable respuesta que por se explica por se distribuye como cociente chi-cuadrado divididas sus contraste de regresin de la hiptesis nula H0: 1 = 0 frente a la hiptesis alternativa el modelo de regresin, n n respectivos grados de libertad, que es una F de Fisher con 1 grado de 2 distribucin entonces la probabilidad del estadstico bilateral H1: 1 0 se calcula i y )como b12 (y ( x i x ) 2 a la derecha 2 SSR i =1 2 2 2 sx i =1 R = . valor P del = b1 2 = r libertad en el numerador y= n -n2 grados de = libertad en el denominador. El n sy F bajo la distribucinSST F1,n-2. 2 2 ( yi y) ( yi y) i =1 i =1 contraste de regresin de la hiptesis nula H0: 1 = 0 frente a la hiptesis alternativa La tabla del anlisis de la varianza suele ir acompaada del coeficiente de
Pastor-Barriuso R. se calcula entonces como la probabilidad a la derecha del estadstico bilateral H1: 1 0 determinacin R2, que se define como la proporcin de la variabilidad de la variable 24 171
F bajo la distribucin F1,n -2. el modelo de regresin, respuesta que se explica por
Ejemplo 10.8 La Tabla 10.3 presenta el anlisis de la varianza la regresin observados del colesterol HDL respecto a la media muestral y de = 1,09 mmol/l es 2 En el estudio caso deEURAMIC. la regresin lineal simple, el coeficiente de determinacin coincide con el La suma de cuadrados de las desviaciones de los R valores La media aritmtica presenta las siguientes propiedades: que del sedel descompone en la suma cuadrados de las desviaciones del colesterol cuadrado coeficiente de correlacin de Pearson entre las variables explicativa y respuesta. lineal colesterol HDL sobre de elrndice de masa corporal en 533 controles del 533 observados del colesterol HDL a1,09 la media muestral y = 1,09 mmol/l es Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos SST =respecto ( y )2 = 46,15, i = HDL respecto a la recta de regresin y x 1,69 0,023 i Ejemplo 10.8 La Tabla 10.3de presenta el la varianza delos la regresin estudio EURAMIC. La suma cuadrados de las de desviaciones de valores lineal del i anlisis i =1 colesterol HDL sobre el ndice de533 masa corporal 533 inicial controles del de una muestra, la media de la muestra resultante es igual a la en media ms laestudio EURAMIC. 2 valores La suma de del cuadrados deSST las de observados del colesterol observados colesterol HDL respecto la media muestral y = 1,09 mmol/l es HDL =de ( y i a1,09 )los = 46,15, 533desviaciones que se descompone en la suma cuadrados de las desviaciones del colesterol 2 = 1,09 mmol/l es respecto ai la media muestral i = 1 =x + c , entonces y = x + c . Un cambio de origen que constante utilizada; si y SSE = { y i (1,69 0,023x i )} = 42,63 i
533 = 1,692 - 0,023xi HDL respecto a la recta de regresin y se realiza con que frecuencia es el centrado de la variable, consiste en restar a del colesterol SST = ( y i ique 1,09 ) las = 46,15, se descompone en la suma de cuadrados de desviaciones i =1 y la suma de cuadrados de las distancias entre los valores estimados por la recta 533 de una variable centrada ser, por cada valor de que la muestra su media. La de media i = 1,69 HDL respecto a la recta regresin y 0,023 se descompone en la suma de cuadrados de las x desviaciones del colesterol HDL i SSE = { y i (1,69 0,023x i )}2 = 42,63 de regresin y la media muestral que se descompone en la suma de cuadrados de las desviaciones del colesterol respecto a la recta de regresin i =1 i = 1,69 0,023xi tanto, igual a 0. 533 HDL respecto a la recta de regresin y x 1,69 -x 0,023 533{ y (1, i 42,63 i = SSE = 69 0,los 023 )}22 de = i i y la suma de cuadrados de las distancias entre los valores estimados por la recta Cambio de escala (unidades). Si se multiplica cada uno de datos = una 3,53. SSR = i =1 (1,69 0,023 x i 1,09) 533las distancias entre los valores estimados por la recta de y suma de cuadrados de dela regresin y la media muestral muestra por una constante, la media de la muestra resultante es igual a la media SSE = { y i (1,69 entre 0,023 x ivalores )}2 = 42,63 regresin lacuadrados media muestral y la suma y de de las distancias los estimados por la recta i =1 As, la proporcin de la variabilidad del colesterol HDL que se explica inicial por la constante utilizada; si yi = cx533 i, entonces y = c x . de regresin y la media muestral (1,69 0,023viene x i 1,dada 09) 2 por = 3,53. SSR = nicamente con el ndice de masa corporal el coeficiente de y la suma de cuadrados de las i =1 distancias entre los valores estimados por la recta Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de 533 As, la proporcin de la variabilidad del colesterol HDL determinacin 2 que se explica nicamente con el de regresin y la media muestral ( 1 , 69 0 , 023 x 1 , 09 ) =que 3,53. SSR = i una muestra por una constante y al resultado se le suma otra constante, la media ndice masa corporal viene dada por coeficiente de determinacin As, la de proporcin de la variabilidad delel colesterol HDL se explica i =1 i =1 i =1
el cuadrado del coeficiente de correlacin r de a Pearson entre las variables explicativa y observados del colesterol HDL respecto la media muestral y = 1,09 mmol/l es lineal del colesterol HDL sobre el ndice de masa corporal en 533 controles del + 1,53 el anlisis de la varianza de la regresin 1 10 0,Tabla 89 + 1,10.3 58 + ... Ejemplo 10.8 La presenta respuesta. xy x = 1,223 mmol/l. =regresin Correlacin lineal i = simple 533 10 EURAMIC. 10 de cuadrados estudio La suma de)las desviaciones de los valores 2 i =1 = el ( y i de 1,09 46,15, en 533 lineal del colesterol HDL SST sobre ndice masa=corporal controles del
i =1
2 R = 3,53/46,15 = 0,076, de la muestra nicamente resultante escon igual la media inicial por la primera constante, ms la el a ndice de533 masa corporal viene dada 2 por el coeficiente de ( 1 , 69 0 , 023 x 1 , 09 ) = 3,53. SSR = As, coincide la proporcin decuadrado la variabilidad del colesterol HDL que se explica entre el ndice de i que con el del coeficiente de correlacin i =1 parte significativa de la variabilidad total del colesterol HDL,muestral se realiza el y = c x + c , entonces y = c x + c . segunda constante; si 2 i 1 iy el 1 r2 = (0,276) 2 de correlacin determinacin que coincide con del coeficiente muestral el masa corporal el2cuadrado colesterol HDL = 0,076. Para entre determinar si esta nicamente con el ndice de masa corporal viene dada por el coeficiente de variabilidad explicada por el ndice de masa corporal es una parte significativa H0: 21 =HDL 0 mediante razn entre las de la contraste de regresin de la hiptesisdel nula 2 se la As, la proporcin de la variabilidad colesterol que explica ndice de masa corporal y el colesterol HDL r = (-0,276) = 0,076. Para de la hiptesis 2 variabilidad total del colesterol se realiza el contraste de regresin R HDL, = 3,53/46,15 = 0,076, determinacin Ejemplo 1.5 Para transformar los valores del colesterol HDL de mmol/l a mg/dl se 2 varianzas explicada SSR = 3,53 y residual nula H0: explicada la razn entre las 1 = 0 mediante varianzas SSR = y corporal residual s = 42,63/531 = nicamente con el variabilidad ndice de3,53 masa viene dada de por el0,080, coeficiente deuna determinar si esta explicada por el ndice masa corporal es 2 s = 42,63/531 = 0,080, 2 coeficiente coincide con el cuadrado del correlacin muestral entre el multiplica porque el factor de conversin 38,8.R As, utilizando de la propiedad del = 3,53/46,15 = 0,076, 25 determinacin F = 3,53/0,080 = 43,93. 2 2 ndice masa corporal y elHDL colesterol HDL = (-0,276) = 0,076. Para cambio de escala, la de media del colesterol en mg/dl sercalculara Bajo la hiptesis este estadstico sigue una distribucin F de Fisher con 1 grado de que coincide con nula, el cuadrado del 2 coeficiente de correlacin muestral entre el R = 3,53/46,15 = 0,076, Bajo la hiptesis nula, este sigue una distribucin F de Fisher con 1el valor P libertad ensu elmedia numerador y estadstico 531 grados de en de elmg/dl. denominador, luego determinar si esta variabilidad explicada por el ndice masa corporal es una libertad 38,8 = 47,45 directamente a partir de en mmol/l como 1,223 2 2 <r 0,001. En conclusin, las diferencias en el bilateral contraste esyP (F ndice dedel masa corporal el colesterol HDL = (-0,276) = 0,076. Para 1,531 43,93) 25 en la grado de encuadrado el numerador y 531 grados de libertad en el denominador, ndice delibertad masa corporal explican el 7,6% de variabilidad del colesterol que coincide con el del coeficiente dela correlacin muestral entre el HDL 6 es una P< 0,001). poblacin del estudio EURAMIC (R2 = 0,076, determinarde si referencia esta variabilidad explicada por el ndice de masa corporal 2 2 luego el valor P bilateral del contraste es P ( F 43,93) < 0,001. conclusin, ndice de masa corporal y el colesterol HDL r1,531 = (-0,276) = 0,076. En Para 25 Tabladeterminar 10.3 Tabla del anlisis demasa la varianza la regresin lineal del es colesterol HDL las diferencias en el ndice de corporal explican el de la variabilidad si esta variabilidad explicada porde el ndice de7,6% masa corporal una sobre el ndice de masa corporal en el grupo control del estudio EURAMIC.* 2 del colesterol HDL en lade poblacin de referencia del estudio EURAMIC (RRazn = 25 Suma Grados de de
Regresin Error Total
0,076, P < 0,001).
cuadrados 3,53 42,63 46,15
libertad 1 531 532
Varianza 3,53 0,080
varianzas 43,93
* Coeficiente de determinacin[Tabla R2 = 3,53/46,15 = 0,076. 10.3 aproximadamente

aqu]
10.3.3 Inferencia sobre los parmetros de la recta de regresin
1.2 MEDIDAS DE TENDENCIA CENTRAL pendiente de la recta de regresin utilizando el mtodo de mnimos cuadrados. A partir Las medidas de tendencia central informan acerca de cul es el valor ms representativo de las distribuciones muestrales de b0 y b1, se derivan a continuacin los intervalos de
de una determinada variable o, dicho de forma equivalente, estos estimadores indican 2 donde los coeficientes clos xi para - x )/{( nparmetros - de 1) s dependen nicamente los valores confianza y tests sobre de hiptesis los subyacentes 0 y 1de del modelo dede i=( 10.3.3 Inferencia parmetros la recta de regresin x } alrededor de qu valor se agrupan los datos de tendencia En el Apartado 10.3.1 se obtuvieron los observados. estimadores Las b0 y medidas b1 de la constante y la pendiente de la regresin lineal simple. la variable explicativa que se asumen constantes. Bajo las asunciones y recta de regresin utilizando el mtodo de mnimos cuadrados. A partirde delinealidad las distribuciones central de la muestra sirven para los resultados observados como para muestrales de b0 y b1, setanto derivan a resumir continuacin los intervalos de confianza y tests de hiptesis El estimador dela mnimos cuadrados de la pendiente de la recta de regresin puede homogeneidad de varianza, el valor esperado de b1 es para los parmetros subyacentes 0 y 1 del modelo de regresin lineal simple. realizar inferencias acerca de los parmetros poblacionales correspondientes. A El estimadorcomo de mnimos cuadrados de la pendiente de la recta regresin puede reescribirse reescribirse una combinacin lineal de los valores de lade variable respuesta n n n como unase combinacin lineal de los variable respuesta E (principales b1) = civalores E ( y i ) =de 0la c i la + tendencia 1 c i x i central = 1 de una continuacin describen los estimadores de
2 donde los coeficientes ci = ( (x - 1) dependen de los valores de xii - x x)/{( y) s x } )( y in ( x i x ) ynicamente variable. i n i =1 1 2 b1 = cii = = = c3.4), y, como las observaciones y independientes (vase Apartado su varianza es i y i ,de ix donde los coeficientes = ( x )/{( n 1) s } dependen nicamente valores de nson n i x la variable explicativa que se asumen constantes. Bajo las de los linealidad y 2 2 asunciones i =1 x x x x ( ) ( ) i i 1.2.1 Media aritmtica i =1 i =1 n i =1 1 i =n i =1
n n la variable explicativa que se asumen constantes. Bajo las asunciones de linealidad y b1 2es homogeneidad de la varianza, el valor esperado 2 de 2 2 2y ) = var( = var( b ) = . c c 1 La media denotada por , sendefine como la suma de valores los dondearitmtica, los coeficientes ci = ( xi x )/{( dependen nicamente de de la variable i de cada uno i 1)sx } i 2 los (n 1) s x i =1 i =1 explicativa que se de asumen constantes. Bajo las asunciones de linealidad y homogeneidad de la b es homogeneidad la varianza, el valor esperado de 1 n n n valores muestrales dividida por el nmero varianza, el valor esperado b es de observaciones realizadas. Si denotamos E(bde 1) = 1 c i E ( y i ) = 0 c i + 1 c i x i = 1 26 i= i= i= Es decir, b1 es un estimador insesgado de 1 que n1 n1 ser tanto n1 ms preciso cuanto menor por n el tamao muestral y por el valor observado para el sujeto i-simo, i = 1, ..., n, E(bx 1i) = c i E ( y i ) = 0 c i + 1 c i x i = 1 i =1 i =1 i =1 sea la varianza de la variable respuesta alrededor de la recta de regresin mayoreses y, como las observaciones yi son independientes (vase Apartado 3.4), suyvarianza la media vendra dada por y, como las observaciones yi son independientes (vase Apartado 3.4), su varianza es sean el tamao muestral y la de la variable explicativa. Adems, si el tamao y, como las observaciones yi dispersin son independientes (vase Apartado 3.4), su varianza es n n 2 n 2 2 2x + + ... + x x 1 var( var( y =x . ci 1 2i ) = n ci = 2 . una(generalizacin x =b1 ) muestral n es suficientemente grande, puede aplicarse del teorema i 1= n 1 ) s 1 = = i i x 2 n n n i =1 n 2 2 2 var(b1) = c i var( y i ) = c i = . 2 Es central decir, b es un estimador insesgado de que ser tanto ms preciso cuanto menor del lmite (ver su versin ms simple en el Apartado 4.3.3) para demostrar quesea la ( n 1 ) s 1 1 i = = i 1 1 x Es decir, b es un estimador insesgado de que ser tanto ms preciso cuanto menor 1 1 varianza de la variable respuesta alrededor de la recta de regresin y mayores sean el tamao La media es la medida de tendencia central ms utilizada y de ms fcil b1 se distribuye de forma aproximadamente normal con la media muestral y la dispersin de la variable explicativa. Adems, si y elvarianza tamao descritas muestral n es Es decir, b es un estimador insesgado de que ser tanto ms preciso cuanto menor 1 1 sea la varianza de la variable respuesta alrededor de la recta de regresin y mayores suficientemente grande, al puede aplicarse una generalizacin central lmite (ver interpretacin. Corresponde centro de gravedad de los datosdel de teorema la muestra. Su del su anteriormente, versin ms simple en el Apartado 4.3.3) para demostrar que b1 se distribuye de forma sea la varianza laest variable respuesta alrededor de laexplicativa. recta de regresin y mayores sean el tamao muestral y la de por la variable Adems, si el tamao principal limitacin es de que muy influenciada los valores extremos y, en este aproximadamente normal con ladispersin media y varianza descritas anteriormente,
b1 puede ~aplicarse 1 la sean el tamao muestral yde la la dispersin de variable Adems, si teorema el tamao muestral n es grande, una generalizacin del N (de 0, la 1)explicativa. . caso, puede no ser unsuficientemente fiel reflejo tendencia central distribucin.
muestral n es suficientemente grande, puede una generalizacin del teorema central del lmite (ver su versin ms en el Apartado 4.3.3) para demostrar que s x simple n 1 aplicarse Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se central del (ver su versin ms simple en el Apartado 4.3.3) demostrar que Para usolmite de este resultado, el parmetro desconocido de sustituirse por la desviacin b1hacer se distribuye de forma aproximadamente normal con laha media y para varianza descritas Para hacer uso de este resultado, el parmetro desconocido ha de sustituirse por la de b1 tpica residual svalores , que conlleva un error adicional de muestreo. La distribucin resultante utilizarn los del colesterol HDL obtenidos en los 10 primeros sujetos del b se distribuye de forma aproximadamente normal con la media y varianza descritas ser 1entonces ms dispersa que la normal, siguiendo aproximadamente una distribucin t de anteriormente, desviacin tpica s,Antioxidants, que conlleva un error adicional de muestreo. Student con los n 2residual grados de libertad correspondientes a la estimacin de laLa varianza residual, estudio European Study on Myocardial Infarction and Cancer of anteriormente, b1b 1ms 1 1 ~~ distribucin resultante deun b1 estudio ser entonces dispersa normal, realizado siguiendo t(n0 .casos N ) . que the Breast (EURAMIC), multicntrico de yla controles , 21 s b1 1 ~ aproximadamente una distribucin con sde Student n 1 N (0, los 1) n - 2 grados de libertad st entre 1991 y 1992 en ocho pases Europeos x x n 1e Israel para. evaluar el efecto de los
Cabe destacar que este resultado se ha independencia de la asuncin de normalidad correspondientes a la estimacin de varianza sderivado 1 con residual, x la n y, en consecuencia, vlido para cualquier distribucin subyacente la variable Cabe destacar este resultado se derivado con independencia de asuncin de Para hacer usoque dees este resultado, el ha parmetro desconocido ha dede sustituirse por la 5 respuesta, siempre que el tamao muestral sea suficientemente grande. normalidad y, en para cualquier distribucin subyacente de Para hacer uso deconsecuencia, este resultado, elvlido parmetro desconocido ha de sustituirse lala desviacin tpica residual s, quees conlleva un error adicional de muestreo. La por
variable respuesta, siempre el tamao un muestral sea suficientemente grande. desviacin tpica residual s,1que que conlleva error adicional muestreo. La distribucin resultante de b ser entonces ms dispersa que de la normal, siguiendo A partir de la distribucin muestral de b1 , el intervalo de confianza 100(1 - )% distribucin resultante de b1 ser entonces ms dispersa que la normal, siguiendo aproximadamente una distribucin t de Student con los n -2 grados deal libertad aproximadamente distribucin t la de Student con los n - 2 grados de libertad para la pendiente subyacente 1 de la recta de regresin viene dado por correspondientes auna la estimacin de varianza residual,
Pastor-Barriuso R.
27
173
A partir de la distribucin muestral b1, el intervalo . de confianza al 100(1 - )% b1 t nde 2 ,1 /2 s x n sea 1 suficientemente grande. variable respuesta, siempre que el tamao muestral para la pendiente subyacente 1 de la recta de regresin viene dado por Correlacin y regresin lineal simple partir de la el distribucin muestral de bhiptesis de confianza al 100(1 lineal - )% 1, el intervalo DeA igual forma, contraste bilateral de la de ausencia de asociacin
s . b1 para la pendiente subyacente y de la trecta regresin viene dado por el estadstico n 2 ,1H de /2 1 respuesta : = se realiza mediante entre las variables explicativa 0 1 A partir de la distribucin muestral de b1, el intervalo confianza al 100(1 )% para la s x n0 1de pendiente subyacente 1 de la recta de regresin viene dado por s b . b1 t t De igual forma, el contraste bilateral de hiptesis de asociacin lineal 2la ,1 /2 1 n , de ausencia = ss x n 1
s en el riesgo de desarrollar un primer agudo de miocardio en b el que se distribuye aproximadamente como una t de Studentde con n - 2 grados de libertad Para completar la infarto exposicin, se presentan intervalo confianza yel elestadstico test de t = H0: 1 0 se realiza mediante entre las variables explicativa y respuesta 1 =, hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, s Las medidas de tendencia central informan acerca de cul es el valor ms representativo ultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, aunque si la hiptesis nula esexposicin, cierta. Este test es equivalente de regresin lineal hiptesis para la constante de la recta de regresin, estas inferencias suelen Para completar la se presentan de confianza y el test de tener s x nel intervalo 1 al contraste 1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en b de una determinada variable o, de forma estos estimadores indican 1 , el equivalente, t =dicho ,96 y 1,53 mmol/l. La media de los niveles del colesterol HDL en simple presentado en el apartado anterior. De hecho, estadstico F del contraste de que se distribuye aproximadamente como una t de Student con n 2 grados de libertad si la escasa importancia porque la relacin en x = 0 carece de sentido en la mayora de las s hiptesis para la constante de la recta de regresin, aunque estas inferencias suelen tener estos 10 participantes es que senula distribuye aproximadamente como una t de Student con n 2 grados de libertad hiptesis es cierta. Este test es equivalente al contraste de regresin lineal simple presentado valor se se agrupan losndatos observados. Las medidas dede tendencia Para alrededor completarde la qu exposicin, presentan el de confianza y el test sx intervalo 1este ticipantes es en el regresin es igual al cuadrado del estadstico t de contraste, apartado anterior. De hecho, el estadstico F del contraste de regresin es igual al cuadrado aplicaciones. El estimador mnimo-cuadrtico de la constante b = y b x es una 0 en la mayora 1 escasa importancia porque la relacin en x = 0 carece de sentido de las la hiptesis nula es cierta. Este test es equivalente al contraste de regresin lineal delsi estadstico t de este contraste, 10 la muestra sirven tanto para resumir los resultados observados como para de +la +1 0,89 1,58 ... ,53 el intervalo hiptesis para1la constante de recta de regresin, aunque estas inferencias suelen Para central completar la exposicin, se+ presentan de confianza y el test de tener x x 1,223 = 10 2 = 2 mmol/l. que se distribuye aproximadamente como una t de Student con n 2 grados de libertad i = + 1 0 ,89 + 1,58 + ... 1 , 53 aplicaciones. El estimador mnimo-cuadrtico de la constante b = y b x es una combinacin lineal de dos estimadores independientes y y b que tienden a distribuirse 0 1 1 ( 1 ) b n s SSR 10 i =1 en el 2 1 x x = x i = simple presentado = 1,223 mmol/l. apartado anterior. De hecho, el F del contraste de A F =10 =parmetros =estadstico tsentido , realizar acerca de2los poblacionales 2 escasa importancia porque de la relacin en x = 0 carece de en correspondientes. la mayora de las hiptesis para lainferencias constante la recta de regresin, aunque estas inferencias suelen tener 10 i =1 10 s s si la hiptesis nula es Este test es equivalente al contraste detienden regresin lineal combinacin lineal decierta. dos estimadores independientes yde y lo b1 cual que a distribuirse de forma normal conforme aumenta el tamao muestral, se deduce que la es igual al cuadrado del estadstico t de este contraste, de regresin tal forma que ambos procedimientos lossentido mismos valores P es (la distribucin continuacin se describen losfacilitan principales estimadores de la tendencia central aplicaciones. El estimador mnimo-cuadrtico de la constante b = y b1 x una escasa importancia porque la relacin en x = 0siempre carece de la -mayora de las de una 0 en La media aritmtica presenta las siguientes propiedades: simple presentado en el apartado anterior. De hecho, el estadstico F del contraste de F de Fisher con 1 grado de libertad en el numerador y n 2 grados de libertad en el denominador de tal forma que ambos procedimientos facilitan siempre los mismos valores P (la distribucin muestral de b0 aumenta tambin ser aproximadamente media que la tica presenta las siguientes propiedades: de forma normal conforme el tamao muestral, de normal lo cual con se deduce 2 es, aplicaciones. por definicin, el cuadrado de la distribucin tde de Student con n 2 libertad). variable. El estimador mnimo-cuadrtico constante ygrados - b1 xade es una 1la ) b12 (n s SSR combinacin lineal de dos estimadores independientes y 2uno y b1 b que tienden distribuirse 0= Cambio de origen (traslacin). Si se suma una constante ax cada de los datos F = estadstico , = = t regresin es igual al cuadrado del t de este contraste, distribucin F de Fisher con 1 grado de libertad en el numerador y n 2 grados de 2 2 origen (traslacin).Para Si secompletar suma una constante atambin cada de los datos la exposicin, se uno presentan el confianza el test de hiptesis distribucin muestral de aproximadamente conymedia 0 sser sintervalo de normal E (bb 0) = E( y ) - E(b1) x = 0 + 1 x - 1 x = 0 laforma constante de la recta de regresin, aunque estas inferencias suelen tener escasa importancia de para una muestra, la media la muestra resultante es igual a laymedia inicial ms ladistribuirse 1.2.1 Media aritmtica combinacin lineal de dos estimadores independientes yb que tienden a de normal conforme aumenta el tamao muestral, de lo se deduce que la 1 cual libertad en el denominador es, por definicin, el cuadrado de la distribucin t de Student 2 2 tra, la media de la muestra resultante es a la media inicial ms porque la relacin en x =igual 0 carece deSSR sentido la mayora de las aplicaciones. El estimador (n 1 )la b1en sx )=E (= y ) - E(b + 1 = x t-2 x = 0 valores P (la E(b de tal forma que ambos procedimientos facilitan los mismos 1) x = 0siempre F ,1 de = 2y por 2 b es una combinacin lineal de dos estimadores mnimo-cuadrtico de constante b0 = =la xide +0 c, = x + c . Un cambio origen que y varianza constante utilizada; si y La media denotada x , se define como suma de cada uno de los iaritmtica, distribucin muestral b tambin ser aproximadamente con media de forma normal conforme aumenta el tamao muestral, de normal lo la cual se deduce que la 1 0 entonces s s con n 2 grados de libertad). + c , entonces y = x + c . Un cambio de origen que ilizada; si yi = xindependientes y b1 que tienden a distribuirse de forma normal conforme aumenta el tamao i distribucin F dese Fisher con 1 grado de libertad en el numerador yn2 grados de tambin ser aproximadamente muestral, de lo cual deduce que la distribucin muestral de b0 valores muestrales el nmero deconsiste observaciones realizadas. Si denotamos y varianza se realiza con frecuencia es de el centrado depor la variable, que en2restar a distribucin muestral b) tambin ser aproximadamente normal con media 0 dividida = E ( y ) E ( b ) x = + x x = E ( b x 0 1 1 mismos 0 valores P (la de tal forma que ambos procedimientos facilitan 2 0siempre 21 1 los normal con media n frecuencia es el centrado de la variable, consiste restar a= + . ) = es, var( y )definicin, + en var( b1) xel var(b0que 28 2 libertad en el denominador por cuadrado la distribucin t de Student n de ( n 1 ) s por n el tamao muestral y por x el valor observado para el sujeto x por i-simo, i = 1, ..., n, centrada 2ser, i una variable cada valor de la muestra su media. La media de Egrado ( y )E (b 0 + el 1numerador = E (bcon x1 1 x x distribucin F de de libertad y 0n - 2 grados de 0) = 1 1) x = 2 en e la muestra su media. La media de Fisher una variable centrada ser, por y varianza . y ) + var( b1 ) x = 2 var( b0) = var( + con n - 2 grados de libertad). 2 la media vendra dada 2 por (n 1) s x tanto, igual a 0. y varianza n Reemplazando el parmetro por su estimacin s2, el intervalo de confianza al Student 100(1 libertad en el denominador es, por definicin, el cuadrado de la distribucin t de a 0. y varianza 2 x una 2 2 1 datos de Cambio de escala (unidades). Si se multiplica cada uno nx x . 2 y ) + var( 2 los var( b b1 ) = de + + x 28 1 0) = var( 1 2 + ... + xde con n 2 grados de libertad). )% para la constante poblacional es 2 confianza Reemplazando el parmetro por su estimacin s , el intervalo al 100(1 0 escala (unidades). Si se multiplica cada uno de los datosxde . = una xi = n (n 1)n sx 2 n n i =1 2 21 muestra por una constante, media de la muestra es+ igualxa la media . var( ysu ) + var( b1) resultante x s= var(la b 2 2 0) = 2 Reemplazando el parmetro por estimacin , el intervalo de confianza al 100(1 )% )% para la constante poblacional es 0 a la media una constante, la media de la muestra resultante es igual 2n ( n 1 ) s x 2 2 1 x 28 para la constante poblacional si es Reemplazando el utilizada; parmetro por su estimacin s ,cel de confianza al 100(1 b cx t n + 0 y0i = y = xms .intervalo inicial por la constante i, 2 ,entonces 1 / 2 s La media es la medida de tendencia central 2 utilizada y de ms fcil n ( n 1 ) s x a constante utilizada; si yi = cxi, entonces y = c x . 2 2 x2 1 Reemplazando el parmetro por su estimacin s , el intervalo de confianza 100(1 -Su )% para la constante poblacional es 0 b0 Si t n + cada interpretacin. Corresponde al centro de gravedad de los datos de la al muestra. Cambio simultneo de origen y escala. se multiplica uno los datos de /2s 2 ,1 2 de n ( n 1 ) s ultneo de origen y Si se multiplica cada uno de los datos de y escala. el estadstico del contraste de la hiptesis nula H0: 0 = x0 es )% para la constante poblacional 0 es principal limitacin es que est muy influenciada extremos y, en este una por una y al resultado se le suma otra 2constante, la media y muestra el estadstico delconstante contraste de la hiptesis nula H espor los valores 1 0: 0 =x0 por una constanteyyel alestadstico resultado se lecontraste suma otra media bconstante, hiptesis t n 2,1 /la +H : = 2 0 la 2 s nula del de 0 es ntendencia 0 (0 n 1) scentral b x constante, 0 puede ser a un reflejo de la de la distribucin. de la muestra caso, resultante esno igual lafiel media inicial por la primera ms la 2 , t= 1 x 2 a resultante es igual a la media inicial por la primera ms b0 tconstante, + x la n 2 ,11 /2s 2 + s n 1) s x (n b y = c x + c , entonces y = c x + c segunda constante; si 2. 0 i 1 i 2 1 2 n nula (n H 1)0 s:x0 y el estadstico del contraste de lat hiptesis , = 0 es sobre estimadores muestrales, se = En ejemplos y = c1 x1.4 +c stante; si yi = c1xi + c2, entoncesEjemplo 2. este y en los sucesivos 1 x2 s distribucin + que H0 seguir aproximadamente una 2de Student con n 2 grados de libertad. ybajo el estadstico del contraste de la hiptesis :tx 0 obtenidos = 0 es n nula (n H 1 )0s utilizarn los valores del colesterol HDL en los 10 primeros del b Ejemplo Para los valores deluna colesterol HDL de a con mg/dl seguir aproximadamente distribucin t demmol/l Student n -se 2 grados sujetos de que1.5 bajo H0 transformar 0 , t = Para transformar los valores del colesterol HDL de mmol/l a mg/dl2 se 1 x estudio European38,8. Study on + Antioxidants, Myocardial Infarction and Cancer of sAs, b0 multiplica por el factor de aproximadamente conversin utilizando propiedad del libertad. seguir una distribucin de Student con n - 2 grados de que bajo H 2 la t 0 , t = 174 Pastor-Barriuso R. n ( n 1 ) s x or el factor de conversin 38,8. As, utilizando la propiedad del 1 estudio x 2 multicntrico de casos y controles realizado the Breast (EURAMIC), un s en + mg/dl se cambio de escala, la media del colesterol HDL calculara libertad. 2 n (n 1) s x scala, la media delque colesterol HDL en mg/dl se calculara Ejemplo 10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los Student con n - 2 grados de bajo H seguir aproximadamente una distribucin t de
0
sH =de 0 se realiza de mediante el estadstico variables explicativa y respuesta 11 Deentre iguallas forma, el contraste bilateral de la hiptesis ausencia asociacin lineal entre las x 0:n De igual forma, el contraste bilateral de la hiptesis de ausencia de asociacin variables explicativa y respuesta H0: un 0 se realiza mediante el miocardio estadsticoen lineal 1 =primer 1.2 MEDIDAS DE TENDENCIA CENTRAL antioxidantes en el riesgo de desarrollar infarto agudo de
constante es 0,283 2 s 2 1 x 1 estndar 26,0de SE ( b ) = = 0,0035. = 1 1,69, b1 s= -0,023 s = 0,283. El error la estimacin de la fueron b0 = lineal simple = 0,092Regresin + y = 0 , 283 + SE (b0) = s n 3,50 532 2 1 n (n x1) s x 533 532 3,50 2 1 x2 1 26,0 2 constante es = 0,092 + y s = 0,283. = 0,283 + =1 s SE (b0) b 1,69, = -0,023 El error estndar de la fueron b0 = 2 2 estimacin de la 533 (n 1) s 3, 50regresin Los ICs al 95% para lan constante yx la pendiente de la532 recta de Ejemplo 10.9 Las estimaciones puntuales obtenidas en el Ejemplo 10.7 para los y de la pendiente 2 2 constante esde la regresin parmetros HDL 1 sobre el ndice de masa corporal fueron 1 del x colesterol 26,0 poblacional son entonces s = 0,092 + = 0 , 283 + ) = SE ( b 0 b = 1,69, b1 = 0,023 y s = 0,283. 2 El error estndar de la estimacin de la constante es y0de la pendiente n (n 1) s 533 532 3,50 2 sx 0,283 SE(b1) = 2 = 0,0035. = 2 1 SE(x 1 26,0 s n 1 3,50 532 t b ) = 1,69 1,96 0,092 = (1,51; 1,87) b x 0 531;0,975 0 + + = 0,092 SE(b0 ) = s 2 s2 = 0,2830,283 n 533 ( n 1 ) s 532 3 , 50 = 0,0035. x = y de la pendiente SE(b1) = s x n 1 3,50 532 y de ICs la pendiente Los al 95% para la constante y la pendiente de la recta de regresin y s 0,283 y de la pendiente SE ( b 0,0035. = 1) = poblacional son entonces Los ICs al b 95% constante y pendiente de la= recta de regresin s -0,023 n la 1 3,50 532 t para laSE (b ) = 1,96 0,0035 = (-0,030; -0,016).
s 0,283 poblacional son entonces Los ICs al 95% la constante y la pendiente de la de regresin poblacional son = recta 0,0035. (b = 1) = tSE b0para 531;0,975SE(b0) = 1,69 1,960,092 = (1,51; 1,87) s xpuede n la 1 3,50 532 Del para la pendiente concluirse con confianza del 95% que Los intervalo ICs al 95% para la constante y pendiente de la una recta de regresin entonces
1 531;0,975 1
x
b 0 t531;0,975 SE(b0 ) = 1,69 1,960,092 = (1,51; 1,87) y el nivel medio de colesterol HDL en la poblacin de referencia del estudio poblacional son entonces Los ICs al 95% para la constante y la pendiente de la recta de regresin y significativa ya que el contraste de la hiptesis nula H0: 1 = 0 mediante el EURAMIC disminuye entre 0,016 y 0,030 mmol/l por ( cada incremento de 1 y b t531;0,975 SE (bSE 0,023 1,96 0,0035 0,030; b1son 0,016). 1) = poblacional entonces t531;0,975 (b = 1,69 1,96 0,092== (1,51; 1,87) 0 0) estadstico 2 kg/m en el ndice dependiente masa corporal. general, con el intervalo de confianza para elel nivel Del intervalo para la puedeEn concluirse una confianza del 95% que t531;0,975 SE(b1) = puede -0,023concluirse 1,960,0035 = (-0,030; -0,016). b1 Del intervalo para la pendiente con una confianza del 95% que t SE ( b ) = 1,69 1,96 0,092 = (1,51; 1,87) b y medio de colesterol HDL en la poblacin de referencia del estudio EURAMIC disminuye 0 531;0,975 0 2 la variable explicativa b 0,023 efecto subyacente c a cualquier incremento c en entre 0,016 y 0,030 mmol/l por cada incremento de 1= kg/m en el ndice de masa corporal. 1 1 asociado = -6,63 t = el nivel medio de colesterol HDL en la poblacin de referencia Del intervalo para la pendiente puede concluirse con una confianza del 95% que En general, el de para efecto subyacente del c1 estudio asociado a cualquier SE (b ) el 0,0035 y intervalo t531;0,975SE (bconfianza b1 1) = -0,0231 1,960,0035 = (-0,030; -0,016). incremento c en la variable obtienepara multiplicando losincremento, lmites del intervalo se obtiene multiplicando losexplicativa lmites del se intervalo 1 por dicho EURAMIC disminuye entre HDL 0,016en y 0,030 mmol/lde por cada incremento de 1 el nivel medio de incremento, colesterol la poblacin referencia del estudio para 1 por dicho -6,63) 2 (-6,63) < 0,001. Notar que este resulta en un valor P bilateral 2 P ( t t531;0,975 SE(b1) = puede -0,023 1,960,0035 (-0,030; -0,016). b1 531 Del intervalo para la pendiente concluirse con = una confianza del 95% que 2 t SE ( cb ) = c { b t SE ( b )}. cb 1 masa n 2,1 /2 1 1 nel 1de confianza 0,016 2,1 /2 kg/m en el ndice de corporal. En general, intervalo EURAMIC disminuye entre y 0,030 mmol/l por cada incremento depara 1 el test arroja elde mismo valorHDL P que ella contraste dede regresin deldel ejemplo anterior ya el1.2 nivel medio colesterol en poblacin referencia estudio As, por ejemplo, con un primer nivel de confianza del 95%, los confianza incrementos una desviacin MEDIDAS TENDENCIA CENTRAL intervalo paraDE la pendiente puede concluirse con una delde 95% que antioxidantes en elDel riesgo de desarrollar un infarto agudo de miocardio envariable 2 efecto subyacente c asociado a cualquier incremento c en la explicativa kg/m en el ndice de masa corporal. En general, el intervalo de confianza para el media 1 2 un nivel de confianza del 95%, los incrementos de una As, por ejemplo, con tpica c = 3,50 kg/m en el ndice dela masa seH asocian con una disminucin mediante el significativa ya que el contraste de hiptesis nula 0 : 1 = 0 2 corporal 2 EURAMIC disminuye entre y 0,030 mmol/l cada y incremento de 1 que 2 P(t531 = P( t0,016 6,63 )= P (F = 43,93). 1,531 por 531 poblacional en el-6,63) colesterol HDL de entre 3,50 1,29, 0,016 0,057 3,500,030 = 0,105 mmol/l. el nivel medio de colesterol HDL en la poblacin de referencia del estudio hombres adultos. Los valores obtenidos fueron 0,89, 0,79, 1,42, 0,84, 2 1,58, Las medidas de tendencia central informan acerca de cul es el valor ms representativo se obtiene multiplicando los lmites del intervalo para por dicho incremento, efecto subyacente c asociado a cualquier incremento c explicativa 1 en la variable desviacin tpica c = 3,50 kg/m en el ndice de masa corporal se asocian con una 1 Por supuesto, esta disminucin es estadsticamente significativa ya que el contraste de la estadstico kg/m2 en el ndice de masa corporal. En general, el intervalo de confianza para el EURAMIC disminuye entre y 0,030 mmol/l por cada de 1 hiptesis nula H0 : 1 =variable 0 mediante el estadstico 1,06, 0,87, 1,96 y 1,53 mmol/l. La media de los0,016 niveles del colesterol HDL en incremento de una determinada o,en dicho de forma equivalente, estos estimadores indican se obtiene multiplicando los lmites del intervalo para por dicho incremento, disminucin media poblacional el colesterol HDL de 3,50 0,016 = 0,057 1entre ( cb ) = c { b t SE ( b )}. cb1 tn-2,110.3.4 Bandas de confianza y prediccin para la recta de regresin /2SE 1 1 n -2,1 /2 1 0,incremento 023 efecto cualquier c en la variable explicativa 2 subyacente c1 asociado ab 1 kg/m ndice masa En general, el de confianza el = datos = = 6,63 Las intervalo estos 10 participantes es en el de alrededor qu de valor setcorporal. agrupan los observados. medidas de para tendencia SE (supuesto, b1 ) 0,0035 y 3,50 0,030 = 0,105 mmol/l. Por esta disminucin es estadsticamente Adems de ejemplo, realizar inferencias sobre SE es a)}. menudo interesante tn SEconfianza (los cb1parmetros ) = c{b tn (b1 cb1 un 0y 1,incrementos -2,1/2 1 95%, -2,1 /2 As, por con nivel de del los de una se obtiene multiplicando los lmites del intervalo para por dicho incremento, 1 en efecto subyacente c asociado a cualquier incremento c la variable explicativa 1 10 resulta en un valor P bilateral 2 P ( t 6,63) 2 F ( 6,63) < 0,001. Notar que este central de la muestra sirven tanto para resumir los resultados observados como paratest 531 1 0,89 + 1,58 + ... + 1,53 xcalcular x = 1,223 mmol/l. = arroja =un valor 30 2 intervalos de confianza para la propia recta de regresin + x . Ms i el mismo valor P que el contraste de regresin del ejemplo anterior ya que -6,63) 2 (-6,63) < 0,001. Notar que este resulta en P bilateral 2 P ( t 0 1 531 desviacin tpica c =10 3,50 kg/mde en el ndicedel de masa corporal se asocian con una 2P(t531 As, por ejemplo, con un nivel confianza 95%, los incrementos de una 10obtiene i =1 2 2 se multiplicando los lmites del intervalo para por dicho incremento, t SE ( cb ) = c { b t SE ( b )}. cb 1 1 -2,1 1 1 poblacionales n-2,1-/2 1 inferencias acerca de parmetros correspondientes. A realizar 6,63) = P(t 531 6,63 )n= P (/2 Flos 1,531 43,93). 2 concretamente, dado un determinado valor x de la variable explicativa, se pretende test arroja el mismo valor queen el contraste del ejemplo anterior ya 0 de disminucin media poblacional HDL entre 3,50 0,016 = 0,057 desviacin tpica c= 3,50 P kg/m enel elcolesterol ndice de regresin masa de corporal se asocian con una continuacin se describen los principales estimadores de la tendencia central tny SE( cb1) para = c{b tn-2,1- (b1)}. cb1 As, porlas ejemplo, con un nivel confianza del 95%, los incrementos de una de una -2,1/2de 1 /2SE La media aritmtica presenta siguientes propiedades: 10.3.4 Bandas de confianza prediccin la recta de regresin 2el valor esperado + x de la variable 2 obtener un intervalo de confianza para 0 entre 1 es 0 que 2P (t531 media -6,63) =mmol/l. P( t 531 6,63 ) colesterol = P(F1,531 43,93). y 3,50 0,030 = 0,105 Por supuesto, estaHDL disminucin estadsticamente disminucin poblacional en el de 3,50 0,016 = 0,057 2 variable. Adems de realizar inferencias sobre los y , es a menudo interesante calcular desviacin tpica c = 3,50 kg/m en parmetros el a ndice de masa corporal se asocian con una Cambio de origen (traslacin). Si se suma una constante cada uno de los datos 0 1 As, porEl ejemplo, conpuntual un nivel de confianza del 95%, los incrementos de y una respuesta. estimador de este valor esperado es + b x = + b ( x y = b 0 1 0 1 0intervalos de confianza para la propia recta de regresin + x . Ms concretamente, dado un 0 y 3,500,030 = 0,105 mmol/l. Por supuesto, esta disminucin es estadsticamente 0 1 30 determinado valor x0aritmtica de variable explicativa, se pretende obtener unasocian intervalo deuna confianza disminucin media poblacional en el colesterol HDL de entre 3,50 0,016 con = 0,057 2 1.2.1 de Media de una muestra, la desviacin media la muestra resultante es igual a la media inicial ms la tpica c la = 3,50 kg/m en elpara ndice de masa se 10.3.4 Bandas de confianza y prediccin la recta decorporal regresin para valor esperado 0 + 1x0 de la anlogo variable al respuesta. El estimador puntual una de este x el ) que, siguiendo un razonamiento del apartado anterior, presenta 30 valor esperado es = b + b x = + b ( x ) que, siguiendo un razonamiento anlogo La media aritmtica, denotada por x , se define como la suma de cada uno de los y = x + c , entonces y = x + c . Un cambio de origen que constante utilizada; si y 3,50 0,030 = 0,105 mmol/l. Por supuesto, esta disminucin es estadsticamente 0i 0 inferencias 1 poblacional 0 1 los 0 el Adems dei realizar sobre parmetros , es a menudo interesante disminucin media en colesterol HDL de entre 3,500,016 = 0,057 al del 0 y 1 distribucin aproximadamente normal en muestras suficientemente grandes, apartado anterior, presenta una distribucin aproximadamente normal con en media muestras valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos suficientemente grandes, con media se realiza con frecuencia es el centrado de la para variable, que consiste en restar a es 30 calcular intervalos de confianza la supuesto, propia recta dedisminucin regresin 1x. Ms y 3,50 0,030 = 0,105 mmol/l. Por esta 0 + estadsticamente 0 ) = E( y ) + E(b1 )(x0 x ) = 0 + 1 x + 1 (x0 x ) = 0 + 1 x0 E( y por nsu elmedia. tamao muestral y por xvariable observado para el sujeto i-simo, i = 1, ..., n, i el valorcentrada cada valor de la muestra La media de una ser, por concretamente, dado un determinado valor x0 de la variable explicativa, se pretende 30
la media vendra dada por tanto, igual a 0. y varianza obtener un intervalo de confianza para el valor esperado 0 + 1x0 de la variable
Cambio de escala (unidades). Si se multiplica cada uno n los datos de una ... +b x + x2 + x 1 de respuesta. El estimador puntual de este valor =2 y + b1 ( x 0 y = 1 (+ x x) 0n 1 x0 20 .0b = x x i = 1 2 es esperado
explicativa. Esta banda de confianza est DE delimitada por las ramas de una hiprbola y su 1.2 MEDIDAS TENDENCIA CENTRAL
176
Las tendencia 2 0 )en E( y y )x+ (b1)(x0 - x )a= 1 x + (medidas x0aleja - x )de =de 1x0 central informan acerca de =E (= 0+ 1 0+ (1 x x ,E aumentando medida que x se su media amplitud es mnima x0 0) 0 Las tendencia acerca de cul es el valor ms representa Correlacin y regresin lineal simple b0 +medidas b1 x 0 t nde . +central informan 2 ,1 / 2 s 2 n (n de 1) suna determinada variable o, dicho de forma equiv x la intuicin de que el valor de la variable muestral x , lo que confirma de una determinada variable o, esperado dicho de forma equivalente, estos estimadores indica y varianza alrededor de qu valor se agrupan los datos observad y varianza La bandapuede de confianza para la recta de regresin no es ms que la representacin respuesta estimarse con mayor centrados en valores alrededor de precisin qu valoren se valores agrupan los datos que observados. Las medidas de tendencia ( x0 x ) 2 sirven tanto para resumir los re 2 2 1 central de la muestra . 0explicativa. x ) observado var( y y)+ var( b1 )( x0rango = )= grfica dede estos intervalos a var( lo largo de todo el de 2 extremos la variable n + (nla variable 1) s central de la muestra sirven tanto para los resultados observados como para x resumir realizar inferencias acerca de los parmetros poblaci 2 de una hiprbola y 2 su explicativa. Esta banda confianzatest delimitada por las ramas Por tanto, utilizando la de distribucin resultante de sustituir por la estimacin s , se tiene n 2 realizar inferencias acerca de los parmetros poblacionales correspondientes. A 2 2 Ejemplo 10.10 Para cada valor fijo x del ndice de masa corporal, el modelo de 0 que el intervalo de confianza al 100(1 )% para el valor esperado describen Por tanto, utilizando la distribucin tn resultante de sustituir por la estimacin s principales , se -2 0 + 1x 0 es continuacin se los estimadore amplitud es mnima en x0 = x , aumentando a medida que x0 se aleja de su media continuacin se describen los principales estimadores de la tendencia central de una (esperado x 0el valor x ) 2 del regresin lineal estima un IC al 95% parael valor colesterol HDL 1 para tiene que el intervalo de confianza al 100(1 )% esperado 0 + 1x0 de es variable. b0 + b1 x 0 t s . + 1.2 DE TENDENCIA CENTRAL ,1 / 2 n 2MEDIDAS 2 esperado de la variable muestral x , lo que confirma la intuicin de que el valor n (n 1) s x variable. 2 ( 26 ,0) x 0 que 1 es Media aritmtica La bandapuede de confianza para recta de regresin no ms la representacin grfica respuesta estimarse con mayor precisin en valores centrados que valoresacerca Las de tendencia central informan dede cul es el valor m 1,69 023 1 ,96 0,283 0,la x0 medidas +1.2.1 . en 2 La intervalos banda de a confianza para la el recta de observado regresin no la representacin estos lo largo1.2.1 de todo rango dees la ms variable explicativa. Esta banda de Media aritmtica 533 532 3,50 que La media aritmtica, denotada por x ,, se define com confianzade est por las ramas de una hiprbola yvariable su amplitud es mnima enequivalente, x extremos la delimitada variable explicativa. de una determinada o, dicho de forma estos estim 0 = aumentando medida que x0 se aleja de su media muestral lasuma intuicin de uno de los grfica de a estos intervalos a lo largo de todo el rango observado de confirma la variable x ,, lo se que define como la de cada La media aritmtica, denotada por 31 reaesperado en gris oscuro de la Figura 10.9 representa la banda de confianza al 95% que elEl valor de la variable respuesta puede estimarse con mayor precisin en valores valores muestrales dividida por el nmero observd alrededor de qu valor se agrupan los datos observados. Las de medidas centrados que en valores extremos defijo la est variable explicativa. explicativa. Esta banda de confianza delimitada por las ramas una hiprbola y su Ejemplo 10.10 Para cada valor x0 del ndice de masa corporal, el modelo derealizadas. valores muestrales dividida por el nmero dede observaciones Si denotamo para toda la recta de regresin del colesterol HDL sobre de masa y por xi el valor observado por sirven nel elndice tamao muestral central de la muestra tanto para resumir los resultados observad = x , aumentando a medida que x se aleja de su media amplitud es mnima en x regresin lineal estima un IC al 95% para el valor esperado del colesterol HDL de por n el tamao muestral y por x el valor observado para el sujeto i-simo, i = 1, ..., 0corporal, el modelo i Ejemplo 10.10 Para0cada valor fijo x0 del ndice de masa de regresin corporal, que se obtiene de calcular estos intervalosla en sucesivos valores dentro media de vendra dada lineal estima un IC al 95% elrealizar del colesterol HDL de por poblacionales correspond inferencias los parmetros 1,69 para - 0,023 valor 32 esperado 1,96 0,024 =acerca (0,90; 1,00). la vendra intuicin de que la variable muestral x , lo que confirma la media dada porel valor esperado de 2 del rango observado del ndice de masa corporal. lmites esta banda de (x 26 ,de 0)principales 1 Los continuacin los estimadores . 1,69 0,023 x 0 1 ,96 0,283 se describen + 0 x + x2 + 1 nde la tendencia 2 533 = x xi = 1 respuesta puede estimarse con mayor precisin en valores centrados que en valores 532 3 , 50 n x1 + x 2 + ... + x n 1 confianza tienen forma de hiprbola y su amplitud aumenta gradualmente n i =1 n 1,69 - 0,023 32 1,96 0,024 = (0,90; 1,00). . x= xi = variable. [Figura 10.9 aproximadamente aqu] El rea en gris oscuro de la Figura 10.9 representa la banda de confianza al 95% para toda n n i =1 extremos de la variable explicativa. 2 la recta dex regresin del colesterol HDL sobre el ndice de masa corporal, que se obtiene El rea en gris de la Figura representa la ndice banda de masa confianza al 95% aleja de la media x 10.9 = 26,0 kg/m del corporal. As, conforme 0 se oscuro La media es la medida de tendencia 1.2.1 Media aritmtica de calcular estos intervalos en sucesivos valores dentro del rango observado del ndice de central ms u La recta de regresin puede utilizarse no slode para estimarcentral la media poblacional de la La media es la medida tendencia ms utilizada y de ms masa corporal. Los de esta banda de confianza tienen forma de hiprbola y su fcil para toda la 10.10 recta de regresin del colesterol HDL sobre el ndice de masa por ejemplo, el IC allmites 95% para el valor del colesterol HDL entre los sujetos [Figura 10.9 aproximadamente aqu] Ejemplo Para cada valor fijo xmedio de masa corporal, el modelo de 0 del ndice interpretacin. Corresponde alcomo centro de gravedad 2 media aritmtica, por x ,= se define la suma de cada de la media 26,0 kg/m del amplitud aumenta gradualmente La conforme x0 se alejadenotada de la variable variable respuesta entre los sujetos con un determinado valorde x0 gravedad 2 interpretacin. Corresponde al centro de los datos de la muestra. Su corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro , IC con unde ndice de masa corporal de 25 kg/m ndice masa corporal. As, por ejemplo, el al 95% para el valor medio del colesterol regresin lineal estima un IC al 95% para el valor esperado del colesterol HDL de principal limitacin es que po 2 valores muestrales dividida por el deest observaciones realizadas La recta de regresin utilizarse slocorporal para estimar la media poblacional de muy la influenciada , nmero HDL entre los sujetospuede con un ndice de masa de 25 kg/m sujeto explicativa, sino tambin para predecir lano respuesta individual y 0 de un nuevo principal limitacin es que est muy influenciada por los valores extremos y, en este del rango observado del ndice de masa corporal. Los lmites de esta banda de 1,69 0,02325 1,960,013 = (1,09; 1,14), no ser 2 puede un fiel reflejo de la tendencia cen porun n el tamao muestral y x) el valor observado para el sujeto i -s (x 26,la 0 de variable respuesta entre la los sujetos con determinado valor 1caso, i variable 0 por 0x estructura del modelo de regresin lineal, el valor subyacente dado su valor x0. Segn 1 , 69 0 , 023 1 , 96 0 , 283 x + . caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. 2 0 2 confianza tienen forma de hiprbola y su amplitud aumenta gradualmente es sensiblemente ms preciso que entre aquellos con un ndice 533 532de ,50 corporal de 32 kg/m , 3masa la media vendra dada por es sensiblemente ms preciso que entre aquellos con un ndice de un masa corporal de nuevo sujeto explicativa, sino tambin para predecir la respuesta individual y 0 0,023 1,69 32 1,96sujeto 0,024 = (0,90; 1,00). Ejemplo 1.4 En este y en los sucesivos ejempl por y0 = de la variable respuesta para un determinado con x=x 0 viene dado 0+ de masa corporal. As, conforme x0 se aleja de la media x = 26,0 kg/m2 del ndice Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales 2 gris oscuro de la Figura 10.9 representa la banda de confianza al 95% El valor rea en de su 32 kg/m subyacente dado x,0. Segn la estructura del modelo de regresin lineal, el valor n + + ... + x x x 1los poblacional utilizarn valores colesterol 0 = b La recta regresin puede utilizarse no slo para estimar media de la n HDL obten 1xpor + ejemplo, 0, de cuyo estimador insesgado de nuevo ya y 1 del 2 0 0+b 1x0la . = entre x que x el IC al 95% para el es valor medio del colesterol HDL los i = sujetos utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos variable respuesta entre los sujetos con un determinado valor x de la variable explicativa, sino n n 32 0 = i 1 para toda la recta de regresin del colesterol HDL sobre el ndice depor masa viene dado y = + de la variable respuesta para un determinado sujeto con aqu] x =x 0 0 0 [Figura 10.9 aproximadamente estudio European on Antioxidants, Myo dado su valor Study x0. Segn la tambin para predecir la respuesta individual y0 de 2 un nuevo sujeto con un ndice de masa de 25 + kg/m corporal E( y0 regresin - y + E(0,)Study - 0 - on 1 x E( 0variable ) = 0.Myocardial = 0 1 x0 0= estudio European Antioxidants, Infarction and Cancer o 0) estructura del modelo de lineal, el valor subyacente de la respuesta para un corporal, que se obtiene de calcular estos intervalos en sucesivos valores dentro x + , cuyo estimador insesgado es de nuevo + b x ya que y = b La media es la medida de tendencia central ms utilizada y de ms 1 0 0 0 1 0 0 Breast (EURAMIC), un es estudio multicnt , cuyo estimador insesgado determinado sujeto con x = x0 viene dado por y0 = 0 + 1x0 + the La recta de regresin puede utilizarse no slo para estimar la0 media poblacional de la 1,69 0,023 25 1,96 0,013 = (1,09; 1,14), the Breast (EURAMIC), un estudio multicntrico de casos y controles realiza b + b x ya que de nuevodel 0 = 0 1 0 rango observado del ndicey depor masa corporal. Los lmites de esta banda de Asimismo, como el valor estimado es independiente la recta de regresin en x 0 interpretacin. Corresponde al centro de gravedad de los datos deela 0 entre 1991 y 1992 en ocho pases Europeos I 0 ) = 0 E(ylos + un + E( 0 ) 0 1 x0 x = (la = 0. y de variable respuesta entre con valor 0E 0 sujetos 1 x0determinado 0 ) variable entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de lo confianza tienen forma de hiprbola su amplitud aumenta gradualmente sensiblemente ms preciso queprincipal entre y aquellos con un ndice de masa corporal por los valores extre limitacin es queen est influenciada que de es la nueva observacin y 0, se sigue Asimismo, como el valor estimado 0 por la recta de regresin x0 muy es independiente de la explicativa, sino tambin para predecir la respuesta individual y0 de un nuevo sujeto 2 nueva observacin y , se sigue que 2 0 x Asimismo, como el valor es independiente y por la recta de regresin en x0 0 se alejaestimado de la media 26,0 kg/m ndice de masa As, , x0 de conforme 32 kg/m caso,= puede no ser del un fiel reflejo de lacorporal. tendencia central de la distribuc 2 ( x 0 el x ) subyacente 1lineal, valor dado su valor x0. Segn la estructura del modelo de regresin 2 1 + al 0medio 0) + ; y ),95% = var( y ) = del var(y + 32 0 0 2 por ejemplo, el IC para elvar( valor HDL entre los sujetos colesterol se sigue que de la nueva observacin y0 n ( n 1 ) s x Ejemplo 1.4 En y en lospor sucesivos sobre estimado viene dado y0 = 0 ejemplos + de la variable respuesta para un determinado sujeto con x= x0este con un ndice de masa corporal de 25 kg/m2, x0 x ) 2regresin 1 la (recta 2 decir, la prediccin de una nueva observacin a partir de de ; utilizarn los valores del colesterol HDL obtenidos en los 10 pri var( y ) + var( y ) = var( y ) = 1 + + 1xes + , cuyo estimador insesgado es de nuevo + b x ya que y = b 0 0 0 0 0 0 0 0 0 2 1 n (n 1) s x Pastor-Barriuso R. 1,69 - 0,02325 1,960,013 = (1,09; 1,14), estimada est sujeta a dos fuentes de error: la varianza inherente de on cada respuesta Myocardial Infarction estudio European Study Antioxidants, 0 ) = 0 + 1x0 + E(0) - 0 - 1x0 = E(0) = 0. E(y0 - y es decir, larespecto prediccin de una nueva observacin a partir de la ndice recta de regresin es sensiblemente ms preciso que entre aquellos con un de masa corporal individual a la recta de regresin subyacente el error en la estimacin de the Breast y (EURAMIC), un estudio multicntrico de casos y co
explicativa, sino tambin para predecir la respuesta individual y0 de un nuevo sujeto dado su valor x0. Segn la estructura del modelo de regresin lineal, el valor subyacente de la variable respuesta para un determinado sujeto con x = x0 viene dado por y0 = 0 +
2,25
0 = b0 + b1x0 ya que 1x0 + 0, cuyo estimador insesgado es de nuevo y 2

0 ) = 0 + 1x0 + E(0) - 0 - 1x0 = E(0) = 0. E(y0 - y

1,5
0 por la recta de regresin en x0 es independiente Asimismo, como el valor estimado y de la nueva1observacin y0, se sigue que
1 ( x0 x ) 2 2 var(y0 - y 0 ) = var(0) + var( y 0 ) = 1 + + 2 n (n 1) s x
0,5 0,25
es decir, la prediccin de una nueva observacin a partir de la recta de regresin estimada est sujeta a dos fuentes de error: la varianza inherente de cada respuesta
Indice de masa corporal (kg/m) 20 24 28 32 36
Figura 10.9 Bandas de confianza (rea en gris oscuro) y prediccin (rea en gris claro) al 95% para la recta de regresin del colesterol HDL el ndice de masa corporal en el grupo control del estudio EURAMIC. 0 se distribuye de forma normal (asuncin dicha recta. Adems, si elsobre trmino de error
individual respecto a la recta de regresin subyacente y el error en la estimacin de Figura 10.9
0 tambin seguir y distribucin normal,estimada de tal est de normalidad), la diferencia y0 - observacin es decir, la prediccin de una nueva a partir una de la recta de regresin sujeta a dos fuentes de error: la varianza inherente de cada respuesta individual respecto a la recta de regresin subyacente y el error al en100(1 la estimacin de una dicha recta. Adems, si el trmino nueva observacin forma que el intervalo de prediccin - )% para de error 0 se distribuye de forma normal (asuncin de normalidad), la diferencia y0 0 tambin seguir una distribucin normal, de tal forma que el intervalo de prediccin al 100(1 )% para individual y0 es una nueva observacin individual y0 es
2 1 ( x0 x ) b0 + b1 x 0 t n 2,1 / 2 s 1 + + . 2 n (n 1) s x
La banda de prediccin viene entonces determinada por estos intervalos de prediccin en los 33 distintos valores observados x0 de la variable explicativa. En general, la banda de prediccin ser substancialmente ms amplia que la banda de confianza, particularmente cuando el tamao muestral es grande, lo que refleja el hecho de que existe mucha ms incertidumbre en la prediccin de la respuesta individual de un nico sujeto que en la estimacin del valor medio de la variable respuesta para todos los sujetos con un mismo valor de la variable explicativa. Cabe destacar, por ltimo, que los intervalos de confianza para el valor esperado de la variable respuesta se basan nicamente en las asunciones de linealidad y homogeneidad de la varianza, mientras que los intervalos de prediccin para una nueva observacin requieren adems de la hiptesis de normalidad, siendo estos ltimos incorrectos si la distribucin subyacente de la variable respuesta no es normal. Ejemplo 10.11 A partir del modelo de regresin lineal del colesterol HDL sobre el ndice de masa corporal se tiene que el intervalo de prediccin al 95% para el nivel de colesterol HDL de un sujeto con un ndice de masa corporal x0 es
Ejemplo 10.11 A partir del modelo de regresin lineal del colesterol HDL sobre el
ndice de masa corporal se tiene que el intervalo de prediccin al 95% para el nivel de colesterol HDL de un sujeto con un ndice de masa corporal x0 es ( x 26,0) 2 1 . + 0 533 532 3,50 2
1,69 0,023 x 0 1,96 0,283 1 +
El clculo de estos intervalos en distintos valores x0 del ndice de masa corporal da lugar a la banda de prediccin en gris claro de la valores Figura 10.9. Al igual de que la banda de confianza, El clculo estos intervalos en distintos x0 del ndice masa corporal la banda de prediccin est centrada alrededor de la recta de regresin estimada, pero su amplitud mayor al incorporar variabilidad de cada respuesta individual da lugar aes lanotablemente banda de prediccin en gris claro la de la Figura 10.9. Al igual que la respecto a su valor esperado. Por ejemplo, el intervalo de prediccin al 95% para el nivel 2 de centrada ndice dealrededor masa corporal vienede dado por de colesterol HDL de sujeto 25 kg/m banda de confianza, laun banda decon prediccin est de la recta
1,69 0,02325 1,960,284 = (0,56; 1,67), regresin estimada, pero su amplitud es notablemente mayor al incorporar la que es mucho ms impreciso que el intervalo de confianza calculado en el ejemplo anterior que ms impreciso que el intervalo de los confianza calculado el del ndice de paraes el mucho valorde medio del colesterol HDL en todos sujetos con dichoen valor variabilidad cada respuesta individual respecto a su valor esperado. Por masa corporal (IC al 95% 1,09-1,14 mmol/l). ejemplo anterior parade el prediccin valor medio colesterol HDLde encolesterol todos los HDL sujetos ejemplo, el intervalo aldel 95% para el nivel decon un
10.3.5 Evaluacin de las 2 asunciones del modelo de regresin lineal simple dicho valor del ndice masade corporal (IC al 95% 1,09 1,14 dede ndice masa corporal viene dado pormmol/l). sujeto con 25 kg/m Los procedimientos de estimacin e inferencia derivados en los apartados anteriores se basan en las asunciones de linealidad, homogeneidad de la varianza y normalidad. La violacin de 34 estas asunciones puede darasunciones lugar a conclusiones errneas del modelo lineal, siendo as necesario 10.3.5 Evaluacin de las del modelo de regresin lineal simple evaluar su idoneidad en cada aplicacin prctica. Aunque existen diversos tests para contrastar curvilneas y con similar dispersin a lo largo de toda la recta. Tal parece ser el caso del estadsticamente cada de las hiptesis del modelo lineal referencias alse final del Los procedimientos de una estimacin e inferencia derivados en los (vase apartados anteriores tema), en este apartado se presentan algunas tcnicas diagnsticas basadas en el anlisis grfico diagrama de dispersin entre el ndice de masa corporal y el colesterol HDL de la de los en residuos, proponindose asimismo extensiones bsicas del modelo y transformaciones de basan las asunciones de linealidad, homogeneidad de la varianza y normalidad. La los datos para acomodar posibles desviaciones de estas asunciones. En particular, se presta Figura 10.7, donde no se aprecian desviaciones obvias de estas asunciones. En la Figura especial atencin a las hiptesis dedar linealidad y homogeneidad de la violacin de estas asunciones puede lugar a conclusiones errneas delvarianza, modelo ya que las principales inferencias relativas a la pendiente de la recta de regresin y al valor esperado de la 10.2(d), sin embargo, se muestra un claro ejemplo de violacin de la asuncin de variable respuesta son aproximadamente vlidas en encada muestras moderadamente grandes aunque lineal, siendo as necesario evaluar su idoneidad aplicacin prctica. Aunque la distribucin subyacente de la variable respuesta no sea normal. linealidad, ya que la relacin subyacente es visiblemente cuadrtica. No obstante, el existen diversos tests para contrastar cada unade de las hiptesis del El grfico ms simple para evaluar estadsticamente el grado de cumplimiento las asunciones de la regresin grfico ms parade chequear las entre asunciones de la regresin lineal es el diagrama lineal simple esutilizado el diagrama dispersin las variables explicativa y respuesta, junto con modelo lineal (vase estimada. referencias final del tema), en este apartado se presentan algunas de la la recta de regresin Sial se cumplen las hiptesis de linealidad y homogeneidad i frente i = b0 +alrededor =y a los valores predichos y b1xi por de de dispersin de los ei de varianza, los puntos delresiduos diagrama dispersin han de distribuirse aleatoriamente i- y tcnicas diagnsticas basadas en elde anlisis grfico de los residuos, proponindose la recta de regresin sin evidencia relaciones curvilneas y con similar dispersin a lo largo de la toda la de recta. Tal parece el caso del diagrama de dispersin entre elentre ndice yi masa recta regresin. Este ser grfico es equivalente al diagrama de dispersin xi ede asimismo bsicas della modelo transformaciones los datos para corporal yextensiones el colesterol HDL de Figuray10.7, donde no se de aprecian desviaciones obvias de estas En la Figurapero 10.2( d), sin embargo, un claro ejemplo deaviolacin enasunciones. regresin lineal simple, tiene la ventaja de se sermuestra directamente generalizable la acomodar posibles de estas En particular, se presta especial de la asuncin de desviaciones linealidad, ya que la asunciones. relacin subyacente es visiblemente cuadrtica. No obstante, el grfico ms utilizado chequear asunciones la regresin lineal es el presencia de ms de una variablepara explicativa en las regresin lineal de mltiple. atencin las hiptesis de de los linealidad ye homogeneidad de la varianza, ya que las = y frente a los valores predichos i = b0 + b1xi por diagramaade dispersin residuos i i i la recta de regresin. Este grfico grfico es equivalente al diagrama de dispersin entre xi e yi en Antes de proceder al anlisis de los residuos, es importante describir algunas principales inferencias a la recta de regresin y al valor regresin lineal simple,relativas pero tiene la pendiente ventaja de de serla directamente generalizable a la presencia de ms de una variable explicativa en regresin lineal mltiple. de sus propiedades. Bajo las hiptesis de linealidad y homogeneidad de la varianza, los esperado de la variable respuesta son aproximadamente vlidas en muestras Antes de proceder al anlisis grfico de los residuos, es importante describir algunas de i las - y tienen un valor residuos ei = yiBajo sus propiedades. hiptesis de esperado linealidad y homogeneidad de la varianza, los moderadamente grandes aunque la distribucin subyacente de la variable respuesta noresiduos ei = yi i tienen un valor esperado
sea normal.
i ) = 0 E(ei) = E( yi) E( y
178
regresin lineal simple es el diagrama de dispersin entre las variables explicativa y 1 ( xi x ) 2 2 . = recta var(yide ) +regresin var( y i ) - estimada. 2cov(yi, ySi = var( ei)la hiptesis respuesta, junto con cumplen i ) se 2 de 1 las
El grfico ms simple para evaluar el grado de cumplimiento de las asunciones de la y una varianza Pastor-Barriuso R.
residuos realizar el diagnstico del modelo mediante los residuos estandarizados realizar el diagnstico del modelo mediante los residuos sean comparables a distintos niveles deestandarizados la variable explicativa, es preferible residuos sean comparables a distintos niveles de la variable explicativa, es preferible valor se agrupan los datos observados. Las medidas de tendencia i ) = 0 E(ei) = E(yi) - E( y Regresin lineal simple residuos estandarizados realizar el diagnstico deldel modelo mediante los los residuos estandarizados realizar el diagnstico modelo mediante e e residuos sean comparables a distintos niveles de la variable explicativa, es preferible e e i i i i stra sirven tanto para resumir los observados como == para rirresultados = ,, i= 22 y una varianza hh ) ) s s 11 xx 11 ( x ( ix i i i realizar el poblacionales diagnstico del mediante los residuos s s 11 modelo e e eestandarizados 2 i2 e i A as acerca de los y parmetros una varianza n = = i i , , ri correspondientes. =r 1) ni =(n (n 1s )x sx 2 s 1 h s 1 ) 2x ) x ix 1 1( x i ( i hi 1.2 MEDIDASsDE TENDENCIA CENTRAL 1 ( xi x ) 2 2 1 s 1 describen los principales estimadores de la tendencia central de una . i )n 2i ) = e ei 2 y 2cov( y1 var(ei) = var(yi) + var( n i1 i, y 2 (n 1) s (n r = , x )s x = i n ( n 1 ) s x que se obtienen de dividir los residuos eiepor una estimacin de su tpica. El que se obtienen de dividir los residuos una estimacin de su desviacin tpica. El i por 1 hi s desviacin comparables a distintos niveles de la variable expli (residuos x i informan x ) 2 sean 1 central Las medidas de tendencia acerca de cul es el valor ms representativo s 1 de homogeneidad As, aun cuando se cumpla la asuncin de la varianza, los residuos ei 2 n por (por una 1) n sy conoce como el leverage de una observacin y una medida trmino h xes conoce como el leverage de una observacin es una medida trmino h i se que se obtienen de dividir los residuos e una estimacin de su desviacin tpica. El i se que se obtienen de dividir los residuos e estimacin de su desviacin tpica. El i i tendrn diferente varianza alrededor de los distintos puntos de la recta de regresin estimada. As, aun cuando se cumpla la asuncin de homogeneidad varianza, losmediante residuos e realizar del modelo los i residuos estanda de una determinada variable o, dicho el dediagnstico forma equivalente, estos estimadores indican Ms concretamente, los residuos tendern a ser mayores en valores centrados que en valores mtica la variable yy su media x x x muy distante estandarizada de la distancia entre cada valor xixde de la variable explicativa su media estandarizada de distancia entre cada valor se conoce como el los leverage una observacin y puntos es una medida trmino hla ide se conoce como el leverage de una observacin y es una medida trmino h i i con extremos de la variable explicativa. Esto es debido a explicativa que los (x tendrn diferente varianza alrededor de los distintos puntos de la recta de regresin que se obtienen de dividir residuos e una de su desviacin i, y i) i tpica. El i por alrededor de qu valor se agrupan losestimacin datos observados. Las medidas tendencia ei ede i recta de mucha influencia encada la estimacin forma que la de x ,tienen ica, denotada por se define como la suma de uno de losde la pendiente, de tal = ri = , que se tratar en el apartado siguiente. No obstante, si el tamao muestral es grande y 2 que se tratar en el apartado siguiente. No obstante, si el tamao muestral es grande y de la variable explicativa y su media x estandarizada de la distancia entre cada valor x residuos sean comparables a distintos niveles de la variable explicativa, es preferible de la variable explicativa y su media x estandarizada de la distancia entre cada valor x i regresin resultante tender a aproximarse a estos puntos que presentarn entonces pequeos i 1 s h ( ) x x estimada. concretamente, los residuos tendern a ser mayores valores 1 centrados se conoce como el leverage de una observacin y esresultados unaen medida trmino hi Ms i central de la muestra sirven tanto para resumir los para s observados 1 niveles i como Por ello, y con objeto de que los residuos sean comparables a distintos de la ei.de 2 es dividida por residuos el nmero observaciones realizadas. Si denotamos n (n 1) s x no hay valores extremos de la variable explicativa (observaciones con alto no hay valores muy extremos de la variable explicativa (observaciones con alto que semuy tratar en el apartado siguiente. Noexplicativa. obstante, sila el tamao muestral es grande residuos estandarizados realizar el diagnstico del modelo mediante los que se tratar en el apartado siguiente. No si eldel tamao muestral es grande yix variable explicativa, es preferible realizar el obstante, diagnstico modelo mediante losyresiduos , que en valores extremos de la variable Esto es debido a que los puntos (x de variable explicativa y su media estandarizada de la distancia entre cada valor x i realizar inferencias acerca de los parmetros poblacionales correspondientes. A muestral y por xestandarizados i el valor observado para el sujeto i-simo, i = 1, ..., n, rir se comportan forma anloga. leverage), ambos residuos emuy y comportan de forma anloga. leverage), ambos residuos ey i iextremos i se no hay valores muy la explicativa (observaciones con alto no hay valores extremos devariable lade variable explicativa con alto se obtienen de dividir los residuos ei por estimacin de su x distante de xde tienen mucha influencia en la estimacin de la pendiente, y que se tratar el apartado siguiente. No obstante, si el(observaciones tamao muestral es grande y una i) con i muyen ei que e i continuacin se describen los principales estimadores de la tendencia central de una = = , r i dada por 2 frente aa los valores En determinados casos el grfico de residuos estandarizados r s 1anloga. hi como frente los valores En determinados casos el grfico de los estandarizados ir (trmino x )tender x i de 1 resultante iaproximarse y r comportan forma anloga. leverage), ambos residuos e yse r se comportan de forma leverage), ambos residuos elos i i i i residuos el leverage de una observacin y es u h de tal forma que la recta de regresin a a estos puntos i se conoce no hay valores muy extremos de la variable explicativa (observaciones con alto s 1 variable. 2 n (n 1) s x n + ... +casos x1 + xapreciar x 1y no permite claramente las posibles de las predichos 2apreciar n y no permite claramente las posibles desviaciones de las asunciones predichos a los valores En determinados casos el grfico de los residuos estandarizados rasunciones alos los valores En determinados el grfico de los residuos estandarizados ri frente i i frente i estandarizada de distancia entre cada valor xi de la variable exp . pequeos = ambos x= x ipresentarn Por ello, y la con objeto de que que entonces residuos edesviaciones forma anloga. leverage), residuos ei y ri se comportan i.de n n = i 1 que se obtienen 1.2.1 de dividir losaritmtica residuos ei por una estimacin de su desviacin tpica. El trmino hi Media que se obtienen de dividir residuos por una estimacin de su desviacin tpica. Elentre si el tamao y no permite apreciar claramente las posibles desviaciones de las asunciones predichos iobtener y no permite apreciar claramente las posibles de las asunciones predichos se conoce como el leverage de una observacin y es medida estandarizada de la de linealidad yy homogeneidad de la varianza. Para obtener una representacin ms clara de linealidad homogeneidad de la varianza. Para una representacin ms clara i que se tratar en desviaciones el apartado siguiente. No obstante, i a distancia los valores En determinados casos los el grfico dee los residuos estandarizados r i frente 36 de la variable explicativa y su media que se tratar en el apartado siguiente. No cada valor x La media aritmtica, denotada por x , se define como la suma de cada uno de los i a medida de tendencia central ms utilizada y de ms fcil se conoce como el leverage de una observacin y es una medida trmino h i en K grupos de tamao n en tales circunstancias, es aconsejable dividir los n residuos r en K grupos de tamao n en tales circunstancias, es aconsejable dividir los n residuos r i k obstante, si el tamao muestral es varianza. grande yPara no hay valores muy extremos de la clara variable no hay valores muy extremos de las lams variable explicativa (observac iobtener k de predichos linealidad y de la obtener una representacin clara de linealidad y homogeneidad de la varianza. Para una representacin ms ihomogeneidad y no permite apreciar claramente las posibles desviaciones de asunciones valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos y r se comportan de forma explicativa (observaciones con alto leverage), ambos residuos e i i orresponde al centro de gravedad de los datos de la muestra. Su de la variable explicativa y su media x estandarizada de la distancia entre cada valor x i y (por ejemplo, deciles) y calcular la media ordenados por valores crecientes de y (por ejemplo, deciles) y calcular la media ordenados por valores crecientes de comportan leverage), ambos ei y r anloga. en grupos de tamao en de tales circunstancias, es aconsejable losPara n residuos ri residuos en K grupos de tamao en linealidad tales circunstancias, es iaconsejable dividir los nobtener residuos ri K i se k nkde forma anloga. i y homogeneidad de la dividir varianza. una representacin ms n clara por n el tamao muestral y por x el valor observado para el sujeto i -simo, i = 1, ..., n, i n es que est muy influenciada por los valores extremos y, en este frente a los valores En determinados casos el grfico de los residuos estandarizados r que se tratar en el apartado siguiente. No obstante, si el tamao muestral es grande y i En determinados casos el la grfico de los residuos kin (por idividir y ejemplo, yrcalcular media ordenados por valores crecientes de de y (por ejemplo, deciles) y calcular la de media ordenados por valores crecientes tamao nk de estandarizado en tales circunstancias, es aconsejable n deciles) residuos i en K grupos k permite apreciar claramente laslos posibles desviaciones de las asunciones predichos 11 npor la media vendra dada i no er un fiel reflejo de la tendencia central de lardistribucin. = riri k = linealidad y homogeneidad dekrla varianza. Para obtener representacin ms clara en las tales no hay valores muy extremos de la variable explicativa (observaciones con alto nn iuna y no permite apreciar claramente posibles desviac predichos 1=1 k k i =i n y y de calcular la n media ordenados por crecientes de nkejemplo, nk r en deciles) i (por K grupos tamao ordenados por circunstancias, es valores aconsejable dividir los residuos 1 1 n i k + x 2 + ... + x n 1 r rde rk = 1 k = i rforma i comportan anloga. leverage), ambos ei y ri sedeciles) (por ejemplo, y calcular laxmedia valores crecientes deresiduos i sobre .de la varianza. Para obtener una re = = x 4 En este y en los sucesivos ejemplos estimadores muestrales, se nx n i i = 1 i = 1 de linealidad y homogeneidad k k yy la varianza nnki =1 n la varianza 1 En determinados casos el grfico de residuos estandarizados ri frente a los valores rklos =sujetos rdel i os valores del colesterol HDL obtenidos en los 10 primeros en circunstancias, es aconsejable dividir los n residuos ri en n ktales i =1 y la yvarianza la varianza La media es la medida nknk 11 de 22 2 2 tendencia central ms utilizada y de ms fcil s == rir i Myocardial sk no permite apreciar claramente las posibles desviaciones de las asunciones predichos k i Cancer y la varianza y uropean Study on Antioxidants, Infarction and of por valores i (por ejemplo, deciles) y c ordenados crecientes de y nn 1=1 k k i =i nk nk y la varianza interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su 1 1 2 2 2 2 sk = r sk = linealidad y homogeneidad la varianza. Para i ri obtener una representacin ms clara (EURAMIC), un de estudio multicntrico de casosde y controles realizado nk n i= 1 i =1 nk k de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los de los residuos en cada uno de los grupos. La presencia de en el grfico de los extremos 1 y, principal limitacin es que est muy influenciada por los valores en este nk curvatura 1 r = ri 2 2 residuos r en K grupos de tamao k n en tales circunstancias, es dividir los n y 1992 en ocho pases Europeos e Israel para evaluar elsefecto de los i en el grfico de los k de los residuos en cada uno deaconsejable los grupos. La presencia de curvatura residuos = r n k i =1 k i i = k de 1k medios frente los valores predichos en distintos grupos indicar falta de los residuos en uno deser los grupos. La n presencia de curvatura en el grfico de los caso, puede no un fiel reflejo tendencia central de de los residuos en cada uno de los grupos. La presencia de curvatura enla eldistribucin. grfico de los de rkr acada los valores predichos medios y en los distintos grupos residuos la los distintos grupos residuos medios k frente a los valores predichos medios y k y (por ejemplo, deciles) y calcular la media ordenados por valores crecientes de i linealidad en la relacin, mientras que la existencia de tendencia en el grfico de las desviaciones 5 y la varianza medios de cada grupo aportar evidencia tpicas residuales s r frente a los valores predichos medios y en los distintos grupos residuos medios r frente a los valores predichos medios y en los distintos grupos residuos medios indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el indicar falta de linealidad la relacin, mientras que la existencia en el de los residuos kken cada uno de los grupos. La presencia de curvatura en el grfico de los k de k k tendencia 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se de heterogeneidad enEjemplo la varianza. nk 1 rkmientras = mientras rimedios indicar falta de linealidad en la relacin, que la existencia de tendencia en indicar falta de linealidad en la relacin, que la existencia de tendencia en 1 el nk sujetos obtenidos rutilizarn frente a los valores predichos y grupos residuos medios 2 el k k en los distintos los valores deln colesterol HDL en los 10 primeros s = 37 37 i = 1 k ri2 del k Ejemplo 10.12 En la Figura 10.10(a ) se representa el grfico de los residuos n k i =1 aEuropean los valores predichos i que de la regresin lineal del colesterol HDL estandarizados ri frente indicar falta de linealidad en la relacin, mientras la existencia de tendencia en el37 estudio Study on Antioxidants, Myocardial Infarction and Cancer of 37 sobre el ndice de masa corporal. Este grfico, al igual que el diagrama de dispersin entre y la varianza de los residuos en cada uno parece de los grupos. La presencia de curvat el ndice de masa el colesterol HDL de la multicntrico Figura 10.7, compatible con thecorporal Breast y (EURAMIC), un estudio de casos y controles realizado las asunciones de linealidad y homogeneidad de la varianza. Para realizar una evaluacin 37 1 nklas2medios 2 residuos y desviaciones tpicas s de losmedios ms detallada, en la Tabla 10.4 se presentan medias r frente a los valores predichos k efecto k e Israel para evaluar el s k ocho = pases entre 1991 y 1992 en de los y k en l ri Europeos n k i =1
Pastor-Barriuso R. 179 indicar falta de linealidad en la relacin, mientras que la existen 5 de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los
modelos pueden considerarse como casos particulares de la regresin lineal nk nk 2 2 11 2 2 s ks k= = ri ri n ki =1i =1 potencias de una misma ndistintas k mltiple cuyas variables explicativas son Correlacin y regresin lineal simple variable bsica. de los residuos en cada uno de los grupos. La presencia de curvatura en grfico de los de los residuos en cada uno de los grupos. La presencia de curvatura en elel grfico de los residuos estandarizados por deciles de los valores predichos. La Figura 10.10(b) de los de ky frente los valores predichos mediosy en los distintos grupos residuos medios rkrkfrente aaa los valores predichos medios en los distintos grupos residuos medios frente los valores predichos medios cada decil muestra indicios residuos medios k 1.2 MEDIDAS DEde TENDENCIA CENTRAL antioxidantes en el riesgo de desarrollar un primer infarto agudo de miocardio en una posible relacin cuadrtica el ndice de masa HDL, [Figura 10.10 entre aproximadamente aqu] corporal y el colesterol ya quefalta los residuos del modelo lineal tienden a ser positivos para valores predichos altos indicar falta de linealidad en relacin, mientras que existencia de tendencia en el indicar de linealidad en lala relacin, mientras que lala existencia de tendencia en el hombres adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84, y bajos central del colesterol HDL y negativos predichos intermedios. Por otra parte, Las medidas de tendencia informan acerca de cul para es elvalores valor ms representativo [Tabla 10.4 aproximadamente en la Figura 10.10(c) no se aprecian desviaciones deaqu] la asuncin de homogeneidad de la 1,06, 0,87, 1,96 y 1,53 mmol/l. La media los niveles del HDL en 37 37 son similares en colesterol los distintos dado que desviaciones tpicas residuales sk de de una determinadavarianza, variable o, dicho delas forma equivalente, estos estimadores indican deciles de los valores predichos. estos 10 observados. participantes es medidas de tendencia alrededor de qu valor se agrupanms los datos Las La alternativa para acomodar relacin cuadrtica entre el ndice de masa Ejemplo 10.13 Lossimple niveles de -tocoferoluna y -caroteno en tejido adiposo corporal y el colesterol HDL es extender el modelo lineal a un modelo polinomial de segundo central de la muestra sirven tanto para resumir para 2los resultados + 1 10 elobservados 0,89 + 1,como 58 + ... ,53 incluye trmino cuadrtico x21adems del trmino lineal orden E(Y |x )= 0 + 1x + 2x , que presentan distribuciones asimtricas los EURAMIC, x = en x i 700 1,223 mmol/l. = controles del estudio= x del ndice de masa corporal. La relacin 10 i =1 resultante entre 10 ambas variables ya no ser una realizar inferenciaslnea acerca de los parmetros poblacionales correspondientes. A recta sino una parbola, cuya curvatura vendr determinada por elmedia coeficiente 2 con un marcado sesgo positivo en el caso del -caroteno (Figura 4.3). La y asociado al trmino El ajustees de los modelos polinomiales se tratar en el Tema residuos sean comparables a distintos niveles cuadrtico. de la variable explicativa, preferible continuacin se describen losestos principales estimadores de la tendencia central de una de la regresin lineal 11 ya que modelos pueden considerarse como casos particulares La media aritmtica presenta las siguientes y sx = propiedades: 87,6 g/g y del la del desviacin tpica del -tocoferol son x = 146,1 residuos estandarizados realizar el diagnstico modelo mediante los mltiple cuyas variables explicativas son distintas potencias de una misma variable bsica. variable. Cambio de origen (traslacin). Si se suma una constante a cada uno de los datos ei ei g/g, y el coeficiente de correlacin de Pearson y = 0,37 ys = caroteno = 0,40 r = , a-tocoferol y b-caroteno en tejido adiposo presentan i Ejemplo 10.13 Los 2yniveles de 1 hi s 1 ( xi x ) s 1 1.2.1 Media aritmtica de una media de la muestra resultante es igual a la media inicial ms la distribuciones asimtricas en losla 700 controles del estudio EURAMIC, con un marcado 2 muestra, n (n 1) s x entre ambas variables es r = 0,45. A partir de estos datos se estima que la recta de sesgo positivo en el caso del b-caroteno (Figura 4.3). La media y la desviacin tpica del La media aritmtica, denotada por , define lasi suma de uno de los yi = y x +cada cb , -caroteno entonces y= = 0,37 x +y c.sy Un cambio deyorigen que constante utilizada; =se 146,1 y scomo 87,6 m g/g = 0,40 mg/g, el a-tocoferol son x idel x= que se obtienen de dividir los residuos ei por una estimacin de su desviacin tpica. El regresin del -caroteno sobre el -tocoferol es coeficiente de correlacin de Pearson entre ambas variables es r = 0,45. A partir de estos como el una observacin yfrecuencia es una medida trmino hi se conoce datos seleverage estima que la recta de regresin del b-caroteno sobre el a-tocoferol es valores muestrales dividida por el de nmero de con observaciones realizadas. Si denotamos se realiza es el centrado de la variable, que consiste en restar a explicativa = 0,072 y+ su 0,0021 media x x, estandarizada de la distancia entre cada valor xi de la variabley por n el tamao muestral y por xi el cada valorvalor observado para el sujeto i-simo, i = 1,de ...,una n, variable centrada ser, por de la muestra su media. La media con una desviacin tpica residual de los niveles de b -caroteno alrededor de dicha recta de que se tratar en el apartado siguiente. No obstante, si el tamao muestral es grande y s = 0,36 mg/g. El error estndar de la constante es SE(b0) = 0,026 y de la pendiente SE(b1) = conpor una desviacin tpica residual los niveles de -caroteno alrededor de dicha la media vendra dada tanto, igual a 0. de de no hay valores muy0,00015. extremos de la variable explicativa (observaciones con alto As, se tiene que incrementos una desviacin tpica (87,6 mg/g) en el a-tocoferol se asocian con un aumento de 87,60,0021 = 0,18 mg/g en el nivel medio de b-caroteno, con de forma anloga. leverage), ambos residuos iyr 0,026 de datos la recta e de si se = comportan 0,36Cambio g/g. El error estndar constante es SE(b 0) = uno de escala Si se multiplica cada deylos de una +entre ...(unidades). + x n de la x1 x2 + 1,96 0,00015) = (0,15; 0,21). un IC al 95% comprendido 87,6(0,0021 1 n . = = x x i En determinados casos el grfico de los residuos estandarizados i frente a los valores n sertiene =1 = 0,00015. As, que de una desviacin pendiente SE(n b1i) muestra por una constante, la incrementos media de la 0,5 muestra resultante es igual a la media
4 i no permite apreciar claramente las posibles desviaciones de las asunciones predichos y
tpica (87,6 g/g) encentral el por -tocoferol se asocian consi un de 87,6y 0,0021 yi aumento = entonces = c x .= inicial la constante utilizada; r cxi, 0 La esyla medida de ms y de ms demedia linealidad homogeneidad detendencia la varianza. Para obtener unautilizada representacin ms clarafcil k
en K grupos decon tamao nk en tales circunstancias, es aconsejable los n residuos 0,18 g/gal en el nivel medio deri -caroteno, IC al Si 95% comprendido entre interpretacin. Corresponde centro de gravedad de losorigen datos de la muestra. dividir Cambio simultneo de yun escala. se Su multiplica cada uno de los datos de -0,5
i que est muy influenciada por los valores extremos y, en este principal limitacin87,6(0,0021 es una muestra por una constante 1,96 0,00015) = (0,15; 0,21). y al resultado se le suma (b)otra constante, la media
i (por ejemplo, deciles) y calcular la media ordenados por valores r crecientes de y

0
0,9
1,1
1,2
r ri muestra caso, puede no ser un fiel reflejo de la tendencia central de dispersin la k = de la resultante esdistribucin. igual a la media por primera constante, ms la Una simple inspeccin del diagrama de entre los inicial niveles de la -tocoferol n
k i =1
nk
1,5 1
n 0,8 2 de1la 1 1,1 hay 1,2 1,3 0,9 los puntos 1 1,1 1,2 homogeneidad varianza, ya que mayor variabilidad de s k = 0,9 ri 2 utilizarn los valores del colesterol obtenidos en los 10 primeros del Ejemplo 1.5 Para transformar los valores sujetos del colesterol HDL de mmol/l a mg/dl se n k i =1 HDL i y yk 39 (a) (c) estudio European on Antioxidants, Infarction Cancer multiplica el factor de conversin 38,8. As, of utilizando la propiedad del de los residuos en cada uno Study de los grupos. La presencia por de Myocardial curvatura en el grfico de los and
k
y =de c1la x hiptesis + c2 . si yi = c1xuna i + cclara 2, entonces y -caroteno de segunda la Figuraconstante; 10.11(a) evidencia violacin de y la varianza Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se -3 0,5
-2
sk
k en frente a los valores predichos y los grupos residuos medios dias b) y desviaciones tpicas smedios c) de los residuos estandarizados por deciles de valores the Breast r(EURAMIC), un estudio multicntrico de casos controles realizado Figura 10.10 de la k ( k( cambio de escala, ladistintos media del y colesterol HDL enlos mg/dl se predichos calculara
Figura 10.10 Grfico de los residuos estandarizados ri frente a los valores predichos i (a), as como de las meregresin lineal del colesterol HDL sobre el ndice de masa corporal en el grupo control del estudio EURAMIC.
indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el

entre 1991 y 1992 en ocho pases Europeosaepartir Israelde para evaluar elmmol/l efecto de los 1,22338,8 = 47,45 mg/dl. directamente su media en como
37
ri leverage), ambos Figura 10.10 Grfico de los residuos estandarizados rvarianza i residuos (a), Figura as como de las i i iy 10.10e i frente a los valores predichos y la y varianza Figura 10.10 la y la y varianza la varianza kestandarizados medias b) sk ( c)sde los residuos por grupos deciles de los valores predichos rk (frente predichos medios y en los residuos medios kestandarizados medias b) a y los desviaciones tpicas residuos por grupos deciles de los valores predichos rky (desviaciones frente avalores los tpicas valores predichos medios y endistintos los distintos residuos medios k (c) de los
Figura 10.10 Grfico de los residuos estandarizados r frente a los valores predichos (a), as como de las
1 k1 2nk 2 en el apartado 1 2 = 1,1 1,2 1,2 1,3 que 0,9 0,9 1 1,2 1,2 siguiente. No obstante, si =s 1 r 1,1 1,3 se tratar 1 1,1 1,1 i r k i n n i = 1 i =1 i k y 1 nk1 nk k y y 1 nk1 nk k y i k rk = rk = ri ri rk = rk = ri ri no hay valores muy de la variable explicativ Regresin simple (a) (a) (c) (cextremos n 1 k i =1lineal nk i = k i= ) n n 1 k i =1 de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los
2 0,8 0,8 0,9 0,9 sk
se comportan de form
de los residuos es k 1 1 2 2 1 indicar falta de linealidad en relacin, que que la existencia de tendencia en el 2 colesterol 1 de la regresin lineal del por deciles de los valores la indicar falta de linealidad en relacin, mientras existencia de tendencia en el 2 2 la 2 mientras 2 la 2 predichos i s = r s = r s = r k deciles i sk y = ri Tabla 10.410.4 Media desviacin tpica de los estandarizados ri por los k de i k Tabla Media yi desviacin tpica de residuos los residuos estandarizados ri deciles por de los n n 1 k i =1 nk i = k i= n HDL sobre el ndice de masa corporal en elHDL grupo control del estudio 1k i = 1 regresin lineal del colesterol HDL sobre el ndice de masa corporal valores predichos i de de la regresin lineal del colesterol sobre el ndice de masa corporal valores predichos la i predichos y i no permite apreciar claramente las posib enEURAMIC. el grupo control del estudio EURAMIC. 37 37 en el grupo control del estudio EURAMIC. de los residuos en cada uno de los La presencia de curvatura en el grfico de los residuos en cada uno degrupos. los grupos. La presencia de curvatura en el gr de los en cada uno uno de los grupos. La presencia de curvatura en el grfico de los deresiduos los residuos en cada de los grupos. La presencia de curvatura en el grfico de los Valores predichos (mmol/l) Residuos estandarizados Valores predichos (mmol/l) Residuos estandarizados Valores predichos (mmol/l) Residuos estandarizados de linealidad y homogeneidad de la varianza. Para ob
deTabla lade regresin lineal del colesterol HDLHDL sobre el ndice de masa corporal en elen grupo control del estudio la regresin lineal del colesterol sobre el ndice de los masa corporal el grupo control del estudio 10.4 Media y desviacin tpica de residuos estandarizados ri EURAMIC. nk el EURAMIC. En determinados casos nkgrfico nk n
Desviacin tpica (sk) (s DecilDecil (k) (k) Desviacin tpica Media ( r ) frente ) en Media (y k Media ( r ) frente k en a los predichos medios y grupg residuos medios (kvalores ) predichos Media Desviacin tpica (sk )) medios ) Media (y Media ( klos k) avalores los valores predichos y endistintos los distintos residuos medios rk frente a Decil losavalores medios grupos residuos medios k klos rk frente los predichos medios endistintos los distintos grupos residuos medios k < 0,98 0,930,93 0,120,12 en tales circunstancias, 0,950,95 < 0,98 < 0,98 0,93 0,12 0,95 es aconsejable dividir los n re indicar falta de linealidad en la relacin, mientras que la existencia de tendencia 0,981,03 1,00 -0,03 1,00 indicar falta de linealidad en la relacin, indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el 0,981,03 1,00 -0,03 1,00 indicar falta de linealidad en la relacin, mientras que la existencia de tendencia 0,03 en el 1,00 mientras que la existencia de tenden 0,98-1,03 1,00 1,031,05 1,04 0,05 1,05 1,031,05 1,04 0,05 ordenados 1,05 1,03-1,05 1,04 0,05 1,05 crecientes de y i (por ejemplo, por valores 1,051,07 1,061,06 0,080,08 0,08 0,900,90 1,05-1,07 1,06 0,90 1,051,07 37 37 0,05 1,04 1,07-1,10 1,09 0,21 0,99 1,10-1,12 1,11 1 nk 0,12 1,02 1,12-1,13 1,12 26 26 r = ri k residuos sean comparables a distintos niveles de la variable explicativa, es preferible 1,13-1,16 1,14 0,09 1,15 n k i =1 0,15 0,85 1,16-1,19 1,17 realizar el diagnstico del modelo mediante1,22 los residuos estandarizados 1,19 0,20 1,01
y la varianza = ri = , Una simple inspeccin del diagrama de dispersin entre los niveles de a-tocoferol y s 1 hi 1 ( xi x ) 2 b-caroteno de la Figura 10.11( a ) evidencia una clara violacin de la hiptesis de homogeneidad s 1 2 1 nk 2 2 n (n 1) s x sk = de la varianza, ya que hay mayor variabilidad de los puntos alrededor de la recta de regresin ri n k i =1 para valores altos del a-tocoferol que para valores bajos. Esta heterogeneidad se hace an que se obtienen de dividiren los la residuos ei por una estimacin suobserva desviacin tpica.la Eldesviacin tpica s de los ms evidente Figura 10.11( c), dondede se cmo k residuos estandarizados aumenta linealmente con los deciles de los valores predichos. de los residuos en cada uno de los grupos. La presenc trmino hi se conoce como el leverage de una observacin y es una medida Por otro lado, la Figura 10.11(b) no muestra una curvatura clara en la relacin, pero s se estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x aumenta aprecia una cierta tendencia lineal negativa de los residuos residuos medios rk conforme frente a los valores predichos med el valor Esto podra deberse que algunas observaciones con valores extremos que se tratar en el predicho. apartado siguiente. No obstante, si el a tamao muestral es grande y de a-tocoferol y b-caroteno tienen excesiva influencia en la estimacin de laen pendiente, indicar falta de linealidad la relacin, mientras qu no hay valores muy extremos de la variable explicativa (observaciones con alto produciendo una sobreestimacin de la misma que da lugar a residuos positivos para valores predichos bajos y residuos negativos para valores predichos altos. La identificacin leverage), ambos residuos ei y ri se comportan de forma anloga. de observaciones influyentes se abordar en mayor detalle en el siguiente apartado.
ei ei En determinados casos el grfico de los residuos estandarizados ri frente a los valores i no permite apreciar claramente las posibles desviaciones de las asunciones predichos y
k de linealidad y homogeneidad de la varianza. Para obtener una representacin ms clara
1,6
0,5 0
en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamao -0,5nk i (por ejemplo, deciles) y calcular la media ordenados 0,8 por valores crecientes de y rk = 1 nk
0,1 0,3 0,5 0,7
-caroteno (g/g)
1,2
(b)
2
0,4
r
i =1
nk
sk
1 0
y la varianza
0 0 100
-tocoferol (g/g)
1 nk 2 2 sk = 200 ri n k i =1
300
400
0,1
0,3
0,5
0,7
k y
(c)
de los residuos en cada uno de los grupos. La presencia de curvatura en el grfico de los Figura 10.11 Regresin lineal del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC (a), junto k en los con las medios medias rk (frente b) y desviaciones tpicas sk (c)medios de los residuos estandarizados por deciles de los valores predichos. a los valores predichos y distintos grupos residuos Figura 10.11 indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el 37
(a)
El segundo procedimiento para tratar con varianzas heterogneas es encontrar una

transformacin de la variable respuesta que estabilice la varianza y ajustar el modelo lineal a esta variable transformada. seleccinlos de estimadores la transformacin adecuada En presencia de heterogeneidad de La la varianza, puntuales b0 y bsuele 1, as como la propia recta de regresin estimada = b0 + b1x, continan siendo insesgados, pero la varianza basarse en lasesgada relacin existente entre la varianza residual el valor esperado dealrededor la ya que infraestima la variabilidad dey la variable respuesta de residual s2 est unos puntos de la recta de regresin y la sobreestima en otros. En consecuencia, los errores variable En el caso ms frecuente de que la desviacin tpica residual tienda a y estndar de respuesta. los estimadores no son correctos y sus correspondientes intervalos de confianza tests de hiptesis dejan de ser vlidos. En general, existen dos procedimientos alternativos para aumentar linealmente con el valor (tal como ocurre la regresin del - lineal tratar con varianzas heterogneas. El predicho primer mtodo consiste enen realizar una regresin ponderada, que es una extensin del modelo lineal ordinario donde cada observacin de la caroteno sobre el -tocoferol), la heterogeneidad de la varianza se resuelve utilizando la variable respuesta recibe un peso inversamente proporcional a su varianza estimada alrededor de la recta de regresin. As, cuanto ms precisa sea una observacin, mayor ser su peso en la estimacin de la recta de regresin. En el ejemplo anterior, regresin lineal ponderada transformacin logartmica , dado que el logaritmo de la la respuesta tendr entonces unadel b-caroteno sobre el a-tocoferol otorgara ms peso a los puntos con valores bajos del a-tocoferol que a aquellos con valores altos, ya que los primeros presentan menor variabilidad en el nivel varianza aproximadamente constante. Esta transformacin logartmica produce el de b-caroteno. Las tcnicas de regresin lineal ponderada pueden consultarse en los textos mismo efecto en cualquier base slo puede aplicarse a variables respuestas positivas. especficos de regresin citados en y este tema.
El segundo procedimiento para tratar con varianzas heterogneas es encontrar una Adems de homogeneizar la varianza, la transformacin logartmica tambin suele transformacin de la variable respuesta que estabilice la varianza y ajustar el modelo lineal a esta variable transformada. La seleccin de la transformacin adecuada suele basarse en la emplearse para normalizar variables respuestas sesgadas positivamente, as como para relacin existente entre la varianza residual y el valor esperado de la variable respuesta. En el caso ms frecuente de que la desviacin tpica residual tienda a aumentar linealmente con el linealizar relaciones con pendiente montonamente creciente. valor predicho (tal como ocurre en la regresin del b-caroteno sobre el a-tocoferol), la heterogeneidad la varianza se resuelve utilizando la transformacin logartmica , dado que Para volver ade la el escala original, se toma la exponencial ambos lados de esta igualdad, Aun cuando uso de una respuesta logartmica est en plenamente justificado en el logaritmo de la respuesta tendr entonces una varianza aproximadamente constante. Esta transformacin logartmica produce el mismo efecto en cualquier base y slo puede a resultando que la media geomtrica variable respuesta (definida como la aplicarse trminos estadsticos, los resultados de della modelo transformado han de interpretarse en la variables respuestas positivas. Adems de homogeneizar la varianza, la transformacin logartmica tambin suele emplearse para normalizar variables respuestas sesgadas exponencial de de la media de los logaritmos; vase Apartado 1.2.3) es una funcin escala original la variable respuesta. El modelo en escala logartmica asume que el positivamente, as como para linealizar relaciones con pendiente montonamente creciente.
exponencial de la variable explicativa, Aun el del uso de una respuesta logartmica est plenamente justificado valorcuando esperado logaritmo de la variable respuesta Y cambia linealmente con en la trminos estadsticos, los del modelo transformado han de escala original Para volver a resultados la escala original, se toma la exponencial eninterpretarse ambos ladosen de la esta igualdad, de variable la variable respuesta. El modelo en escala logartmica asume que el valor esperado del explicativa X, EG(Y|x) = exp{E(logY|x)} = exp(0 + 1x). logaritmo de la variable respuesta Y cambia con la variable explicativa resultando que la media geomtrica de lalinealmente variable respuesta (definida como la X,
trminos E(log Y|x) vase = 0 + 1 x. As, el modelo escala se interpreta en de la es media geomtrica de exponencial deen la la media deoriginal los logaritmos; Apartado 1.2.3) una funcin Para volver a la escala original, se toma la exponencial en ambos lados de esta igualdad, resultando 41 la respuesta, que exponencialmente concomo la variable explicativa. El exponencial de la variable explicativa, que lavariable media geomtrica de lavara variable respuesta (definida la exponencial de la media de los logaritmos; vase Apartado 1.2.3) es una funcin exponencial de la variable explicativa, coeficiente 1 asociado a la variable explicativa tiene entonces una interpretacin EG(Y|x) = exp{E(logY|x)} = exp( 0 + 1 x).
distinta de la en habitual ya que su exponencial corresponde a lade razn de medias As, el modelo la escala original se interpreta en trminos la media geomtrica de la As, el modelo en la escala original se interpreta en la media geomtrica de 1 variable respuesta, que vara exponencialmente con latrminos variable de explicativa. El coeficiente geomtricas de Y cuando X aumenta una unidad, asociado a la variable explicativa tiene entonces una interpretacin distinta de la habitual ya que la variable respuesta, que exponencialmente con la de variable explicativa. Eluna unidad, su exponencial corresponde a vara la razn de medias geomtricas Y cuando X aumenta
E G (Y | x + 1) a la variable tiene interpretacin coeficiente 1 asociado = exp{explicativa = exp( 1 ); ( entonces 0 + 1 (x + 1) 0 + 1 x)} una E G (Y | x)
182
distinta de la habitual yarepresenta que su exponencial corresponde lala razn de geomtrica medias es decir, 100{exp( 1) 1} el cambio porcentual a en media de Y por cada de una en X. Este cambio relativo se asume a lo largo de es incremento decir, 100{exp( 1)unidad - 1} representa el cambio porcentual en la constante media geomtrica de Ytodo geomtricas de Y cuando X aumenta una unidad, el rango de la variable explicativa. por cada incremento de una unidad en X. Este cambio relativo se asume constante a lo E G (Y | x + 1) Pastor-Barriuso R. = exp{ 0 + 1(x + 1) - (0 + 1x)} = exp(1); largo de todo el rango la variable explicativa. E G (Yde | x)
tocoferolLa delrazn ejemplo se observ un aumentoalineal de la desviacin tpica respuesta. de anterior medias geomtricas asociada un aumento de c unidades conforme aumentaba el valor predicho, lo que sugiere la utilizacin de enresidual la variable explicativa viene dada por una transformacin logartmica de la variable respuesta. La Figura 10.12(a)
y G (En x +el c)anlisis de regresin lineal del b-caroteno sobre el a-tocoferol del Ejemplo 10.14 = exp{ b 0 + b1(x + c) - (b0 + b1x)} = exp(cb1). ejemplo anterior se observ un aumento lineal de la desviacin tpica residual muestra la recta de regresin estimada entre el logaritmo del -caroteno y el - conforme y G ( x) 0,055 y de la pendiente SE(b1) donde el error de la constante essugiere SE(b0) = aumentaba el estndar valor predicho, lo que la utilizacin de una transformacin tocoferol, de la variable respuesta. La Figura 10.12(a) muestra la recta de regresin logartmica As, por ejemplo, por incremento de una tpica c =el 87,6 g/gtiene en el = 0,00032. Aunque el cada ajuste se ha realizado escala logartmica, modelo estimada entre el logaritmo del b-caroteno yen eldesviacin a-tocoferol,
G una interpretacin directa en trminos de la media geomtrica de la nivel de -tocoferol, la media geomtrica de -caroteno aumenta unvariable donde el error estndar de la constante es SE(b0) = 0,055 y de la pendiente SE(b1) = 0,00032. Aunque el ajuste se ha realizado en escala logartmica, elcmodelo tiene una respuesta. La razn de medias geomtricas asociada a un aumento de unidades 100{exp(87,6 0,0040) 1} = 100(1,42 - 1) = 42%. Este incremento porcentual en interpretacin directa en trminos de la media geomtrica de la variable respuesta. La razn de medias geomtricas asociada a un aumento de c unidades variable explicativa en la variable explicativa viene dada por la media geomtrica de -caroteno permanece constante a travsen dela todo el rango 42 viene dada por
log y = 1,91 + 0,0040x,
observado dely -tocoferol. Como consecuencia, la tendencia resultante en la G ( x + c) = exp{b0 + b1 (x + c) (b0 + b1 x)} = exp(cb1 ). y G ( x) escala original del -caroteno es exponencial, tal como se muestra en la Figura As, por ejemplo, por cada incremento de una desviacin tpica c = 87,6 mg/g en el nivel de a-tocoferol, la media de b-caroteno aumenta un 100{exp(87,6 g/g 0,0040) As, por ejemplo, por geomtrica cada incremento de una desviacin tpica c = 87,6 en el 1} = 10.12( b). 100(1,42 1) = 42%. Este incremento porcentual en la media geomtrica de b-caroteno permanece constante travs de todo el rango observado del nivel -tocoferol, la a media geomtrica de -caroteno aumenta un a-tocoferol. El ICde al 95% para la razn de medias geomtricas asociada a un aumento de 87,6 Como consecuencia, la tendencia resultante en la escala original del b-caroteno es exponencial, tal como se enla Figura 10.12( ). = 42%. g/g en el muestra -tocoferol se calcula multiplicando primero los lmites del intervalo 100{exp(87,6 0,0040) 1} = 100(1,42 -b 1) Este incremento porcentual en El IC al 95% para la razn de medias geomtricas asociada a un aumento de 87,6 mg/g en 1 por dicho incremento y despus exponenciando, para la geomtrica de multiplicando -caroteno permanece constante a travs de todo el rango el media a-tocoferol se calcula primero los lmites del intervalo para 1 por dicho incremento y despus exponenciando, observado delc -tocoferol. Como consecuencia, la tendencia resultante en la t SE(b )}] = exp{87,6(0,0040 1,96 0,00032)} exp[ {b = (1,34; 1,50), escala original del -caroteno es exponencial, tal como se muestra en la Figura de donde se concluye con una confianza del 95% que la media geomtrica de b-caroteno 10.12( b).entre un 34 y un 50% por cada incremento de 87,6 mg/g en el nivel de a-tocoferol. aumenta de donde se concluye con unasignificativo confianza del 95% que lacontraste media geomtrica dela -hiptesis Este cambio relativo es muy dado que el bilateral de El ICH al 95% para la razn de medias geomtricas asociada a un aumento de 87,6 nula 0: 1 = 0 mediante el estadstico caroteno aumenta entre un 34 y un 50% por cada incremento de 87,6 g/g en el b 0,0040 primero los lmites del intervalo 1 g/g en el -tocoferol se calcula multiplicando t= = = 12,44 SE (b 0,00032 nivel de -tocoferol. Este cambio relativo es muy significativo dado que el 1) 1un por dicho incremento y despus exponenciando, para arroja valor P= 2P(t698 12,44) 2{1 F(12,44)} < 0,001. contraste bilateral de la hiptesis nula H0: 1 = 0 mediante el estadstico arroja un valor P = 2P (t698 12,44) 2{1 - (12,44)} <la 0,001. Como caba esperar, la hiptesis dehomogeneidad de varianza se hace mucho ms t SE ( b )}] = exp{87,6(0,0040 1,96 0,00032)} exp[ c { b 1 698;0,975 1 plausible utilizando la escala logartmica (paneles a y c de la Figura 10.13). Sin embargo, Como caba esperar, la hiptesis de homogeneidad de la varianza se hace la curvatura de los residuos de la Figura 10.13(b) sugiere que el efecto del mucho a-tocoferol no = (1,34; 1,50), es lineal en el logaritmo del b-caroteno o, dicho de forma equivalente, la 43 relacin ms plausible utilizando la escala logartmica (paneles a y c de la Figura 10.13). subyacente entre el a-tocoferol y el b-caroteno no parece responder fielmente a un modelo exponencial. As, la con transformacin logartmica dela la variable respuesta elimina la de donde se concluye una confianza del 95% que media geomtrica de Sin embargo, la curvatura de los residuos de la Figura 10.13( b ) sugiere que el heterogeneidad de la varianza pero introduce una desviacin de la asuncin de linealidad. Como veremos ms adelante, problema podra paliarsede transformando tambin la caroteno aumenta entre un 34 yeste un en 50% por cada incremento 87,6 g/g de en el efecto del -tocoferol no es lineal el logaritmo del -caroteno o, dicho variable explicativa para restaurar la linealidad en la relacin. Alternativamente, se podra haber ajustado un modelo de regresin lineal ponderado entre el a-tocoferol y el nivel de -tocoferol. cambio relativo es muy dado que el no forma equivalente, laEste relacin subyacente entre el significativo -tocoferolheterogneas y el -caroteno b -caroteno, que permite trabajar directamente con varianzas sin necesidad de transformar los datos ni modificar la estructura lineal del modelo. : 1 = 0 mediante contraste bilateralfielmente de la hiptesis nula H0exponencial. parece responder a un modelo As, el la estadstico transformacin
1 698;0,975 1
logartmica de la variable respuesta elimina la heterogeneidad de la varianza pero Pastor-Barriuso R. introduce una desviacin de la asuncin de linealidad. Como veremos ms 43
183
residuos sean comparables a lineal distintos niveles de la variable explicativa, es preferible Correlacin y regresin simple realizar el diagnstico del modelo mediante los residuos estandarizados
0,5 0 log(-caroteno) -1 -2 -3
ri = s 1
ei 1 ( xi x ) 2 2 n (n 1) s x
ei s 1 hi
,
-caroteno (g/g)
1,6 1,2 0,8 0,4
que se obtienen de dividir los residuos ei por una estimacin de su desviacin tpica. El trmino hi se conoce como el leverage de una observacin y es una medida estandarizada de la distancia entre cada valor xi de la variable explicativa y su media x
0 100 200 300 400 0 100 0 200 300 400
que se tratar en el apartado siguiente. No obstante, -tocoferol (g/g) si el tamao muestral es grande y-tocoferol (g/g)
(a ) (b) no hay valores muy extremos de la variable explicativa (observaciones con alto Figura 10.12 Recta de regresin del logaritmo del -caroteno sobre el -tocoferol en el grupo control del r) comportan de forma anloga. leverage), ambos EURAMIC residuos ei y i se estudio (a y tendencia exponencial resultante en la escala original del -caroteno (b).
En determinados casos el grfico de los residuos estandarizados ri frente a los valores

0,5 3 i no permite apreciar claramente las posibles desviaciones de las asunciones predichos y
Figura 10.12
rk clara 0 2 de linealidad y homogeneidad de la varianza. Para obtener una representacin ms
nk en tales circunstancias, es aconsejable dividir los n residuos ri en K grupos de tamao 1 -0,5 i (por ejemplo, deciles) y calcular la media ri valores ordenados por crecientes de y 0
-1 -2 -2 1,5 -1,5 -1 -0,5
(b)
rk =
1 nk
r
i =1
nk
sk
1 0,5
y la varianza
-3 -2 -1,5
2 sk =
-1
1 nk
2 y r ii i =1
nk
-0,5
0,5
-2
-1,5
-1
-0,5
k y
(c)
(a)
de los residuos en cada uno de los La presencia de curvatura en a ellos grfico depredichos los Figura 10.13 Grfico degrupos. los residuos estandarizados ri frente valores i de la regresin lineal Figuracon 10.13 del logaritmo del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC (a), junto las k en los medias rk (frente b) y desviaciones tpicas sk (c)medios de los residuos estandarizados por deciles de los valores predichos. a los valores predichos y distintos grupos residuos medios indicar falta de linealidad en la relacin, mientras que la existencia de tendencia en el 10.3.6 Observaciones atpicas e influyentes
En el diagnstico de un modelo de regresin lineal, tan importante como 37 evaluar las asunciones de linealidad y homogeneidad de la varianza es examinar la contribucin o influencia de cada observacin en el modelo estimado. En general, es deseable que el modelo estimado responda al patrn global de los datos; esto es, las estimaciones de los parmetros del modelo deben basarse en el conjunto de todas las observaciones y no nicamente en un reducido nmero de observaciones muy influyentes. De esta forma, se tendr un mayor grado de confianza a la hora de inferir los resultados del modelo a toda la poblacin. La forma ms natural de medir la influencia de una observacin en un modelo de regresin lineal simple es comparar las estimaciones de la constante y la pendiente obtenidas en la muestra
obtenidas en la muestra completa con sus correspondientes estimaciones tras excluir

Regresin lineal simple dicha observacin. Una medida estandarizada del cambio global que se produce en las
estimaciones b0 y b1 al eliminar la i-sima observacin es la distancia de Cook Di, que completa con sus correspondientes estimaciones tras excluir dicha observacin. Una medida en su forma ms simple puede expresarse como estandarizada del cambio global que se produce en las estimaciones b0 y b1 al eliminar la i-sima observacin es la distancia de Cook Di, que en su forma ms simple puede expresarse como Di = ri 2 hi . 2(1 hi )
De esta frmula se desprende que la influencia de una observacin en las estimaciones b0 y b1 leverage hi. Losen residuos estandarizados depende tanto de su se residuo estandarizado ri como de De esta frmula desprende que la influencia desu una observacin las estimaciones ri determinan la desviacin del valor observado de la variable respuesta respecto al valor en valor absoluto predicho la recta de regresin, de tal forma que valores altos de ri h depende tanto de su residuo estandarizado ri como de su leverage b0 y b1 por i. Los corresponden a observaciones pobremente ajustadas, que se conocen como observaciones atpicas o outliers . Estos outliers provocan una disminucin de la calidad global del ajuste, lo la desviacin del valor observado de la variable residuos estandarizados ri determinan que redunda en un aumento de la varianza residual s2 y del error estndar de las estimaciones b0 los al outliers no son necesariamente en tal las forma estimaciones puntuales y brespuesta respecto valor predicho por la recta deinfluyentes regresin, de que valores 1. Sin embargo, b0 y b1, ya que su influencia tambin depende del leverage. El leverage hi de una observacin valor absoluto a observaciones ajustadas, se altos de ri en es una medida estandarizada decorresponden la distancia entre el valor de lapobremente variable explicativa y que su media, 2 que se define como 1 ( xi x ) hi =o outliers + . Estos outliers provocan una conocen como observaciones atpicas 22 1n ( x x 1)s x i hi = + (n 2 n lo 1) s (nque x disminucin de la calidad global del ajuste, redunda en un aumento de la
los outliers que y toma valores entre 1/y ny conuna una media media de h = 2/ y toma valores entre 1/n 11 con 2/n n.. A Adiferencia diferenciade de los outliers que varianza residual s2 y del error estndar de las estimaciones b0 y b1. Sin embargo, los corresponden a observaciones atpicos variable respuesta, las observaciones y toma valores entre 1/n y 1con convalores una media de h de = la 2/n . A diferencia de los outliers que corresponden a observaciones con valores atpicos de la variable respuesta, las con alto leverage son aquellas con valores extremos de la variable explicativa. El leverage juega outliers no son necesariamente influyentes en las estimaciones puntuales b0 y b1, ya que un corresponden papel determinante en la distincin entreatpicos outliersde y la observaciones influyentes. As, por a observaciones con valores variable respuesta, las observaciones con alto leverage son aquellas con valores extremos de la variable ejemplo, el punto A de la Figura 10.14(a) es un outlier extremo (residuo muy elevado) que tiene su influencia tambin depende del leverage. El leverage hi de una observacin es una poca influencia encon la recta regresin que sta no vara sensiblemente tras excluir observaciones alto de leverage sonestimada aquellas ya con valores extremos de la variable explicativa. El leverage juega un papel determinante en la distincin entre outliers y dicho punto. Esto se debe a que la observacin A presenta un valor centrado de la variable medida estandarizada de la distancia entre el valor de la variable explicativa y su media, explicativa (leverage muy bajo) que en gran medida las estimaciones explicativa. El leverage juega un mitiga papel determinante en su la influencia distincin sobre entre outliers y observaciones influyentes. As, por ejemplo, el punto A de la Figura 10.14( a ) es un b0 y b1 (distancia de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es que se define como un outlier tan marcado pero tiene una influencia mayor recta10.14( de regresin estimada, observaciones influyentes. As, por ejemplo,mucho el punto A de en la la Figura a) es un outlier extremo (residuo muy elevado) que tiene poca influencia en la recta de regresin particularmente en la pendiente b1, debido a que este punto presenta un valor muy extremo de la variable explicativa. outlier extremo (residuo muy elevado) que tiene poca influencia en la recta de regresin estimada ya que sta no vara sensiblemente tras excluir dicho punto. Esto se debe a que 45 B que estimada ya que staAno vara sensiblemente tras excluir dicho punto. Esto se debe a la observacin A presenta un valor centrado de la variable explicativa (leverage muy la observacin A presenta un valor centrado de la variable explicativa (leverage muy bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia bajo) que mitiga en gran medida su influencia sobre las estimaciones b0 y b1 (distancia y de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier de Cook moderada). Por el contrario, el punto B de la Figura 10.14(b) no es un outlier tan marcado pero tiene una influencia mucho mayor en la recta de regresin estimada, tan marcado pero tiene una influencia mucho mayor en la recta de regresin estimada, particularmente en la pendiente b1, debido a que este punto presenta un valor muy particularmente en la pendiente b1, debido a que este punto presenta un valor muy x extremo de la variable explicativa. x extremo de la variable explicativa. (a) (b ) [Figura 10.14 aproximadamente aqu] (lnea fina) los puntos A y B Figura 10.14 Rectas de regresin resultantes de incluir (lnea gruesa) y excluir del ajuste del modelo lineal. [Figura 10.14 aproximadamente aqu] Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta de Figura 10.14 Pastor-Barriuso R. Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta de regresin cuanto mayor sea su distancia de Cook Di. En general, se recomienda regresin cuanto mayor sea su distancia de Cook Di. En general, se recomienda
185
Una observacin ser tanto ms influyente en las estimaciones b0 y b1 de la recta de regresin cuanto mayor sea su distancia de Cook Di. En general, se recomienda examinar detenidamente aquellas observaciones con una distancia de Cook superior a 4/(n 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un residuo estandarizado alto ri = 2. No obstante, la seleccin de un valor crtico para Di es un tanto arbitraria y es preferible evaluar la influencia relativa de cada observacin en comparacin con las restantes observaciones. Un grfico til es el diagrama de dispersin de los residuos estandarizados ri frente a los leverages hi, donde cada observacin se representa mediante un crculo de rea proporcional a su distancia de Cook Di. En este grfico, el tamao de los crculos identificar claramente las observaciones ms influyentes, mientras que la posicin permitir discernir la contribucin de los residuos y leverages a la influencia de dichas observaciones. 1 ( xi x ) 2 h + i = 2 Ejemplo 10.15 La Figura 10.15 muestra los residuos ri frente a los n (estandarizados n 1) s x leverages hi de la regresin lineal del colesterol HDL sobre el ndice de masa corporal, 2, 0 y 2 y verticales en el donde se incluyen lneas de referencia horizontales en ri = doble hi = 0,0075 y el triple h del leverage medio 0,0038. El = 2/533 2/n. A= diferencia derea los outliers que y toma valores entre 1/n y 1 con una media de h = i = 0,0113 de los crculos es proporcional a la distancia de Cook Di e indica la influencia relativa de cada observacin. Por supuesto, la influencia las observaciones conforme las corresponden a observaciones conde valores atpicos de la aumenta variable respuesta, aumentan sus residuos estandarizados en valor absoluto (direccin vertical del grfico) y sus leverages (direccin horizontal). Sin embargo, nocon se valores aprecian observaciones observaciones con alto leverage son aquellas extremos de la variable marcadamente influyentes que pudieran conducir los resultados globales del modelo. La se presenta en determinante el cuadrante superior izquierda de la observacin ms influyente explicativa. ElD leverage juega un papel en la distincin entre outliers y i = 0,043 Figura 10.15, que corresponde a un outlier con un residuo muy alto ri = 4,28 y un leverage 0,0047. Las estimaciones deAs, la constante y la pendiente la recta de regresin moderado hi =observaciones influyentes. por ejemplo, el punto de A de la Figura 10.14(a) es un (i) (i) = 1,71 y b1 = 0,024 que, comparadas con las estimaciones excluyendo este outlier son b0 (error estndar) b0 = 1,69 (0,092) y b1 = 0,023 (0,0035) en la muestra completa outlier extremo (residuo muy elevado) queobtenidas tiene poca influencia en la recta de regresin (i) (Ejemplo 10.9), suponen un cambio estandarizado de (b0 b0)/SE(b0) = (1,71 1,69)/0,092 (i) b1 )/SEno (b1) = (0,024 + 0,023)/0,0035 = 0,23 en la pendiente. = 0,20 en la constante y ya (b1 estimada que sta vara sensiblemente tras excluir dicho punto. Esto se debe a que As, a pesar de que este outlier est muy mal ajustado, no afecta substancialmente a la recta de regresin estimada. la observacin A presenta un valor centrado de la variable explicativa (leverage muy Ejemplo 10.16 Enque la Figura 10.16 se representan los residuos estandarizados ri frenteba los b1 (distancia bajo) mitiga en gran medida su influencia sobre las estimaciones 0y leverages hi de la regresin lineal del logaritmo del b-caroteno sobre el a-tocoferol. En una primera inspeccin visual se distinguen al menos el 3punto observaciones con una influencia de Cook moderada). Por el contrario, B de la Figura 10.14( b) no es un outlier sensiblemente mayor que las dems, que corresponden a los crculos de mayor tamao situados a la derecha del grfico. Los valores observados, predichos y las medidas diagnsticas tan marcado pero tiene una influencia mucho mayor en la recta deasociadas regresin estimada, a dichas observaciones se presentan en la Tabla 10.5. A diferencia del ejemplo anterior, donde la observacin ms influyenteen corresponda ab un outlier, aestas 3 observaciones presentan que este punto presenta un valor muy particularmente la pendiente 1, debido leverages muy altos hi = 0,044, 0,038 y 0,022 debidos a valores muy elevados del a-tocoferol, y slo una de ellas est pobremente ajustada con ri = 3,11. Para evaluar la influencia conjunta extremo de la variable explicativa. de dichas observaciones en la recta de regresin estimada, se calcularon los coeficientes del (i) (i) = 1,93 y b1 = modelo excluyendo simultneamente las 3 observaciones, que resultaron ser b0 [Figura aproximadamente aqu] y b1 = 0,0040 0,0042. En comparacin con las estimaciones (error10.14 estndar) b0 = 1,91 (0,055) (0,00032) obtenidas en la muestra completa (Ejemplo 10.14), la eliminacin de estas 3 observaciones provoca un cambio estandarizado en la constante de (1,93 + 1,91)/0,055 = Una observacin ser tanto ms influyente en las b0dichas y b1 de la recta de 0,36 y en la pendiente de (0,0042 0,0040)/0,00032 = 0,50. Esto es, estimaciones la exclusin de observaciones conlleva una disminucin en la constante de aproximadamente un tercio de su se recomienda cuanto mayor sea su de error Cook Di. En general, error estndar regresin y un aumento en la pendiente dedistancia la mitad del estndar. As, aunque estas 3 observaciones no son extremadamente influyentes por s mismas, el modelo s parece ser examinar aquellas observaciones una distancia de Cook superior a sensible a la presencia dedetenidamente observaciones con alto leverage (Figura con 10.16).
4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y un residuo estandarizado alto ri = 2. No obstante, la seleccin de un valor crtico para Di
ri
0
-2 -3 0,002 0,005 0,01 0,02 0,03
hi 1 ( xi x ) 2 1 ( xi x ) 2 + h2 + i = i = 2 frente a los leverages h de la regresin lineal del Figura 10.15 Grfico dehlos residuos i i n (n 1estandarizados n (n 1) sr )s x Figura 10.15 x colesterol HDL sobre el ndice de masa corporal en el grupo control del estudio EURAMIC. El rea de los crculos es proporcional a la distancia de Cook Di. Las lneas de referencia horizontales corresponden a rivalores = 2, 0 2,1/ yn las ay h1 2h una = y 3h = El eje horizontal estque en escala logartmica = 0,0075 2/ n. A diferencia los outliers que = 0,0113. 2/de n. A diferencia de los outliers y toma entre y 1verticales con una 1/ media de yy toma valores entre n con media de i = para mejorar la representacin grfica. corresponden a corresponden observacionesacon valores atpicos de la variable respuesta, las respuesta, las observaciones con valores atpicos de la variable
observaciones con alto son aquellas con valores extremos de la variable observaciones con alto leverage son aquellas con valores extremos de la variable 3 leverage explicativa. El leverage juega papel determinante endeterminante la distincin en entre outliers y entre outliers y explicativa. Elun leverage juega un papel la distincin observaciones influyentes. As, por ejemplo, el punto A de lael Figura a)Figura es un 10.14(a) es un observaciones influyentes. As, por ejemplo, punto10.14( A de la outlier extremo outlier (residuo muy elevado) que tiene poca influencia en la influencia recta de regresin extremo (residuo muy elevado) que tiene poca en la recta de regresin
1 2
estimada ya queestimada sta no vara sensiblemente excluir dicho punto. Esto se debe a que ya que sta no varatras sensiblemente tras excluir dicho punto. Esto se debe a que
0 ilapresenta la observacinrA un valor centrado la variable explicativa (leverage muy (leverage muy observacin A presenta unde valor centrado de la variable explicativa
y b1 (distancia bajo) que mitiga en gran su gran influencia sobre las estimaciones b0 estimaciones bajo) quemedida mitiga en medida su influencia sobre las b0 y b1 (distancia de Cook moderada). Por moderada). el contrario,Por el punto B de lael Figura b)Figura no es un outlier de Cook el contrario, punto10.14( B de la 10.14( b) no es un outlier tan marcado pero tiene una influencia mayor en la recta de regresin estimada, tan marcado pero tienemucho una influencia mucho mayor en la recta de regresin estimada, -2 debido a quebeste puntoapresenta valor muy un valor muy que este un punto presenta particularmenteparticularmente en la pendiente en b1, la pendiente 1, debido extremo de la variable explicativa. extremo de la variable explicativa.
0,0015 0,003 10.14 0,005 0,01 [Figura 10.14 aproximadamente aqu] [Figura aproximadamente aqu] 0,02 0,04 -3 -1
hi 1 ( xi x ) 2 1 ( xi x ) 2 = h + = h + i i2 2 influyente Figura 10.16 Grfico de residuos estandarizados frente a los leverages hi la de la regresin lineal del loUna Una observacin ser tanto influyente en estimaciones y b1 de la recta observacin ser tanto enrlas b0 de y b1 de recta de ib 0 estimaciones n n (n ms 1) slos (n ms 1 ) s las Figura 10.16 x x garitmo del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC. El rea de los crculos es proporcional la su distancia Cook D lneas de horizontales corresponden a ri = 2, 0 y 2, En de general, se recomienda En general, se recomienda regresin cuanto mayor a sea distancia de Cook D regresin cuanto mayorde sea su distancia Cook Dreferencia i.i.Las i. 2huna = y 3h = El eje horizontal est en escala logartmica. = 0,0057 2/ n. A diferencia de los outliers que ma valores y entre 1/y n las y 1 verticales con una1/ media de = 0,0086. 2/n .A diferencia de los outliers que toma valores entre na yh 1i = con media de examinar detenidamente observaciones una distancia deuna Cook superior examinar aquellas detenidamente aquellascon observaciones con distancia deaCook superior a esponden acorresponden observaciones valores atpicos de la variable las respuesta, las a con observaciones con valores atpicosrespuesta, de la variable Pastor-Barriuso R. 187 un hi = 2/n y un 4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio hi = 2/n y 4/(n - 2), que corresponde, por ejemplo, a un punto con un leverage medio ervaciones con alto leverage son aquellas con valores extremos de la extremos variable de la variable observaciones con alto leverage son aquellas con valores obstante, la seleccin de un valor crtico para Di crtico para Di No obstante, la seleccin de un valor residuo estandarizado alto ri = 2. No alto residuo estandarizado ri = 2. licativa. El leverage juega papel juega determinante en la distincinen entre outliers y entre outliers y explicativa. El un leverage un papel determinante la distincin
deben limitarse exclusivamente al rango de valores observados en el resto de la muestra.

No obstante, el tratamiento de observaciones influyentes no pasa necesariamente por su exclusin del ajuste del modelo. Un procedimiento alternativo de uso generalizado
consiste en encontrar una transformacin de la variable respuesta Tabla 10.5 Observaciones ms influyentes en la explicativa regresin o lineal del que logaritmo del -caroteno sobre el -tocoferol en el grupo control del estudio EURAMIC. permita reducir la influencia de dichas observaciones. Por un lado, las transformaciones
Valores observados Valor predicho Medidas diagnsticas 0,044 tiles0,038 para 0,022 Estimaciones*
(i) (i) b1
yi i ri hi Di b0 i de laxvariable respuesta afectan al residuo estandarizado pero no al leverage de una 626,8 1,74 586,6 0,87 observacin, por lo 475,1 2,30
que
0,60 slo 0,44 son 0,01
1,57 1,79 potencialmente 3,11
0,057 0,062 atenuar la 0,107
1,90 1,92 de influencia 1,93
0,0039 0,0041 0,0041
outliers. Por el contrario, las transformaciones variable influyencorrespondiente. tanto * Estimaciones de la constante y la pendiente de la rectade de la regresin trasexplicativa excluir la observacin Las estimaciones (y su error estndar) en la muestra completa de 700 controles fueron b0 = 1,91 (0,055) b1 = 0,0040 (0,00032). enylos residuos como en los leverages, de tal forma que estas transformaciones tambin
En ocasiones lcito la eliminar las observaciones marcadamente pueden utilizarseresulta para mitigar influencia de observaciones extremas en influyentes, la variable bien por tratarse de valores atpicos de la variable respuesta o bien por presentar valores extremos de la variable explicativa. En tal caso, las inferencias derivadas del modelo deben limitarse explicativa. exclusivamente al rango de valores observados en el resto de la muestra. No obstante, el tratamiento de observaciones influyentes no pasa necesariamente por su exclusin del ajuste del modelo. Un 0,19 y SE(bconsiste con errores estndar de SE( b0) = 1) = 0,039. Al exponenciar ambos lados procedimiento uso generalizado una transformacin de la Ejemplo alternativo 10.17 Con objeto de reducir la influenciaen deencontrar las observaciones con variable explicativa o respuesta que permita reducir la influencia de dichas observaciones. Por un de la igualdad, se tiene que la media geomtrica de la variable respuesta es una lado, las transformaciones de la variable respuesta afectan en al residuo estandarizado pero no al valores muy elevados del -tocoferol (alto leverage) el modelo de regresin leverage de una observacin, por lo que slo son potencialmente tiles para atenuar la influencia funcin potencial de la variable explicativa (panel b de la Figura 10.17), de outliers. Por el contrario, las transformaciones de la variable explicativa influyen tanto en los lineal del logaritmo del -caroteno sobre el -tocoferol, se podra aplicar a su vez residuos como en los leverages, de tal forma que estas transformaciones tambin pueden utilizarse para mitigar la influencia de observaciones extremas en explicativa. yG = exp(-3,76 + 0,51 log x)la =variable 0,023x0,51 . una transformacin logartmica a la variable explicativa. En la Figura 10.17(a) se con errores estndar SE(b0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados Ejemplo 10.17 Con objeto de reducir la influencia de las observaciones con valores muestra la recta de regresin estimada entreen el simple logaritmo del -caroteno y Este tiene entonces una interpretacin la escala original de muy elevados del a -tocoferol (alto leverage) el modelo de regresin lineal del logaritmo de la modelo igualdad, se tiene que la media geomtrica de la en variable respuesta esel una del b-caroteno sobre el a-tocoferol, se podra aplicar a su vez una transformacin logaritmo del -tocoferol, ambas variables ya que, al aumentar c veces la variable explicativa, la logartmica a la variable explicativa. En la Figura 10.17( ) Figura se muestra larazn recta de regresin funcin potencial de la variable explicativa (panel b de a la 10.17), estimada entre el logaritmo del b-caroteno logaritmo del a-tocoferol, 0,19 y SE(b1)y=el 0,039. Al exponenciar ambos lados con errores estndar SE(b0) = medias geomtricas es constante e igual a 3,76 0,51 log x, x0,51. log y G = y G que = exp(-3,76 0,51+ log x) = la 0,023 de la igualdad, se tiene la media + geomtrica de variable respuesta es una con errores estndar SE(b0) = 0,19 y SE(b1) = 0,039. Al exponenciar ambos lados de la y G (cx) 0,023(cx) 0,51 0,51 igualdad, se tiene la variable media geomtrica de(panel la simple variable respuesta es una funcin funcin potencial de la explicativa bc de la Figura 10.17), = = ; la Este modelo tieneque entonces interpretacin en escala original de potencial 49 yuna ,023 x 0,5110.17), G ( x )b de 0 de la variable explicativa (panel la Figura
relativo la variable respuesta. incrementos del 50% (c = 1,50)un en el nivel de es decir,en a incrementos relativosPor en ejemplo, la variable explicativa les corresponde 0,51 dado por 0 , 51 IC al 95% para la razn de medias geomtricas viene 1) = 100(1,23 1) = 23% en la media a-tocoferol se asocian con un aumento del 100(1,50 y G (cx) 0,023(cx) 0,51 = = c ; geomtrica de brelativo -caroteno. al para la0,razn de medias geomtricas 51 Por mismo cambio enEl la variable respuesta. ejemplo, incrementosviene del dado por yIC (x ) 95%0 ,023x
ambas variables ya que, al aumentar c veces la variable explicativa, la razn de yG = exp( 0,51 log x) = 0,023 x0,51 . 3,76 + es decir, a incrementos relativos en la variable explicativa les corresponde un Este modelo tiene entonces unaeinterpretacin simple en la escala original de ambas medias geomtricas es constante igual a variables ya que, alentonces aumentar c veces larespuesta. variable explicativa, razn de medias Este modelo tiene interpretacin simple en lala escala original degeomtricas mismo cambio relativo en launa variable Por ejemplo, incrementos del es constante e igual a y 0 ,023 (cxla ) 0,51 0,51 explicativa, la razn de G (cx) ambas variables ya que, al aumentar c veces variable 50% (c = 1,50) en el nivel de -tocoferol se asocian con = =c ;un aumento del 0 , 51 y G ( x) 0,023x 0,51 medias esrelativos constante ela igual a la explicativa - 1) = 100(1,23 - 1) = 23% en media geomtrica de -caroteno. El cambio 100(1,50 es decir,geomtricas a incrementos en variable les corresponde un mismo
188
c 1 698; 0 , 975 1 = 1,500,511,960, 039 = (1,19; 1,27), 50% (c = 1,50) en el nivel de -tocoferol se asocian con un aumento del de decir, dondease concluye con una confianza del 95% que la media geomtrica un de b-caroteno es incrementos relativos en la variable explicativa les corresponde 0,51 aumenta un ycon un 27% por cadaen incremento del engeomtrica el nivel de de a-tocoferol. de donde entre se concluye una confianza del que la 50% media - 1) =19 100(1,23 - 1) = 23% la95% media geomtrica de -caroteno. El 100(1,50 mismo cambio relativo en la variable respuesta. Por ejemplo, incrementos del Pastor-Barriuso R. aumenta caroteno entre un y un geomtricas 27% por cada incremento del 50% en el nivel IC al 95% para la razn de 19 medias viene dado por 50% (c = 1,50) en el nivel de -tocoferol se asocian con un aumento del de -tocoferol. b t SE ( b1 ) 511, 96 0 , 039 c 1 698; 0 , 975 - 1) =1 ,500,en = (1,19; 1,27),de -caroteno. El = 23% la media geomtrica 100(1,500,51 - 1) = 100(1,23
b t
G SE ( b )
La utilizacin de una transformacin logartmica para el a-tocoferol ha producido un doble efecto beneficioso en el ajuste del modelo. Por un lado, aunque persisten las observaciones con alto leverage (debidas, en este caso, a valores muy bajos del a-tocoferol), su influencia es ahora sensiblemente menor, como indica el tamao de los crculos de la Figura 10.18(a). Por otro lado, la relacin subyacente entre el a-tocoferol y el b-caroteno parece responder mejor al modelo potencial de la Figura 10.17(b), obtenido mediante transformaciones logartmicas de ambas variables, que al modelo exponencial de la Figura 10.12(b), resultante de transformar nicamente el b-caroteno. Esta apreciacin se fundamenta en que la curvatura de los residuos de la regresin lineal del logaritmo del b-caroteno sobre el a-tocoferol (panel b de la Figura 10.13) desaparece al transformar residuos sean comparables a distintos nive tambin el a-tocoferol (panel b de la Figura 10.18).
0,5 -caroteno (g/g) 0 log(-caroteno) -1 -2 -3 2,5 3 4 5 6 1,6
realizar el diagnstico del modelo mediant ri = ei s 1
1,2 0,8 0,4 0 0 100
1 (x n (n
que se obtienen de dividir los residuos ei p trmino hi se conoce como el leverage de

200 300 400
estandarizada de la distancia entre cada va que tratar en el apartado siguiente. No -tocoferol (se g/g)
log(-tocoferol)
(a )
Figura 10.17 Recta de regresin del logaritmo del -caroteno sobre el logaritmo del -tocoferol en el grupo leverage), residuos control del estudio EURAMIC (a) y tendencia potencial resultante en la escala original de ambasambos variables (b). ei y ri se compo
(b ) hay valores muy extremos de la variabl no
En determinados casos el grfico de los

3 2 1 0,5
Figura 10.17
i no permite apreciar claramen predichos y
rk
0 -0,5
de linealidad y homogeneidad de la varian
en tales circunstancias, es aconsejable divi

(b)
ri
0 -1 -2 -3 0,0015 0,003 0,005 0,01 0,02 0,04 1,5
-2 ordenados -1,5 -1 valores -0,5 crecientes de y i (po por
rk = y la varianza
-2 -1,5 -1 -0,5
2 sk =
sk
1 0,5
hi
(a)
k y
( c) de los residuos lineal en cada uno de los grupos. Figura 10.18 Grfico de los residuos estandarizados ri frente a los leverages hi de la regresin del logaritmo del -caroteno sobre el logaritmo del -tocoferol en el grupo control del estudio EURAMIC (a), Figura 10.18 donde el rea de los crculos es proporcional a la distancia de Cook Di, y grfico de las medias b) y a los valores pre rk ( frente residuos medios desviaciones tpicas sk (c) de los residuos estandarizados por deciles de los valores predichos.
indicar falta de linealidad en la relacin,

en los restantes n2 = n - n1 sujetos del segundo grupo. Bajo esta codificacin, la 10.3.7 Variable explicativa dicotmica Y sobre la la variable interpretacin del regresin lineal de la variable respuesta n2 modelo = n - n1 de sujetos del segundo grupo. Bajo esta codificacin, en los restantes Hasta el momento se han considerado nicamente modelos de regresin lineal con variables explicativas continuas. No obstante, las variables explicativas pueden ser tanto continuas X es particularmente sencilla, dado que la estimacin de laY pendiente se como indicadora sobre la variable interpretacin del modelo de regresin lineal de la variable respuesta categricas ya que la regresin lineal no establece ninguna asuncin respecto a su distribucin. En reduce este apartado separticularmente revisa el ajuste sencilla, e interpretacin dela modelos de regresin lineal simple con a X es dado que estimacin de la pendiente se indicadora una nica variable explicativa dicotmica, que clasifica a los sujetos en dos grupos o categoras segn la presencia ausencia de una determinada caracterstica. El tratamiento no n - n1 sujetos del segundo grupo. Bajo esta codificacin, lade variables en los restantes 2 n = reduce a explicativas politmicas con tres o ms categoras se abordar en el Tema 11 ya que estas ( )( ) x x y y n esgo el riesgo de desarrollar de desarrollar un primer un primer infarto infarto agudo agudo de miocardio en n1 en i i de miocardio n n = 1 i variables requieren de mltiples variables indicadoras para distintas categoras. Yysobre la variable interpretacin modelo regresin lineal de respuesta b1 =del n n - n1 de sujetos del codificacin, en los restantes = segundo ( grupo. = las esta ( y1 y) = y ilavariable y )Bajo 2 =n n 1 y 2 la n n n 2 1 = i 1 2 modelos de regresin mediante s s.valores Los valores obtenidos obtenidos fueron fueron 0,89, explicativas 0,89, 1,58, 1,58, 0,79, 0,79, 1,29, 1,29, 1,42, 0,84, 0,84, ( )( xi ( y y ) 1,42, Las variables dicotmicas se2introducen en los x ix x i) n1 n n X es particularmente sencilla, dado que la estimacin deuna laY pendiente se indicadora = 1 i sobre la variable interpretacin modelo de de respuesta i =1 de las dos categoras una nica variable indicadora Xregresin , que toma distintos valores b1 =del = lineal ( y ila variable ( ycada y ) = xi en 1 y ) = y1 y 2 n 6 53 y mmol/l. 1,53 mmol/l. La media La media de los de niveles los niveles del colesterol del colesterol HDL HDL en en n n n 2 1 = i de la variable. Aunque la (eleccin es arbitraria, la codificacin ms frecuente 1 valores 2 2 x i x ) de estos reduce a losXnessujetos particularmente sencilla, dado que la estimacin de la pendiente se indicadora = 1 en pertenecientes al primer grupo y 0 en los restantes n2 = n n1 sujetos es x i =1 yi la constante1 a s pantes es es del segundo grupo. Bajo esta codificacin, la interpretacin del modelo de regresin lineal de n Y sobre la variable indicadora X es particularmente sencilla, dado que la reduce arespuesta la variable y la constante a ( x i se x )( yi y) n1 n1 10 estimacin de la pendiente a ++ +1 1 10 0,89 + 0 1 ,89 ,58++ 1... ,58 1 ,... 53 ,53 = y2 , breduce ( y1 y 2 ) n ny 0 = y b1 x = i =1 x 1,223 mmol/l. mmol/l. = = xi = xi = b1 = 1,223 ( yi ( y1 y ) = y1 y 2 y) = n n =n 0 i =110 i =1 10 10 n2 n1 n 2 i =1 2 ( )( ) x x y y x i) n1 n1 i ( xi ny = y2 , b0 = y b1 x = ( y1 y 2 ) n i =1 i =1 b = = (y ( y1 y ) =la y1 y2 y n i y ) = respuesta n medias muestrales de donde y1 y 1y 2 son las la variable en primera n2 n1 n 2 i =1 2 ( xi x ) ca senta presenta las siguientes las siguientes propiedades: propiedades: i =1 y la constante a segunda de lamedias variable explicativa, As,en la la constante donde y1categora y y 2 son las muestrales de respectivamente. la variable respuesta primera y aslacin). en (traslacin). Si seysuma Si se suma una constante una constante a cada a uno cada de uno los de datos los datos la constante a y la constante a de la variable corresponde simplemente a la media de la variable respuesta en el segundo grupo (xi = n segunda categora explicativa, respectivamente. As, la constante 1 = y b x = y ( y y ) = y , ,edia la media de la muestra de la muestra resultante resultante es igual es igual a la media abla media inicial inicial ms la ms la 1 1 2 2 0 n x = 1) el segundo grupo ( xi 0) y la pendiente a la diferencia de medias entre el primer ( corresponde simplemente a la media de la variable respuestai en ely segundo grupo ( xi = n1 donde y son las medias muestrales de la variable respuesta en la primera y segunda xiy+ = c , x entonces + c , entonces y = x y + = c x . Un + c cambio . Un cambio de origen de origen que que ada; i yi =si i i b0 = y b1 x = y ( y1 y 2 ) = y 2 , 1 2 n variable categora de la variable explicativa, respectivamente. As, ladado constante corresponde simplemente donde y y y son las medias muestrales de la respuesta en la primera y = 0). Asimismo, el error estndar de la constante viene 1 2 = 1) y el segundo grupo ( xi 0) y la pendiente a la diferencia de medias entre el primer (xi por = 0) y la pendiente a la diferencia de a la media de la variable respuesta en el segundo grupo ( x ncia recuencia es el centrado es el centrado de la variable, de la variable, que consiste que consiste en restar en restar a a i = 1) y el segundo de grupo (xi = 0). Asimismo, error estndar de la medias entre el y primer (x segunda categora la variable explicativa, respectivamente. As,en la el constante i medias donde y1 y las muestrales la variable respuesta la primera y = 0). Asimismo, elde error estndar de la constante viene dado por 2 son 2 n 1 1 x s constante viene dado por 1 a stra muestra su media. su media. La media La media de una de variable una variable centrada ser, por = s SE (b0) centrada = s ser, + por + = 2 n n n 2 n en (n la )s x 1 n 2segundo corresponde simplemente a la media de variable respuesta el grupo (xi = segunda categora de la variable explicativa, respectivamente. As, la constante 2 1 1 n1 x s SE(b0 ) = s + =s + = 2 x = 1) el segundo grupo ( xi 0) y la pendiente a la diferencia de medias entre el primer ( n de n n 2 n i en el (n la )s x 1variable corresponde simplemente a la media respuesta segundo grupo ( xi = ny 2 y el error estndar de la pendiente por ala nidades). (unidades). Si se multiplica Si se multiplica cada uno cadade uno losde datos los datos de una de una y el error estndar de la pendiente por = 0). Asimismo, el error estndar de la constante viene dado = 1) y el segundo grupo (xi 0) y la pendiente a la diferencia de medias entre el primer (xipor el error estndar de la stante, a constante, la media la media dey la muestra de la muestra resultante resultante espendiente igual es igual a la por media a la media s n 1 1 , SEestndar (b1 ) = de la constante =s = s dado+ = 0). Asimismo, el error viene por 2 n n n n s n 1 n 1 1 x s 1 2 1 2 x 1 cx yi, = entonces cxi, entonces y = cy x. = c x. onstante te utilizada; utilizada; si yi =si s SE (b +s =n + 1 =1 0) = s 2 n n n 2 2 2 ( 1 ) n s n,2 b1)es = ms que la= s s = + 2n x donde la varianza residualSE s (no combinacin de las varianzas s1 y s2 de la variable 2 n n n n s n 1 1 1 x s 2 2 2 1 2 1 2 de neo origen de origen y escala. y escala. Si se multiplica Si se multiplica cada uno cada de uno los de datos los datos de de 1 x respuesta envarianza ambos grupos, combinacin de donde la residual s es ms SE(b0)s= no + que la =s + = las varianzas s1 y s 2 de 2 n (n 1) s x n n2 n n2 n y el error estndar de1la pendiente por 2 2 suma r constante una constante y al resultado y al resultado se le suma se le otra constante, otra constante, la media la media s = en ambos b0 b1 xi ) 2 (2yi la variable respuesta grupos, es ms que la combinacin de las varianzas s12 y s 2 de donde la varianza residual n 2 i =1 s no n1 la n2 ms la elmedia error estndar de laprimera pendiente por esultante nte es igual es igual a la media ayla inicial inicial por lapor primera constante, constante, ms la s n 1 1 2 + (y j = s yambos y2 ) 2 (SE ) grupos, la variable respuesta en b1y ) 1= , =s + i( 2 2 ( n 1 ) s ( n + n n n n 1 1 i =1 j= s n 1 1 2 1) s 2 1 2 1 2 x = . = yi =si c1 yx = + c c x , entonces + c , entonces y = c y x = + c c x . + c . i nte; ii 12 i 2 1 12 2 s n 1 n 12 n 2 SE(b1) = , =s =s + n1 n 2 n1 n 2 sx n 1 2 2 de donde la varianza residual s no es ms que la combinacin de las varianzas s12 y s 2 52 nsformar ra transformar los valores los valores del colesterol del colesterol HDL HDL de mmol/l de mmol/l a mg/dl a mg/dl se se 190 Pastor-Barriuso R. resultados se desprende De estos que la pendiente b1 y su error estndar SE(b1) 2 la variable respuesta en ambos grupos, s2 no es ms que la combinacin de las varianzas s12 y s 2 de donde la varianza residual 52 el orfactor de conversin de conversin 38,8. 38,8. As, utilizando As, utilizando la propiedad la propiedad del del coinciden exactamente con la estimacin puntual y el error estndar de diferencia de la variable ense ambos grupos, la, media la media del colesterol del colesterol HDL HDL en respuesta mg/dl en mg/dl se calculara calculara
comparacin de medias mediante el test de la t de Student para muestras

independientes con igual varianza.
Referencias
DeEjemplo estos resultados se comparar desprendelos que la pendiente su error estndar SElos (b1) coinciden 10.18 Para niveles mediosb de colesterol HDL entre 1 y exactamente con la estimacin puntual y el error estndar de la diferencia de medias en distribuciones con igual (vase 6.3.1).de Puede concluirse,se por tanto, que las casos de infarto de varianza miocardio y los Apartado controles libres la enfermedad, podra inferencias relativas a la pendiente de un modelo de regresin lineal con una nica variable explicativa dicotmica equivalentes a la comparacin de medias mediante ajustar un modeloson de algebraicamente regresin lineal simple del colesterol HDL sobre la variable el test de la t de Student para muestras independientes con igual varianza. indicadora del estatus caso/control (xi = 1 en los casos y 0 en los controles) en la Ejemplo 10.18 Para comparar los niveles medios de colesterol HDL entre los casos de n1los = 462 casosen delos infarto yenfermedad, n2 = 539 controles del ajustar estudio muestra completa infarto de miocardio y controles libres de la se enfermedad, podra un modelo valor esperado delde colesterol HDL controles libres de la cuyo de regresin lineal simple del colesterol HDL sobre la variable indicadora del estatus EURAMIC con valores del colesterol La recta de estimada entre 1 en los casos y 0 enHDL. los controles) en regresin la muestra completa de n1 = 462 caso/control (xi = IC al 95% es casos de infarto y n2 = 539 controles del estudio EURAMIC con valores del colesterol valor esperado del HDL en los controles libres de la cuyo el colesterol HDL y colesterol la variable indicadora del estatus caso/control es HDL. La recta de regresin estimada entre el colesterol HDL y enfermedad, la variable indicadora del b0 t999;0,975SE(b0) = 1,09 1,960,012 = (1,06; 1,11). estatus caso/control es IC al 95% es = 1,09 0,11x, y Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel b0 tpica t999;0,975 SE(b0) del = 1,09 1,960,012 = (1,06; 1,11). con una desviacin residual colesterol HDL de s = 0,27 mmol/l que, debido a la s = 0,27 mmol/l con una desviacin tpica del colesterol HDL de hiptesis de homogeneidad de la varianza, se asume casos que, y controles. El medio de colesterol HDL residual por cada incremento de una constante unidad en en la variable valor esperado del colesterol HDL en los controles libres de la enfermedad, cuyo ) = 0,012 y de la pendiente SE ( b = 0,017. La error estndar de la constante es SE ( b 0 1) Por otra parte, la pendiente b1 = -0,11 mmol/l determina el cambio en el nivel debido a la hiptesis de homogeneidad de la varianza, se asume constante = que 1,09equivale mmol/l estima la media del colesterol HDL en los constante b0 1) y en con valor 0 indicadora, lo a la diferencia de medias entre casos (x i = sujetos IC al 95% es de la variable indicadora; esto es, el valor esperado del colesterol HDL en los controles medio de colesterol HDL por cada incremento de una unidad en la variable SE(b0) subyacente = 0,012 y de la casos y controles. estndar constantede esmedias libres de la cuyo IC al de 95% es IC al 95% para lala diferencia viene controles (xenfermedad, i = 0). El error indicadora, lo que equivale la diferencia de medias entre casos (xi = 1) y b0 t999;0,975 SEa (b 0 ) = 1,09 1,96 0,012 = (1,06; 1,11). pendiente dado por SE(b1) = 0,017. La constante b0 = 1,09 mmol/l estima la media del Por otra parte, la pendiente b1 = 0,11 determina el cambio en el nivel medio de 0). El IC al 95% para lammol/l diferencia de medias subyacente viene controles (xi = Por otra parte, la pendiente b = -0,11 mmol/l determina el cambio en el nivel 1 con valor HDL en por cada incremento de una en la variable indicadora, lo que colesterol HDL los sujetos 0 de la unidad variable indicadora; esto es, el b1 t999;0,975SE(b1) = -0,11 1,960,017 = (-0,14; -0,08) = 1) y controles ( x = 0). El IC al 95% equivale a la diferencia de medias entre casos ( x dado por i i medio de colesterol HDL por cada incremento de una unidad en la variable para la diferencia de medias subyacente viene dado por 53 H : = 0 mediante y el contraste bilateral de la hiptesis de igualdad de medias 0 1 (b = 0,11 1,96 0,017 = ( 0,14; 0,08) 999;0,975 SE 1 tequivale 1 )diferencia indicadora, lobque a la de medias entre casos (xi = 1) y
el el estadstico y contraste bilateral de la hiptesis de igualdad de medias H0: 1 = 0 mediante el El IC de al 95% para la de diferencia viene controles (xi = 0). H0: 1 = 0 mediante y el contraste bilateral la hiptesis igualdadde demedias mediassubyacente estadstico
dado por el estadstico
t=
b1 0,11 = = 6,35 SE (b1 ) 0,017
b1 t999;0,975 SE (b1 ) 6,35) =b -0,11 1,96 0,017 < = 0,001. (-0,14;As, -0,08) 0,(6,35) 11 resulta en un valor P = 2P (t999 2 F los casos de infarto de 1 = t= = -6,35 miocardio presentan nivel medio de colesterol HDL significativamente inferior =2 P(t999 SE -6,35) 2, (-6,35) < 0,001. As, los casos de que los resulta en un valor Pun (b 017 1) 0 sujetos libres de la enfermedad ( P < 0,001), con una diferencia estimada en 0,11 mmol/l y el contraste bilateral de la hiptesis de igualdad de medias H0: 1 = 0 mediante (IC al 95% 0,08-0,14presentan mmol/l). un Notar, por ltimo, que estos HDL resultados son exactamente infarto de miocardio nivel medio de colesterol 2P(t999 -6,35) 2 (-6,35) < 0,001. As, los casos de resulta en un valor P =mediante iguales a los obtenidos el test de la t de Student para muestras independientes el estadstico con igual varianza (Ejemplos 6.7 y sujetos 6.8). libres de la enfermedad (P < 0,001), significativamente inferior que los infarto de miocardio presentan un nivel medio de colesterol HDL b1 0,11 con una diferencia estimada en 0,11 mmol/l (IC=al 95% 0,080,14 mmol/l). Notar, = libres = -6,35 significativamente inferiort que los sujetos SE (b1 ) 0,017 de la enfermedad (P < 0,001), 10.4REFERENCIAS por ltimo, que estos resultados son exactamente iguales a los obtenidos mediante con una diferencia estimada en 0,11 mmol/l (IC al 95% 0,08 0,14 mmol/l). Notar, Fourth 1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, P = 2 P ( t -6,35) 2 (-6,35) < 0,001. As, los casos de resulta en un valor 999 Edition . Oxford: Blackwell Science, 2002. de Student para muestras independientes con igual varianza elpor testltimo, de la t que estos resultados son exactamente iguales a los obtenidos mediante 2. Bickel PJ,miocardio Doksum presentan KA. Mathematical Statistics: Basic HDL Ideas and Selected Topics. infarto de un nivel medio de colesterol Englewood Cliffs, NJ: Prentice Hall, 1977. (Ejemplos ty de6.8). Student para muestras independientes con igual varianza el test de 6.7 la significativamente inferior que los sujetos libres de la enfermedad (P < 0,001), Pastor-Barriuso R. (Ejemplos 6.7 y 6.8). con una diferencia estimada en 0,11 mmol/l (IC al 95% 0,080,14 mmol/l). Notar, 10.4 REFERENCIAS
191
3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002. 4. Colton T. Estadstica en Medicina. Barcelona: Salvat, 1979. 5. Conover WJ. Practical Nonparametric Statistics, Third Edition. New York: John Wiley & Sons, 1999. 6. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley & Sons, 1998. 7. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008. 8. Pea D. Estadstica: Modelos y Mtodos, Volumen 2, Modelos Lineales y Series Temporales. Madrid: Alianza Editorial, 1987. 9. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 2006. 10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley & Sons, 2003. 11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State University Press, 1989. 12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999. 13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons, 2005.
192
Pastor-Barriuso R.
TEMA 11 REGRESIN LINEAL MLTIPLE

11.1INTRODUCCIN En el Tema 10 se present la regresin lineal simple como una herramienta para analizar la relacin lineal entre una variable respuesta continua y una nica variable explicativa. En la prctica, sin embargo, suele contarse con ms de una variable explicativa y el inters se centra en estudiar la relacin de cada una de las variables explicativas con la variable respuesta, teniendo en cuenta a su vez las restantes variables explicativas. De este tipo de problemas se ocupa la regresin lineal mltiple. En presencia de mltiples variables explicativas asociadas con la variable respuesta, la utilizacin de distintos modelos de regresin lineal simple para cada variable explicativa da lugar a estimaciones imprecisas y a menudo sesgadas de las asociaciones subyacentes con la variable respuesta. Para ilustrar este hecho, la Figura 11.1 presenta los diagramas de dispersin entre una variable respuesta Y y una variable explicativa X1, diferenciando mediante puntos y crculos los valores de otra variable explicativa dicotmica X2. En la Figura 11.1(a), la variable explicativa X2 est asociada con la variable respuesta Y (los valores de Y tienden a ser mayores en uno que en otro grupo de X2), pero no con la variable explicativa X1 (los valores de X1 se distribuyen por igual en ambas categoras de X2). Si se ignora la variable X2 y se ajusta un modelo de regresin lineal simple entre X1 e Y a toda la nube de puntos (lnea gruesa), se obtiene la misma pendiente que al ajustar distintas rectas para cada valor de X2 (lneas finas) y, en consecuencia, la asociacin entre X1 e Y no estar confundida por X2. No obstante, la varianza residual alrededor de la recta de regresin es mayor al ignorar la variable explicativa X2, lo que ocasionar un mayor error estndar en la estimacin de la pendiente. Por el contrario, en la Figura 11.1(b), la variable explicativa X2 est asociada de forma independiente con la variable respuesta Y y con la variable explicativa X1 (para valores fijos de X1 o Y, los valores de la otra variable difieren segn categoras de X2). La pendiente de la recta de regresin simple entre X1 e Y (lnea gruesa) sobreestima el efecto independiente de X1 sobre Y cuando X2 permanece constante (lneas finas). Esto es debido a que las variables explicativas X1 y X2 estn correlacionadas y la regresin lineal simple estimar los efectos confundidos de ambas variables al no poder discernir entre el efecto independiente de X1 y el efecto inducido por su asociacin con X2. La principal conclusin del ejemplo anterior es que, si las variables explicativas estn relacionadas entre s, lo que sucede con cierta frecuencia, la regresin lineal simple puede proporcionar estimaciones sesgadas de las asociaciones subyacentes de cada variable explicativa con la variable respuesta. Por ello, los efectos de distintas variables explicativas deben estudiarse conjuntamente mediante modelos de regresin lineal mltiple. Estos modelos son una extensin de la regresin lineal simple a la presencia de dos o ms variables explicativas, que pueden ser tanto continuas como categricas. Como veremos a continuacin, la regresin lineal mltiple permite estimar el efecto independiente de cada variable explicativa, manteniendo constantes las restantes variables incluidas en el modelo. Su utilidad en los anlisis epidemiolgicos es, por tanto, directa ya que facilita estimaciones ajustadas del efecto de cada variable explicativa.
11.2 lineal ESTRUCTURA Regresin mltiple
DE LA REGRESIN LINEAL MLTIPLE
El modelo de regresin lineal mltiple asume que la media de la variable respuesta Y puede expresarse como una combinacin lineal de las variables explicativas X1, ..., Xp; es decir, para valores fijos x1, ..., xp de estas variables explicativas, el valor esperado de
y la variable respuesta es
p 11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE E(Y|x1 , ..., xp) = 0 + 1 x1 + + p xp = 0 + j x j .
El modelo de regresin lineal mltiple asume que la media de la variable respuesta Y
j =1
(panel a) y asociada tanto con Y comomltiple con X1 (panel b). Las lneas gruesas las rectas de Y regresin El modelo de regresin lineal asume que la media derepresentan la variable respuesta simple entre X1 ede Y ignorando la variable X y las lneas finas corresponden a las rectas de regresin 2 coeficiente regresin determina el cambio esperado en Y por cada incremento de para la variable respuesta es j cada valor de X2.
La constante 0 corresponde al valor esperado de Y cuando todas las variables (a) combinacin lineal de las variables explicativas (b ) puede expresarse como una X1, ..., Xp; 11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE Figura 11.1 Diagramas de dispersin de la variable respuesta Y frente a la variable explicativa X1 para + + variables + p 0 = 0; mientras cada explicativas son 0, y Ecrculos) (Yfijos |0, , 0) =x 0de 10 explicativa es decir, para valores xde estas explicativas, elque valor esperado distintos valores (puntos otra variable dicotmica X asociada con Y pero no de con X 1, ..., p
2
x1
x1
puede expresarse como una combinacin lineal de las variables explicativas X1, ..., Figura Xp; 11.1 una unidad en Xj, manteniendo constantes el resto de variables explicativas, p 11.2 ESTRUCTURA DE LA REGRESIN LINEAL MLTIPLE es decir, para valores x1x , p..., variables el valor esperado de E(Y|fijos x1 , ..., ) =x + estas 1 x1 + + p xexplicativas, p 0de p = 0 + jxj . j =1 El modelo de regresin que la de la variable respuesta Y puede E(Y|x1 , ...,lineal xj-1, xjmltiple + 1, xj+1,asume ..., xp ) E(Y |x1media , ..., xp ) la variable respuesta es expresarse como una combinacin lineal de las variables explicativas X1, ..., Xp; es decir, para xp de variables el valor respuesta es valores fijos x1, ..., = estas x1 + +explicativas, jesperado x 1) + esperado j+1todas xj+1 +de la +variable p xp 0 + 1 -1 xj -1 + j ( j + La constante 0 corresponde al valor de Y cuando las variables E(Y( |x ,+ ..., x = + + + xp = 0 + j x j . p) + + 1 x x11) 0 |0, 1x 1 0) j. + p explicativas son 0,- E (1Y , =0 0= + p0 = 0; mientras que cada 0 +pp
j =1 p
194
La As, constante 0de corresponde al valor esperado Y cuando en todas lascada variables explicativas coeficiente regresin el cambio esperado Y por de j determina los coeficientes de regresin asociados a de cada variable explicativa noincremento pueden estar son0, E ( Y |0, , 0) = + 0 + + 0 = ; mientras que cada coeficiente de regresin j La constante 0 corresponde al valor p esperado de Y cuando todas las variables 0 1 0 determina el cambio esperado en Y por cadael incremento de unapermanecen unidad en X j, manteniendo una unidad en Xlas constantes restoya deque variables explicativas, j, manteniendo confundidos por dems variables explicativas, stas constantes. constantes el resto de variables explicativas, explicativas son 0, E(Y|0, , 0) = 0 + 10 + + p0 = 0; mientras que cada En este sentido, de simple, de regresin lineal E(Y|y x1a , diferencia ..., xj 1, xj + 1,la xjregresin E(Y|x1 ,los ..., coeficientes xp ) +1, ..., xp ) coeficiente de regresin j determina el cambio esperado en Y por cada incremento de = 0 + 1 x1 + + j 1 xj 1 + j(xj + 1) + j+1 xj+1 + + p xp mltiple facilitan el efecto independiente de cada variable explicativa sobre la variable ( + + + p xp )= j. de variables explicativas, una unidad en Xj, manteniendo el resto 0 1 x1 constantes respuesta ajustando o controlando por posibles diferencias en la distribucin de las As, los coeficientes de regresin asociados a cada variable explicativa no pueden estar E(Y |x1dems , ..., xj-1 , xj + 1, xexplicativas, (Y|x xp) permanecen constantes. En este j+1, ..., xp) - Eya 1, ..., confundidos por las variables que stas restantes variables explicativas incluidas en el modelo. sentido, y a diferencia de la regresin simple, los coeficientes de regresin lineal mltiple As, los coeficientes de regresin asociados a cada variable explicativa no pueden estar = 0 + 1 x1 + j-1xj-1 + j( x j + 1) + j+1xj+1 ++ facilitan el efecto independiente de+ cada variable explicativa sobre lavariable respuesta p xp Para completar la estructura general de la regresin lineal mltiple, se asume que los ajustando o controlando por posibles diferencias en la distribucin de las restantes variables confundidos por las dems variables explicativas, ya que stas permanecen constantes. explicativas incluidas-en modelo. (el 1x1 + respuesta + p x p ) = j. 0+ valores individuales de la variable se distribuyen normalmente alrededor del Para completar layestructura general la regresin lineal se asume que loslineal valores En este sentido, a diferencia de lade regresin simple, losmltiple, coeficientes de regresin individuales de la definido variable respuesta se distribuyen normalmente alrededor del valor estar esperado valor esperado por la ecuacin de regresin , As, los coeficientes de regresin asociados a cada variable explicativa no pueden mltiple el efecto independiente de cada variable explicativa sobre la variable definido por facilitan la ecuacin de regresin , confundidos por las dems variables explicativas, ya que stas permanecen constantes. Y|x1 , ..., xp ~ N( 0 + 1 x1 + + p xp , 2), respuesta ajustando o controlando por posibles diferencias en la distribucin de las o equivalentemente En este sentido, o equivalentementey a diferencia de la regresin simple, los coeficientes de regresin lineal 3 restantes variables explicativas incluidas en el modelo. Y = 0 + 1 xde 1 + + p xp + , mltiple facilitan el efecto independiente cada variable explicativa sobre la variable Para completar la estructura general de la regresin lineal mltiple, se asume que los respuesta ajustando o controlando por posibles diferencias en la distribucin de las donde el error aleatorio en la variable respuesta sigue una distribucin normal con Pastor-Barriuso R. valores individuales de la variable respuesta se distribuyen normalmente alrededor del restantes variables incluidas en de el modelo. media 0 y varianzaexplicativas 2 para cualquier valor las variables explicativas. De esta valor esperado definido por la ecuacin de regresin,
Estructura de la regresin lineal mltiple
donde el error aleatorio en la variable respuesta sigue una distribucin normal con media 0 y varianza 2 para cualquier valor de las variables explicativas. De esta especificacin del modelo de regresin lineal mltiple, se desprenden las siguientes asunciones: yy Linealidad: El valor esperado de la variable respuesta Y cambia linealmente con cada variable explicativa Xj, de tal forma que para valores fijos de las dems variables explicativas, cambios de magnitud constante a distintos niveles de Xj se asocian con un mismo cambio en la media de Y. yy Aditividad: El efecto conjunto de varias variables explicativas sobre la variable respuesta es la suma de sus efectos independientes. yy Homogeneidad de la varianza: La varianza de la variable respuesta permanece constante para cualquier valor de las variables explicativas. yy Normalidad: Dados unos valores fijos de las variables explicativas, la variable respuesta se distribuye de forma normal. En el caso de dos variables explicativas, estas asunciones pueden representarse mediante el grfico tridimensional de la Figura 11.2. Debido a las hiptesis de linealidad y aditividad, los valores esperados de Y para cualquier combinacin de X1 y X2 se sitan en el plano definido por la ecuacin de regresin 0 + 1x1 + 2x2. Asimismo, por las asunciones de homogeneidad de la varianza y normalidad, los valores individuales de Y para cualquier combinacin de X1 y X2 se distribuyen de forma normal y con la misma varianza alrededor de dicho plano de regresin. Las hiptesis de linealidad y homogeneidad de la varianza se evaluarn utilizando procedimientos de diagnstico grfico similares a los empleados en regresin lineal simple. Las desviaciones de la asuncin de aditividad se explorarn, por su parte, mediante la inclusin de trminos de interaccin entre las variables explicativas.
Plano de regresin: E(Y|x1, x2) = 0 + 1x1 + 2x2
0 + 1xj1 + 2xj2 0 + 1xi1 + 2xi2
xi1 xj2 xi2 X2
xj1 X1
Figura 11.2 Asunciones subyacentes al modelo de regresin lineal mltiple con dos variables explicativas.
Pastor-Barriuso R.
195
individuales sobre la variable respuesta explicativas seran indiscernibles. Independencia lineal de las variables : Ninguna variable explicativa
Regresin lineal mltiple
es una combinacin lineal exacta de las dems ya que, en tal caso, sus efectos Ejemplo 11.1 Supongamos que un modelo de regresin lineal mltiple incluye individuales sobre la variable respuesta seran indiscernibles. A estas asunciones, anlogas a las en regresin lineal se aaden la presin arterialdos nuevas como variables explicativas la utilizadas presin arterial sistlica X1 ysimple, condiciones necesarias para poder estimar la ecuacin de regresin:
diastlica X2, Supongamos yy Independencia lineal de lasque variables explicativas : Ninguna Ejemplo 11.1 un modelo de regresin lineal variable mltipleexplicativa incluye es una combinacin lineal exacta de las dems ya que, en tal caso, sus efectos individuales sobre la variable respuesta seran indiscernibles. como variables explicativas la arterial sistlica X1 y la presin arterial Y presin = 0 + 1 x1 + 2 x2 + .
Ejemplo 11.1 diastlica X2, Supongamos que un modelo de regresin lineal mltiple incluye como Si se aade adems la la presin del pulso,sistlica definidaX como la diferencia entre la variables explicativas presin arterial 1 y la presin arterial diastlica X2, Y = 0 + 1 x1 + 2 x2 + . presin arterial sistlica y diastlica X 3 = X1 - X2, el modelo resultante puede Si se aade adems la presin del pulso, definida como la diferencia entre la presin reescribirse como Si se aade adems la presin pulso, definida como la diferencia la arterial sistlica y diastlica X3del =X el modelo resultante puede entre reescribirse como 1 X2, X X32x ,3el resultante puede presin arterial sistlica y diastlica X3= Y= 0 + 1 x1 + +- + modelo 2x 21 reescribirse como
= 0 + 1 x1 + 2 x2 + 3 ( x1 x2 ) + = 0 + ( 1 + 3 ) x1 + ( 2 3 ) x2 + ,
Y= 0 + 1x1 + x3 + con 1 = 1 + 3 y 2 = 2 3. que es algebraicamente equivalente al modelo 2x2 + 3anterior Existen, por tanto, infinitas combinaciones de los parmetros 1, 2 y 3 que dan lugar a la misma ecuacin de regresin (para valor de = 0 + 2x2 + 3( x1 - x2 )+ 1x1 + cualquier 3, basta tomar 1 = 1 3 y 2 = 1 + 3 y 2 = 2 que es algebraicamente equivalente al modelo anterior con = 2 + 3 para obtener los mismos coeficientes de regresin 1 1 y 2). As, como la presin del pulso es una combinacin lineal de la presin arterial sistlica y diastlica, no = 0 + (1 +exacta 3)x1 + ( 2 - 3)x2 + , por tanto, infinitas combinaciones de los parmetros 1, una - posible 3. Existen, 2y 3 que es determinar unvocamente los efectos independientes de cada de estas tres variables explicativas. que algebraicamente equivalente al modelo anterior con y 2 = 2 dan es lugar a la misma ecuacin de regresin (para cualquier valor , basta 1 = de 1 + 33 yy El nmero de observaciones n debe ser superior o igual al nmero de coeficientes p + 1 de tanto, infinitas combinaciones de los parmetros 1, de 2 p y= 32que - 3. Existen, la ecuacin depor regresin. Este requerimiento resulta obvio en el caso variables explicativas (vase Figura 11.2), ya que para determinar el plano de regresin se necesitan 5 dan lugarna= la de regresin (para cualquier valor de 3, basta al menos 3misma puntosecuacin u observaciones no alineadas. Cabe destacar que estas dos condiciones son requerimientos tericos mnimos para estimar la ecuacin de regresin. En la prctica, sin embargo, el nmero de observaciones ha de ser muy superior al nmero de coeficientes de regresin para poder obtener estimaciones precisas 5 de estos coeficientes y no incurrir en problemas de sobreajuste (esto es, modelar el error aleatorio en lugar de la relacin subyacente). Un criterio habitual es no incluir ms variables explicativas que el nmero de observaciones dividido por 10. Asimismo, aunque las variables explicativas no presenten una correlacin lineal perfecta, es importante evaluar su grado de colinealidad. Si las variables explicativas son muy dependientes entre s, resulta muy difcil separar sus efectos e identificar la contribucin individual de cada una de ellas, lo que provocar estimaciones inestables de los coeficientes de regresin. Este problema se conoce como multicolinealidad y se tratar ms adelante en el apartado de diagnstico del modelo de regresin lineal mltiple. 11.3 ESTIMACIN E INFERENCIA DE LA ECUACIN DE REGRESIN En este apartado se presenta, en primer lugar, el procedimiento de estimacin de los coeficientes de regresin lineal mltiple. A continuacin, se describen las propiedades de los estimadores y se derivan intervalos de confianza y tests de hiptesis para los coeficientes de regresin. Finalmente, se presentan intervalos de confianza para el valor esperado de la variable respuesta e intervalos de prediccin para una nueva observacin en funcin de los valores de las variables explicativas.
coeficientes de regresin 0, 1, , p se obtienen mediante el mtodo de mnimos cuadrados a partir de una muestra de n observaciones (yi, xi1, , xip) mutuamente
Estimacin e inferencia de la ecuacin de regresin
independientes. En concreto, tal y como se muestra en la Figura 11.3 para dos variables 11.3.1 Estimacin de los coeficientes de regresin explicativas, se trata de estimar los valores b0, b1, , bp que minimicen la suma de Al igual que en regresin lineal simple, las estimaciones puntuales b0, b1, , bp de los coeficientes de regresin 0, 1, , p se obtienen mediante el mtodo de mnimos cuadrados a partir de i , que corresponden a las distancias entre =y los errores o residuos ei x i- y una cuadrados muestra de de n observaciones (yi, xi1, , ip) mutuamente independientes. En concreto, tal y como se muestra en la Figura 11.3 para dos variables explicativas, se trata de estimar los valores los valores observados yi de la variable respuesta y los correspondientes valores b0, b 1, , bp que minimicen la suma de cuadrados de los errores o residuos ei = yi i, que corresponden a las distancias entre los valores observados yi de la variable respuesta y los i = b0 + estimados o predichos por la ecuacin de regresin y bregresin , 1xi1 + + px ip = b correspondientes valores estimados o predichos por la ecuacin de ib 0 + b1xi1 + + bpxip, SSE =
i ) 2 = ( y i b0 b1 x i1 ... b p x ip ) 2. ei2 = ( y i y
i =1 i =1 i =1
Para estimar los coeficientes de regresin que minimizan esta suma de cuadrados del error, se calculan las derivadas parciales de SSE respecto a b0, b1, , bp y se igualan a cero, resultando [Figura 11.3 aproximadamente aqu] el sistema de p + 1 ecuaciones lineales
n n SSE = 2 ei = 2 ( y i b0 b1 x i1 ... b p x ip ) = 0, Para estimar los de regresin que minimizan esta suma de cuadrados del b0 coeficientes i =1 i =1 n n SSE y se igualan error, se calculan derivadas parciales de SSE respecto a b , b1, , bp = 2las xij e j= 1, , p. a i = 2 x ij ( y i b0 b1 x i1 ... b p xip ) 0= 0, b j i =1 i =1 cero, resultando el sistema de p + 1 ecuaciones lineales En general, este sistema lineal se resuelve utilizando lgebra de matrices. En el Apndice al final del tema se derivan las frmulas matriciales para calcular b0, b1, , bp que, bajo las En general, sistemay lineal se resuelve lgebra de matrices. En el asunciones de este linealidad aditividad, son utilizando estimadores insesgados de los coeficientes de
Apndice al final del tema se derivan las frmulas matriciales para calcular b0, b1, , bp (xi1, xi2, yi) Plano de regresin estimado: 7 que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los
ip. En el caso particular de dos variables yi y coeficientes de regresin 0,ei= 1, ,
= b0 + b1 x1 + b2 x2 y
explicativas, puede comprobarse que estos estimadores vienen dados por

i ) ( xi1 , xi 2 , y
b1 =
ryx1 ryx2 rx1 x2 s y 1 rx2 1 x2 s x1
b2 =
ryx2 ryx1 rx1 x2 s y 1 rx2 1 x2 s x2
,
x1
b0 = y - b1 x1 - b2 x 2 .
De estas x2expresiones se deduce que, si las variables explicativas X1 y X2 estn

11.3 Figura 11.3 Error o desviacin del valor observado de variable respuesta a su valorFigura estimado rx1 x2 = 0, las estimaciones de la los coeficientes de respecto regresin mltiple se incorrelacionadas por el plano de regresin.
reducen a b1 = ryx1 s y / s x1 y b2 = ryx2 s y / s x2 , que son iguales a las obtenidas en regresin
simple (vase Apartado 10.3.1). Por tanto, cuando las variables explicativas estn
Pastor-Barriuso R.
197
incorrelacionadas, sus coeficientes estimados por regresin mltiple coinciden con los
explicativas, puede comprobarse que es ficientes de regresin 0, 1, , p. En el caso particular de dos variables s, puede comprobarse que estos estimadores vienen dados por que, bajo las asunciones de linealidad y aditividad, son estimadores insesgados de los licativas, puedeRegresin comprobarse que estos estimadores vienen dados por ry lineal mltiple b1 = r r r s coeficientes regresin yx de yx y 0, 1, , p. En el caso particular de dos variables 2 x1 x 2 , b1 = 1 2 r sy 1 rxr yx rs yxx 21 x1 x 2 1 x2 1 , estos = b 1 explicativas, puede comprobarse que estimadores vienen dados por 2 regresin 0, 1, , p1 . En caso particular de dos variables explicativas, puede comprobarse s ry rx1el x x2 1 eY Y rr (como ocurre en regresin lineal simple), sino tambin de sus re X (como ocurre en regresin lineal simple), sino tambin de sus eX que estos estimadores vienen dados por b2 = 11e yx yx 11 ryx2 ryx1 rx1 x2 s y b2 = ocurre en , r sino r rtambin s de sus entre X1 e Y ryx11 (como 2 regresin lineal simple), r r r s y b1 = yx1 yx2 x1 x2 y , s 1 rx yx yx x x x 2 1 1 x2 2 1 2 2 pectivas correlacionescon conla lavariable variable X r y r . ectivas correlaciones X r y r . b2 = , 22 yx yx xx x1 s x1 1 x2 1 rx1 x2 22 s x22 b0 = y 1 rx2 1 x2 respectivas correlaciones con la variable X2 ryx22 y rx11x22 . r r r s b0 = y - b1 x1 - b2 x 2 . 22 yx1 x1 x 2 y Unavez vezestimada estimadala laecuacin ecuacinde deregresin, regresin,la lavarianza varianza 2yx dela la variable respuesta Una de variable respuesta b2 = , 2 s x2 1 rx21 x2 b0 = y - b1 x1 - b2 x 2 . De estas expresiones se deduce que, si l Una vez estimada la ecuacin de regresin, la varianza de la variable respuesta xpresiones se deduce que, siestima las variables explicativas X1 residual y X2 estn varianza residual ededor dedicha dicha ecuacin se estima mediante lavarianza dedor de ecuacin se mediante la b0 = y b1 x1 b2 x 2 . incorrelacionadas rx1 x2 = 0, las estimaci alrededor de dicha ecuacin sesi estima mediante la varianza estas expresiones se deduce que, las variables explicativas X1residual y X2 estn las estimaciones dese los coeficientes se X y X estn incorrelacionadas onadas rx1 x2 = 0, nndeduce De estas que, si de lasregresin variables mltiple explicativas SSE expresiones 1 SSE 1 1 2 22 22 s = = ( y b b x ... b x ) , s = r = 0, = estimaciones (y b00coeficientes b11x i1i1 ... b pregresin px ip ip) , ii reducen a b1 = ryx1 s y / s x1 y b2 = ryx2 s y / , las de los de mltiple se orrelacionadas n x x 1 2 p 1 1 p 1 1i = n n p n n SSE = i1 11 2 p 2 = estas (y las bobtenidas b ... regresin b pexplicativas x ip ) simple , iguales ai a las en regresin (vase 10.3.1). Por b1 = ryx1 s y / s x1 y bs2 = ryx2 s yexpresiones / s x2 ,= ,que queson son iguales obtenidas en 0 si 1 x ivariables 1 De se deduce que, las X1 y XApartado 2 estn 1 1 n p n p = 1 i tanto, cuando las variables explicativas estn incorrelacionadas, sus coeficientes estimados por simple (vase Apartado 10.3.1). Por tan ucen a b1 = ryx1 s y / s x1 y b2 = r yx2 s y / s x 2 , que son iguales a las obtenidas en regresin nde la suma de cuadrados del error SSE se divide por n p 1 ya que, una vez regresin mltiple coinciden con los obtenidos de distintas regresiones simples para cada de la suma de cuadrados del error SSE se divide por n p 1 ya que, una vez rx1 x2las = variables 0, las estimaciones de estn los coeficientes de regresin mltiple se incorrelacionadas ase Apartado 10.3.1). Por tanto, cuando explicativas variable explicativa. Por el contrario, cuando las variables explicativas estn correlacionadas, incorrelacionadas, sus coeficientes estim donde la suma de cuadrados del error SSE se divide por nexplicativas p1 simple), ya que, una vez ple (vase Apartado 10.3.1). Por tanto, cuando las estn e de Y r (como ocurre envariables regresin lineal sino tambin de sus entre X1 ajustados yx mados los p + 1 coeficientes de regresin, los n errores o desviaciones de la variable sus efectos mediante regresin mltiple pueden diferir notablemente de sus efectos mados los p + 1 coeficientes regresin, los n errores o desviaciones de la variable 1 onadas, sus coeficientes estimados por regresin mltiple coinciden con los reducen a b1 = las ryx1restantes s y / s x1 y variables b2 = ryx2 sexplicativas. iguales a las obtenidas en de regresin y / s x 2 , que son crudos ignorando As, por ejemplo, la relacin la variable obtenidos de distintas regresiones simpl estimados los p + 1 coeficientes de regresin, los n errores o desviaciones de la variable orrelacionadas, sus coeficientes estimados por regresin mltiple coinciden con los puesta respecto a la ecuacin de regresin contienen n p 1 grados de libertad. Bajo con la variable respuesta Y ajustando por la variable X se estima mediante el explicativa X uesta respecto a la ecuacin de regresin contienen n p 1 grados de libertad. Bajo respectivas correlaciones con la variable X r y r . 2 Por 1 2 yx2 el x1 x2 de distintas regresiones simples para cada variable explicativa. como ocurre encoeficiente regresin lineal simple), sino tambin de sus simple (vase Apartado 10.3.1). Por tanto, cuando las variables explicativas estn e Y r ocurre e entre X slo de delibertad. la correlacin X11 las variables de regresin mltiplecontienen b1, que depende yx1 (como contrario, cuando explicati respuesta respecto a la ecuacin de regresin n - p - 1 no grados Bajo entre enidos de distintas regresiones simples para cada variable explicativa. Por el hiptesis de linealidad, aditividad yhomogeneidad homogeneidad de la varianza, la varianza (como ocurre en regresin simple), sino tambin de sus respectivas correlaciones hiptesis de linealidad, aditividad y de varianza, la varianza 2 cuando las variables explicativas estn correlacionadas, sus efectos ajustados Una vez estimada la lineal ecuacin dela regresin, la varianza de la variable respuestacon la incorrelacionadas, sus coeficientes estimados por regresin mltiple coinciden con los mltiple pueden dife laciones con la variable X2 ryx2aditividad y rx1 x2 .. y homogeneidad de la varianza, la varianza mediante respectivas regresin las2hiptesis devariables linealidad, correlaciones con l 2 2 2 trario, cuando las explicativas estn correlacionadas, sus efectos ajustados es unestimador estimador insesgado del parmetro poblacional . idual un insesgado del parmetro poblacional . dual ss es 2 egresin mltiple pueden diferir notablemente de sus efectos crudos Una vez estimada laecuacin ecuacinse de regresin, la varianza de la variable respuesta alrededor residual alrededor de distintas dicha estima mediante la varianza obtenidos de regresiones simples para cada 2 2 variable explicativa. Por el 2 ignorando las restantes variables explica es un estimador insesgado del parmetro poblacional . residual s ada la ecuacin de regresin, la varianza de la variable respuesta de dicha ecuacin se estima mediante la varianza residual diante regresin mltiple pueden diferir notablemente de sus efectos crudos Una vez estimada la ecuaci las restantes variables explicativas. As, por ejemplo, la relacin de la en el riesgo de desarrollar unefectos primer ajustados infarto agudo de miocardio e n estn contrario, cuando las variables explicativas correlacionadas, sus Ejemplo11.2 11.2En En elEjemplo Ejemplo 10.7 seestudi estudi larelacin relacin del ndice demasa masa Ejemplo el 10.7 la ndice de SSE antioxidantes 1 del 2 se 2 variable explicativa X con la variable re varianza residual a ecuacin se estima mediante la s = = ( y b b x ... b x ) , orando las restantes variables explicativas. As, por ejemplo, la relacin i i1 p ip 0 de 1 la alrededor de1dicha ecuacin se p hombres la 1 1 n n ajustando p En elrespuesta Ejemplo Y 10.7 se estudi relacin del ndice de masa variable por la variable X se estima plicativaEjemplo X1 con la11.2 i = 1 2 adultos. Los valores obtenidos fueron 0,89, 1,58, 0,79, 1,29, 1,42, 0,84 mediante regresin mltiple pueden diferir notablemente de sus efectos crudos corporalcon conel elcolesterol colesterolHDL HDLutilizando utilizando un modelo deregresin regresin linealsimple. simple. corporal un modelo de lineal mediante el coeficiente de regresin m n variable respuesta Y ajustando por la variable se able SSE explicativa X1 donde la la suma de cuadrados del error SSE se divide por n X 2p estima 1 ya que, una vez estimados los 1 con 2 corporal con el colesterol HDL utilizando un modelo de regresin lineal simple. SSE , que depende no slo de la correlacin l coeficiente de regresin mltiple b 1 = = +ignorando (y b regresin, b1 x i1 variables ...1,06, los bp n x ) ,SSE 0,87, 1,96 y 1,53 mmol/l. La media de respuesta los niveles del colesterol 0 ilas ip 1 coeficientes de errores o se desviaciones de la variable a s2 = HDL en= donde la suma cuadrados del error divide por n p 1 que, una vez restantes explicativas. As, por ejemplo, laya relacin de la respecto No obstante, existen otros muchos determinantes de los niveles de colesterol HDL No existen muchos determinantes de los niveles de colesterol HDL obstante, p 1otros n p 1 np i =1 n p 1 slo de de libertad. la correlacin diante el coeficiente de regresin mltiple b1, que depende la ecuacin de regresin contienen n p 1 no grados hiptesis de linealidad, 8 Bajo lasHDL No obstante, existen otros muchos determinantes de los niveles de colesterol 10 participantes es un estimador insesgado aditividad yexplicativa homogeneidad de estos varianza, la varianza residual la variable respuesta Yes ajustando por la variable X2la sevariable estima del variable X estimados los p de + 1 coeficientes de regresin, los n errores s o2 desviaciones de 1 con como,por porejemplo, ejemplo, elconsumo consumo de alcohol. Para obtener el efecto independiente como, el alcohol. Para obtener el efecto independiente 8 2 poblacional cuadrados del parmetro error SSE se divide porn.- p - 1 ya que, una vez donde la suma de cuadrados de como, por ejemplo, el consumo de alcohol. Para obtener el efecto independiente 10 regresin , que depende no slo de la correlacin mediante el coeficiente de regresin mltiple b respuesta respecto ase la podra ecuacin de regresin contienen n p 1 grados de libertad. Bajo 1 decada cadauno unode deestos estos determinantes, se podra ajustar unmodelo modelo de regresin de determinantes, ajustar un de 1 0,89 + 1,58 + ... + 1,53 x x = 1,223 mmol/l. = = 1 coeficientes de regresin, los n errores o desviaciones de la variable i 11.2 En el Ejemplo 10.7 se estudi la relacin del ndice corporal con estimados los de cada uno Ejemplo de estos determinantes, se podra ajustar un modelo de regresin 10 10 de masa 8 p + 1 coeficiente i =1 lasel hiptesis deHDL linealidad, aditividad y homogeneidad de la varianza, varianza un modelo de y regresin lineal simple. la No obstante, existen linealmltiple mltiplecon con elcolesterol colesterol HDLutilizando como variable respuesta yel elndice ndice demasa masa lineal el colesterol como variable respuesta de o a la ecuacin de regresin contienen n - p - 1 grados de libertad. Bajo otros muchos determinantes devariable los niveles de colesterol HDL como, por ejemplo, el a la ecuaci respuesta respecto lineal mltiple con el colesterol HDL como respuesta y el ndice de 2masa 2 esde un alcohol. estimador insesgado del parmetro poblacional . residual salcohol consumo Para obtener el efecto independiente de cada uno de estos corporaly yel elconsumo consumo de alcohol comovariables variables explicativas. corporal de como explicativas. La media aritmtica presenta las siguientes propiedades: nealidad, aditividad y homogeneidad de la varianza, la varianza se podra ajustar un modelo de regresin lineal mltiple con colesterol las el hiptesis de linealidad, adit corporal y eldeterminantes, consumo de alcohol como variables explicativas. HDL como variable respuesta y el ndice de masa corporal y el consumo de alcohol como Enn n= =449 449controles controles del estudio EURAMIC con datos disponibles de estas En del estudio EURAMIC con datos disponibles de estas Cambio de origen (traslacin). Si se suma una constante a cada uno de los dato Ejemplo 11.2 En el Ejemplo se estudi la relacin del ndice de masa estimador insesgado del parmetro poblacional 2. 10.7 variables explicativas. residual s2 es un estimador ins En n = 449 controles del estudio EURAMIC con datos disponibles de 2 estas 2 =26,2 26,2y y =3,61 3,61 kg/m pararesultante variables,la lamedia media yla la desviacin tpica fueron xx ss = para variables, y tpica fueron 1= x1 con 1muestra, x1 de una la media de kg/m la muestra esvariables, igual a la la media inicial m En ndesviacin = 449 controles del estudio EURAMIC datos disponibles de estas corporal con el colesterol HDL utilizando un modelo de regresin lineal simple. 2 2 = 3,61 3,61 kg/m kg/m para para el ndice de masa variables, la media media y y la la desviacin tpica fueron x1 = 26,2 y s x11 = 1.2 En el Ejemplo 10.7 se estudi la relacin del ndice de masa el Ejem y = x + c , entonces = 1,08 x +y c.sEjemplo Un deEn origen qu constante utilizada; si 16,5 y = 21,8 g/da para el consumo = cambio 0,29511.2 corporal,xx elndice ndicede demasa masacorporal, corporal, =16,5 16,5y y ssxx = 21,8 g/da para el consumo dealcohol y y = el = 21,8 g/da para el consumo de i i de y HDL 22 = 2 2otros muchos determinantes de los niveles de colesterol No obstante, existen r r = -0,091 = -0,091 y las y las correlaciones correlaciones de de estas estas variables variables explicativas explicativas co fue fue x1 x2 x1 x2 de correlacin de Pearson entre el ndice de mmol/l para colesterol HDL. coeficiente el ndice deutilizando masa corporal, x 2 = 16,5 y s x22 El = 21,8 g/da para el consumo de n el colesterol HDL unel modelo de regresin lineal simple. corporal con en el colestero = y las correlaciones de estas masa corporal y el consumo de alcohol r = 0,091 -0,091 y las correlaciones estas variables explica fue El se realiza con frecuencia es el centrado de la independiente variable, de que consiste restar a xPara alcoholy y yy = =1,08 1,08 yss = 0,295 mmol/l para el colesterol HDL. El coeficiente de alcohol y 0,295 para el colesterol HDL. coeficiente de 1x 2 yy= como, pormmol/l ejemplo, el consumo de alcohol. obtener el efecto variables explicativas con el colesterol HDL fueron 0,273 y 0,232, colesterol colesterol HDL HDL fueron fueron r r = -0,273 = -0,273 y r y r = 0,232, = 0,232, respectivamente. respectivament L yx1 yx1 yx2 yx2 e, existenalcohol otros muchos determinantes de mmol/l los niveles de colesterol HDL y y respectivamente. = 1,08 y sy = 0,295 para el colesterol HDL. El coeficiente de No obstante, existen otro Las estimaciones los coeficientes de fueron regresin se cada valor de muestra media. media de una variable ser, por colesterol HDL ryx1 mltiple = -0,273 y obtienen ryx2 =centrada 0,232, respectiva de cada uno de estos determinantes, se podra su ajustar un La modelo de regresin correlacinde dePearson Pearson entre el ndice demasa masa corporal yla el consumo de alcohol correlacin entre el ndice de corporal y el consumo de alcohol entonces como estimaciones estimaciones de de loslos coeficientes coeficientes de de regresin regresin mltiple mltiple se se obtienen obtienen ento e ejemplo, el consumo de de Pearson alcohol. entre Para obtener elde efecto independiente como, por ejemplo, el co correlacin el ndice masa corporal y el consumo de alcohol tanto, igual a 0. lineal mltiple con el colesterol HDL como variable respuesta y el ndice de masa mltiple se obtie estimaciones de los coeficientes de regresin o de estos determinantes, se R. podra ajustar un modelo de regresin r r r rr r s s 198 Pastor-Barriuso de cada uno estos dete ,273 0,273 ,232 0,232 0,091 0 ,091 0,de 295 0 ,295 + 0+ los yx yx Si yx2 se yx x12x2multiplica x1 x2 y 9 y 0 9 Cambio de escala (unidades). datos de una = = cada uno de =1 = 1 1explicativas. = -0,02 = -0 corporal y el consumo de alcohol comob variables 1b 2 2 2 2 ,61 ,61 0,295 1 0 ,,091 0,091 s ryx rxx11x2 9 sy 1 0 273 ,3 091 + 0,232 3 0 x1 2s x1r xr x1 x2 yx ple con el colesterol HDL como variable respuesta y el ndice de masa 1 1r 2 lineal mltiple con el col = b = 1 por EURAMIC una constante, media resultante igual a la media 2 En n = 449 controles muestra del estudio conla datos disponibles s de estas 3,61 de 1 r 2la muestra 1 0es ,091
ryx2 r ryx s -0,273 273 0,0,232, 232 0,respectivamente. 091 0,295 0, colesterolbHDL fueron rxyx y ryx2+ = Las 1 1 x2 = y 1 = = -0,0207, 1= 2 2 Estimacin e inferencia de la ecuacin de regresin s 3 , 61 1 rx1x2 1 0,091 x1 estimaciones de los coeficientes de regresin mltiple se obtienen entonces como ryx ryx1 rx1x2 s y 0,232 0,273 0,091 0,295 = b2 = 2 = 0,0028, 2 2 s 21 , 8 ryx1 ryx 1 r2xr 1 0 , 091 s 0 , 273 232 0 , 091 0 , 295 + x x x x y 2 1 2 1 2 = b1 = = 0,0207, s 3,61 1 rx2 1 0,0912 x1 1 x2 b0 = y - b1 x1 - b2 x 2 = 1,08 + 0,020726,2 - 0,002816,5 = 1,58, ryx ryx1 rx1x2 s y 0,232 0,273 0,091 0,295 = b2 = 2 = 0,0028, 2 s x2 21,8 1 rx1x2 1 0,0912 de donde resulta la ecuacin de regresin b0 = y b1 x1 b2 x 2 = 1,08 + 0,020726,2 0,002816,5 = 1,58, = 1,58 - 0,0207x1 + 0,0028x2, y de donde resulta la ecuacin de regresin
= 1,58 0,0207x1 + 0,0028x2, con una varianza residual delde colesterol HDL respecto a dicha ecuacin de donde resulta la ecuacin regresin con una varianza residual del colesterol HDL respecto a dicha ecuacin
s2 =
= 1,58 - 0,0207x1 + 0,0028x2, SSE 1 449 y 34,33 = = 0,077. { y i (1,58 0,0207 x i1 + 0,0028 x i 2 )}2 = 446 446 i =1 446
con una varianza residual colesterol HDL respecto a dicha ecuacin Estas estimaciones pueden del obtenerse directamente de ajustar una regresin lineal mltiple Estas estimaciones pueden obtenerse directamente de ajustar una regresin lineal del colesterol HDL sobre el ndice de masa corporal y el consumo de alcohol en los programas 449 estadsticos convencionales, cuyos resultados completos se muestran en la Tabla 11.1. SSE 1 34,33 = { y i sobre (1,58 0ndice ,0207 xde 0,0028 x i 2 )}2 y = el consumo = 0,077. s2 = del colesterol mltiple HDL el masa corporal de colesterol i1 + La ecuacin del 446de regresin 446 i =1 puede utilizarse para estimar el valor esperado 446 HDL en funcin del ndice de masa corporal y el consumo de alcohol. As, por ejemplo, alcohol en los programas estadsticos convencionales, cuyos resultados completos de alcohol de 20 g/da, el para un ndice de masa corporal de 25 kg/m2 y un consumo Estas estimaciones pueden obtenerse directamente de ajustar una regresin lineal + modelo estima un nivel medio de colesterol HDL de (25, 20) = 1,58 0,020725 se muestran la mmol/l. Tabla 11.1. 0,002820 = en 1,12 mltiple del colesterol HDL sobre el ndice de masa corporal y el consumo de Las estimaciones b1 y b2 determinan el efecto independiente de cada variable explicativa sobre la variable respuesta, una vez controladas las posibles diferencias la otra variable explicativa. [Tabla 11.1 aproximadamente aqu] alcohol en los programas estadsticos convencionales, cuyosen resultados completos se muestran en la Tabla 11.1. La ecuacin de regresinde puede utilizarse para mltiple estimar el valor esperado del sobre Tabla 11.1 Resultados la regresin lineal del colesterol HDL el ndice de masa corporal (IMC) y la ingesta de alcohol en los controles del colesterol HDL en funcin del11.1 ndice de masa corporal y el consumo de alcohol. [Tabla aproximadamente aqu] estudio EURAMIC.
As, por ejemplo, para un ndice de masa corporal de 25 kg/m2 y un consumo de Suma puede de Grados de estimar el valor esperado Razn La ecuacin de regresin utilizarse para del de cuadrados libertad Varianza varianzas (25, alcohol de 20 g/da, el modelo estima un nivel medio de colesterol HDL de y Regresin 4,58 del ndice de masa 2 2,29 colesterol HDL en funcin corporal y el consumo de29,72 alcohol. Error 34,33 446 mmol/l. 0,077 + 0,002820 = 1,12 20) = 1,58 - 0,020725 As, por ejemplo, para un ndice de masa corporal de 25 kg/m2 y un consumo de Total 38,91 448 10 * Coeficiente de determinacin R2 =estima 4,58/38,91 0,118. (25, alcohol de 20 g/da, el modelo un = nivel medio de colesterol HDL de y
Coeficientes de regresin
Anlisis de la varianza*
20) = 1,58 - 0,020725 + 0,002820 = 1,12 mmol/l.

Estimacin Error estndar 0,098 0,0036 0,0006 IC al 95% (1,39; 1,77) (0,0278; 0,0135) (0,0016; 0,0040)
Test H0: j = 0 t 16,14 5,68 4,68 Valor P 10 < 0,001 < 0,001 < 0,001
Constante IMC Alcohol
1,58 0,0207 0,0028
Pastor-Barriuso R.
199
explicativa sobre la variable respuesta, una vez controladas las posibles g/da (aproximadamente una desviacin tpica) en la ingesta de alcoholPor se asocian otro lado, para un mismo nd corporal se asocia con una disminucin media en el colesterol HDL de diferencias en la otra variable explicativa. Por un lado, manteniendo constante el Regresin lineal mltiple con un aumento medio en el colesterol HDL de g/da (aproximadamente una des 2 - (b0 + b1x1 + b2x2) (de (xincremento y x1 + c1, x2) y b1c (x 1, x2) = b0 + 1 + c1) + b2x2 consumo alcohol, cada de 1 = 3,50 kg/m en el ndice de masa (x1, x2 + c2) - y (x1, x2) = b0 + b1x1 + b2(x2 + c2) - (b0 + b1x1 + b con y 2x2)un aumento medio en el cole b1 = 3,50(-0,0207) = -0,072. =el c1 Por un lado, constante consumo de alcohol, cada incremento corporal se manteniendo asocia con una disminucin media en el colesterol HDL de de c1 = 3,50 kg/m2 en el ndice de masa corporal se asocia con una disminucin media en el colesterol HDL de = c2b2 = 200,0028 = 0,056. (x1, x2 + c2) - y (x1, x2) y Por otro de masa corporal, incrementos de c = 20 (x1, xndice lado, 2 c1, x2un ) mismo y ) = b + b ( x + c ) + b x ( b + b x + b x ) y (x1 + para 2 0 1 1 1 2 2 0 1 1 2 2
mediante para = 0,0207 con ajustado regresin mltiple b1 y ( x1 , x +se c2 ) -de y ( xsu = binducido + b1 x1 + b x2 consumo + c2)el - de (coeficiente b0de + alcohol b1a xcorporal + crudo ben Para evaluar el confusin por la confusin importante la entre ndice masa yobtenido el de de 2 grado 1, x 2) asociacin 0ndice 2(el 1 2 x2 ) sobrepeso no debe a mayor de masa corporal sino un consumo crudo y ajustadosimple en la misma muestra de 449 controles b1 = ryx1 s y / s x1 = una regresin = -0,2730,295/3 asociacin entre el en ndice de masa corporal y el colesterol HDL, basta el 0,2730,295/3,61 = 0,0222. La razn los coeficientes crudo y comparar ajustado colesterol HDL los controles del EURAMIC. = entre 20 0,0028 = 0,056. =c alcohol ligeramente menor). No obstante, los efectos crudo y ajustado no difieren 2b2 estudio
0,0207) = 0,072. =c Para el grado de confusin inducido por el la consumo la 1b1 = 3,50( g/daevaluar (aproximadamente una desviacin tpica) en ingesta de de alcohol alcohol en se asocian Por otro (una lado,pequea para unparte mismo ndice de masa corporal, incrementos desujetos c2 = 20 g/da cruda de la reduccin del colesterol HDL entre los con asociacin entre el ndice de corporal y de el colesterol HDL, basta comparar el el grado de confusi Para evaluar con un aumento medio el masa colesterol HDL (aproximadamente una en desviacin tpica) en la ingesta de alcohol se asocian con un Por otro lado, para el uncolesterol mismo ndice de corporal, incrementos de c2 = 20 aumento medio HDL demasa sobrepeso no en se debe a su mayor ndice de masa corporal sino a un consumo de coeficiente ajustado mediante regresin mltiple b1 = -0,0207 con el coeficiente asociacin entre el ndice de mas (x1, x2 + c2) y ( y x1 , x (x2la +ingesta c2) (b0 + alcohol b1x1 + bse ) 2) = b0 + btpica) 1x1 + b2 2 x2 g/da (aproximadamente una desviacin en de asocian alcohol ligeramente menor). No obstante, los efectos crudo y ajustado no difieren crudo obtenido de una regresin = simple misma = muestra 20la 0,0028 0,056. de 449 controles c2b2 =en coeficiente ajustado mediante reg con un aumento medio en el colesterol HDL de Para evaluar el gradopor de confusin inducidode por el consumo de alcohol en la asociacin substancialmente, lo que el reduccin consumo alcohol no parece ser un factor de con (una pequea parte de la del colesterol HDL entre los sujetos b1 cruda = rel -0,273 0,295/3,61 -0,0222. La razn los coeficientes yx1 sndice y / s x1 = crudo de una regresin entre de masa corporal y=el colesterol HDL,entre basta comparar el obtenido coeficiente
200
crudo y ajustado b1 0,0222 coeficiente ajustado mediante regresin mltiple b1 = -0,0207 con el un coeficiente =alcohol 1,08 substancialmente, por lo que el=consumo de no parece ser factor de Para evaluar el grado de confusin b1 inducido 0,0207por el consumo de alcohol en la 11.3.2 Inferencia sobre los coeficientes de regresin b1 crudo obtenido de regresin simple ende la misma muestra de 449 controles indica que, si importante no seuna ajusta porla elasociacin consumo alcohol, se sobreestima un 100(1,08 confusin para entre el ndice de masa corporal y el 1) = asociacin entre el ndice de masa corporal y el colesterol HDL, basta comparar el b1 8% la que, asociacin delse ndice de masa corporal el colesterol HDL. Esto es En indica el Apndice final del tema demuestra que, bajo las asunciones de sial no seinversa ajusta por el consumo de alcohol, se con sobreestima unlinealidad, 100(1,08 b1 colesterol = ryxa s / s = -0,273 0,295/3,61 = -0,0222. La razn entre los coeficientes debido que el consumo de alcohol presenta una leve correlacin negativa con el ndice HDL en los controles del estudio EURAMIC. y x1 1 coeficiente ajustado mediante regresin mltiple b1 = -0,0207 con el coeficiente de masa corporal, lo que induce unndice pequeo sesgocorporal en la estimacin cruda (una aditividad y homogeneidad de la varianza, los estimadores de mnimos cuadrados bpequea - 1) = 8% la asociacin inversa del de masa con el colesterol j indicaHDL. que, si no se ajusta por el parte de la reduccin del colesterol HDL entre los sujetos con sobrepeso no se debe a su crudo y ajustado obtenido de una regresin simple en la misma muestra de 449 controles 2 mayor masa corporal sino ade unregresin consumo de alcohol ligeramente No siguen aproximadamente una distribucin normal con media j y correlacin varianza v= en Esto es ndice debidode a que el consumo de alcohol presenta una leve jj menor). 11.3.2 Inferencia sobre los coeficientes - 1)negativa 8% la asociacin inversa d obstante, los efectos crudo y ajustado no difieren substancialmente, por lo que el consumo b1 = ryx1 s y / s x1 = -0,2730,295/3,61 =0 -0,0222. La razn entre los coeficientes b ,0222 un 1 de alcohol no parece ser un factor de confusin importante para asociacin entre el el suficientemente ndice al definal masa corporal, que induce pequeo sesgo en la la estimacin muestras grandes, Encon el Apndice del tema selo demuestra que, bajo las asunciones de linealidad, = 1,08 = Esto es debido a que el consumo ,0207en los controles del estudio EURAMIC. b1 0HDL ndice de masa corporal y el colesterol 11 crudo y ajustado aditividad y homogeneidad la varianza, los estimadores de mnimos cuadrados bj de masa corporal, l con el ndice b de j j ~ N de (0, regresin 1)de , alcohol, j = 0, 1, , p, 11.3.2 Inferencia sobre los coeficientes indica que, si no se ajusta por el se sobreestima un 100(1,08 distribucin v jj b consumo siguen aproximadamente una normal con media j y varianza 2vjj en 0 , 0222 1 = 1,08 = En el Apndice del tema se demuestra que, las asunciones decolesterol linealidad, aditividad bdel 0,0207 - 1) = 8% al la final asociacin inversa ndice de bajo masa corporal con el HDL. 1 y homogeneidad de la varianza, los estimadores de mnimos cuadrados bj siguen aproximadamente muestras suficientemente grandes, tamao muestral y de las varianzas y donde vjj es un valor conocido que depende del 2 varianza presenta vjj en muestras suficientemente grandes, una distribucin normal con j y de Esto es debido a que elmedia consumo alcohol una leve correlacin negativa indica que, si no se ajusta por el consumo de alcohol, se sobreestima un 100(1,08 j ~ b j explicativas. covarianzas entre las variables Si se reemplaza el parmetro desconocido que N (0 , 1) , jun = 0, 1, , p , con el ndice de masa corporal, lo induce pequeo sesgo en la estimacin - 1) = 8% la asociacin inversa v jj del ndice de masa corporal con el colesterol HDL. por la desviacin tpica residual s, puede probarse que los estadsticos resultantes siguen 11 dondeEsto vjj es es undebido valor conocido que depende del tamao muestral y de las varianzas y covarianzas a que el consumo de alcohol presenta una leve correlacin negativa aproximadamente una distribucin t de Student con los n -p - 1 grados de libertad conocido que depende del muestral y de las y donde vjj es un valor entre las variables explicativas. Si se reemplaza el tamao parmetro desconocido varianzas por la desviacin tpica con residual s , puede probarse que los estadsticos resultantes siguen aproximadamente una el ndice de masa corporal, lo que induce un pequeo sesgo en la estimacin correspondientes a la estimacin de la desviacin tpica residual, distribucin t de Student con los nexplicativas. p 1 grados de reemplaza libertad correspondientes a la estimacin covarianzas entre las variables Si se el parmetro desconocido 11 de la desviacin tpica residual, por la desviacin tpica residual probarse que los estadsticos resultantes siguen b j sj, puede ~ t j = 0, 1, , p. n p 1 , s v jj aproximadamente una distribucin t de Student con los n - p - 1 grados de libertad Notar que estas distribuciones de los estimadores bj en muestras suficientemente grandes no correspondientes a la estimacin de la y, desviacin tpica residual, requieren de estas la asuncin de normalidad por tanto, vlidas para cualquier distribucin en muestras suficientemente Notar que distribuciones de los estimadores bj son subyacente de la variable respuesta. grandes no requieren de la b asuncin de normalidad y, por tanto, son vlidas para j j ~ t n p 1 , j = 0, 1, , p. Pastor-Barriuso R. s v jj cualquier distribucin subyacente de la variable respuesta.
coeficientes de regresin j vienen dados por Estimacin e inferencia la ecuacin de regresin t de Student que H bajo dichas hiptesis nulas se distribuyen aproximadamente como una de ariable explicativa 0: j = 0 se realizan mediante los estadsticos )% para los Utilizando estos resultados, los intervalos de confianza al 100(1 bj t= , con n - p - 1 grados de libertad. v jj bj tn - p -1,1 /2 s s v jj b coeficientes de regresin j j vienen dados por Utilizando estos resultados, los t= , intervalos de confianza al 100(1 )% para los coeficientes s v de regresin j vienen dados por jj Ejemplo 11.3 Los programas estadsticos convencionales facilitan directamente y bajo los contrastes bilaterales de las hiptesis aproximadamente de ausencia de efecto independiente de cada t de Student que dichas hiptesis nulas se distribuyen como una bj tn p 1,1 /2 s v jj
Utilizando estos resultados, los intervalos jj de confianza al 100(1 - )% para los los contrastes bilaterales de las hiptesis de ausencia de efecto independiente de cada variable explicativa H : = 0 se realizan mediante los estadsticos
0 j
las coeficientes deuna regresin lineal mltiple y cada sus variable t de Student ue bajo dichas hiptesis nulas se distribuyen como variable explicativa H0:de j aproximadamente = 0de selos realizan los estadsticos y los contrastes bilaterales las hiptesis de mediante ausencia de efecto independiente de n - pestimaciones -1 grados depuntuales libertad. con explicativa H0: j =bilaterales 0 se realizan los de estadsticos y los contrastes de mediante las hiptesis ausencia de efecto independiente de cada estndar. Segn la Tabla 11.1, los errores estndar de los coeficientes libertad. on n - p - 1 grados deerrores bj Ejemplo 11.3 Los programas estadsticos facilitan directamente t = convencionales , variable explicativa H 0: j = 0 se realizan mediante los estadsticos estimados para el ndice de masa corporal y el consumo de alcohol son s v jj Ejemplo 11.3 Los programas estadsticos convencionales facilitan directamente las estimaciones puntuales de los coeficientes de regresin lineal mltiple y sus que bajo dichas hiptesis nulas se distribuyen aproximadamente como unaPor t de Student con yj SE(b2) = s v 22 = 0,0006. tanto, respectivamente SE(b1) = s v11 = 0,0036b t = , n que p 1 grados de hiptesis libertad. errores estndar. Segnnulas la Tabla 11.1, los errores estndar y de los coeficientes bajo dichas se aproximadamente como una t de Student las estimaciones puntuales de los coeficientes dedistribuyen regresin lineal mltiple sus s v jj los ICs al 95% para estos coeficientes de regresin son estimados para el ndice masa estndar corporal de y el consumo de alcohol son directamente las n - p -la 1 Tabla grados de libertad. con errores estndar. Segn 11.1, losde errores los coeficientes Ejemplo 11.3 Los programas estadsticos convencionales facilitan estimaciones puntuales de los coeficientes de regresin lineal mltiple y Student sus errores que bajo dichas hiptesis nulas se distribuyen aproximadamente como una t de b1 t446;0,975 b1 ) el =v-0,0207 1,97 0,0036 = (-0,0278; -0,0135), estimados para el ndice de masa corporal y consumo de alcohol son SETabla (SE b1)(= s = 0,0036 y SE ( b ) = s v = 0,0006. Por tanto, respectivamente estndar. Segn la 11.1, los errores estndar de los coeficientes estimados para el 2 11 22 Ejemplo 11.3 Los programas estadsticos convencionales facilitan directamente ndice de masa corporal y el consumo deel nivel alcohol son respectivamente n-p -1 grados de libertad. con As, puede afirmarse con una confianza del 95% que medio de colesterol b t SE ( b ) = 0,0028 1,97 0,0006 = (0,0016; 0,0040), 2 446;0,975 2 ( b ) = s v = 0,0036 y SE ( b ) = s v = 0,0006. Por tanto, respectivamente SE Por tanto, los ICs al 95% para los ICs de regresin son 1 al 95% 2 11 para estos coeficientes 22 las estimaciones puntuales de los coeficientes de regresin lineal mltiple estos de regresin son del estudio EURAMIC disminuye entre y sus HDL coeficientes en la poblacin de referencia Ejemplo 11.3 Los programas estadsticos convencionales facilitan directamente los ICs al 95% para estos coeficientes de regresin son queerrores tambin incluyen dentro de los resultados de la Tabla 11.1. En general, el b se t446;0,975 SE (b = 0,0207 1,97 0,0036 = ( 0,0278; 0,0135), 1estndar. 1 ) la Segn Tabla 11.1, los errores estndar de los coeficientes 3,500,0135 = 0,047 y 3,500,0278 = 0,097 mmol/l por cada incremento de c1 = b2 t446;0,975 SE(b2 ) = de 0,0028 1,97 0,0006 = (0,0016; 0,0040), las estimaciones puntuales los subyacente coeficientes regresin lineal mltiple y sus cde j asociado un aumento intervalo de confianza para el efecto jconsumo estimados para el ndice de masa = corporal y el deaalcohol son de cj b1 t446;0,975 SE(b1 )2 = -0,0207 1,97 0,0036 (-0,0278; -0,0135), ndice de masade corporal entre sujetos con la misma 3,50tambin kg/m en que seel incluyen dentro los resultados de la Tabla 11.1. En ingesta general,de el intervalo errores estndar. Segn la Tabla 11.1, los errores estndar de los coeficientes X= como unidades en) la variable de respectivamente confianza para el efecto subyacente cjj asociado a=un de cj unidades j se calcula b2 t446;0,975 SE(b 0,0028 1,97 =resultados (0,0016; 0,0040), SE (explicativa b s de v los 0,0036 y SE (b s aumento v 0,0006. Por tanto,en la 2 = 1) =0,0006 2)Tabla que tambin se incluyen dentro de la 11.1. general, el 22 =En alcohol, explicativa y que la media poblacional del colesterol HDL aumenta entre 200,0016 variable Xj se calcula 11 como estimados para el ndice de masa corporal y el consumo de alcohol son cjlos bj resultados t cj { bj ct bun a intervalo para el n p 1,1 efecto /2 SE(cjsubyacente j ) = de n j )}. aumento de cj 1,1 coeficientes /2 SE( los ICsde al confianza 95% para estos regresin son j jpasociado que tambin se incluyen de de lab Tabla 11.1. En general, = 0,032 dentro y 200,0040 = 0,080 mmol/l por cada incremento de cel 2 = 20 g/da en el SE (b1una )=s v11 = 0,0036 y SE (b2el )= s vmedio Por tanto, respectivamente 22 = 0,0006. As, puede afirmarse con confianza del 95% que nivel de colesterol HDL en X se calcula como unidades en la variable explicativa j c asociado a un aumento de c intervalo de confianza para el efecto subyacente j j j referencia t446;0,975 SEsujetos ( b1) estudio = -0,0207 1,97ndice 0,0036 = masa (-0,0278; -0,0135), consumo debalcohol entre con el mismo de corporal. la poblacin de del EURAMIC disminuye entre 3,50 Estos 0,0135 = 0,047 1 2 los ICs al 95% para estos coeficientes de regresin son y3,500,0278 = 0,097 mmol/l por cada incremento de c1 = 3,50 kg/m en el ndice de X setdel calcula como unidades en la variable explicativa bj sujetos (0,0028 c {1,97 bj t0,0006 SE (bjy )}. n -p -1,12 /2 jb j) = c jcorporal nde -p-1,1/2 efectos independientes ndice masa yalcohol, de la ingesta b2entre c tj446;0,975 SE ( b )SE = = (0,0016; 0,0040), masa corporal con lade misma ingesta quede la alcohol media poblacional 13 del colesterol HDL aumenta entre 20 0,0016 = 0,032 y 20 0,0040 = 0,080 mmol/l por b1 t446;0,975SE(b1) = -0,0207 1,970,0036 = (-0,0278; -0,0135), sobre el colesterol HDL son muy significativos, ya que sus correspondientes test cada incremento de c = 20 g/da en el consumo de alcohol entre sujetos con el mismo cjbque cj{dentro bj tn-pde (bj)}. de la Tabla 11.1. En general, el 2 j tn -p-1,1-/2SE jbj) -1,1/2SE tambin se(c incluyen los resultados ndice de masa corporal. Estos efectos independientes del de 0,0040), masa corporal y de la b2 t446;0,975SE(b2) = 0,0028 1,970,0006 =ndice (0,0016; estadsticos ingesta de alcohol sobre el colesterol HDL son muy significativos, ya que sus de cj intervalo de confianza para el efecto subyacente cjj asociado a un aumento 13 correspondientes test estadsticos que tambin se incluyen dentro de los resultados de la Tabla 11.1. En general, el b1 0,0207 como unidades en la variablet explicativa =Xj se calcula = = 5,68, 13 ( ) 0 , 0036 SE b 1 intervalo de confianza para el efecto subyacente cjj asociado a un aumento de cj cjbj tn-p-1,1-b = cj{bj tn-p-1,1-/2SE(bj)}. /2SE(cjb0 j),0028 2 t= =j se calcula = 4,68, X como unidades en la variable explicativa SE (b2 ) 0,0006
arrojan valores P bilaterales 2P(t446 5,68) 2F(5,68) < 0,001 y 2P(t446 4,68) cjbj tn-p-1,1/2SE(cjbj) = cj{bj tn-p-1,1-/2SE(bj)}. 2{1 F(4,68)} < 0,001, tal como muestra la Tabla 11.1. arrojan valores P bilaterales 2P(t446 -5,68) 2(-5,68) < 0,001 y 2P(t446 4,68) 13 11.3.3 Inferencia sobre la ecuacin de muestra regresin 2{1 - (4,68)} < 0,001, tal como la Tabla 11.1.
13 La ecuacin de regresin puede utilizarse para estimar el valor esperado de la variable respuesta en funcin de los valores de las variables explicativas. Dados unos determinados valores x01, , 11.3.3 Inferencia sobre la ecuacin de regresin La ecuacin de regresin puede utilizarse para estimar el valor esperado de la variable respuesta en funcin de los valores de las variables explicativas. Dados unos
de variable dicho de forma equivalente, de determinada o, dicho forma equivalente, estos es + una 1x01 + una +determinada px0variable 2ho, en aproximadamente normal con media 0 p y varianza 0 de respuesta en funcin de los valores de las variables explicativas. Dados unos alrededor de qu se agrupan los datos observados. Las alrededor de qu valor sevalor agrupan los datos observados. Las medida muestras suficientemente grandes, Regresin lineal mltiple determinados valores x01, , x0p de las variables explicativas, el estimador insesgado central de la muestra sirven tanto para resumir los resultados de la muestra sirven tanto para resumir los resultados observ ~ N( + central AS DE TENDENCIA CENTRAL TENDENCIA CENTRAL 0 y 1 x01 + + p x0 p , 2 h0 ), 0 que, como se muestra envariable el Apndice de este se distribuye deesperado forma de la variable esperado de la respuesta es tema, x0p del de valor las variables explicativas, el estimador insesgado del valor inferencias acerca de los parmetros poblacionales c realizar realizar inferencias acerca de los parmetros poblacionales correspo respuesta es sdencia de tendencia informan acerca de esmedia el valor ms central central informan acerca cul es cul el valor ms representativo donde h0 es elde leverage del punto (x01 , , x representativo ) que puede una + x + + pxinterpretarse y varianza como 2h0 en aproximadamente normal con p01 0 = y b0 0 + b1 x10 +se bpdescriben x0 p 0p se describen 01 + continuacin los principales estimadores de la t continuacin los principales estimadores de la tendenci minada variable o,de dicho de equivalente, forma equivalente, estos estimadores variable o, dicho forma estos estimadores indicanindican muestras suficientemente grandes, medida distancia respecto al centro de lasCENTRAL medias muestrales ( x1 , que, como estandarizada se muestra ende el su Apndice de este tema, se distribuye de forma aproximadamente 1.2 1.2 MEDIDAS MEDIDAS DE DE TENDENCIA TENDENCIA CENTRAL variable. variable. 2 normal con media 0 + 1x01 + + px0p y varianza h0 en muestras suficientemente grandes, qu valor se agrupan los datos observados. Las medidas de tendencia alor se agrupan los datos observados. Las medidas de tendencia ~ N( + 2 Apartir de de , x p ) de las variables explicativas. Las y la + distribucin h0informan ),tn-p-1 resultante 0 1x 01 + p x0 p , informan 0 Las medidas medidas de tendencia de tendencia central central acerca acerca de cul de cul es el esvalor el valor ms ms represe repr 1.2.1 aritmtica Media aritmtica 1.2.1 Media muestra sirven tanto para resumir los resultados observados como para ra sirven tanto para resumir los resultados observados como para donde h0 es el leverage del punto (x01, , x0p) que puede interpretarse como una medida su estimacin s2 , determinada se sigue que el intervalo confianza al 100(1 - )% sustituir 2 pory de una de una determinada variable variable o, dicho o, dicho de= forma de forma equivalente, estos estos estimadores estimadores ind 14 t s h 1,12 1,97 0puede ,077 0 ,de 0025 (1,09; 446;0,975 La media aritmtica, denotada por x p,) se define sum 0 distancia 0 (= La media aritmtica, denotada por x 1,equivalente, se define como lacomo sumala de ca , de las estandarizada de su respecto al centro de las medias muestrales (1,15). donde h es el leverage del punto x , , x ) que interpretarse como una 0 01 0 p rencias acerca de los parmetros poblacionales correspondientes. A acerca de los parmetros poblacionales correspondientes. A 2 variables explicativas. A partir de la distribucin tnp1 resultante de sustituir por su estimacin 0 de + confianza x01 + p x el valor esperado alrededor alrededor de + qu de qu valor valor se agrupan se muestrales agrupan los los datos datos observados. Las Las medidas medidas de tendenci de tende 1 0p es se sigue que el intervalo al 100(1 )% para el valor esperado x s2, para valores dividida porel nmero de observaciones valores muestrales por el observados. nmero de observaciones realizad x ,01 + medida estandarizada de su distancia respecto al centro dedividida las medias muestrales ( 0 + 11 ncriben se describen los principales estimadores de la tendencia central de una los principales estimadores de la tendencia central de una Por el contrario, el valor esperado del colesterol HDL entre los sujetos con un 0 t446;0,975 s h0 = 1,12 1,97 0,077 0,0025 = (1,09; 1,15). y + px0p es central central de la demuestra la muestra sirven sirven tanto para para resumir resumir los los resultados observados observados como com pa por eltanto tamao muestral por xi resultados el valor observado para el el valor observado para el sujeto ipor n el tamao muestral y por xi y 2 0 kg/m y A t slanh npartir de /2 consumo ) de las explicativas. distribucin t resultante , x p p 1,1 0 . n-p-1 de ndice devariables masa corporal de 32 y un de alcohol 40 g/dade se realizar realizar inferencias inferencias acerca acerca deHDL los de los parmetros parmetros poblacionales poblacionales correspondientes. A Por el contrario, el valor esperado colesterol entre los por sujetos con un Como cabra esperar, la estimacin del valor esperado de la variable respuesta en el correspondientes. punto lavendra media vendra dada ladel media dada por 2 en 1,58 - 0,020732 2 + 0,002840 = 1,03 mmol/l, cuyo IC al 95% estima por su estimacin s , se sigue que el intervalo de confianza al 100(1 )% sustituir aritmtica (x01 , , x0cabra tanto ms cuanto ms extremo puntorespuesta o, ms concretamente, tica Como laimprecisa estimacin del valor esperadosea de dicho la variable en el p) ser esperar, 2 continuacin continuacin se describen se describen los los principales principales estimadores estimadores la detendencia la tendencia central central de u d ndice de masa corporal de 32 kg/m y un consumo de alcohol de 40 g/da de se medias muestrales cuanto mayor sea su distancia estandarizada h0 respecto al centro de las n n + + ... + x x x xn 1 x1 + x 2 +1... + 2 1 n tanto + x01 + +0 para el valor esperado itmtica, denotada por x( se, como define como la suma cada uno de a, denotada por ( x 1, se define la suma cada uno de , ). 0 de 1ms px0cuanto p . punto x , x0 p ) ser imprecisa ms sea punto o, ms = xx xi = . = x dicho p, 01 i = ,los 077 es 0,los 0113 = extremo (0,97; 1,09) 1,03 de 1,97 variable. variable. n i =1 n n estima en 1,58 - 0,020732 + 0,002840 = 1,03 mmol/l, cuyo IC aln 95% i =1 2 strales dividida por el nmero de observaciones realizadas. Si denotamos dividida por el nmero de observaciones realizadas. Si denotamos Ejemplo 11.4 Paramayor un ndice de masa corporal de x = 25h kg/m y un consumo al centro de alcohol las concretamente, cuanto sea su distancia estandarizada 0 respecto 0 tn-p-1,1-/2 s h0 01 y . ms impreciso, ya que el punto de estimacin (32, 40) est = 20 g/da, el modelo de regresin mltiple estima un nivel medio de colesterol HDL de es x02sensiblemente 1.2.1 1.2.1 Media Media aritmtica aritmtica Laes media es la medida de tendencia central ms utilizada La media la medida de tendencia central ms utilizada y de m 0,0113 = (0,97; 1,09) 1,03 1,97 0,077 ao muestral por x el valor observado para el sujeto i -simo, i = 1, ..., n , estral y por xiyel valor observado para el sujeto i -simo, i = 1, ..., n , i = 1,58 0,0207 25x+ 0,002820 = 1,12 mmol/l. El punto de estimacin (x01, x02) = de 0muestrales medias ( x1 , , p ). distante del centro de las muestrales (26,2; 16,5) yx presenta un leverage La media Lamedias media aritmtica, aritmtica, denotada denotada por x se define como como la suma la ambas suma de cada de uno uno de los de )define =respuesta (26,2; de (25, 20) est prximo al centro de las medias muestrales ( 1, se 2, interpretacin. Corresponde al16,5) centro de gravedad de los d interpretacin. Corresponde al centro de gravedad de cada los datos de Como cabra la estimacin del valor esperado de la por variable en el esperar, y 0 t446;0,975 s h0 = 1,12 1,97 0,077 0,0025 = (1,09; 1,15). ndra dada por ada por es bajo. As, el IC al variables explicativas y, en consecuencia, leverage es sensiblemente ms impreciso, ya que su el punto de h estimacin 40) est 0 = 0,0025(32, 2 observaciones alto 0,0113. 95% para elx valor esperado del colesterol HDL entre los sujetos con un ndice de masa valores valores muestrales muestrales dividida dividida por por el=nmero el nmero de observaciones realizadas. realizadas. Si denota Si den Ejemplo 11.4 Para un ndice de masa corporal de x 25 kg/m yde un consumo de principal limitacin es que est muy por los val principal limitacin que est muy influenciada por los valores ext punto (x01 ,de , tanto ms imprecisa cuanto ms extremo sea dicho punto o,influenciada ms 01 es 0p) ser 2 y un consumo de alcohol de 20 g/da es corporal de 25 kg/m n n distante del centro de las medias muestrales (26,2; 16,5) y presenta un leverage Por el contrario, el valor esperado del colesterol HDL entre los sujetos con un ++ x 2x+ + ... 1 x1 + x 2 x 1 n ... + x n .n =i = xconcretamente, xi = 1 .20 x= x porpor el ntamao el distancia tamao muestral muestral ypuede por y por xun el x el valor observado observado para para ellas sujeto el sujeto i-simo, i-simo, i= i 1, = i no ivalor x = g/da, el modelo depuede regresin mltiple estima un nivel medio alcohol de caso, ser un fiel reflejo de la tendencia central de l caso, no ser fiel reflejo de la tendencia central de la distrib h respecto al centro de cuanto mayor sea su estandarizada 02 0 n i= ny n i =1 El n0 t446;0,975 y s h = 1,12 1,97 0 , 077 0 , 0025 = (1,09; 1,15). 1 valor predicho es un estimador insesgado no slo de la esperanza o media 0 2 0 alto de de masa 0,0113. ndice corporal de 32 kg/m y un consumo de alcohol de 40 g/da se la x media la media vendra vendra dada dada por por y = 1,58 -del 0,0207 25 + 0,0028 20 = 1,12 mmol/l. El punto de colesterol HDL de Por el contrario, el esperado colesterol HDL entre los sujetos con un ndice x , medias muestrales ( 0 ). 1 , valor p 2 poblacional de la variable respuesta entre aquellos sujetos con los mismos valores de las en ejemplos Ejemplo 1.4 En este y en los sucesivos sobre Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estima es la medida de tendencia central ms utilizada y de ms fcil medida de tendencia central ms utilizada y de ms fcil de masa de 32 kg/m ydel un consumo de alcohol de 40 g/da estima estima en corporal 1,58 - 0,0207 32 + 0,0028 40 = 1,03 mmol/l, cuyo los IC al 95% Por el contrario, el valor esperado colesterol HDL entre sujetos conse un El valor predicho y es un estimador insesgado no slo de la esperanza o media n n 0 1,58 0,020732(x +01 0,0028 40 = 20) 1,03 mmol/l, cuyo al ++ ...+ +... x1x 2 x x+ xn 1 95% 1de , x02) = (25, est prximo alIC centro lasxmedias muestrales deestimacin 1 + 2 .de . = = = = x x x x inuevo y0n = explicativas, sino tambin de la respuesta individual de sujeto 2 2 utilizarn los valores del colesterol HDL obtenidos enp utilizarn los valores del colesterol HDL obtenidos en los 10 n. Corresponde alvariables centro de gravedad de los datos de la muestra. Su responde al centro de gravedad de los datos de la muestra. Su i un Ejemplo 11.4 Para unde ndice de masa corporal de de x01alcohol = 25 kg/m y un consumo ndice de masa corporal 32 kg/m y un consumo de 40 g/da se n 1,09) n n i =n 1 i =1 0 , 077 0 , 0113 = (0,97; 1,03 1,97 poblacional la variable respuesta entre aquellos sujetos con los mismos valores de las ( x1 , x de 2 ) = (26,2; 16,5) de ambas variables explicativas y, en consecuencia, su estudio European Study onmedio Antioxidants, Myocardial estudio European Study on Antioxidants, Myocardial Infarct 0muy + x + +los x + En el Apndice de este tema se demuestra que, bajo las mitacin es que est influenciada por los valores extremos y, en este n es que est muy influenciada por valores extremos y, ende este 1 01 0p20 0. x = g/da, modelo regresin un alcohol de es sensiblemente ms impreciso, ya que el punto de mltiple estimacin 40)nivel est distante del estima en 1,58 -p0,0207 32 +el 0,0028 40 = 1,03 mmol/l, cuyo estima IC(32, al 95% 02 y0 = y de variables explicativas, sino tambin de la la respuesta individual decentral un central nuevo sujeto La media La media es medida la medida de tendencia de tendencia ms ms utilizada utilizada y ms de ms fcil fcil centro de las medias muestrales (26,2; y presenta unvalor leverage de 0,0113. es sensiblemente ms impreciso, yaes que el punto de estimacin (32,alto 40) est h0 =central 0,0025 esla bajo. As, el16,5) IC al 95% para el esperado del the Breast (EURAMIC), un estudio multicntrico de the Breast (EURAMIC), un estudio multicntrico de casos y no fiel ser reflejo un fiel reflejo de leverage la tendencia de distribucin. un de la tendencia central de la distribucin. asunciones de la regresin lineal mltiple (linealidad, aditividad, homogeneidad de la 0 = 1,58 - 0,020725 + 0,002820 = 1,12 mmol/l. El punto de colesterol HDL de y 0 ,077 0 ,0113 = (0,97; 1,09) 1,03 1,97 1x01 +del centro + x0 p + las En el Apndice de este tema se demuestra que, bajo las interpretacin. interpretacin. Corresponde Corresponde al centro al centro de gravedad de un gravedad de los de los datos datos de la demuestra. la muestr S 2 0+ 0. un estimador insesgado no slo de lay esperanza o media poblacional El valor predicho p distante de medias muestrales (26,2; 16,5) presenta leverage y un colesterol HDL entre los sujetos con un ndice de masa corporal de 25 kg/m 0 es entre 1991 y 1992 en ocho pases Europeos e Israel pa entre 1991 y 1992 en ocho pases Europeos e Israel para evalu y y sigue la distribucin normal varianza y normalidad), la diferencia 0 0sujetos de la variable respuesta aquellos con los mismos valores demuestrales las variables , sobre x02) = (25, 20) estmuestrales, prximo al se centro de las medias deejemplos estimacin (x01entre plo este ysucesivos en los sucesivos ejemplos estimadores En 1.4 esteEn y en los sobre estimadores muestrales, se principal principal limitacin limitacin es que es que est est muy muy influenciada influenciada por los los valores extremos extremos y, en y, e asunciones de la regresin lineal mltiple (linealidad, aditividad, homogeneidad la valores de explicativas, sino tambin dede la 20 respuesta individual de un nuevo sujeto y = 0 +por alto de 0,0113. consumo de alcohol g/da es 1x01 + + es sensiblemente ms impreciso, ya que el punto de estimacin (32,040) est En el ) Apndice 16,5) de este tema se demuestra que, bajo las asunciones de la su regresin px0p + 0(. x 2 x de ambas explicativas y, en consecuencia, y y0 ~variables N (0, sujetos (1 + h )), rn los valores delvarianza colesterol HDL obtenidos en los primeros del valores del colesterol HDL en los 10 primeros sujetos del 0reflejo 0 10 1 ,obtenidos 2 = (26,2; caso, caso, puede puede no ser no ser un fiel un fiel reflejo de la de tendencia la tendencia central central de la dedistribucin. la distribucin. y y sigue la distribucin normal y normalidad), la diferencia 0 lineal mltiple (linealidad, aditividad, homogeneidad de la varianza y normalidad), la diferencia 0 distante del centro de las medias muestrales (26,2; 16,5) y presenta un leverage 0 es un y0valor sigue la distribucin normal 0 El predicho y estimador insesgado no slo la esperanza o media o European Study on Antioxidants, Myocardial Infarction and of de opean Study on Antioxidants, Myocardial Infarction and Cancer of95% h0 = 0,0025 es bajo. As, el IC Cancer al para el valor esperado del leverage 15 2 de alto tal forma que el intervalo de prediccin al 100(1 )% para una nueva observacin 0 de 0,0113. y y0 ~ N (0, En (1 + hen Ejemplo Ejemplo 1.4 1.4 En este este y y los en los sucesivos sucesivos ejemplos ejemplos sobre sobre estimadores estimadores muestra mue 0 )), de la variable respuesta entre aquellos sujetos los mismos valores de2 las east (EURAMIC), un estudio multicntrico de y controles realizado EURAMIC), unpoblacional estudio multicntrico deentre casos ycasos controles realizado y un colesterol HDL los sujetos con un ndice de con masa corporal de 25 kg/m de individual tal forma y que el intervalo prediccin al 100(1 del )% para HDL una nueva observacin dado por deutilizarn 0 viene utilizarn los los valores valores del colesterol colesterol HDL obtenidos obtenidos en los en los 10 primeros 10 primeros suje s viene dado por individual y y variables explicativas, sino tambin de la respuesta individual de un nuevo sujeto de tal forma que el intervalo de prediccin al 100(1 )% para una nueva observacin 0= 0Europeos e 1991 1992 en ocho pases Israel para evaluar el efecto de los 1992 y en ocho pases e Israel para evaluar el efecto de los El Europeos valor predicho y es un estimador insesgado no slo de la esperanza o media consumo de alcohol de 20 g/da es 0 estudio European European Study Study on Antioxidants, on Antioxidants, Myocardial Myocardial Infarction Infarction andand Canc C 0 estudio y t n p 1,1 /2 s 1 + h0 . + + En el Apndice de este tema se demuestra que, bajo las y viene dado individual 0+ 1x01 + p x0 p 0.por 0 poblacional de la variable respuesta entre aquellos sujetos con 5 los mismos valores de las 5 the the Breast Breast (EURAMIC), (EURAMIC), un estudio un estudio multicntrico multicntrico de casos de casos y controles y controles rea 15 asunciones de la regresin lineal mltiple (linealidad, aditividad, homogeneidad de la 202 variables Pastor-Barriuso R. Este intervalo de prediccin paray respuesta individual de un sujeto ser y0 = explicativas, sino tambin de la individual de nico un nuevo sujeto la tnrespuesta -p-1,1-/2 s 1 + h0 . 0 entre entre 1991 1991 y 1992 y 1992 en ocho en ocho pases pases Europeos Europeos e Israel e Israel para para evaluar evaluar el efecto el efect d y y sigue la distribucin normal varianza y normalidad), la diferencia 0 substancialmente amplio que el 0 intervalo de confianza para la respuesta media de 0 + 1x01 + + pxms 0p + 0. En el Apndice de este tema se demuestra que, bajo las
prediccin incorpora la varianza residual de cada respuesta individual alrededor de

Contrastes de hiptesis en regresin lineal mltiple dicha ecuacin de regresin. Notar, adems, que los intervalos de prediccin para una
nueva observacin requieren de la hiptesis de normalidad, mientras que los intervalos Este intervalo de prediccin para la respuesta individual de un nico sujeto ser substancialmente de confianza para valor esperado tienden a ser muestras suficientemente ms amplio que elel intervalo de confianza para lacorrectos respuestaen media de todos los sujetos con un mismo patrn de variables explicativas ya que, adems del error en la estimacin del valor grandes, de la distribucin subyacente de la incorpora variable respuesta. predicho independientemente por la ecuacin de regresin, el intervalo de prediccin la varianza residual de cada respuesta individual alrededor de dicha ecuacin de regresin. Notar, adems, que los intervalos de prediccin para una nueva observacin requieren de la hiptesis de normalidad, Ejemplo 11.5 El valor predicho del colesterol HDL esperado para un nuevo sujeto con un mientras que los intervalos de confianza para el valor tienden a ser correctos en muestras suficientemente grandes, independientemente de la distribucin subyacente de la ndice de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/da es de variable respuesta. 011.5 y = 1,58 - 0,0207 25 + 0,0028 20 = 1,12 mmol/l. el con un ndice nuevo Ejemplo El valor predicho del colesterol HDL paraSin un embargo, nuevo sujeto de masa corporal de 25 kg/m2 y un consumo de alcohol de 20 g/da es de nuevo 0 = 1,58 0,0207de 25prediccin + 0,002820 = 1,12 mmol/l. Sin embargo, el intervalo de prediccin al 95% intervalo al 95% para esta nueva observacin para esta nueva observacin 0 t446;0,975 s 1 + h0 = 1,12 1,97 0,077(1 + 0,0025) = (0,57; 1,67) y
es notablemente ms impreciso que el intervalo de confianza calculado en el ejemplo anterior para el valor medio delque colesterol HDLde enconfianza todos los calculado sujetos con valores es notablemente ms impreciso el intervalo en dichos el del ndice de masa corporal y del consumo de alcohol (IC al 95% 1,09-1,15 mmol/l). ejemplo anterior para el valor medio del colesterol HDL en todos los sujetos con 11.4 dichos CONTRASTES HIPTESIS EN REGRESIN LINEAL MLTIPLE valores del DE ndice de masa corporal y del consumo del alcohol (IC al 95% Como1,09 se vio en mmol/l). el Apartado 10.3.2 del tema anterior, el contraste de un modelo de regresin 1,15 lineal simple se reduce a evaluar si el coeficiente 1 asociado a la nica variable explicativa es 0, en cuyo caso el modelo no aportar explicacin alguna sobre la variabilidad de la variable respuesta. En regresin lineal mltiple, sin embargo, la presencia de mltiples variables explicativas permite realizar distintos contrastes de hiptesis, que dan respuesta a diferentes 11.4 CONTRASTES DE HIPTESIS EN REGRESIN LINEAL MLTIPLE preguntas de investigacin. En general, los contrastes de hiptesis en regresin lineal mltiple pueden clasificarse en tres grandes grupos, a saber: Como se vio en el Apartado 10.3.2 del tema anterior, el contraste de un modelo de yy El contraste global determina si el modelo en su conjunto explica una parte significativa de lalineal variabilidad de reduce la variable respuesta. regresin simple se a evaluar si el coeficiente 1 asociado a la nica yy Los contrastes parciales individuales evalan la contribucin independiente de cada variable explicativa es 0, en cuyo caso el modelo no aportar explicacin alguna sobre variable explicativa una vez controlados los efectos de las restantes variables explicativas. yy Los contrastes parciales mltiples valoran si un determinado subgrupo delados o ms la variabilidad de la variable respuesta. En regresin lineal mltiple, sin embargo, variables explicativas contribuye significativamente a explicar la variabilidad residual de la variable respuesta que no se explica por las otras variables incluidas en el de modelo. presencia de mltiples variables explicativas permite realizar distintos contrastes
En los siguientes apartados se describen los procedimientos estadsticos necesarios para realizar hiptesis, que danConviene respuesta a diferentes preguntas de de investigacin. En general, losy aditividad dichos contrastes. resaltar que estos contrastes hiptesis asumen linealidad en los efectos de las variables explicativas y, en consecuencia, no deben interpretarse como pruebas contrastes regresin lineal mltiple pueden clasificarse en tres del grandes de bondad de delhiptesis ajuste, yaen que no facilitan ninguna informacin sobre la idoneidad modelo lineal aditivo para describir la relacin subyacente de las variables explicativas con la variable respuesta. grupos, a saber: 11.4.1 Contraste global del modelo de regresin lineal mltiple
17
La hiptesis nula del contraste global de un modelo de regresin lineal mltiple establece que ninguna de las variables explicativas se asocia linealmente con la variable respuesta, que puede formularse
Al igual que en regresin lineal simple, este de contraste global antioxidantes en el riesgo de desarrollar un primer infarto agudo miocardio en se realiza
descomponiendo variabilidad de 1,58, la variable respuesta. Una vez estimada la ecuacin como Hvalores = la = 0. Bajo esta hiptesis nula, la ecuacin de regresin se reduce al trmino hombres adultos. Los obtenidos fueron 0,89, 0,79, 1,29, 1,42, global 0,84, 0: 1 = 2 p= Al igual que en regresin lineal simple, este contraste se realiza constante 0 y el modelo no aportar entonces ninguna explicacin sobre la variabilidad de la variable =media y b0 + por bde + + bpxp , lacolesterol suma de cuadrados SST de la regresin 1 x1 = 2 = = p =variable 0 frente a la respuesta. El propsito es, tanto, contrastar la hiptesis nula en H0: 1total 1,06, 0,87, 1,96 y de 1,53 mmol/l. La los niveles HDL descomponiendo la variabilidad de la del variable respuesta. Una vez estimada la ecuacin hiptesis alternativa bilateral de que al menos una de las variables explicativas se relaciona linealmente : 0 para algn j = 1, , p. conrespuesta la respuesta, quedescomponerse corresponde a Hcomo estos 10 participantes es puede = b0 + b1x1 + 1 y + bjpxp, la suma de cuadrados total SST de la variable de regresin Al igual que en regresin lineal simple, este contraste global se realiza descomponiendo la n n variabilidad de variable de regresin = b0 + b1x1 2Una vez estimada la ecuacin + +respuesta. 1 10 0la ,89 1,58 ...(+ 1, 53 respuesta puede descomponerse como mmol/l. i )2 SST = y y ) = ( y y + y y i i i x x = 1,223 = = total SST de la variable respuesta puede descomponerse + + b x i, la suma de cuadrados i =1 10 p p 10 i =1 como i =1 n n n n n 2 2 2 + i y )( yi y i ) = ( y y ) ( y y ) + 2 (2y ii yi + yi i ) SST = ( yii y ) = (y y i =1 i =1 i =1 i =1 de miocardio i =1 en antioxidantes en el riesgo de desarrollar un primer infarto agu riesgo aritmtica de desarrollar un primer infarto agudo media presenta las siguientes propiedades: n n n CENTRAL n n 1.2 MEDIDASCENTRAL DE TENDENCIA DAS DE TENDENCIA 2 2 2 + 2 = SSR + SSE, = ( y y ) ( y y i i i) i yLos i ) obtenidos fueron 0,89, 1,58, 0,7 = ( y y ) + ( y y ) + 2 (y )( yi valores y i i i adultos. Los valores fueron 0,89, 1,58, 0,79, 1,42,i =0,84, i una =1 1,29, 1 cadahombres Cambio de obtenidos origen (traslacin). Si se suma constante a uno de los 1 i =1 i= i =1 datos n n ms Las medidas de tendencia central informan acerca de representativo cul 2es el valor ms representativo s de tendencia central informan acerca de cul es el valor 2 1,06, 0,87, y la 1,53 mmol/l. La media de los niveles del co 1,53 mmol/l. La media de los niveles del colesterol HDL en i ) = = ( y y ) + (y y SSR1,96 +ms SSE, de una muestra, laya media de la muestra resultante es igual a la media inicial i i 1i - y y yi - iy y que las desviaciones i = i estn incorrelacionadas =1 de una determinada variable o, dicho de forma equivalente, estos estimadores indican rminada variable o, dicho de forma equivalente, estos estimadores indican estos participantes es tes es ya que i y y icestn incorrelacionadas yi =desviaciones xi + c, entonces =yx . Un cambio de10 origen que constante utilizada; si las i + n n medidas de tendencia alrededor deque qu valor se agrupan y los datos observados. Las e qu valor se agrupan loslas datos observados. Las medidas n de tendencia ya desviaciones i - y y yi - y i estn incorrelacionadas ( )( ) = y y y y y e y ei i de la variable, i i i i 10 se con frecuencia el centrado que consiste en restar a 1 10 0,89 + 1,58 + ... + 1,53 + 1,58 + ...es +1 1 realiza 0,89 ,53 i =1 i =1 i =1 x x = 1,223 m = x = 1,223 mmol/l. = i = i la muestra sirven tanto para resumir los resultados observados como para a10 muestracentral sirven de tanto para resumir los resultados observados como para p n i =1 n 10 10 10 n n n n i =1 cada valor de la muestra su media. La de una centrada ser, por = b0 e + y be xij ei y ei = 0 media variable ie j (y y i y )( y i y i ) = ii i j =i 1= i =1 A realizar acerca poblacionales correspondientes. rencias acerca deinferencias los parmetros poblacionales correspondientes. A i =1de los parmetros i =1 i =1 1 i =1 p tanto, igual a 0. n n n La media aritmtica presenta las siguientes propiedades: resenta las siguientes propiedades: de acuerdo a las ecuaciones lineales derivadas del mtodo de mnimos cuadrados (vase Apartado = b e + b x e y e 0 continuacin se describen los principales estimadores la tendencia de una n se describen los principales estimadores de la tendencia una 0 central i de de j ij i central i = 11.3.1). En consecuencia, la suma de derivadas cuadrados total SST se en dos(vase trminos de acuerdo a las ecuaciones lineales del de descompone mnimos cuadrados i =1 j =1 mtodo i =1 i =1 Cambio de escala (unidades). Si se multiplica cada uno de los datos de una Cambio de origen (traslacin). Si se suma una (traslacin). Si independientes: se suma una constante a cada uno de los datos la suma de cuadrados de la regresin SSR, que representa la variabilidad de la constante a cad variable. es cierta. Por otro lado, como se vio la ensuma el regresin, Apartado 11.3.1, la suma de delenSSE, variable respuesta explicada por el modelo de y la suma de cuadrados del error Apartado 11.3.1). En consecuencia, de cuadrados total SST se cuadrados descompone muestra por una constante, la media de la muestra resultante es igual a la media de acuerdo a las ecuaciones lineales derivadas del mtodo de mnimos cuadrados de una muestra, la media de la muestra resultante media de la muestra resultante es igual a la media inicial ms la que representa la variabilidad residual que permanece sin explicar. Por un lado,(vase la suma es igual a la n - p - 1 SSR grados de libertad. Adems, bajo lasya asunciones del modelo error SSE contiene decuadrados deindependientes: la regresin contiene p grados de que, conocida la media 1.2.1 Media aritmtica a aritmtica dos trminos la suma de cuadrados delibertad la regresin SSR, que y = cx , entonces y = c x . inicial utilizada; si i i Apartado 11.3.1). En consecuencia, la suma de cuadrados total SST se descompone en y = x + c , entonces = x + c. Un cam constante utilizada; si xi +la c,constante entonces y = x + c . Un cambio de origen que ; si yi =por =y+ muestral , los valores estimados por la ecuacin de regresin i = b0 + ib1xi1i + bpxip 2 se distribuye de regresin lineal mltiple, comprueba que el cociente SSE/ b1(x ) se + la + b )se quedan completamente determinados por los coeficientes media aritmtica, denotada por x se define como la de cada uno los itmtica,La denotada por define como lade suma de cada uno desuma los representa variabilidad la variable respuesta explicada por elde modelo dep regresin, i 1 x 1, p(xip p, 2 Cambio simultneo de origen y escala. Si se multiplica cada uno de los datos de dos trminos independientes: la suma de cuadrados de la regresin SSR, que sigue asociados las variables explicativas. De hecho, puede probarse que el cociente SSR/ de se realiza con frecuencia es el centrado la variable, que con uencia es el centrado de laavariable, que consiste en restar a n p 1 grados de libertad con independencia de la conforme a una chi-cuadrado con : = = una distribucin chi-cuadrado con p grados de libertad cuando la hiptesis nula H valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos strales dividida por el nmero de observaciones realizadas. Si denotamos y la suma de cuadrados del error SSE, que representa la variabilidad residual 0 que 1 2 una muestra por una constante y al resultado se le suma otra constante, la media representa la variabilidad de la variable respuesta explicada por el modelo de regresin, = 0 es de cierta. otro centrada lado, como se por vio encada el Apartado la suma de cuadrados del =La p media valor de 11.3.1, la muestra su media. La media de una variable c uestra su media. una Por variable ser, hiptesis nula. Combinando las distribuciones muestrales de ambas sumas de error SSE contiene n p 1 grados de libertad. Adems, bajo las asunciones del modelo de por nyel tamao muestral y por x el valor observado para el sujeto i -simo, i = 1, ..., n , ao muestral por x el valor observado para el sujeto i -simo, i = 1, ..., n , i i permanece sin explicar. Por un lado, la suma de cuadrados de la regresin SSR contiene 2 la de la muestra resultante es igual a la media inicial porSSE, la primera constante, de mltiple, cuadrados error que representa la variabilidad residual que a una y la suma se distribuye conforme regresin lineal se del comprueba que el cociente SSE/ tanto, igual a ms 0. chi-cuadrado con np 1 grados de libertad independencia la hiptesis Combinando Hmuestral =,de = p = 0 estimados lanula. razn entre cuadrados, se tiene que bajoconocida la hiptesis nula la por media vendra dada por ndra dada 0 : 1 = 2 y p grados de libertad ya que, la con media los valores por la y = c x + c , entonces y = c x + c . segunda constante; si i 1 i 2 1 2 permanece sin explicar. Por un lado, la suma de cuadrados de la regresin SSR contiene las distribuciones muestrales de ambas sumas cuadrados, se tiene que bajo Si la hiptesis nulacada uno de los de Cambio de escala (unidades). se multiplica (unidades). Si se multiplica cada uno de los datos de una 2 1 = = = = 0 la razn entre la varianza explicada por la regresin SSR/ p y la varianza H0:ecuacin p y la varianza residual s = SSE/( n p 1) varianza explicada por la regresin SSR/ n b + b x + + b x = y + b (x - x ) + + b (x - x ) p 1 y de regresin 0 11 i+ 1 x 2 + ... + p ip 1 i1 p ip x ... x1 + x + x nconocida 1 n2 i+= 1 p n p=grados que, la media muestral , los valores estimados por SSE/( n 2p residual s2 = . por y = 1) xya x.i =a la = libertad xde x ide muestra una constante, la media de lala muestra resultante e onstante, la media la muestra resultante es igual media n de mmol/l a mg/dl se n i =1 n n Ejemplo 1.5 Para transformar los valores del colesterol HDL i =1 SSR por los p coeficientes asociados a las variables quedan completamente determinados yi- =xcx la si = cxi, entonces y =cx ante utilizada; si yiecuacin y i. = b0 + b1xi1 + + inicial bpxip = por y + bconstante (x - x1 ) utilizada; + + bp( xip de regresin p )i, entonces y = c x 2 / p 1 i1 p p 2 SSR As, utilizando multiplica por el factor de conversin 38,8. la propiedad del Lade media es la medida de ms utilizada y deSSR/ ms fcil a es la medida tendencia central ms utilizada y de ms fcil = tendencia 2 = Fp ,n p 1 = central ~el cociente 2 2 sigue una distribucin explicativas. DeF hecho, puede probarse que SSE n /( n p 1 ) ps 1 p Cambio simultneo de origen escala. Si se multiplica cada u o de origen y escala. Si se multiplica cada uno de los datos de a las y variables completamente determinados por los p coeficientes asociados 2 calculara cambio de escala, quedan la media del colesterol HDL en mg/dl se gravedad muestra. p 1)la interpretacin. Corresponde al centro de de los Su datos de la muestra. Su n. Corresponde al centro de gravedad de los(n datos de chi-cuadrado con p grados de libertad cuando la hiptesis nula2H0: 1 = 2 = = p = 0 una muestra por una constante y al resultado se le suma otra c na constante y al resultado se le suma otra constante, la media sigue una distribucin explicativas. Deen hecho, puede probarse que el cociente SSR/ distribuye como el cociente de dos distribuciones chi-cuadrado independientes divididas por 38,8 = 47,45 mg/dl. directamente a se partir de su media mmol/l como 1,223 principal limitacin es que est muy influenciada por los valores mitacin es que est muy influenciada por los valores extremos y, en este extremos y, en este distribuye comogrados el cociente de dos distribuciones independientes susse correspondientes de libertad, que equivale chi-cuadrado a una distribucin F de Fisher con p de la muestranula resultante a la tante es igual a la chi-cuadrado media inicial por la grados primera constante, ms la de libertad cuando H 1es = igual entre = media p =19 0 inicial por la prim con 0: razn 2= grados de libertad en p el numerador ynp 1 en la el hiptesis denominador. La las varianzas caso, puede no un fiel reflejo de de la la tendencia central de la distribucin. no ser un fiel reflejo de ser la tendencia central distribucin. 6 a una distribucin F divididas por sus correspondientes grados de libertad, que equivale segunda constante; si yi = c1xi + c2, entonces y = c1 x + c2. ; si yi = c1xi + c2, entonces y = c1 x + c2.
204 Pastor-Barriuso R. 19 p ejemplos grados de libertad en el numerador n -se p - 1 en muestrales, el denominador. de Fisher con 1.4 En este y en los sucesivos ejemplos sobre y estimadores se La plo 1.4 En este Ejemplo y en los sucesivos sobre estimadores muestrales, Ejemplo 1.5 Para transformar los valores del colesterol HDL ransformar los valores del colesterol HDL de mmol/l a mg/dl se entre las varianzas explicada y primeros residual constituye, tanto, sujetos el estadstico los valores del colesterol HDL obtenidos en los del 10 por primeros del para el arn los valoresutilizarn delrazn colesterol HDL obtenidos en los 10 sujetos
Contrastes de hiptesis en regresin lineal mltiple
Tabla 11.2 Tabla genrica del anlisis de la varianza en regresin Tabla 11.2 Tabla genrica del anlisis de la varianza en regresin lineal mltiple.* lineal mltiple.*
Suma de Suma de cuadrados cuadrados Regresin SSR =
n
Grados de Grados de libertad libertad p
Varianza Varianza SSR p s2 = SSE n p 1
Razn de Razn de varianzas varianzas F= SSR ps 2
(y
i =1 n
y) 2
Error
SSE =
i )2 ei2 = ( y i y
i =1 i =1
n p 1
Total
SST =
(y
i =1
y) 2
n 1
* Coeficiente de determinacin R2 = SSR/SST. * Coeficiente de determinacin R2 = SSR/SST.
explicada y residual constituye, por tanto, el estadstico para el contraste global del modelo de regresin lineal mltiple. La descomposicin de la variabilidad de la variable respuesta, junto con la razn de varianzas resultante, suele resumirse en la tabla del anlisis de la varianza (Tabla 11.2).
Como complemento al contraste global del modelo, suele calcularse el coeficiente de determinacin R2 = SSR/SST, que es una medida cuantitativa de la proporcin de la variabilidad equivale al cuadrado del coeficiente de correlacin r y entre los valores observados yi de la variable respuesta explicada por el modelo de y regresin mltiple. El coeficiente de determinacin R2 vara entre 0 y 1 y aumenta siempre que se incluyen nuevas variables i puede y por la no ecuacin de regresin, que se de la variable respuesta los valores explicativas en el modelo, yaunque este predichos incremento ser significativo (ver apartado siguiente). Otra de sus principales propiedades es que equivale al cuadrado del coeficiente de ryy entre losvalores valores observadosyy coeficiente de correlacin los respuesta y los valores predichos i correlacin coeficiente de observados correlacin , conoce como ide la variable entre imltiple por la ecuacin de regresin, que se conoce como coeficiente de correlacin mltiple,
2 i por la ecuacin de regresin, que se y los valores predichos y n n 2 2 ( y y ) y) i (y SSR i =1 i i =1 2 de correlacin mltiple, = n = n R = n SST i y) 2 ( yi y) 2 ( yi y) 2 ( y n n i y) ( yi y i )( y i y) ( y i y )( y i =1 = n = n i =1 i =1 n 2 2 = 2 n n ( y y ) ( y y ) ( y y ) i i i i y) 2 i =1 i =1 i =1 ( yi y) 2 ( y i n n 2 i y) ( yi y i )( y i y) n ( y i y )( y i y) i =1 i =1 ( y i y )( y = i =1 = 2 n n = n ryy 2 2 . n ( y y ) ( y y ) i i 2 2 i y) i =1 i =1 ( yi y ) ( y 2 i =1 i =1 2 i =1 i =1
(y
y)
n i y) 2 (y i =1
i =1
i =1
i =1
64
n i y) ( y i y )( y Notar que de los coeficientes de regresin minimizan la suma de cuadrados del i =1 las estimaciones 2 Notar que las estimaciones de los coeficientes de regresin minimizan R la2 suma de = = r . yy error SSE y, en consecuencia, maximizan el coeficiente de determinacin del modelo. De la n n 2 2 ( y y ) ( y y ) relacin entre los coeficientes de determinacin y correlacin mltiple, se deriva entonces que i i i =1 cuadrados del error SSE y, en consecuencia, maximizan el coeficiente de determinacin i =1 las estimaciones b0, b1, , bp maximizan la correlacin entre los valores observados yi y los
R2 del modelo. De la relacin entre los coeficientes de determinacin y correlacin es de los coeficientes de regresin minimizan la suma de
mltiple, se deriva entonces que las estimaciones b0, b1, , bp maximizan la correlacin y, en consecuencia, maximizan el coeficiente de determinacin
= b + b x + + b x , de tal entre los valores observados y y los valores predichos y
= 1,58 - 0,0207x1 + 0,0028x2 estimada y correlacin con la variable respuesta.

SSR = (1,58 0,0207 x i1 + 0,0028 x i 2 1,08) 2 = 4,58 Ejemplo 11.6 En la primera parte de la Tabla 11.1 se presenta el anlisis de la i =1
449
varianza de la regresin lineal mltiple del colesterol HDL sobre el ndice de valores predichos i = b0 + b1xi1 + + bpxip, de tal forma que cualquier otra combinacin lineal y la suma de cuadrados residual de las variables explicativas tendr menor correlacin con la variable respuesta. se descompone laconsumo suma de de cuadrados por la ecuacin de del regresin masa corporal en y el alcohol.explicada La suma de cuadrados total colesterol
449 Ejemplo 11.6 En la primera parte de la Tabla 11.1 se presenta el anlisis de la varianza { yi ,58 0,0207 + 0,0028 x i 2 )}2 = 34,33. SSE =- + 0,0028 x2 x i1 HDL estimada y = 1,58 0,0207 x1(1 HDL de la regresin lineal mltiple del colesterol sobre el ndice corporal y el se descompone en lai =suma de cuadrados explicada por la ecuacin de de masa regresin 1 consumo de alcohol. La suma de cuadrados total del colesterol HDL 449 = 1,58 + 0,0028 x2explicada estimada y -449 0,0207 x1 cuadrados 2ecuacin se descompone en suma de por de regresin SST = yi1 )2 x =i 2 38,91 = = 0,118 y Por tanto, el SSR coeficiente de determinacin se estima en R ( 1 , 58 0 , 0207 + 1,08 0 ,0028 1la ,08 ) 24,58/38,91 = 4,58 =la (x i
= 1,58 + 0,0028x estimada y - 0,0207 x1 cuadrados 449 se descompone en la suma de por = la0,343. ecuacin de regresin estimada r = 0,118 Es decir, la el coeficiente de correlacin mltiple en 2explicada 21 ( 1 , 58 0,0207 x i1 +yy 0,0028 x i 2 1,08) 2 = 4,58 SSR = = 1,58 0,0207 x + 0,0028 x 1 2 y la suma de cuadrados residual combinacin lineal del ndice de masa corporal y el consumo de alcohol presenta SSR = (1,58 0,0207 x i1 + 0,0028 x i 2 1,08) 2 = 4,58 449 i =1 y la suma de cuadrados residual { y i con (1,el 58colesterol 0,0207 xHDL, x i 2 )}2 = as 34,33. SSE de = una correlacin 0,343 consiguiendo explicar el i1 + 0,0028 y la suma de cuadrados residual i =1 449 residual y la suma devariabilidad cuadrados 11,8% de la colesterol HDL en los controles 2 del estudio = 34,33. SSE = { ydel i (1,58 0,0207 x i1 + 0,0028 x2 i 2 )} Por tanto, el coeficiente i =1 de determinacin se estima en R = 4,58/38,91 = 0,118 y 449 EURAMIC. variabilidad explicada por se el modelo de regresin lineal mltiple Por tanto, elEsta coeficiente de determinacin estima en R2 = 4,58/38,91 = 0,118 y el SSE = { y i (1,58 0,0207 x i1 + 0,0028 x i 2 )}2 = 34,33. 2 Es decir, la combinacin coeficiente de correlacin mltiple r = 0 , 118 = 0,343. Es decir, la el coeficiente de correlacin mltiple en se estima en R = 4,58/38,91 = 0,118 yy i =1 Por tanto, el coeficiente de determinacin representa una parte significativa de la variabilidad total del colesterol HDL, ya y lineal del ndice de masa corporal y el consumo de alcohol presenta una correlacin de 0,343 con el colesterol HDL, consiguiendo as explicar el 11,8% de la variabilidad del 2 combinacin lineal del ndice de masa corporal y el consumo de alcohol presenta = 0,343. Es decir, la el coeficiente deglobal correlacin mltiple en ry 0 ,118 =las 4,58/38,91 = 0,118 y Por tanto, el coeficiente de modelo determinacin se estima en R que el contraste del la razn entre varianzas explicada = y colesterol HDL en los controles del estudio EURAMIC. Esta variabilidad explicada por incluidas en el modelo contribuyan demediante forma significativa a explicar una parte de la el modelo de regresin lineal mltiple representa una parte significativa de la variabilidad una correlacin de 0,343 con el colesterol HDL, consiguiendo as explicar el y residual combinacin lineal del ndice de masa corporal y el consumo de alcohol presenta runa =o varias = 0,343. Es decir, la el coeficiente de correlacin mltiple en 0,118 total del colesterol HDL, ya que el contraste del modelo mediante la razn las variabilidad de la respuesta, pudiendo haber variables que tengan nula entre o global yy varianzas explicada y residual 11,8% de la variabilidad del colesterol HDL en los controles del estudio una contribucin. correlacin de 0,343 con el colesterol HDL, as explicar el escasa En este sentido, cabra preguntarse si es posible eliminar algunas 4 ,masa 58 / 2 corporal 2,29yconsiguiendo combinacin lineal del ndice de el consumo de alcohol presenta = = 29,72 F= ,077 EURAMIC. Esta variabilidad explicada por 0 el modelo de regresin lineal mltiple 34,33 / 446 11,8% de la variabilidad del HDL en los controles del estudio variables explicativas del modelo afectar sensiblemente a la capacidad predictiva del una correlacin de 0,343 concolesterol elsin colesterol HDL, consiguiendo as explicar el resulta en un valor P = P(F2,446 29,72) < 0,001 bajo la distribucin F de Fisher con 2 representa una parte significativa de la variabilidad total del colesterol HDL, ya grados de libertad en el P numerador y 446 en denominador. EURAMIC. Esta variabilidad explicada por el de regresin mltiple 29,72) < 0,001 bajo la distribucin F de Fisher resulta encontrastes unvariabilidad valor P = ( F2,446 mismo. Los parciales se ocupan de dar respuesta este tipoestudio delineal preguntas, 11,8% de la del colesterol HDL enmodelo los controles del que el contraste global del modelo mediante la razn entre las varianzas explicada representa una parte significativa deuna la variabilidad total del colesterol HDL, ya 11.4.2 Contrastes parciales valorando la contribucin adicional de o ms explicativas a lo ya con 2 grados de libertad en el numerador y 446 en el denominador. EURAMIC. Esta variabilidad explicada por el variables modelo de regresin lineal mltiple y residual Cuando elelcontraste global de es variabilidad significativo, el del modelo en suHDL, conjunto que contraste global del regresin modelo mediante razn entre las varianzas explicada explicado por una las otras variables presentes en el la modelo. representa parte significativa de la total colesterol ya resulta efectivo a la hora de explicar la variabilidad observada en la variable respuesta. No obstante, 11.4.2 Contrastes parciales 4 ,todas 58 mediante / 2 las 2,29 que, esto no implica necesariamente que variables explicativas incluidas en el modelo y residual La hiptesis nula del contraste parcial establece una vez las variables que el contraste global del modelo entre lasincluidas varianzas explicada F= = la razn = 29,72 contribuyan de forma significativa explicar una parte de la variabilidad de la respuesta, 34a ,33 / 446 0 ,077 Cuando el contraste global de regresin es significativo, el modelo en su conjunto pudiendo haber una o varias variables que tengan nula o escasa En este sentido, restantes r variables Xp-rcontribucin. explicativas y residualX1, ..., Xp-r, 1 r < p, las +1, ..., Xp del modelo no se 4,58 / 2 2,29 cabra preguntarse si es posible algunas explicativas del modelo sin afectar Feliminar = = variables = 29,72 resulta efectivo a la hora la variabilidad observada en la variable respuesta. 0,077 ,29,72) 33 / 446 < 0,001 bajo la distribucin F de resulta en a un valor Pde = explicar P( F2,44634 sensiblemente la capacidad predictiva del mismo. Los contrastes parciales seFisher ocupan de dar relacionan linealmente con la variable respuesta. Ms concretamente, se pretende 4 , 58 / 2 2 , 29 respuesta a este tipo de preguntas, la=contribucin adicional de una o ms variables F = valorando que = 29,72 No obstante, esto no implica todas variables explicativas con 2 grados de libertad necesariamente en ellas numerador y 446 en las el denominador. explicativas a lo ya explicado por otras variables presentes enhiptesis el modelo. 34 , 33 / 446 0 , 077 0,001 bajo la distribucin F de Fisher resulta en un valor P = PH (F p-r = =< p = 0 frente a la alternativa contrastar la hiptesis nula 2,446 0: +1 29,72) 22 La hiptesis nula del contraste parcial establece que, una vez incluidas las variables con 2 H grados de libertad en el numerador y0,001 446 en el denominador. , ..., X 1 <P p las restantes r variables X , ..., Xpde del modelo no se relacionan explicativas X 0, algn j= p r + 1, , p, en el regresin lineal bilateral 1 j -29,72) < bajo la distribucin F de Fisher resulta en un valor Pr= (,F 1: p r,para pmodelo r+1 2,446 11.4.2 Contrastes parciales linealmente con la variable respuesta. Ms concretamente, se pretende contrastar la hiptesis = libertad p = 0 frente a la hiptesis alternativa bilateral H 1: j 0, para algn nula H mltiple 0: pgrados r+1 = de con 2 en el numerador y 446 en el denominador. Cuando el contraste global de regresin es significativo, el modelo en su conjunto j = p r + 1, , p , en el modelo de regresin lineal mltiple 11.4.2 Contrastes parciales
1 x1 + p r xp r + p observada la + = de 0 +explicar p xp + . respuesta. r +1 xp r +1 + en resulta efectivo a la Y hora la+ variabilidad variable Cuando el contraste global de regresin es significativo, el modelo en su conjunto 11.4.2 Contrastes parciales No obstante, esto no implica parcial necesariamente que todas las variables explicativas 206 resulta Pastor-Barriuso R.este Notar que contraste esla equivalente a la comparacin de dos modelos: el a la hora dede explicar variabilidad observada en laen variable respuesta. Cuandoefectivo el contraste global regresin es significativo, el modelo su conjunto 22 modelo completo que incorpora las p todas variables explicativas y el modelo anterior No obstante, esto no implica necesariamente que las variables explicativas resulta efectivo a la hora de explicar la variabilidad observada en la variable respuesta.
i =1 449
i =1
i =1
Y = 0 + 1 x1 + + p -r xp -r + p -r +1 xp -r +1 + + p xp + . explicativas sometidas al contraste, asegurndose de utilizar las mismas observaciones Contrastes de hiptesis en regresin lineal mltiple Notar que este contraste parcial es equivalente a la comparacin de dos modelos: el en ambos modelos. Al incluir nuevas variables explicativas sobre la misma muestra de anterior modelo completo que incorpora las p variables explicativas y el modelo observaciones, la variabilidad de equivalente la variable respuesta explicadade por el modelo completo Notar que este contraste parcial es a la comparacin dos modelos: el anterior modelo completo que incorpora las p variables explicativas y el modelo reducido que resulta reducido que resulta de excluir las r variables Xp-r+1, ..., Xp objeto del contraste, mayor o,igual la variabilidad explicada por el modelo reducido ..., Xpque objeto del contraste, de SSR excluir las siempre r variables Xpr+1 1 ser
1 x 1 + + p r x p r + , Y = 0 +SSR SSR0, de tal forma que la diferencia 1 - SSR0 representa el incremento en la dado que los coeficientes asociados a dichas variables son 0 bajo la hiptesis nula. As, los Xp. Puede que, si la variabilidad al incluir las variables Xpcomparar dado que losexplicada coeficientes asociados atiles dichas variables 0 bajo probarse la hiptesis nula. As, -r+1, ..., son contrastes parciales son particularmente para el ajuste de dos modelos anidados, lo que permite decantarse entre el modelo ms simple o el modelo extendido con variables = = pdel = 0contraste. es cierta, el cociente (SSR1el - SSR 2 dos sigue una hiptesis nula H0: pdel los contrastes parciales particularmente tiles para comparar ajuste -r+1 son 0)/de adicionales en funcin resultado
El procedimiento ms sencillo para realizar un contraste parcial ajustar por separado el modelos anidados, lo que permite decantarse el modelo mses simple el modelo distribucin chi-cuadrado con los r grados de entre libertad correspondientes alo nmero de modelo completo y el modelo reducido excluyendo las r variables explicativas sometidas al contraste, asegurndose deadicionales utilizar lasen mismas observaciones en modelos. Al incluir extendido con variables funcin del resultado delambos contraste. variables explicativas a contrastar. Asimismo, la suma de cuadrados del error del nuevas variables explicativas sobre la misma muestra de observaciones, la variabilidad de la siempre mayor por o igual que la variable respuesta explicada por el modelo completo SSR1 ser El procedimiento ms sencillo para realizar un contraste parcial es ajustar independiente del incremento en la variabilidad explicada modelo completo SSE 1 es variabilidad explicada por el modelo reducido SSR0, de tal forma que la diferencia SSR1 SSR0 representa elel incremento en la variabilidad explicada alexcluyendo incluir las variables Xpr+1, ..., Xp. Puede separado modelo completo y1/el modelo reducido las r variables y el cociente SSE 2 se distribuye segn una chi-cuadrado con n - p - 1 SSR1 - SSR 0 probarse que, si la hiptesis nula H0: pr+1 = = p = 0 es cierta, el cociente (SSR1 SSR0)/ 2 sigue una distribucin chi-cuadrado con los r grados de libertad correspondientes al nmero de = p = del 0, la grados explicativas de libertad. De estos resultados se deriva que, bajo 23 0: p-r+1 = del variables a contrastar. Asimismo, la suma de H cuadrados error modelo completo SSE1 es independiente del incremento en la variabilidad explicada SSR1 SSR0 y el razn SSE entre/ el2 incremento de la varianza explicada por 1 - SSR 0)/r se distribuye segn una chi-cuadrado conambos n p modelos 1 grados(SSR de libertad. De estos cociente 1 = 0, la razn entre el incremento de la varianza resultados se deriva que, bajo H0: pr+1 = = p 2 s1 y = la SSE - 1) y la varianza residual del modelo 1/(n - p residual varianza del modelo completo explicada por ambos modelos (SSRcompleto 1 SSR0)/r 2 s1 = SSE1/(n p 1)
SSR 1 SSR 0 2 2 SSR 1 SSR 0 r /r r ~ 2 = = Fr ,n p 1 F= SSE1 rs12 n p 1 /( n p 1) (n p 1) 2
sigue una distribucin F de Fisher con r y n p 1 grados de libertad al ser el cociente de dos sigue una distribucin F de Fisher con r ydivididas n - p - 1 grados derespectivos libertad al ser el cociente distribuciones chi-cuadrado independientes por sus grados de libertad. Este anlisis de la varianza para el contraste parcial de un modelo de regresin lineal mltiple de dos distribuciones chi-cuadrado independientes divididas por sus respectivos grados se representa esquemticamente en la Tabla 11.3.
de libertad. Este anlisis de la varianza para el contraste parcial de un modelo de

Tabla 11.3 Anlisis de lapara varianza para el en contraste lineal parcial en Tabla 11.3 Anlisis de la varianza el contraste parcial mltiple. regresin lineal mltiple se representa esquemticamente enregresin la Tabla 11.3. regresin lineal mltiple.
Suma de Grados de Suma de Grados de Varianza cuadrados libertad cuadrados libertad Varianza [Tabla 11.3 aproximadamente aqu] SSR1 SSR0 p p r r
SSR 1 SSR 0 r SSE 1 n p 1
Razn de Razn de varianzas varianzas
Regresin X1,..., Xp r
Xp r+1,..., Xp|X1,..., Xp r SSR1 SSR0 Error SSE1
F=
SSR 1 SSR 0 rs12
n p 1 s12 =
24
Total
Total
SST
SST
n1
n-1
Ejemplo 11.7 La Tabla 11.4 muestra los resultados obtenidos en el grupo control del estudio EURAMIC al ajustar un modelo de regresin lineal mltiple con el colesterol HDL como variable respuesta, el ndice de masa corporal, el consumo de alcohol y la edad en aos como variables explicativas continuas y el estatus socioeconmico como variable explicativa dicotmica (xi4 = 1 en sujetos con bajo nivel socioeconmico y 0 en sujetos con alto nivel socioeconmico). De la tabla del anlisis de la varianza se desprende que el modelo en su conjunto explica el 11,9% de la variabilidad del colesterol HDL, lo que representa una parte significativa de la variabilidad total de la respuesta ya que la razn de varianzas del contraste global del modelo F = 14,85 resulta en un valor P = P(F4,440 14,85) < 0,001 bajo la distribucin F de Fisher con 4 y 440 grados de libertad. No obstante, una vez incluidos el ndice de masa corporal y la ingesta de alcohol, ni la edad (t = b3/SE(b3) = 0,0002/0,0014 = 0,12, P = 2P(t440 0,12) 2{1 F(0,12)} = 0,90) ni el estatus socioeconmico (t = b4/SE(b4) = 0,021/0,027 = 0,80, P = 2P(t440 0,80) 2{1 F(0,80)} = 0,43) presentan efectos independientes significativos sobre los niveles de colesterol HDL. De hecho, cada incremento de 10 aos en la edad se asocia con un aumento despreciable de 100,0002 = 0,002 mmol/l en la media del colesterol HDL entre sujetos con igual ndice de masa corporal, consumo de alcohol y nivel socioeconmico. De igual forma, ajustando por diferencias en el ndice de masa corporal, la ingesta de alcohol y la edad, la media del colesterol HDL difiere nicamente en 0,021 mmol/l entre los sujetos con nivel socioeconmico bajo y alto. A partir de estos resultados, sera razonable preguntarse si la edad y el estatus socioeconmico contribuyen conjuntamente a explicar la variabilidad residual del colesterol HDL que permanece sin explicar por el ndice de masa corporal y el consumo de alcohol, lo que equivale a contrastar este modelo frente al modelo reducido de la Tabla 11.1 que incluye nicamente el ndice de masa corporal y la ingesta de alcohol como variables explicativas. No obstante, los resultados de ambos modelos no son Tabla 11.4 Resultados de la regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal (IMC), el consumo de alcohol, la edad y el estatus socioeconmico (ESE) en el grupo control del estudio EURAMIC.
Anlisis de la varianza* Suma de cuadrados Regresin Error Total Coeficientes de regresin Test H0: j = 0 Estimacin Constante IMC Alcohol Edad ESE 1,56 0,021 0,0028 0,0002 0,021 Error estndar 0,12 0,0037 0,0006 0,0014 0,027 IC al 95% (1,33; 1,79) (0,028; 0,014) (0,0016; 0,0040) (0,0026; 0,0030) (0,031; 0,074) t 13,24 5,66 4,64 0,12 0,80 Valor P < 0,001 < 0,001 < 0,001 0,90 0,43 4,58 33,93 38,51 Grados de libertad 4 440 444 Razn de varianzas 14,85
Varianza 1,14 0,077
* Coeficiente de determinacin R2 = 4,58/38,51 = 0,119.
208
Pastor-Barriuso R.
consumo de alcohol, lo que equivale a contrastar este modelo frente al modelo

Contrastes de hiptesis en regresin lineal mltiple
reducido de la Tabla 11.1 que incluye nicamente el ndice de masa corporal y la ingesta de alcohol como variables explicativas. No obstante, los resultados de Tabla 11.5 Anlisis de la varianza para el contraste parcial mltiple de la edad el estatus socioeconmico en la ya regresin lineal reducido del colesterol ambosymodelos no son directamente (ESE) comparables que el modelo HDL sobre el ndice de masa corporal (IMC), el consumo de alcohol, la edad y el ESE en el grupo control EURAMIC. emplea 4 observaciones msdel queestudio el modelo completo (449 versus 445). Esto es
libertad Varianza varianzas debido a que hay 4 sujetoscuadrados con valores ausentes para el estatus socioeconmico, Regresin 4,58 4 que pueden utilizarse en el ajuste pero no en el modelo IMC, alcohol 4,53 del modelo reducido, 2 Edad, ESE|IMC, alcohol 0,053 2 0,026 0,34 completo que incluye dicha variable. Para comparar ambos modelos, es preciso Error 33,93 440 0,077 Total 38,51 444 Suma de Grados de Razn de
ajustar el modelo reducido a la misma muestra de 445 controles del estudio
EURAMIC, de donde se obtiene suma de cuadrados explicada por el modelo directamente comparables ya queuna el modelo reducido emplea 4 observaciones ms que el modelo completo (449 versus 445). Esto es debido a que hay 4 sujetos con valores ausentes incremento en la variabilidad explicada al incluir reducido de SSR para el estatus socioeconmico, pueden utilizarse en el ajuste del modelo reducido, 0 = 4,53. As, el que pero no en el modelo completo que incluye dicha variable. Para comparar ambos modelos, - SSR0 = del 4,58 la edad y el estatus socioeconmico ena ella modelo es SSR es preciso ajustar el modelo reducido mismacompleto muestra de 445 1controles estudio EURAMIC, de donde se obtiene una suma de cuadrados explicada por el modelo reducido - 4,53 =0 0,053. La razn el incremento de la varianza explicada y la varianza = 4,53. As, el entre incremento en la variabilidad explicada al incluir la edad y el de SSR estatus socioeconmico en el modelo completo es SSR1 SSR0 = 4,58 4,53 = 0,053. La residual del modelo completo razn entre el incremento de es la entonces varianza explicada y la varianza residual del modelo completo es entonces F= 0,053 / 2 0,026 = = 0,34, 33,93 / 440 0,077
que corresponde a un valor P = P(F2,440 0,34) = 0,71 bajo la distribucin F de Fisher con 2 y 440 grados de contraste sela representa en la Tabla 11.5. 0,34) =mltiple 0,71 bajo distribucin F de que corresponde a libertad. un valor Este P=P (F2,440 parcial En conclusin, la edad y el estatus socioeconmico no contribuyen significativamente a explicar la 2 variabilidad delde colesterol una vez tenidos cuenta elrepresenta ndice de masa Fisher con y 440 grados libertad. HDL Este contraste parcial en mltiple se corporal y el consumo de alcohol, de tal forma que el modelo reducido a estas dos ltimas variables explicativas resulta igualmente efectivo. en la Tabla 11.5. En conclusin, la edad y el estatus socioeconmico no
contribuyen significativamente a explicar para la variabilidad colesterol HDL una de una Los contrastes parciales pueden emplearse evaluar la del contribucin adicional nica variable explicativa o de mltiples variables explicativas. El contraste parcial individual vez tenidos en cuenta masa corporal y el consumo de alcohol, de tal se ndice reducede a evaluar la hiptesis nula H0: de la variable explicativa Xj el j = 0 frente a la hiptesis alternativa H1: j 0 y, en consecuencia, es equivalente al test para los coeficientes de regresin presentado en el Apartado 11.3.2. De hecho, puede probarse que el estadstico F de la razn de varianzas del contraste parcial individual es igual al cuadrado del estadstico t = bj/SE(bj) del correspondiente coeficiente, de tal forma que los valores P resultantes de ambos procedimientos 26 son idnticos (la distribucin F de Fisher con 1 grado de libertad en el numerador y n p 1 en el denominador es, por definicin, el cuadrado de la distribucin t de Student con n p 1 grados de libertad).
Ejemplo 11.8 Para evaluar si el estatus socioeconmico contribuye a explicar la variabilidad del colesterol HDL que no se explica por las diferencias de ndice de masa corporal, consumo de alcohol y edad, se podra comparar la variabilidad explicada por el modelo completo con la variabilidad explicada por el modelo que excluye el estatus
explicada por el modelo completo con la variabilidad explicada por el modelo que
excluye el estatus socioeconmico en la misma muestra de 445 controles, obtenindose una diferencia SSR1 - SSR0 = 4,58 - 4,53 = 0,049. As, el estadstico
F del contraste parcial individual es de 445 controles, obtenindose una diferencia SSR1 socioeconmico en la misma muestra SSR0 = 4,58 4,53 = 0,049. As, el estadstico F del contraste parcial individual es F= 0,049 0,049 = = 0,64, 33,93 / 440 0,077
que corresponde a un valor P = P(F1,440 0,64) = 0,43 bajo la distribucin F de Fisher con1 y 440 grados de libertad. Notar que este contraste es equivalente al test del coeficiente 2 27 0,802) asociado al estatus socioeconmico en la Tabla 11.4 ya que 2P(t440 0,80) = P( t 440 = P(F1,440 0,64). 11.5 VARIABLES EXPLICATIVAS POLITMICAS La regresin lineal no establece ninguna asuncin respecto a la distribucin de las variables explicativas, que pueden ser tanto continuas como categricas. En anteriores apartados, se ha tratado con modelos de regresin lineal que incorporan variables explicativas continuas y pero s a las estimaciones e interpretacin de los coeficientes asociados a las variables dicotmicas. Queda pendiente de estudiar, por tanto, el ajuste e interpretacin de modelos de regresin lineal mltiple con variables explicativas politmicas, que clasifican a los sujetos en indicadoras. En este apartado se presenta la codificacin de la categora de referencia, tres o ms categoras en funcin de sus distintas caractersticas. Estas variables politmicas pueden ser nominales (nunca fumadores, ex fumadores o fumadores actuales), ordinales (nivel que es el mtodo ms extendido para definir variables indicadoras, de fcil socioeconmico bajo, medio o alto) o incluso variables continuas categorizadas (normopeso, sobrepeso u obesidad para un ndice de masa corporal < 25, 25-30 30 kg/m2, respectivamente). interpretacin y vlido para cualquier tipo de variable politmica. Para cada una de las k En general, las variables explicativas politmicas no se introducen directamente en los modelos de regresin ya los valores asignados a estas variables slo indicadora sirven paraX discernir u categoras j = 1, , k que de la variable politmica, se define la variable j=1 ordenar las distintas categoras, pero no tienen interpretacin numrica. La forma adecuada de incluir este tipo de variables explicativas en una es mediante variables indicadoras en los sujetos pertenecientes a la categora j y regresin 0 en los restantes sujetos, tal como se que identifiquen cada una de las categoras de la variable. Existen diversos mtodos para Xk no pueden indica adecuadamente en la Tabla 11.6. Estas variables indicadoras X1, , codificar variables indicadoras. La eleccin entre uno u otroincluirse procedimiento de codificacin no afecta al ajuste del modelo (la tabla del anlisis de la varianza permanece simultneamente en un modelo de regresin que contenga el trmino constante, ya que inalterable ante cualquier codificacin que permita diferenciar todas las categoras de una variable politmica), pero s a las estimaciones e interpretacin de los coeficientes asociados a + + Xk = 1 para todos los sujetos y cualquier variable indicadora puede de suma X1indicadoras. las su variables En este apartado se presenta la codificacin de la categora referencia, que es el mtodo ms extendido para definir variables indicadoras, de fcil expresarse entonces combinacin exacta de la constante y de las dems interpretacin y vlidocomo para una cualquier tipo delineal variable politmica. Para cada una de las k categoras j = 1, , k de la variable politmica, se define la variable indicadora Xj = 1 en los variables indicadoras, lo que jel en un problema de sujetos pertenecientes a lacon categora y modelo 0 en losincurrira restantes sujetos, tal como secolinealidad indica en la Tabla 11.6. Estas variables indicadoras X1, , Xk no pueden incluirse simultneamente en un modelo perfecta (vase Ejemploel 11.1). Para solventarya este problema, basta con excluir unatodos los +X de regresin que contenga trmino constante, que su suma X 1 + k = 1 para sujetos y cualquier variable indicadora puede expresarse entonces como una combinacin lineal en el el modelo modelo incurrira las otras en cualquiera de las variables digamos Xk, manteniendo exacta de la constante y de lasindicadoras, dems variables indicadoras, con lo que un problema de colinealidad perfecta (vase Ejemplo 11.1). Para solventar este problema, basta , , Xvariables variables indicadoras X1de con excluir una cualquiera las indicadoras, digamos Xk, manteniendo en el modelo k-1, las otras variables indicadoras X1, , Xk1,
E(Y |x1 , ..., xk 1) = 0 + 1 x1 + + k 1 xk1,
donde por simplicidad se omiten otras posibles variables explicativas. En este modelo, la donde por simplicidad se otras posibles explicativas. En este modelo, al omiten valor esperado de lavariables respuesta en la categora k de la variable constante 0 corresponde politmica, que toma valores cero en todas las variables indicadoras incluidas en el modelo, corresponde al valor cada esperado de la respuesta en lacategora k de la la constante = 0, ..., xk 0) = 0. Asimismo, coeficiente de regresin el cambio en E(Y |x1 0= 1 j determina
variable politmica, que toma valores cero en todas las variables indicadoras incluidas
en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = 0. Asimismo, cada coeficiente de regresin j determina el cambio en el valor esperado de la respuesta en la categora j = 1, , k - 1
cualquiera de las variables indicadoras, digamos Xk, manteniendo en el modelo las otras variables indicadoras X1, , Xk-1, E(Y |x1 , ..., xk -1 ) = 0 + 1 x1 + + k -1 xk -1,
Variables explicativas politmicas
Tabla 11.6 Variables indicadoras para las k categoras de una se variable donde por simplicidad omitenpolitmica. otras posibles variables explicativas. En este modelo,
Variable indicadora Categora X1 X2 Xk 1 1 0 0 variable politmica, que toma valores cero en todas las variables indicadoras incluidas 2 0 1 0
la constante 0 corresponde al valor esperado de la respuesta en la categora k de la
en el modelo, E(Y|x1 = 0, ..., xk-1 = 0) = 0. Asimismo, cada coeficiente de regresin j determina el cambio en el valor esperado de la respuesta en la categora j = 1, , k - 1
k 0 0 1
el valor esperado de la respuesta en la categora j = 1, , k 1 respecto a la categora k de la respecto a la categora k de la variable politmica, variable politmica,
E(Y|x1 = 0, ..., xj1 = 0, xj = 1, xj+1 = 0, ..., xk 1 = 0)
E(Y|x1 = 0, ..., xk1 = 0) = 0 + j 0 = j.
Como puede apreciarse, la categora cuya variable indicadora se deja fuera del modelo acta como grupo de referencia, de tal forma que los coeficientes asociados a las variables indicadoras presentes en el modelo determinan los cambios medios en la respuesta respecto a dicha categora de referencia. Aunque en principio la eleccin del grupo de referencia es arbitraria, en la prctica suele utilizarse como categora de referencia aquella que representa la ausencia o el menor 29 nivel de exposicin (nunca fumadores, nivel socioeconmico alto, normopeso), siempre y cuando su tamao muestral sea lo suficientemente grande para obtener comparaciones precisas con el resto de categoras de la variable politmica. En general, la contribucin de las variables indicadoras a la capacidad predictiva del modelo debe evaluarse conjuntamente, dado que estas variables no representan ms que las distintas categoras de una misma variable politmica. En este sentido, los contrastes parciales presentados en el apartado anterior pueden aplicarse al conjunto de todas las variables indicadoras para contrastar la hiptesis nula H0: 1 = = k1 = 0, lo que equivale a un test de homogeneidad del valor medio de la respuesta en las k categoras de la variable politmica. Notar que este test de homogeneidad permanece inalterable ante cualquier codificacin de las variables indicadoras o seleccin del grupo de referencia, ya que stas alteran los coeficientes de regresin, pero no cambian la contribucin global de la variable politmica al ajuste del modelo. Ejemplo 11.9 En la Tabla 11.7 se presentan los resultados de ajustar un modelo de regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal, el consumo de alcohol y el hbito tabquico en 448 controles del estudio EURAMIC con informacin completa de estas variables. El hbito tabquico es una variable politmica con tres categoras, que diferencia a los sujetos segn sean nunca fumadores (113 sujetos), ex fumadores (163) o fumadores actuales (172). Se designa como categora de referencia a los nunca fumadores y, en consecuencia, el modelo incluye dos variables indicadoras para los ex fumadores (xi3 = 1 en ex fumadores y 0 en el resto) y los fumadores actuales (xi4 = 1 en fumadores actuales y 0 en el resto). Para evaluar si el nivel medio de colesterol HDL difiere en las tres categoras del hbito tabquico una vez tenidas en cuenta las diferencias de ndice de masa corporal y consumo de alcohol, se realiza el contraste parcial mltiple de las dos variables indicadoras del hbito tabquico H0: 3 = 4 = 0. Para ello, se compara la variabilidad explicada SSR1 = 5,44 por el
la variabilidad explicada SSR1 = 5,44 por el modelo completo de la Tabla 11.7 con lamltiple variabilidad Regresin lineal explicada SSR0 = 4,58 por el modelo que excluye ambas
variables indicadoras en la misma muestra de 448 controles, obtenindose un test

modelo completo de la Tabla 11.7 con la variabilidad explicada SSR0 = 4,58 por el modelo estadstico que excluye ambas variables indicadoras en la misma muestra de 448 controles, obtenindose un test estadstico (5,44 4,58) / 2 0,43 = F= = 5,69, 33,42 / 443 0,075 que corresponde a un valor P = P(F2,443 5,69) = 0,004 bajo la distribucin F de Fisher con y 443 grados de libertad. As, se detectan diferencias en 5,69) = 0,004 bajosignificativas la distribucin Flas de medias que 2 corresponde a un valor P=P (F2,443 ajustadas del colesterol HDL entre los nunca fumadores, ex fumadores y fumadores actuales. Los asociados lasse variables del hbito tabquico Fisher con 2 y coeficientes 443 grados de libertad. a As, detectan indicadoras diferencias significativas permiten cuantificar estas diferencias de acuerdo a la codificacin elegida. Por un lado, una vez controladas las diferencias en HDL el ndice de masa corporal y la ingesta en las medias ajustadas del colesterol entre los nunca fumadores, ex de alcohol, la media del colesterol HDL presenta una diferencia insignificante de b3 = 0,009 mmol/l entre los ex fumadores actuales. y los nunca fumadores. Sin embargo, fumadores actuales fumadores y fumadores Los coeficientes asociados a laslos variables presentan una disminucin significativa en el nivel medio de colesterol HDL de b4 = 0,085 mmol/l en comparacin con los nunca fumadores, incluso despus de ajustar por el ndice indicadoras del hbito tabquico permiten cuantificar estas diferencias de acuerdo de masa corporal y el consumo de alcohol. a la general, codificacin elegida. Por un lado, una vez tratarse controladas las diferencias en el En las variables indicadoras deben conjuntamente para preservar su interpretacin. No obstante, en vista de que los niveles medios de colesterol HDL no ndice de masa corporal y la ingesta de alcohol, lapodra mediaeliminar del colesterol HDL la variable difieren en nunca fumadores y ex fumadores, se del modelo indicadora de los ex fumadores. En tal caso, el coeficiente asociado a la variable indicadora entrealos ex fumadores presenta una diferencia insignificante deinterpretacin, b3 = 0,009 mmol/l de los fumadores actuales cambiara de pasando representar el cambio medio en el colesterol HDL entre fumadores actuales y no fumadores actuales (nueva y los nunca Sin embargo, los fumadores actuales presentan una categora defumadores. referencia donde se englobaran tanto los nunca como los ex fumadores). El test de homogeneidad permite contrastar si el nivel medio de la respuesta31 difiere significativamente en al menos 2 de las k categoras de una variable explicativa politmica. En el caso de que las categoras estn intrnsecamente ordenadas, como ocurre con las variables Tabla 11.7 Resultados de la regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal (IMC), el consumo de alcohol y las variables indicadoras de ex fumadores y fumadores actuales en el grupo control del estudio EURAMIC.
Anlisis de la varianza* Suma de cuadrados Regresin Error Total 5,44 33,42 38,86 Grados de libertad 4 443 447 Varianza 1,36 0,075 Razn de varianzas 18,03
* Coeficiente de determinacin R2 = 5,44/38,86 = 0,140. Coeficientes de regresin Test H0: j = 0 Estimacin Constante IMC Alcohol Ex fumador Fumador actual
Error estndar 0,099 0,0036 0,0006 0,034 0,034
IC al 95% (1,42; 1,81) (0,028; 0,014) (0,0018; 0,0042) (0,058; 0,075) (0,151; 0,019)
t 16,31 5,79 5,03 0,26 2,53
Valor P < 0,001 < 0,001 < 0,001 0,80 0,012
1,61 0,021 0,0030 0,009 0,085
Variables explicativas politmicas
ordinales y las variables continuas categorizadas, cabra preguntarse adems si los niveles medios de la respuesta siguen algn patrn especfico a lo largo de las categoras. En particular, sera relevante contar con un test de tendencia que permitiera detectar la existencia de una componente lineal creciente o decreciente entre las respuestas medias de las sucesivas categoras. Para ello, la variable explicativa politmica X debe tomar valores que preserven el orden de las categoras. En el caso de variables ordinales, suelen asignarse los valores xi = 1, 2, ..., k segn el sujeto pertenezca a la primera, segunda o sucesivas categoras. En el caso de variables continuas categorizadas, es preferible utilizar valores xi que representen alguna medida de tendencia central de cada categora (media o mediana) para preservar no slo el orden de las categoras, sino tambin la distancia entre las mismas. La variable politmica as codificada se incluye directamente en el modelo de regresin, de tal forma que el contraste de su coeficiente determina la existencia de una tendencia lineal creciente o decreciente en el valor medio de la respuesta al aumentar la categora de exposicin. Conviene resaltar que este test de tendencia no permite evaluar la idoneidad de la relacin lineal, sino nicamente la existencia de una componente lineal significativa a travs de las categoras, independientemente de cul sea la relacin subyacente. Ejemplo 11.10 Dado que en el ejemplo anterior los niveles medios de colesterol HDL no diferan significativamente en nunca fumadores y ex fumadores, ambas categoras se colapsaron en una nica categora de no fumadores actuales. Adems, como se dispone de informacin sobre el nmero de cigarrillos al da en 154 de los 172 fumadores actuales, se construy una nueva variable politmica que clasificaba a los sujetos en no fumadores actuales (276 sujetos), fumadores actuales de 1-10 (50 sujetos), 11-20 (67 sujetos) y > 20 cigarrillos/da (37 sujetos). La Tabla 11.8 muestra los resultados obtenidos en los controles del estudio EURAMIC al ajustar una regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal, el consumo de alcohol y esta nueva variable explicativa politmica, donde los no fumadores actuales constituyen la categora de referencia. Tabla 11.8 Resultados de la regresin lineal mltiple del colesterol HDL sobre el ndice de masa corporal (IMC), la ingesta de alcohol y las variables indicadoras de fumadores actuales de 1-10, 11-20 y > 20 cigarrillos/da en los controles del estudio EURAMIC.
Anlisis de la varianza* Suma de cuadrados 4,70 31,59 36,29 Grados de libertad 5 424 429 Varianza 0,94 0,075 Razn de varianzas 12,62
Regresin Error Total
* Coeficiente de determinacin R2 = 4,70/36,29 = 0,130. Coeficientes de regresin Test H0: j = 0 Constante IMC Alcohol Fumador 1-10 Fumador 11-20 Fumador > 20 Estimacin 1,59 0,020 0,0028 0,086 0,120 0,055 Error estndar 0,10 0,0037 0,0006 0,042 0,038 0,048 IC al 95% (1,40; 1,79) (0,027; 0,013) (0,0017; 0,0040) (0,168; 0,003) (0,193; 0,046) (0,149; 0,040) t 15,90 5,36 4,70 2,04 3,19 1,14 Valor P < 0,001 < 0,001 < 0,001 0,042 0,002 0,26
Pastor-Barriuso R.
213
0,2 Diferencia en la media del colesterol HDL (mmol/l)
0,1
-0,1
-0,2
-0,3 0 10 20 Nmero de cigarrillos/da

Figura11-20 11.4 Figura 11.4 Diferencia en la media ajustada del colesterol HDL de los fumadores actuales de 1-10, y > 20 cigarrillos/da respecto a los no fumadores actuales del grupo control del estudio EURAMIC. Las barras verticales representan los intervalos de confianza al 95% para estas diferencias.
30
40
cigarrillos/da, ya que la comparacin de la variabilidad explicada SSR1 = 4,70
por el modelo completo de lade Tabla 11.8 y la variabilidad explicada El contraste parcial mltiple las tres variables indicadoras H0: 3 SSR = 4 0==3,76 5 = 0 revela que existen diferencias significativas en las medias ajustadas del colesterol HDL entre los porfumadores el modelo actuales que excluye las tres variables indicadoras en misma muestra de no y los fumadores de 1-10, 11-20 y > la 20 cigarrillos/da, ya que la comparacin de la variabilidad explicada SSR1 = 4,70 por el modelo completo de la Tabla 430 controles resulta explicada en un test SSR estadstico 11.8 y la variabilidad 0 = 3,76 por el modelo que excluye las tres variables indicadoras en la misma muestra de 430 controles resulta en un test estadstico F= (4,70 3,76) / 3 0,31 = = 4,22, 31,59 / 424 0,075
que corresponde a un valor P = P(F3,424 4,22) = 0,006. En comparacin con los no fumadores actuales de valor igual ndice masa corporal y consumo de alcohol, con los fumadores 4,22) = 0,006. En comparacin los que corresponde a un P = P(de F3,424 de 1-10, 11-20 y > 20 cigarrillos/da presentan una disminucin en el nivel medio de 0,086, y b5 = 0,055 mmol/l, respectivamente. colesterol HDL de b3 = de no fumadores actuales igual b ndice de masa corporal y consumo de alcohol, los Esta 4 = 0,120 tendencia decreciente en la media ajustada del colesterol HDL se representa en la Figura11.4, donde eje horizontal corresponde presentan al nmerouna medio de cigarrillos fumadores de 110,el 11 20 y > 20 cigarrillos/da disminucin en eldiarios para cada categora (0 en el caso de no fumadores actuales). = -0,120 y b5 = -0,055 mmol/l, nivel contrastar medio de colesterol HDL de bdecreciente 3 = -0,086, b4 Para si esta tendencia es significativa, se crea una variable politmica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al nmero medio de respectivamente. tendencia decreciente en la y media ajustada del colesterol cigarrillos diariosEsta de los sujetos no fumadores fumadores de 1-10, 11-20 y > 20 cigarrillos/da, respectivamente. Esta variable politmica se incluye directamente en un HDL sede representa la Figura 11.4, donde el eje corresponde al de alcohol. modelo regresinen mltiple junto con el ndice dehorizontal masa corporal y la ingesta El coeficiente asociado a la variable politmica y su error estndar se estiman en b3 = nmero medio diarios para cada categora (0 ten caso de no 0,0030 y SE(b3de ) = cigarrillos 0,0012, de donde se obtiene un estadstico = bel 3/SE(b3) = 0,0030/0,0012 = 2,46 y un valor P = 2P(t426 2,46) 2F(2,46) = 0,014 bajo la distribucin t de fumadores actuales).
Para contrastar si esta tendencia decreciente es significativa, se crea una variable politmica con valores xi = 0, 7,1, 18,3 y 34,3 correspondientes al nmero medio
[Tabla 11.8 aproximadamente aqu] [Figura 11.4 aproximadamente aqu]

Regresin polinomial
Student con n p 1 = 430 3 1 = 426 grados de libertad. As, puede concluirse que la 11.6 REGRESIN POLINOMIAL media ajustada del colesterol HDL no slo difiere entre las categoras (P de homogeneidad = 0,006), sino que tiende a decrecer significativamente conforme aumenta la categora de (P demltiple tendencia = 0,014). No obstante, la Figura 11.4 entre muestra que la relacin La exposicin regresin lineal permite explorar relaciones no lineales las variables subyacente podra no ser estrictamente lineal al presentar un leve repunte en la categora de fumadores de ms de 20 cigarrillos/da. explicativas y la variable respuesta. El modelo ms habitual para acomodar un efecto no
lineal de una variable explicativa continua X es la regresin polinomial de orden k, que 11.6 REGRESIN POLINOMIAL polinomios de orden superior al cuadrtico tienden adems a producir curvas con puntos k La incorpora regresinen lineal mltiple permite polinomiales explorar relaciones lineales variables adems del entre propiolas trmino el modelo los trminos X2, , Xno de inflexin y otras formas extraas de difcil interpretacin en trminos explicativas y la variable respuesta. El modelo ms habitual para acomodar un efecto no lineal de lineal una variable explicativa continua X es la regresin polinomial de orden k, que incorpora en X, modelos polinomiales de superior al cuadrtic epidemiolgicos. Por ello, esta presentacin se limitadel a los polinomios X2, , Xk adems propio trmino linealde X, orden el modelo los trminos polinomiales
2 + + k xk + , X y Y = ,que 0 + 1 x + 2 x un de inflexin y otras formas extraas de d incluyen trmino lineal otro cuadrtico X2 de segundo orden o cuadrticos donde sin prdida de generalidad se omiten otras posibles variables explicativas. Estos modelos epidemiolgicos. Por ello, esta presentac la variable explicativa. La tendencia resultante deposibles estos de modelos cuadrticos ser Estos una donde sin prdida de generalidad se omiten otras variables explicativas. polinomiales pueden considerarse como casos particulares la regresin lineal mltiple cuyas variables explicativas son distintas potencias de una misma variable bsica y, en consecuencia, parbola que, aunque no se amolda a cualquier subyacente dede la la relacin, so cuadrticos segundo orden , que inclu polinomiales pueden considerarse como casos particulares regresin losmodelos procedimientos de estimacin e inferencia son forma idnticos a los descritos anteriormente para el modelo general de regresin. permite capturar las desviaciones ms frecuentes del modelo lineal, incluyendo la variable explicativa. La tendencia resu lineal mltiple cuyas variables explicativas son distintas potencias de una misma En teora, los modelos polinomiales de orden k elevado permiten aproximar cualquier tipo 1.2 MEDIDAS DE TENDENCIA CENTRAL 1.2 MEDIDAS DE TENDENCIA CENTRAL de tendencias relacin curvilnea. No obstante, si el nmero requerido de trminos polinomiales es muy montonas cuya pendiente o disminuye progresivamente, as como parbola que, aunque variable bsica y, en consecuencia, losaumenta procedimientos de estimacin e inferencia son no se amolda a cua 1.2 MEDIDAS DE TENDENCIA elevado, la regresin polinomial puede ocasionar problemas deCENTRAL sobreajuste y dar lugar a 1.2 MEDIDAS DE TENDENCIA CENTRAL 1.2 MEDIDAS DE TENDENCIA CENTRAL estimaciones inestables losU coeficientes deun regresin. Los polinomios de orden al medidas decon tendencia central informan acerca de culsuperior es eldesviaciones valor ms represent Las medidas de tendencia central informan de cul esde el regresin. valor ms representativo curvas en a forma de Ude oLas de invertida cambio de direccin. permite capturar las ms fre idnticos los descritos anteriormente para elacerca modelo general cuadrtico tienden adems a producir curvas con puntos de inflexin y otras formas extraas de Las medidas de tendencia central informan acerca de cul es el valor ms repre difcil interpretacin en trminos epidemiolgicos. Por ello, presentacin se a cuya los de una determinada variable o, dicho de forma equivalente, estos estimadores indic Las medidas de tendencia central informan acerca d una determinada variable o, dicho de acerca forma equivalente, estos estimadores indican Aunque los modelos cuadrticos se ajustan mediante los mtodos estndar delimita tendencias montonas pendiente au Lasde medidas de tendencia central informan de cul esesta el valor ms representativo En teora, los modelos polinomiales orden k elevado permiten aproximar modelos polinomiales de segundo orden o cuadrticos , que incluyen un trmino lineal X y de una determinada variable o, dicho de forma equivalente, estos estimadores i 2 2 X de la variable explicativa. La tendencia resultante de estos modelos otro cuadrtico alrededor de qu valor se agrupan los datos observados. Las medidas deinvertida tendencia una determinada variable o, dicho forma equi alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia estn a menudo muy correlacionadas regresin mltiple, las variables X y de X curvas en forma de U o de de U co de una determinada variable o, dicho forma equivalente, estos estimadores indican cualquier tipo de relacin curvilnea. No obstante, si el de nmero requerido de trminos cuadrticos ser una parbola alrededor que, aunque no se amolda a cualquier forma subyacente demedidas la de qu valor se agrupan los datos observados. Las de tenden relacin, s de permite capturar las tanto desviaciones ms frecuentes del modelo lineal, central deregresin la para muestra sirven tanto para resumir los resultados como para alrededor de qu valor se incluyendo agrupan los datos observa central de qu la sirven resumir los resultados observados como para Aunque los modelos cuadrticos se aj alrededor valor se agrupan los datos observados. Las medidas de tendencia rmuestra > 0,95), provocando estimaciones inestables de sus coeficientes deobservados (tpicamente, polinomiales es muy elevado, la polinomial puede ocasionar problemas de xx 2 tendencias montonas cuya pendiente aumenta o disminuye progresivamente, as como curvas central de la muestra sirven tanto para resumir los resultados observados como en forma de la U o de U invertida con unparmetros cambio de direccin. realizar inferencias acerca delos los parmetros poblacionales correspondientes. A central decentrar la muestra sirven tanto para resumir los re realizar inferencias acerca de los poblacionales correspondientes. A regresin mltiple, las variables Xy X2 e central de muestra sirven tanto para resumir los resultados observados como para sobreajuste y dar lugar a estimaciones inestables de coeficientes de regresin. regresin. Para mitigar este problema de colinealidad, conviene primero laLos realizar inferencias acerca de los parmetros poblacionales correspondientes. A Aunque los modelos cuadrticos se ajustan mediante los mtodos estndar de regresin 2 se describen los principales estimadores de la tendencia centralpoblac de una realizar inferencias acerca de los parmetros continuacin seXdescriben los principales estimadores decorrespondientes. laytendencia central de una realizar inferencias acerca deestn parmetros poblacionales A X a menudo muy correlacionadas (tpicamente, > 0,95), mltiple, las variables ycontinuacin rmodelo > 0,95), provocando es (tpicamente, variable original eX incluir despus dicha variable centrada su cuadrado en el xx 2 continuacin se describen los principales estimadores de la tendencia central d 35 provocando estimaciones inestables de sus coeficientes de regresin. Para mitigar este problema variable. continuacin se describen los principales estimador continuacin se describen los principales de la X tendencia central de una de colinealidad, conviene centrar primero laestimadores variable original e incluir despus dicha variable devariable. regresin, regresin. Para mitigar este problema de variable. centrada y su cuadrado en el modelo de regresin, variable. variable original X e incluir despus dich variable. 1.2.1 Media aritmtica 1.2.1 Media aritmtica Y = 0 + 1 (x x ) + 2 (x x )2 + . 1.2.1 Media aritmtica de regresin, La media aritmtica, denotada por x )Media ,2 se define como la los suma de cada uno de los Las desviaciones respecto de la media x x y sus cuadrados ( xla suma estarn menos LaMedia media aritmtica aritmtica, denotada por , se define como de cada unocorrelacionadas de 1.2.1 aritmtica 1.2.1 2 2 2 xde - las x ydesviaciones sus cuadrados xx -),xse ) define estarn menos Las de lamedia mediaaritmtica, La denotada por como la suma de cada uno de l ya que los cuadrados (x ( sern elevados tanto para que los desviaciones valores x y x ,respecto positivas) como para valores bajos (desviaciones x valores altos de X (desviaciones x media aritmtica, por x , seSi define com valores muestrales dividida por el nmero de observaciones realizadas. denotam muestralesdenotada dividida el de observaciones realizadas. denotamos La valores media aritmtica, por x ,nmero se define la La suma de cada uno Si dedenotada los Y = 0 + 1 (x 2 xyx , ya que los cuadrados denmero las desviaciones (x - modelo x )2 realizadas. correlacionadas que los negativas). El centrado devalores la valores variable explicativa X no afecta al ajuste del muestrales dividida por el deglobal observaciones Si deno cuadrtico ni tamao a la tendencia parablica resultante, se y trata dei-simo, una reparametrizacin por n tamao muestral por nicamente x valor observado para el por sujeto i-simo, i= 1, ... valores muestrales dividida el de observ por nmuestrales el muestral y el por xi el valor para el sujeto i = 1, ..., n , nmero valores dividida por el nmero deobservado observaciones Si denotamos i el realizadas. Las observado desviaciones respecto la media (desviaciones xcuadrtico, positivas) como para elevados tanto para valores de X delsern modelo que reduce la correlacin entre elmuestral trminoylineal produciendo as dei-simo, por n altos el tamao porxxel valor para el sujeto ix =iy estimaciones ms estables de sus coeficientes y contrastes ms fcilmente interpretables. la media vendra dada por para por n el tamao muestral y por vendra dada por valor observado el sujeto i-simo, i = 1, ..., n, xi el valor observado porla n media el tamao muestral y por xi el correlacionadas que los valores x y x2, ya x -media x negativas). El centrado de la variable explicativa X no valores bajos (desviaciones la vendra dada por Una vez ajustado el modelo cuadrtico, el primer paso es contrastar si el coeficiente 2 la media vendra dada por del valor la media dada por n asociado alvendra trmino cuadrtico es 0. Si coeficiente no x1 + x 2 + ... + x n ... difiere + x1 + x 2 + 1 xnn significativamente 1 este tanto para valores altos de afecta al ajuste global del modelo ni a la tendencia parablica resultante, . se = = x x . = x =cuadrtico x n sern elevados i i x1 + x 2 + ... + xn 1 n n n n i =1 = i 1 . R. n 215 x + x + x = xi = Pastor-Barriuso 1 x + x 2 + ... + x n 1 n 2 n i =1 valores n (desviaciones - x 1 negativ bajos trata nicamente de una reparametrizacin que. reduce la correlacin entre el xx x= x = x i = 1del modelo i = n n i =1 n i =1 n La media es la central medidams de tendencia central ms utilizada y de ms fcil La media es la medida de tendencia utilizada y de ms fcil trmino lineal y cuadrtico, produciendo asla estimaciones ms estables de afecta al sus ajuste global del modelo cuadr La media es medida de tendencia central ms utilizada y de ms fcil
alrededor de qu valor se agrupan los datos observados. Las medi alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia central de la muestra sirven tanto para resumir los resultados obse Regresin lineal mltiple central de la muestra sirven tanto para resumir los resultados observados como para realizar inferencias acerca de los parmetros poblacionales corres realizar inferencias acerca de los parmetros poblacionales correspondientes. A nulo, la inclusin del trmino cuadrtico no mejorar significativamente la capacidad predictiva continuacin se describen los principales de la tenden del modelo, de tal forma que podr eliminarse dicho trmino cuadrtico y volver alestimadores modelo continuacin se describen los principales estimadores de la tendencia central de una lineal en la variable explicativa X. Por el contrario, si el coeficiente del trmino cuadrtico 1.2 MEDIDAS DE TENDENCIA CENTRAL resulta significativo, el modelo cuadrtico variable. presentar un mejor ajuste que el modelo lineal, variable. debiendo mantener ambos trminos lineal y cuadrtico en el modelo. La interpretacin del Las tendencia central informan acerca es el valor modelo cuadrtico no es tanmedidas sencillade como la del modelo lineal, ya que de la cul pendiente de lams representat 1.2.1 Media aritmtica 1.2.1 Media aritmtica relacin vara a lo largo del rango de la variable explicativa. En un modelo cuadrtico con la de una determinada variable o, dichopor de denotada forma estimadores indican 2(por x x ); esestos decir, 1 la suma variable X centrada, la pendiente de la relacin viene dada 1 + 2equivalente, La media aritmtica, , se define como de La media denotada por x ,de sela define como la suma de cada uno de los variable explicativa y2 2 representa el cambio corresponde a aritmtica, la pendiente en la media alrededor de qu valor se agrupan los obstante, datos observados. Las de tendencia de pendiente por cada incremento de una unidad en X. No el inters no medidas es valores muestrales dividida por el nmero de tanto observaciones realiz valoreslos muestrales dividida por el nmero observaciones realizadas. denotamos interpretar coeficientes individuales, sino de representar grficamente laSi tendencia global central de la muestra sirven tanto para resumir los x resultados observados como para resultante del modelo cuadrtico. por n el tamao muestral y por el valor observado para el sujeto i por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, realizar inferencias acerca de los parmetros correspondientes. A la media vendra dada porpoblacionales Ejemplo 11.11 En la Figura 10.10(b) del tema anterior, el anlisis de los residuos de la la media vendra por del colesterol HDL sobre el ndice de masa corporal en los regresin linealdada simple continuacin describen los principales estimadores de la tendencia central de una controles del estudio EURAMICse mostr indicios de una posible relacin entre n x1 + x 2 + ... + x n 1 cuadrtica . = = x imodelo n ambas variables. Para contrastar se x ajust un de + ... tendencia, + xn x1 + x 2esta 1 formalmente variable. n n = i 1 . = = x x regresin mltiple para el colesterol que inclua un trmino lineal y otro cuadrtico HDL i n i =1 n del ndice de masa corporal, adems del consumo de alcohol y de la variable indicadora cuadrado de los fumadores actuales (Tablaaritmtica 11.9). Como el ndice de masa corporal X1 y su 1.2.1 Media La media es la medida de tendencia central ms utilizada y de 2 presentaban una correlacin lineal casi perfecta de 0,995, esta variable fue X La media es la medida de tendencia central ms utilizada y de ms fcil 1 2 previamente centrada alrededor de su interpretacin. media muestral 26,2 kg/m antes de en uno La media aritmtica, denotada por Corresponde x 1, = se define como la suma de cada al centro deincluir gravedad de de loslos datos 2 26,2 y cuadrtico ( X 26,2) , cuya correlacin era el modelo los trminos lineal X interpretacin. Corresponde al centro de gravedad de los 1 1 datos de la muestra. Su nicamente de 0,297. valores muestrales principal dividida por el nmero de observaciones realizadas. Si denotamos limitacin es que est muy influenciada por los valores principal limitacin es que est muy influenciada por los valores extremos y,del en este El contraste para la nulidad del coeficiente asociado al trmino cuadrtico ndice de por n el tamao muestral y por x valor observado para el sujeto i-simo, = la 1, dist ..., n i el caso, puede no ser un fiel reflejo de la tendencia central i de masa corporal resulta en un valor P = 0,021, lo que indica que el modelo cuadrtico mejora caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. la media vendra dada por Ejemplodel 1.4colesterol En este y en los sobre sucesivos Tabla 11.9 Resultados de la regresin mltiple HDL los ejemplos sobre estim Ejemplo 1.4 este y en del los ndice sucesivos ejemplos sobre (IMC), estimadores muestrales, trminos lineal yEn cuadrtico de masa corporal el consumo de se x1 + x 2 + ... + x n 1 n utilizarn losxvalores del colesterol HDL obtenidos en los 1 alcohol y la variable indicadora de fumadores en el grupo control del . = = x actuales i n n = i 1 utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del estudio EURAMIC. estudio European Study on Antioxidants, Myocardial Infar Anlisis de la varianza* estudio European on Antioxidants, Infarction Cancer of LaStudy media es la Grados medida deMyocardial tendencia central ms and utilizada Suma de de Razn de y de ms fcil the Breast (EURAMIC), un estudio multicntrico de casos cuadrados libertad Varianza varianzas the Breast (EURAMIC), un Corresponde estudio multicntrico dede casos y controles realizado interpretacin. al centro los datos de la muestra. Su Regresin 5,84 4 1,46 gravedad de 19,57 entre 1991 y 1992 en ocho pases Europeos e Israel para eva Error 33,02 443 0,075 entre 1991 y 1992 en ocho pases Europeos e Israel para evaluarpor el efecto de losextremos y, en este principal limitacin es que est muy influenciada los valores
Total 38,86 447 * Coeficiente de determinacin R = 5,84/38,86 = 0,150.
2
caso, puede no ser un fiel reflejo de la tendencia central de la distribucin. 5

Test H0: j = 0
Constante IMC 26,2 (IMC 26,2)2 Alcohol Fumador actual
Estimacin Error estndar IC al 95% t Valor P 1,05 0,020 (1,01; 1,09) 52,62 < 0,001 utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos d 0,024 0,0038 (0,031; 0,016) 6,25 < 0,001 0,0016estudio 0,0007 0,0029) 2,32 Myocardial 0,021Infarction and Cancer o European (0,0002; Study on Antioxidants, 0,0030 0,0006 (0,0018; 0,0042) 5,00 < 0,001 0,098 the Breast 0,027 ( 0,150; 0,045) 3,63 < 0,001 (EURAMIC), un estudio multicntrico de casos y controles realiza
Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales
216
Pastor-Barriuso R.
entre 1991 y 1992 en ocho pases Europeos e Israel para evaluar el efecto de lo
Regresin polinomial
2,25
alrededor de su media muestral x1 = 26,2 kg/m2 antes de incluir en el modelo los

2
trminos lineal X1 - 26,2 y cuadrtico (X1 - 26,2)2, cuya correlacin era nicamente de 0,297. 1,5 El contraste para la nulidad del coeficiente asociado al trmino cuadrtico del 1.2 MEDIDAS DE TENDENCIA CENTRAL ndice de masa corporal resulta en un valor P = 0,021, lo que indica que el modelo 1
Lasel medidas de tendencia central acerca de cul es el valor m cuadrtico mejora significativamente ajuste del modelo lineal. Eninforman consecuencia,
una determinada variable o, masa dichocorporal de forma equivalente, estos estim la pendiente de la relacin entre elde colesterol HDL y el ndice de 0,5
alrededor valor se agrupan de losla datos observados. Las medidas d = qu -0,024 la estimacin vara segn elTENDENCIA nivel de exposicin, siendo b1de 0,25 CENTRAL EDIDAS DE 1.2 TENDENCIA MEDIDAS DE CENTRAL
central de2la muestra tanto para resumir = 26,2 kg/m del ndice sirven de masa corporal y 2b2 = los resultados observad pendiente en el20 nivel medio x1 24 28 32 edidas de tendencia Las medidas centralde informan tendencia acerca central de informan cul es el acerca valor ms de cul representativo es el valor ms representativo36 realizar inferencias acerca de los parmetros poblacionales correspond Indice de masa corporal (kg/m) 2 en el 0,0016 = de 0,0032 elequivalente, cambio de pendiente por cada indican incremento de 1 kg/m a determinada de variable una 2 determinada o, dicho variable forma o, dicho de estos forma estimadores equivalente, estos estimadores indican Figura 11.5 Figura 11.5 Relacin lineal (lnea fina) y cuadrtica (curva gruesa) entre el ndice de masa corporal y el continuacin se describen los principales estimadores de la tendencia colesterol HDL obtenidas de modelos de regresin mltiple ajustados por consumo de alcohol y hbito tabndice de masa corporal. Nolos obstante, es ms informativo representar la tendencia dor de qu valor alrededor se agrupan de qu los valor datos se observados. agrupan Las datos medidas observados. de tendencia Las medidas de tendencia quico actual en el grupo control del estudio EURAMIC. variable. global estimada a partir delpara modelo cuadrtico. Para ello, se calculan los para valores l de la muestra central sirven de tanto la muestra para resumir sirven los tanto resultados resumir observados los resultados como para observados como
significativamente el ajuste del modelo lineal. En consecuencia, la pendiente de la relacin 1.2.1 Media aritmtica del colesterol HDL predichos por el modelo cuadrtico para losA distintos ar inferencias realizar acerca medios de inferencias losel parmetros acerca poblacionales de los correspondientes. A correspondientes. entre colesterol HDL y parmetros el ndice depoblacionales masa corporal vara segn el nivel de exposicin, 2 0,024xla estimacin de la pendiente en el nivel medio del siendo b La media aritmtica, denotada por x 1, = se26,2 define como la suma de cada 1 = ndice de masa corporal, manteniendo constantes el kg/m valores observados 1 del uacin se describen continuacin los principales se describen estimadores los principales de la tendencia estimadores central de la de tendencia una central de una ndice de masa corporal y 2b2 = 20,0016 = 0,0032 el cambio de pendiente por cada 2 el ndice de masa corporal. Noactuales obstante, es ms de informativo incremento 1 kg/m valores muestrales dividida por elen nmero observaciones realizadas consumo de de alcohol y la en variable indicadora de fumadores sus le. variable. representar la tendencia global estimada a partir del modelo cuadrtico. Para ello, se calculan los valoresxmedios del colesterol HDL predichos el x modelo cuadrtico para por n el tamao muestral por y por observado para el sujeto i-s i el valor respectivas medias 2 = 16,5 g/da y x 3 = 172/448 = 0,38 (proporcin de del ndice de masa corporal, manteniendo constantes los distintos valores observados x Media aritmtica 1.2.1 Media aritmtica 1 el consumo de alcohol y la variable indicadora de fumadores la media vendra dada por actuales en sus respectivas fumadores actuales), = 16,5 g/da y = 172/448 = 0,38 (proporcin de fumadores actuales), medias dia aritmtica, La denotada media aritmtica, por x 2, se denotada define como por la x3 suma , se define de cada como uno la de suma los de cada uno de los
x + x 2 + ... + x n 1 n 2 dividida de (x1 ; de y 16,5; 0,38) = 1,05realizadas. 0,024( x1 + 0,0016(x s muestrales dividida valores muestrales por el nmero observaciones por el nmero observaciones Si26,2) denotamos realizadas. Si26,2) denotamos . = x1 xi = 1 n i =1 n + 0,003016,5 0,0980,38 el tamao muestral por n y elpor tamao xi el valor muestral observado y por xipara el valor el sujeto observado i-simo, para i= el1, sujeto ..., n, i-simo, i = 1, ..., n, 2 x 26,2) + 0,0016( = 1,06 0,024( 1 1 26,2) . central ms utilizada y de ms La media es la medida de x tendencia dia vendra dada la media por vendra dada por Notar que la eleccin de los valores fijos de las otras variables es arbitraria, interpretacin. Corresponde alexplicativas centro de gravedad de los datos de la ya que slo afectan a la constante de la relacin cuadrtica. En la prctica, es habitual fijar n n +los ... ...muestrales + x + xde x n en sus x xde x n variables 1 la eleccin 1+ Notar que valores fijos las otras explicativas es absolutos 2 de 1 + 2 + las medias para obtener valores . es que = x i variables = 1 x restantes x = ajuste xi. = principal limitacin est muy influenciada por los valores extre n i =1 respuestan n i =1 n poblacin a estudio. La tendencia cuadrtica de la variable representativos de la arbitraria, queel slo afectan la constante deylael relacin cuadrtica. En la estimada ya entre ndice de a masa corporal HDL se en la de la distribuc caso, puede no sercolesterol un fiel reflejo de la representa tendencia central Figura 11.5, junto con la relacin lineal obtenida del mismo modelo de la Tabla 11.9 media es la medida La media de tendencia es la medida centralde ms tendencia utilizada central y devariables ms msfcil utilizada y de ms fcil prctica, es habitual fijar las restantes de ajuste en sus medias muestrales excluyendo el trmino cuadrtico del ndice de masa corporal. En comparacin con la tendencia lineal, el modelo estima una ms pronunciada de lasobre estimado Ejemplo 1.4 En este en los sucesivos ejemplos retacin. Corresponde interpretacin. al centro Corresponde de gravedad al centro de cuadrtico los de datos de la muestra. de los disminucin datos Su deyla muestra. para obtener valores absolutos de lagravedad variable respuesta representativos deSu la
utilizarn del colesterol HDL obtenidos en los 10 pri pal limitacinprincipal es que est limitacin muy influenciada es que est por muy losinfluenciada valores extremos por los y,los valores en valores este extremos y, en este Pastor-Barriuso R. 217 38 estudio European Study on Antioxidants, Myocardial Infarction puede no ser un caso, fielpuede reflejo no deser la tendencia un fiel reflejo central de la detendencia la distribucin. central de la distribucin.
media del colesterol HDL dentro del rango de normopeso (< 25 kg/m2), que se atena progresivamente al aumentar los niveles del ndice de masa corporal. Aunque los modelos cuadrticos permiten detectar efectos no lineales de las variables explicativas, la tendencia global resultante de estos modelos puede estar fuertemente influenciada por una o muy pocas observaciones con valores extremos de la variable explicativa. En este sentido, resulta especialmente importante evaluar los cambios que se producen en la tendencia cuadrtica, o incluso la propia idoneidad del modelo cuadrtico, al excluir del anlisis las observaciones ms influyentes (vase apartado de anlisis diagnstico). 11.7 CONFUSIN E INTERACCIN EN REGRESIN LINEAL La regresin lineal mltiple puede utilizarse con dos propsitos claramente diferenciados. Por un lado, los modelos de regresin pueden emplearse para predecir el valor de la variable respuesta en funcin de los valores de las variables explicativas. En tal caso, el inters se centra en identificar e incluir todas aquellas variables explicativas que se asocien de forma significativa e independiente con la variable respuesta, de tal forma que el modelo resultante se ajuste bien a los datos observados (elevado coeficiente de determinacin) y prediga con cierta precisin la respuesta en nuevos sujetos. Los contrastes parciales descritos en el Apartado 11.4.2 son particularmente tiles para este propsito, ya que permiten seleccionar las variables explicativas que mejoran significativamente la capacidad predictiva del modelo. Por otro lado, los modelos de regresin pueden utilizarse para estudiar la relacin de una o varias variables explicativas de inters con la variable respuesta, controlando por otras variables explicativas o covariables que pudieran afectar a dicha relacin. En este caso, no es necesario que el modelo incluya todos los determinantes de la variable respuesta, sino nicamente aquellos que influyan en la asociacin objeto de estudio; es decir, aquellas covariables cuya inclusin afecte a las estimaciones de los coeficientes de regresin asociados a las variables explicativas de inters. La confusin y la interaccin son dos conceptos epidemiolgicos estrechamente relacionados con este segundo propsito. A continuacin se presenta una descripcin general de ambos conceptos y su tratamiento dentro de los modelos de regresin lineal mltiple. 11.7.1 Control de la confusin en regresin lineal La confusin se define como una distorsin en el efecto estimado de una variable explicativa sobre la variable respuesta debido a la interposicin de otra covariable, denominada factor de confusin o simplemente confusor, cuyo efecto se confunde o se mezcla con el verdadero efecto de la variable explicativa de inters. La distorsin inducida por el factor de confusin puede ser grande y dar lugar tanto a una sobreestimacin como a una infraestimacin del efecto subyacente, dependiendo de la direccin de las asociaciones del factor de confusin con las variables explicativa y respuesta. El factor de confusin puede producir incluso un cambio en la direccin del efecto observado. Para que una covariable X2 pueda confundir la asociacin entre la variable explicativa de inters X1 y la variable respuesta Y en un modelo de regresin lineal debe cumplir tres condiciones necesarias: yy El factor de confusin X2 debe estar linealmente relacionado con la variable explicativa X1. Si las variables X1 y X2 estn incorrelacionadas, sus efectos sobre la variable respuesta Y no podrn confundirse o mezclarse, de tal forma que la estimacin del coeficiente asociado a la variable explicativa de inters X1 no se ver afectada por la inclusin de la covariable
El factor de confusin X2 debe estar asociado con la variable respuesta Y el efecto estimado de la variable variables X1 y X2 estn correlacionadas,
independientemente de su asociacin con la variable explicativa X1. Aunque las explicativa X1 slo podr estar confundido por la covariable X2 cuando sta tenga variables X1 y X2 estn correlacionadas, el efecto estimado de la variable un efecto independiente sobre la variable respuesta Y. Si la covariable X2 se X 2 en el modelo. Este requisito ya se comprob formalmente en el Apartado 11.3.1 y se ilustr grficamente en la X Figura 11.1(a). explicativa 1 slo podr estar confundido por la covariable X2 cuando sta tenga nicamente a travs de su asociacin con la variable relaciona con la respuesta Y yy El factor de confusin X2 debe estar asociado con la variable respuesta Y independientemente Y. Si la covariable X2 se un efecto independiente sobre la variable respuesta las variables X y X2 estn de su asociacin con la variable explicativa X . Aunque explicativa X1, puede probarse que ryx2 = ryx1 rx1x2 ,1 de donde se deriva que las1 correlacionadas, el efecto estimado de la variable explicativa X1 slo podr estar confundido nicamente a travs sobre de su la asociacin con la variable relaciona con sta la respuesta tenga unY efecto independiente variable respuesta por la covariable X2 cuando X1 estimaciones de los regresin mltiple asociados las variables se relacionade con la respuesta Y nicamente aa travs de su asociacin Y . Si la covariable X2coeficientes puede probarse probarse que que ryx2 = ryx1 rx1x2,,de con la variableexplicativa explicativaX X ,,puede dedonde dondese sederiva derivaque quelas las 11 a. coeficientes de regresin mltiple y X2 se reducen estimaciones de los asociados a las variables X1 y X2 se reducen a estimaciones de los coeficientes de regresin mltiple asociados a las variables X
) sy ryx1 ryx2 rx1x2 s y ryx1 (1 rx2 sy 1 x2 b = = = , r 1 yx 1 a. y X2 se reducen 1 rx2 s x1 1 rx2 s x1 s x1 1 x2 1 x2
Confusin e interaccin en regresin lineal
b2 =
yy El factor de confusin X2 no debe ser paso intermedio relacin de la variable X1 la permanecer mientras que el efecto estimado para laun variable explicativa en explicativa X1 con la variable respuesta Y. A diferencia de las dos condiciones anteriores, relacionar con respuesta al controlar por X1, As, la covariable 2 no se este requisito epidemiolgico noX puede comprobarse con la los datos disponibles y 41 requiere de informacin externa o juicio experto sobre los mecanismos subyacentes que relacionan X1 permanecer mientras con que la el efecto estimado para la variable explicativa la variable explicativa respuesta. Por ejemplo, el ndice de masa corporal podra considerarse a simple vista un potencial factor de confusin para la asociacin entre la actividad fsica y el colesterol HDL, ya que se relaciona de forma independiente con ambas variables. Sin embargo, el ndice de masa corporal no es un factor extrao que distorsiona dicha asociacin, sino ms bien un factor intermedio, ya que la actividad fsica reduce el ndice de masa corporal, que a su vez provoca un aumento del colesterol HDL. En general, los modelos de regresin no deben incluir factores intermedios para la asociacin objeto de estudio, a no ser que se pretenda estimar el efecto que no est mediado por dichos factores. La seleccin de los potenciales factores de confusin debe limitarse, por tanto, a las covariables que satisfagan estas tres condiciones necesarias, a saber, aquellas covariables que se asocien de forma independiente con las variables explicativa y respuesta y que no constituyan un paso intermedio en la relacin entre ambas variables. No obstante, es posible que una covariable cumpla los tres requisitos y no sea un factor de confusin, en el sentido de no introducir un sesgo en la asociacin a estudio. Esto puede ocurrir, por ejemplo, cuando existen varios factores cuyos potenciales sesgos de confusin se compensan al actuar en direcciones opuestas. En la prctica, para determinar si una o varias covariables son en realidad factores de confusin, se compara la estimacin cruda de la asociacin objeto de estudio con la estimacin ajustada por los potenciales factores de confusin. Como se vio en el Apartado 11.2, estas estimaciones ajustadas pueden obtenerse directamente a partir de modelos de regresin mltiple que incorporen los potenciales factores de confusin adems de la variable explicativa de inters. As, los factores de confusin vendrn determinados por aquellas covariables cuya inclusin en el modelo produzca un cambio substancial en la estimacin del coeficiente de regresin asociado a la variable explicativa de inters. La comparacin entre los coeficientes
As, la covariable X2 no se relacionar con la respuesta al controlar por X1, mientras que el al ajustar por X2, efecto estimado para la variable explicativa ryx2 ryxX r1 permanecer ryx1 rx1x2 s s y ryx1 rx1xinalterable y 1 x1 x2 2 X no se relacionar con la respuesta al controlar por X , As, la covariable b = = 0. = 2 1 2 para la con lo que la covariable X2 no ser un factor 2 asociacin entre X1 e Y. 1 r 2de confusin s 1 r s
x1 x2 x2 x1 x2 x2
ryx2 ryx1 rx1 x2 s y ryx1 rx1x2 ryx1 rx1x2 s y 2 ryx = rx 0. ryx2 rx1x2 s2y ryx1 (1 = sy x ) sy b1 = s x 1 = sx 2 1 2 = ryx1 , 1 rx2 1 r 2 x x x 1 2 2 1 rx1x2 s1x1 2 1 2 rx1 x2 s x1 s x1
41
asociaran tambin con el ndice de masa corporal, verificaran los tres requisitos para ser potenciales factores de confusin.
La Tabla 11.10 muestra las estimaciones coeficiente asociadono al ndice de mediante estimados con y sin ajuste por los potencialesdel factores de confusin se realiza pruebas estadsticas, ya que la significacin estadstica no depende nicamente de la magnitud masa corporal en distintos modelos de regresin lineal, a saber, primer modelo del cambio, sino tambin del tamao muestral (vase Apartado 5.4.2).un Aunque el criterio vara segn el mbito de aplicacin, en general se considera necesario controlar la confusin cuando sin covariables de ajuste, segundo la estimacin cruda difiere de laun ajustada enmodelo ms delajustado 10%. por el consumo de alcohol, asociaran tambin con el ndice de masa corporal, verificaran los tres requisitos un tercer 11.12 modelo En ajustado por el hbito tabquico actual y un ltimo modelo Ejemplo los ejemplos anteriores se han considerado otros determinantes del para ser potenciales factores de confusin. colesterol HDL distintos del ndice de masa corporal, pero no se ha prestado especial ajustado a por covariables. Todos los modelos se obtuvieron a partir de la el ndice atencin la ambas confusin podran inducir estos factores en la asociacin La Tabla 11.10 muestraque las estimaciones del coeficiente asociado al ndiceentre de de masa corporal y el colesterol HDL. La edad y el estatus socioeconmico no mostraron misma muestra de 448 controles del estudio con informacin un efecto independiente sobre los niveles deEURAMIC colesterol HDL (Tabla 11.4),modelo por lo que no masa corporal en distintos modelos de regresin lineal, a saber, un primer cumplen una de las condiciones necesarias para ser factores de confusin. Sin embargo, completa dede todas las variables. Tomando como referencia el modelo por el consumo alcohol y el hbito tabquico actual s se asociaron conajustado el sin covariables de ajuste, un segundo modelo ajustado por el consumo decolesterol alcohol, HDL independientemente del ndice de masa corporal (Tablas 11.7, 11.8 y 11.9). Adems, el ambas covariables, el cambio relativo que se no produce en el la coeficientedel estimado alcohol y modelo el tabaco son factores que median ndice de masa un tercer ajustado por elexternos hbito tabquico actualen y un relacin ltimo modelo corporal con el colesterol HDL. Si ambas covariables se asociaran tambin con el ndice del masa ndice corporal, de masa corporal al excluir el consumo de alcohol es potenciales factores de de verificaran los tres ser ajustado por ambas covariables. Todos los requisitos modelos separa obtuvieron a partir de la confusin. b1|3del estudio 0,0225 misma muestra 448 controles EURAMIC conasociado informacin La Tabla 11.10de muestra las estimaciones del coeficiente al ndice de masa = = 1,08; corporal en distintos modelos de regresin lineal, a saber, un primer modelo sin covariables b1|2,3 0,0209 completa todas las variables. Tomando como referenciade el modelo por de ajuste,de un segundo modelo ajustado por el consumo alcohol,ajustado un tercer modelo ajustado por el hbito tabquico actual y un ltimo modelo ajustado por ambas covariables. es decir, una vez tenido en cuenta el hbito tabquico actual, las448 diferencias en elestudio ambas covariables, elobtuvieron cambio relativo que produce en el coeficiente estimado Todos los modelos se a partir dese la misma muestra de controles del EURAMIC con informacin completa de todas las variables. Tomando como referencia consumo alcohol provocan una sobreestimacin del 100(1,08 1) = se 8%produce en la en el del ndicede de masa corporal al excluir el consumo de alcohol es - que el modelo ajustado por ambas covariables, el cambio relativo coeficiente estimado del ndice de masa corporal al excluir el consumo de alcohol es asociacin inversa del ndice de masa corporal con el colesterol HDL. Como se b1|3 0,0225 = 1,08; = 0 , 0209 b1|2,es apunt en el Ejemplo 11.2, esto debido a que una pequea parte de la reduccin 3
es decir, una vez tenido enlos cuenta el hbito tabquico actual, las diferencias en el consumo del colesterol HDL entre sujetos con mayor ndice de masa corporal se debe de decir, alcohol provocan unaen sobreestimacin del 100(1,08actual, 1) = 8% en la asociacin es una vez tenido cuenta el hbito tabquico las diferencias en el inversa del ndice de masa corporal con el HDL. Como en el en realidad a su menor consumo decolesterol alcohol. Por otra parte,se si apunt se excluye laEjemplo 11.2, consumo de alcohol provocan una sobreestimacin del 100(1,08 - 1) = 8% en laentre los esto es debido a que una pequea parte de la reduccin del colesterol HDL sujetos con mayor ndice masa corporal se debe en realidad a es su menor consumo de variable indicadora de los de fumadores actuales, el cambio relativo asociacin inversa del ndice de masala corporal el colesterol HDL. Como se alcohol. Por otra parte, si se excluye variablecon indicadora de los fumadores actuales, el cambio relativo es el hbito tabquico no11.2, se asocia con el ndice de una masa corporal en el grupo control b1|es 0 ,0206 apunt en el Ejemplo esto debido a que pequea parte de la reduccin 2 = 0,99; = b1|2,3 0,0209 2 en los del EURAMIC (la media delcon ndice de masa corporal escorporal 26,3 kg/m del estudio colesterol HDL entre los sujetos mayor ndice de masa se debe esto es, una vez controladas las diferencias en la ingesta de alcohol, el hbito tabquico 2 en los fumadores actuales). Por ltimo, si se excluyen no fumadores y 26,1 kg/m esto es,no una controladas las diferencias la otra ingesta de alcohol, el hbito actual introduce virtualmente ningn en sesgo enparte, la asociacin objeto en realidad avez su menor consumo de alcohol. Por si se excluye la de estudio (infraestimacin del 100(0,99 1) = 1%). Esto es consecuencia de que el hbito tabquico simultneamente ambas covariables del modelo, el cambio en el EURAMIC tabquico actual no introduce virtualmente ningn sesgo enrelativo la del asociacin objeto no se asocia con el ndice de masa corporal en el control estudio (la variable indicadora de los fumadores actuales, elgrupo cambio relativo es media del ndice de masa corporal es 26,3 kg/m2 en los no fumadores y 26,1 kg/m2 en los coeficiente estimado del desi masa corporal es Esto es consecuencia de estudio (infraestimacin del 100(0,99 - 1) = -1%). de que del fumadores actuales). Porndice ltimo, se excluyen simultneamente ambas covariables b1|2 0,0206 modelo, el cambio relativo en el coeficiente estimado del ndice de masa corporal es = = 0,99; 44 b1|2,3 0,0209 b1 0,0222 = = 1,06. b1|2,3 0,0209 esto es, una vez controladas las diferencias en la ingesta de alcohol, el hbito
Notar que actual esta sobreestimacin del 6% es resultado de la en combinacin de objeto los tabquico no introduce virtualmente ningn sesgo la asociacin sesgos inducidos de forma independiente el-1%). consumo y el hbito de estudio (infraestimacin del 100(0,99 -por 1) = Estode esalcohol consecuencia de que
Tabla 11.10 Estimacin de la relacin del ndice de masa corporal (IMC) con el colesterol HDL a partir de diferentes modelos de regresin lineal mltiple ajustados por distintas combinaciones del consumo de alcohol y el hbito tabquico actual en el grupo control del estudio EURAMIC.
Coeficiente asociado al IMC Covariable de ajuste Ninguna Alcohol Fumador actual Alcohol, fumador actual Estimacin 0,0222 0,0206 0,0225 0,0209 Error estndar 0,0037 0,0036 0,0037 0,0036 IC al 95% (0,0295; 0,0149) (0,0278; 0,0135) (0,0297; 0,0152) (0,0279; 0,0138)
Notar que esta sobreestimacin del 6% es resultado de la combinacin de los sesgos inducidos de forma independiente por el consumo de alcohol y el hbito tabquico. Si se adoptara el criterio estndar del 10%, se concluira que el consumo de alcohol y el hbito tabquico no son factores de confusin importantes para la asociacin entre el ndice de masa corporal y el colesterol HDL en los controles del estudio EURAMIC. No obstante, a pesar de no cumplir este criterio cuantitativo, se podra decidir ajustar por ambas covariables por razones de credibilidad, ya que el alcohol y el tabaco son determinantes conocidos del colesterol HDL y cualquier estudio sobre este tpico generara desconfianza si no incluyera estas variables en el anlisis. La confusin es un sesgo introducido por un factor externo en la asociacin objeto de estudio que debe prevenirse en el diseo o controlarse en el anlisis de los datos. En este sentido, la regresin lineal mltiple es una herramienta til para controlar la confusin en el anlisis, ya que facilita estimaciones ajustadas por las restantes variables explicativas incluidas en el modelo. No obstante, la capacidad de ajuste de los modelos de regresin est condicionada por los siguientes factores: yy La disponibilidad de informacin sobre los potenciales factores de confusin. Obviamente, no se podr controlar en el anlisis ningn factor de confusin que no se haya medido previamente. yy El efecto conjunto de la variable explicativa de inters y de los factores de confusin. La regresin lineal mltiple asume que los efectos conjuntos son aditivos, de tal forma que si esta asuncin no se cumple, la estimacin del coeficiente de regresin asociado a la variable explicativa de inters puede estar sesgada. yy Los errores de medida y la especificacin de los factores de confusin. Si los factores de confusin estn medidos con un error considerable, o si su efecto sobre la variable respuesta se modela de forma inadecuada (por ejemplo, usando trminos lineales para relaciones subyacentes curvilneas), el ajuste no ser completo, pudiendo quedar una apreciable confusin residual. 11.7.2 Evaluacin de la interaccin en regresin lineal La interaccin o modificacin de efecto se refiere al cambio en la magnitud de la asociacin entre la variable explicativa de inters y la variable respuesta a diferentes niveles de otra variable, que se denomina modificador de efecto. A diferencia de la confusin, que es un sesgo
la covariable y, en consecuencia, deben obtenerse estimaciones especficas para cada nivel, que estn libres de confusin al referirse a sujetos con idntico valor de la
covariable. Por el contrario, cuando no existe interaccin, el efecto se asume igual en de la a corregir en la estimacin del efecto, la interaccin es una caracterstica inherente asociacin a estudio, que debe describirse mediante estimaciones especficas del efecto de la todosexplicativa los niveles de de inters la covariable basta entonces conmodificador obtener una de nica estimacin variable en los y distintos niveles del efecto.
La confusin y la interaccin son fenmenos diferentes que pueden o no ocurrir para todos los sujetos, que s podra estar confundida por diferencias en la distribucin simultneamente. No obstante, cuando existe evidencia de interaccin con una determinada covariable, la valoracin de la confusin inducida por dicha covariable es irrelevante. En de la covariable. Por ello, en la prctica slo tiene sentido controlar la confusin cuando presencia de interaccin, la magnitud del efecto vara segn el nivel de la covariable y, en consecuencia, deben obtenerse estimaciones especficas para cada nivel, que estn libres de se ha descartado previamente la presencia de interaccin. confusin al referirse a sujetos con idntico valor de la covariable. Por el contrario, cuando no existe interaccin, el efecto se asume igual en todos los niveles de la covariable y basta entonces Los efectos independientes de una variable explicativa de inters X y otra covariable con obtener una nica estimacin para todos los sujetos, que s podra 1 estar confundida por diferencias en la distribucin de la covariable. Por ello, en la prctica slo tiene sentido controlar X2 sobre la variable respuesta Y se obtienen a partir del modelo de regresin lineal la confusin cuando se ha descartado previamente la presencia de interaccin. Los efectos independientes de una variable explicativa de inters X1 y otra covariable X2 mltiple sobre la variable respuesta Y se obtienen a partir del modelo de regresin lineal mltiple
Y = 0 + 1 x1 + 2 x2 + ,
que incluye distintos trminos para cada variable explicativa. Bajo este modelo, la relacin entre que incluye distintos trminos para cada variable explicativa. Bajo este modelo, X1 e Y para un determinado valor fijo c2 de la covariable X2 viene dada por E(Y |x1, c2) =la (0 + 2c2) + 1x1. As, este modelo asume que no existe interaccin entre X1 y X2 ya que el cambio esperado un unidad determinado valor fijo c covariable X2 viene dada relacin entre X1 e Y para 2 de la siempre igual a en Y por cada incremento de una en X1 es 1, independientemente del nivel de X2. De hecho, los cambios en el valor de la covariable X2 slo afectan a la constante de la recta , c2Y )= ( 0 + por E(Y|x1de 2c2) + 1x1. As, este modelo asume que no existe interaccin de regresin sobre X 1, pero no a su pendiente. Esta ausencia de interaccin se representa grficamente en la Figura 11.6(a), donde las rectas de regresin de Y sobre X1 son lneas paralelas quelos el cambio esperado en Y por incremento de una unidad en X1 X2. entre pendiente X1 y X2 ya de igual para distintos valores (puntos y cada crculos) de una covariable dicotmica En regresin lineal mltiple, la forma ms sencilla de modelar la interaccin entre la variable es siempre igual a , independientemente del nivel de X2. De hecho, los cambios en el explicativa de inters X1 1 y la covariable X2 consiste en aadir al modelo un nuevo trmino con el producto de ambas variables, valor de la covariable X2 slo afectan a la constante de la recta de regresin de Y sobre Y = 0 + 1 x1 + 2 x2 + 3 x1 x2 + . X1, pero no a su pendiente. Esta ausencia de interaccin se representa grficamente en la
Notar que el modelo ha de incluir el trmino producto X1X2 adems de los trminos Figura 11.6(a), donde las rectas de regresin de Y sobre X1 son lneas paralelas de igual principales para las variables X1 y X2. Bajo este modelo extendido con el trmino pendiente para los distintos valores (puntos y crculos) de una covariable dicotmica X2. producto, la recta de regresin de Y sobre X1 para un determinado valor fijo c2 de la y [Figura 11.6 aproximadamente aqu] covariable X2 viene dada por E(Y|x1, c2) = (0 + 2c2) + (1 + 3c2)x1. As, el nuevo X2 ya que el cambio esperado modelo contempla la posibilidad de interaccin entre X 1y En regresin lineal mltiple, la forma ms sencilla de modelar la interaccin entre la igual a 1 +en 3aadir c2, que depende en Y por explicativa cada incremento de una en X1 es X variable de inters X1 unidad y la covariable modelodel un 2 consiste x x1 al 1
(acoeficiente ) (b) nuevo trmino con el producto de ambas variables, que el 3 del trmino producto sea distinto de 0. La nivel de X2 siempre
Figura 11.6 Rectas de regresin de la variable respuesta Y sobre la variable explicativa X1 para distintos 47 presencia de interaccin se covariable ilustra en dicotmica la Figura 11.6( bno ), donde las rectas de regresin de valores (puntos y crculos) de una X2 que interacciona con X 1 (panel a) y que interacciona con X1 (panel b).
una Y sobre X1 presentan distintas pendientes para los dos valores (puntos y crculos) de Figura 11.6 X2.
222
covariable Pastor-Barriuso R. dicotmica
A diferencia de la confusin, la interaccin s se evala estadsticamente mediante el
2 . Enbausencia de interaccin, ha de eliminarse el significativamente en b los distintos niveles decX b3 c2 ) = var( b1 ) + var( b1 , b3 ) var( 1 + 3 ) + 2c2 cov( 22 insesgado de la pendiente especfica subyacente, trmino producto y volver al modelo con los trminos principales de ambas variables, que 2 ajustado 2 por X . Por el contrario, si el coeficiente del permite estimar el efecto global = de 1v11 + c v33 22 v13 ), 3 X( + 2c 2 diferir significativamente segn el nivel trmino producto resulta significativo, efecto =E (b1 ) +de E(X b1 c2 = 1 + 3 c2 , E(b1 + b3 c2 ) el 3) y, c en consecuencia, se tendr una interaccin significativa entre ambas variables. Aunque de X +2 b 3 2)x1, de tal forma que el cambio en el nivel medio de Y por cada incremento de una b3 y tambin de el sutrmino covarianza ya que, como seen general queestimaciones depende de las de b1 ydel las de varianzas los coeficientes modelo con producto no tienen cuya varianza viene dada por (vase Apartado 3.4) una interpretacin directa, pueden combinarse para obtener estimaciones especificas de la c ) x , de tal forma que el cambio en el nivel medio de Y por cada incremento de una + b 3 2 en 1 X se estima mediante b + b c . Esta combinacin constituye un estimador unidad 1 1 3 2 muestra en de esterespuesta tema, las Y estimaciones de los coeficientes de regresin con la variable en los distintos niveles de X2. Para un determinado relacin de el X1Apndice 2 de la covariable X , la ecuacin de regresin estimada es ( x , c ) = (b0 + b2c2) + (b1 valor fijo c se estima mediante b + b c . Esta combinacin constituye un estimador unidad en X var(b1 + b 1 la pendiente 1 subyacente, 3 2 23 c2 ) = var( 1) 2 1 ) 2+ c 2 var(b3 ) + 2c2 cov(b1 , b3 insesgado de especfica de talcorrelacionadas. forma que el cambio enintervalo el nivel medio de Y por incremento de una unidad + b3c2)x1,estn la mltiple As, el de confianza alcada 100(1 - )% para 2 subyacente, 2 se estima mediante b + b c . Esta combinacin constituye un estimador insesgado de la en X insesgado de la pendiente especfica 1 1 3 2 = (v11 + c v33 + 2c2 v13 ), 2 + b c ) = E ( b ) + E ( b ) c = + c , E ( b 3 2 1 3 2 1 3 2 pendiente especfica subyacente, 1 + 3c1 subyacente 2 de la relacin entre X1 e Y en el valor c2 de la covariable
Notar que el modelo ha de incluir el trmino producto X1X2 adems de los trminos principales , de tal forma cambio el nivel medio decon Y por incremento dela una + b3clas X2. el Bajo este en modelo extendido el cada trmino producto, recta de para X1 yque 2)x1variables regresin de Y sobre X1 para un determinado valor fijo c2 de la covariable X2 viene dada por + Estael combinacin constituye un estimador unidad c2) X = (0estima + 2c2mediante ) + (1 +b c2b )x nuevo modelo contempla la posibilidad de E (Y|x1, en 1 se 13 3c 2.As, 1. interaccin entre X1 y X2 ya que el cambio esperado en Y por cada incremento de una unidad en insesgado de la especfica a + 3c2, que depende subyacente, del nivel de X2 siempre que el coeficiente 3 del trmino X 1 es igual 1 pendiente producto sea distinto de 0. La presencia de interaccin se ilustra en la Figura 11.6(b), donde las rectas de regresin de Y sobre X1 presentan distintas pendientes para los dos valores (puntos y E(b + b3 c2 ) = E(b1 ) + E(b3 )c2 = 1 + 3 c2 , crculos) de una covariable1dicotmica X2. c ) x , de tal forma que el cambio en els nivel medio de Y por cada incremento de una + b 3 2 1 A diferencia de la confusin, la interaccin se evala estadsticamente mediante el contraste cuya varianza viene dada por (vase Apartado 3.4) parcial del coeficiente 3 asociado al trmino producto. Si este coeficiente no difiere mediante b1 + b3c2. de Esta constituye un estimador unidad en X1 se estima sobre la variable respuesta Y no variar significativamente del valor nulo, el efecto X combinacin
1
E(b1 + b3 c2 ) = E(b1 ) + E(b3 )c2 = 1 + 3 c2 , b3 y tambin de su covarianza ya que, como se depende de las varianzas b1 y Apartado se calcula como X2 que cuya varianza viene dada porde (vase 3.4) cuya varianza viene dada por (vase Apartado 3.4) cuya varianza viene dada por (vase 3.4) muestra en el Apndice de este tema,Apartado las estimaciones de los coeficientes de regresin 2 2 b1b+ c2t)n -= var( var( b ) + b1 , b3 ) var( b1 + s v11c + c v + 22 cc 1) + 3 2 cov( 3 cb 2 3 p -1,1 /2b 2 2 33 2v 13 . 2 2 mltiple estn correlacionadas. As, intervalo de confianza al 100(1 - )% para la = var( el (v + c 2v 33 + 2c2 v13 ), b11 var(b1 + b3c2) = 1) + c2 2 var(b3) + 2c2cov(b1, b3)
que depende de las varianzas b2 y bla yrelacin tambin de suXcovarianza ya que, como se muestra en 1 +de 3 c de entre c2 ndice de la covariable pendiente subyacente 1 e Y en el valor 1 una 3posible 2 2 Ejemplo 11.13 Para evaluar modificacin del efecto del de ( v + c v + 2 c v ), = 11 33 2 13 2 el Apndice de este tema, las estimaciones de los coeficientes de regresin mltiple estn desu covarianza ya que, como se que de las 1 y b3 y tambin correlacionadas. As, elvarianzas intervalo de de b confianza al 100(1 )% para la pendiente subyacente 1 sedepende calcula como X 2 masa corporal sobre el colesterol HDL en los estratos de fumadores actuales y no la relacin entre X1 e Y de en b el valor ctambin X2 se calcula como + que 3c2 de 2 de la covariable depende de las varianzas de su covarianza ya que, como se 1 y blas 3 y estimaciones muestra en el Apndice de este tema, de los coeficientes de regresin fumadores actuales, ajust un modelo de regresin lineal mltiple en los 2 bse 1 + b3 c2 tn p 1,1 /2 s v11 + c 2 v 33 + 2c 2 v13 . muestra en el Apndice de este tema, las estimaciones de los coeficientes )%regresin para la mltiple estn correlacionadas. As, el intervalo de confianza al 100(1 - de controles del estudio EURAMIC que inclua los trminos principales del ndice de Ejemplo 11.13 Para evaluar una modificacin efecto- del ndice de masa )% para la mltiple estn correlacionadas. As, el posible intervalo de confianzadel al 100(1 pendiente subyacente 1 + 3c2 de la relacin entre X1 e Y en el valor c2 de la covariable corporal sobre el colesterol HDL en los estratos de fumadores actuales y no fumadores consumo de alcohol X2modificacin y la variable indicadora X3 de los de masa corporal X1, el Ejemplo 11.13 Para evaluar una posible del efecto del ndice actuales, se ajust un modelo de regresin lineal mltiple en los controles del estudio + c de la relacin entre X e Y en el valor c de la covariable pendiente subyacente 1 3 2 1 2 se calcula como X2 EURAMIC , el consumo que inclua los trminos principales del ndice de masa corporal X fumadores actuales, as el como un trmino con elde producto entre el 1 ndice masa corporal sobre colesterol HDLadicional en los estratos fumadores actuales y no y la variable indicadora X de los fumadores actuales, as como un trmino de alcohol X 2 3 X2 se calcula como 2 adicional con el producto entre el ndice de masa corporal y la variable indicadora de los de fumadores masa corporal y la los fumadores actuales, actuales, modelo regresin lineal mltiple en los b1 variable +se b3ajust c2 indicadora tn-un vde p-1,1/2 s de 11 + c 2 v 33 + 2c 2 v13 . fumadores actuales, 2 b1 + b v +c + 2c 2 v13 . 3c2 tn-p-1,1-que /2 sinclua controles del estudio EURAMIC los trminos principales del ndice de 2 v 33 3 x3 + 4 x1 x3 + . Y = 0 + 1 x1 + 2 x2 + 11 Ejemplo 11.13 evaluar una posible modificacin del efecto del ndice de masa corporal XPara 1, el consumo de alcohol X2 y la variable indicadora X3 de los Ejemplo 11.13 sobre Para evaluar una posible modificacin delfumadores efecto del actuales ndice dey no masa corporal el colesterol HDL en los estratos de fumadores actuales, as como un trmino adicional con el producto entre el ndice
49 masa corporal sobre el colesterol HDL ende los estratos de fumadores actuales no fumadores actuales, ajust un modelo lineal mltiple en los y de masa corporal y lase variable indicadora de regresin los fumadores actuales,
fumadores actuales, se ajust un modelo de regresin lineal mltiple en los controles del estudio EURAMIC que inclua los trminos principales del ndice de
entre el ndice de masa corporal y el hbito tabquico actual en los controles del especficos del ndice de masa corporal sobre el colesterol HDL dentro de cada estudio EURAMIC. No obstante, este contraste podra tener escasa potencia Regresin lineal mltiple estrato, ya que el estudio cuenta nicamente con 276 no fumadores actuales y 172 estadstica para detectar cambios relevantes en la magnitud de los efectos fumadores actuales. En este sentido, es aconsejable utilizar los resultados del La Tabla 11.11 muestra las estimaciones de los coeficientes de este modelo y las especficos del ndice de masa corporal sobre el colesterol HDL dentro de cada correlaciones los distintos de coeficientes, que forman parte de los la resultados modelo con elentre trmino producto pares para estimar los efectos especficos y valorar facilitados por los programas estadsticos convencionales. El contraste para la nulidad estrato, ya que el estudio cuenta nicamente con 276 no fumadores actuales y 172 del coeficiente 4 asociado al trmino producto arroja un valor P = 0,16, lo que indica relevancia del cambio. que no existe una interaccin estadsticamente significativa entre el ndice de masa fumadores actuales. En este sentido, es aconsejable utilizar los resultados del corporal y el en hbito tabquico actual en los controles del la estudio EURAMIC. No obstante, Por un lado, el estrato de los no fumadores actuales, variable indicadora X3 1.2 MEDIDAS DE TENDENCIA CENTRAL este contraste podra tener escasa potencia estadstica para detectar cambios relevantes modelo con el trmino producto para estimar los efectos especficos y valorar la en la magnitud deecuacin los efectos del ndice de masa toma valor 0 y la de especficos regresin estimada se reduce a corporal sobre el colesterol Las medidas de tendencia central informan acerca de cul es el valor ms representativo HDL dentro de cada estrato, ya que el estudio cuenta nicamente con 276 no fumadores relevancia del cambio. actuales y 172 fumadores actuales. En este sentido, es aconsejable utilizar los resultados (producto b0 +estimar b1 x 1 + b y x1 , x2 , 0) = 2 x2 .efectos de una determinada variable o, dicho equivalente, estos estimadores indicanespecficos y valorar la del modelo con de el forma trmino para los Por un lado, en el estrato de los no fumadores actuales, la variable indicadora X3 relevancia del cambio. (x1 ; 16,5; 0) = 1,49 - 0,016x1 + 0,002916,5 = 1,54 - 0,016x1 . y alrededor de qu valor se agrupan los datos observados. Las medidas de tendencia As, una vez las diferencias en el consumo de la alcohol, cada Por un lado, en estrato de los no fumadores actuales, indicadora X3 toma toma valor 0 controladas y lael ecuacin de regresin estimada se reduce avariable valor 0 y la ecuacin de regresin estimada se reduce a central de la muestraPor sirven tanto para resumir observados como otro lado, en el estrato de resultados los fumadores actuales, la variable incremento de 3,50 kg/m2los en el ndice de masa corporal depara los noindicadora fumadoresX3 (x1 , x2 , 0) = b0 + b1 x1 + b2 x2 . y realizar inferencias acerca de los poblacionales correspondientes. A por toma valor 1parmetros ycontroladas la ecuacin de regresin estimada viene dada actuales se con 0) una disminucin media en el colesterol HDL de 3,50 b1 = As, una vez las diferencias en el consumo de alcohol, cada incremento de asocia ; 16,5; = 1,49 0,016 x + 0,0029 16,5 = 1,54 - 0,016 x y ( x 1 1 1. 2 3,50 una kg/m en el ndice de masa corporal de no fumadores actuales As, vez controladas las diferencias en ellos consumo de alcohol, cadase asocia con una continuacin se describen los principales estimadores deun la IC tendencia central de unaentre 3,50(-0,016) = -0,057 mmol/l, con al 95% comprendido = 3,50(0,016) = 0,057 mmol/l, con disminucin media en el colesterol HDL de 3,50 b y (x1 , x2 , 1) = (b0 + b3 ) + (b1 +1b4 )x1 + b2 x2 . 2 de los fumadores actuales, la variable indicadora X Por otro lado, en el estrato un IC al 95% entre incremento decomprendido 3,50 kg/m en el ndice de masa corporal de los no fumadores 3 variable. 2 0,023). t443;0,975 SE (b1 )} = 3,50( 0,016 1,97 0,0049) = ( 0,090; 3,50{b1 As, despus ajustar por la de alcohol, incrementos de de 3,50 kg/m toma valor 1 de y la ecuacin deingesta regresin estimada viene dada por actuales se asocia con una disminucin media en los el colesterol HDL 3,50 b1 = en La Figura y 11.7 trazo fino la de regresin estimada del 1.2.1 Media aritmtica 16,5; 0) en = de 1,49 - fumadores 0,016 x1 recta + 0,0029 16,5 = 1,54 -con 0,016 x1 . colesterol HDL (x1 ; muestra el ndice de masa corporal los actuales se asocian una La Figura 11.7 muestra en trazo fino la recta de regresin estimada del sobre el ndice de masa corporal entre los no fumadores actuales con un consumo medio 3,50(-0,016) = -0,057 mmol/l, con IC al 95% entre colesterol ( = (un b0 + b3 )+ (b1 comprendido + b4 ) x 1 + b2 x 2 . y x1 , x2 , 1) g/da, de alcohol de x 2, = La media aritmtica, denotada por se16,5 define como la suma de cada uno de los +b = 3,50(-0,016 - 0,010) disminucin media en elmasa colesterol HDL de 3,50( b1fumadores 4)variable HDL sobre el ndice de entre los no actuales con un Por otro lado, en el estrato de corporal los fumadores actuales, la indicadora X3 = 0,016x ; 16,5; SE 0) ( = 1,49 0,016x1 + 0,0029 16,5 = 1,54 y x1 1. t b )} = 3,50(-0,016 1,97 0,0049) = (-0,090; -0,023). 3,50{ b 1( 443;0,975 1 As, despus de ajustar la ingesta de alcohol, los valores muestrales dividida por el nmero depor observaciones realizadas. Si incrementos denotamos de 3,50 kg/m2 en -0,092 mmol/l. Para obtener una por intervalo del por efecto especfico en valor x 2estimacin = 16,5estimada g/da, consumo medio de alcohol de Por otro lado, el estrato de los fumadores actuales, la variable indicadora X3 toma toma valor 1 yen la ecuacin de regresin viene dada 1 la ecuacin de regresin estimada viene por se ely ndice de corporal de los fumadores actuales asocian una por n el tamao muestral y por x el en valor observado para el sujeto i-simo, i 1, ..., ncon , indicadora La Figura 11.7 muestra en trazo fino la rectadada de regresin estimada del colesterol Por otro lado, el estrato actuales, la= variable X3 i masa este estrato, se calcula en primer lugar la varianza muestral de b1 + b4 50 (x1 , x2 , 1) = (b0 + b3 ) + (b1 + b4 )x1 + b2 x2 . y + b4 ) = 3,50(-0,016 - 0,010) disminucin en colesterol HDL de los 3,50( b la media vendra dada por valor HDL sobre 1 elmedia deel masa entre no fumadores actuales con un = toma yndice la ecuacin de corporal regresin estimada viene dada por 1 As, var( despus de ajustar por la ingesta de alcohol, los incrementos de 3,50 kg/m2 en el b1 + b 4 ) = var(b1 ) + var(b4 ) + 2cov(b1 , b4 ) -0,092 mmol/l. Para obtener estimacin por intervalo del con efecto ndice de masa de los fumadores actuales se incrementos asocian una disminucin As, despus decorporal ajustar por launa ingesta de alcohol, los de especfico 3,50 kg/m2en enmedia x = 16,5 g/da, consumo medio de 2+ + ... x x 1 n de alcohol , 2x2 1) = (b + b ) + ( b + b ) x + b x . y (1x1 0 3 1 4 1 2 2 2, + n 2 + b ) = 3,50(0,016 0,010) = 0,092 mmol/l. Para en el colesterol HDL de 3,50( b = (b1 ) + SE( x = x 1b4 ) + 4. 2SE(b1 )SE(b4 ) rb b = i SE 1 4 n n i =1 b este estrato, se calcula en primer la varianza muestral de b obtener una estimacin por intervalo del efecto especfico en este se calcula en el ndice de masa corporal de los lugar fumadores actuales se asocian con una 1 + estrato, 4 50 + b primer lugar la varianza muestral de b As, despus de ajustar por los incrementos de 3,50 kg/m2 en 2 la ingesta 2 de 1 alcohol, 4 + 0,0072 + 2de 0,0049b 0,0072(-0,679) = 0,000028, = 0,0049 disminucin media en el 1 + b4) = 3,50(-0,016 - 0,010) = La media es la medida de tendencia central ms utilizada y de 3,50( ms b4 ) = var( bcolesterol ) + var( b4HDL ) + 2cov( b1 , bfcil var( b1 + 1 4) el ndice de masa corporal 2de los fumadores actuales se asocian con una 2 SE ( b + SE ( b ) + 2 SE ( b1 )la SE (b4 ) rb1b4 del = -0,092 mmol/l. Para obtener una estimacin por intervalo especfico en 1 )b1 4 y b se obtiene de la segunda parte de la Tabla 11.11. donde la correlacin entre 4 los datos de interpretacin. Corresponde al centro de gravedad de muestra. Su efecto disminucin media en el colesterol HDL de 3,50(b1 + b4) = 3,50(-0,016 - 0,010) = = 0,00492 + 0,00722 + 20,00490,0072( 0,679) = 0,000028, b4los este estrato, se calcula en primer lugar la varianza de b1 + El IC al 95% para el efecto especfico del ndice demuestral masa corporal en principal limitacin es que est muy influenciada por los valores extremos y, en este donde la correlacin entre b1una y b4estimacin se obtiene por de la segunda parte de la Tabla 11.11. -0,092 mmol/l. Para obtener intervalo del efecto especfico en El IC al 95% para el efecto especfico del ndice de masa corporal en los fumadores actuales se fumadores actuales se calcula entonces como caso, puede no ser undonde fiel reflejo debla central distribucin. = var( b1 ) b + ) obtiene +la 2cov( b b4) var( 1+ 4) tendencia 4de 1, la y b4bse de segunda parte de la Tabla 11.11. la b correlacin entre 1 var( calcula entonces como en primer lugar la varianza muestral de b1 + b4 este estrato, se calcula (b +b 24SE (b t443;0,975 SE (b )} (b1)SE(b4) rb1b4 3,50{b1 +=bSE 1) + SE 4) 4 1 + Ejemplo 1.4 EnEl este y sucesivos ejemplos sobre estimadores muestrales, se en los ICvar( alen 95% para el efecto especfico del ndice masa corporal + b ) = var( b ) + var( b ) + 2cov( b1, bde blos 1 4 1 4 4) 0 , 000028 ) = ( 0,129; = 3,50( 0,016 0,010 1,97 0,056). 2 2 + 0,0072 + 2 0,0049 0,0072(-0,679) = = 0,0049 utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del 0,000028, fumadores actuales se calcula entonces (b4)2 + como 2SE(b1)SE(b4) r = SE ( b1)2 + SE
b1b4
estudio European Study on11.7 Antioxidants, Myocardial Infarction and Cancer ofde la b4 se obtiene de la la recta segunda parte Tabla 11.11. donde la correlacin entre b En la Figura se representa trazo grueso de regresin estimada del 2 1 y en SE( b12+ )} 3,50{ b1 + 4 t443;0,975 4 + 0,0072 +b 2 0,0049 0,0072(-0,679) = 0,000028, =b 0,0049 224 Pastor-Barriuso R. the Breast (EURAMIC), unpara estudio multicntrico dedel casos y controles El IC al 95% el efecto especfico ndice de masa corporal en actuales los colesterol HDL sobre el ndice de masa corporal entre losrealizado fumadores con 0 , 000028 ) = (-0,129; = 3,50(-0,016 0,010 1,97 parte de -0,056). la Tabla 11.11. donde la correlacin entre b1 y b4 se obtiene de la segunda entre 1991 y 1992 en ochoactuales pases de Europeos e Israel para evaluar fumadores se calcula entonces como x = 16,5 g/da, el efecto de los una ingesta media alcohol de
= 3,50(-0,016 - 0,010 1,97 0,000028 ) = (-0,129; -0,056).
continuacin se describen los principales estimadores de la tendencia central de una Confusin e interaccin en del regresin lineal En la Figura 11.7 se representa en trazo grueso la recta de regresin estimada variable. colesterol HDL sobre el ndice de masa corporal entre los fumadores actuales con En la Figura 11.7 se representa en trazo grueso la recta de regresin estimada del colesterol 1.2.1 Media aritmtica una ingesta media dede alcohol de x 2 = 16,5 HDL sobre el ndice masa corporal entreg/da, los fumadores actuales con una ingesta media g/da, de alcohol de x 2, = La media aritmtica, denotada por se16,5 define como la suma de cada uno de los
(x1 ; 16,5; 1) = (1,49 + 0,18) (0,016 + 0,010)x1 + 0,0029 16,5 y valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos = 1,72 0,026x1 . por n el tamao muestral y por xi el valor observado para el sujeto i-simo, i = 1, ..., n, En conclusin, a partir del modelo con la interaccin se tiene que un mismo incremento de 3,50 kg/m2 en el ndice de masa corporal se asocia con distintas disminuciones en el la media vendra dada por nivel medio de colesterol HDL de 0,057 mmol/l en los no fumadores y 0,092 mmol/l 51 en los fumadores actuales. El cambio en la magnitud del efecto es notable pero, debido n + x 2 + ... + xambos x al limitado1 tamao muestral de estratos, las estimaciones especficas son n . x = xi = 1 relativamente imprecisas y el test de interaccin no alcanza la significacin estadstica. n i =1 n Por tanto, los resultados de este estudio no son concluyentes respecto a la posible accin sinrgica del ndice de masa corporal y el tabaco en los niveles de colesterol HDL, y se La media es la medida de tendencia utilizada de ms fcil un cambio subyacente de dicha requerira de un central estudioms ms potente ypara detectar magnitud en los efectos especficos del ndice de masa corporal en fumadores y no interpretacin. Corresponde al centro de gravedad de los datos de la muestra. Su fumadores actuales.
principal limitacin es que est muy influenciada por los valores extremos y, en este
Tabla 11.11 Resultados de la regresin lineal mltiple del colesterol HDL caso, puede no ser unsobre fiel reflejo de la de tendencia central de la distribucin. el ndice masa corporal (IMC), el consumo de alcohol, la variable indicadora de fumadores actuales y el producto entre IMC y fumador actual en el grupo control del estudio EURAMIC. Ejemplo 1.4 En este y en los sucesivos ejemplos sobre estimadores muestrales, se
utilizarn los valores del colesterol HDL obtenidos en los 10 primeros sujetos del Test H0: j = 0
Estimacin Error estndar IC al 95% t Constante 1,49 0,13 (1,24; 1,75) 11,47 IMC 0,016 0,0049 (0,026; 0,007) 3,30 the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado Alcohol 0,0029 0,0006 (0,0018; 0,0041) 4,88 Fumador 0,18 0,19para evaluar (0,20; 0,55) de los 0,91 entre 1991 y 1992 en ocho pases Europeos e Israel el efecto IMCFumador 0,010 0,0072 (0,024; 0,004) 1,40
estudio European Study on Antioxidants, Myocardial Infarction and Cancer of
Valor P < 0,001 0,001 < 0,001 0,36 0,16
Matriz de correlaciones de las estimaciones Constante IMC Alcohol Fumador IMC 0,990 Alcohol 0,052 0,016 Fumador 0,670 0,674 0,134
5
IMCFumador 0,664 0,679 0,120 0,990
Pastor-Barriuso R.
225
2,25 2
1,5
0,5 0,25 20 24 28 Indice de masa corporal (kg/m) 32 36
Figura 11.7 Rectas de regresin del colesterol HDL sobre el ndice de masa corporal en fumadores actuales (puntos y lnea gruesa) y no fumadores actuales (crculos y lnea fina) obtenidas de un modelo con interaccin entre el ndice de masa corporal y el hbito tabquico actual en el grupo control del estudio EURAMIC.
Figura 11.7
En regresin lineal, la ausencia de interaccin entre dos variables explicativas X1 y X2 implica que sus efectos sobre la variable respuesta son aditivos; es decir, el efecto conjunto de ambas E(Y|x1 + 1, x2 + 1) - E(Y|x1 , x2 ) variables es la suma de sus efectos independientes. La presencia de interaccin puede interpretarse, por tanto, como una desviacin de la aditividad, que puede deberse tanto a = 0 + 1 (x1 + 1) + 2 (x2 + 1) + 3 (x1 + 1)(x2 + 1) efectos subaditivosE como supraaditivos. +efectos 1, x2 + 1) - E(Y|x1 , x2 ) Ms concretamente, en un modelo de regresin (Y|x1 a lineal con el trmino producto entre X1 y X2, el cambio esperado en Y al aumentar simultneamente + 1 x1 + 2 x2 + 3 x1 x2 ) = 1 + 2 + 3 (x1 + x2 + 1). - ( 0 explicativas una unidad ambas variables + 2 (x2 + 1) + 3 (x1 + 1)(x2 + 1) = 0 + 1 (x1 + 1) es
E(Y|x1 + 1, x2 + 1) E(Y|x1 , x2 ) En el mismo modelo, los esperados en alaumentar por separado 2 x2 + 3 x )= ( x1 + x2 + 1). una unidad - (cambios 0 + 1 x1 + 1 x2Y 1 + 2 + 3 = 0 + 1 (x1 + 1) + 2 (x2 + 1) + 3 (x1 + 1)(x2 + 1) cada variable explicativa son ( 0 + x2 + 3 x1 xen + 2 + 3por ( x1 + x2 + 1).una unidad En el mismo modelo, los cambios esperados Y al1 aumentar separado 1 x1 + 2 2) =
En el mismo modelo, los en al+aumentar cada variable + 1, x2cambios ) - Eson (Y|x1esperados , x2 ) = 0 + 1Y ( x1 1) + 2 x2 por + 3separado (x1 + 1)x2una unidad cada E (Y |x1 explicativa variable explicativa son En el mismo modelo, los cambios esperados en Y al aumentar por separado una unidad 00 + +11 2x + 23+ x1 x2 11) + 3 x2 - ( (x1 +2 (x= x2 E(Y |x1 + 1, x2 ) E(Y|x1 , x2 ) = 1 + 1) 2x 3) 1 + y
cada variable explicativa son y

y
( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 1 + 3 x2
E(Y|x1 + 1, x2) - E(Y|x1, x2) = 0 + 1(x1 + 1) + 2x2 + 3(x1 + 1)x2 E(Y |x1 , x2 + 1) E(Y |x1 , x2 ) = 0 + 1 x1 + 2 (x2 + 1) + 3 x1 (x2 + 1) -(( 0+ 1x 1 + 2 x2 + 3 x1 x2 ) = 1 + 3 x2 + 1 x1 + 2 x2 + 3 x1 x2 ) = 2 + 3 x1 . E(Y|x1, x2 + 1) - E(Y|x1, x2) = 00+ 1x 1 + 2(x2 + 1) + 3x1(x2 + 1)
y - ( 0 + 1 x1 + 2 x2 + 3 x1 x2 ) = 2 + 3 x1 . As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto

226 Pastor-Barriuso R. E(Y|x1,
x2 + 1) - Eentre (Y|x1,X x 2) = 0 + 1x1 + 2(x2 + 1) + 3x1(x2 + 1) As, si existe interaccin 1 y X2, el coeficiente 3 asociado al trmino producto ser distinto de 0 y el efecto conjunto de ambas variables diferir de la suma de sus + 1 x1 + 2x2 +diferir 3x1x2)de = la 2suma + 3xde - de (0ambas 1. sus ser distinto de 0 y el efecto conjunto variables efectos independientes,
ser distinto de 0 y el efecto conjunto de ambas la de 1 x1 + 2diferir x2 + 3 xde =suma 2 + - ( 0 +variables 1 x2 ) 3 xsus 1. efectos independientes, Confusin e interaccin en regresin lineal As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto 1) - E (Y |x1 , x2 )de ambas variables diferir de la suma de sus E(Y |x 1 + 2 + ser distinto de 01, yx el efecto conjunto As, si existe interaccin entre X1 y X2, el coeficiente 3 asociado al trmino producto ser + 1, x2 ) - de E(Yambas | x1 , x 2 ) + E(Y |x1 , xdiferir (Y |la x1 , suma x2 )} de sus efectos -{ E(Y |x1 conjunto 2 + 1) - E distinto deindependientes, 0 y el efecto variables de efectos independientes, + 2 +20; 3 (x - ( 1 + 3 x2 2 + 3. = y 1 + 2 + 1) 3 x1 ) 1 (28,5; 0) =x 1,49 - 0,016 28,5 ++ 0,0029 20 == 1,091, E(Y |x1 + 1, x2 + 1) E(Y |x1 , x2 ) y (28,5; 20; -Y0,016 28,5 20 {E(Y |x 1, = x21,49 ) E( |x1 , x2 ) + E+ (Y0,0029 | x1 , x 2 + 1)= E(Y |x1 , x2 )} 1,091, 1 + 0) el de los fumadores actuales con un ndice de masa corporal de 25 kg/m2 y un Ejemplo 11.14 delas estimaciones del modelo con el trmino producto 1partir + 2 + =A 3 (x1 + x2 + 1) ( 1 + 3 x2 + 2 + 3 x1 ) = 3 . (28,5; y 20; 0) = 1,49 - 0,01628,5 + 0,002920 = 1,091, 2 el de los fumadores cones un ndice de masa corporal de 25 kg/m y un consumo de alcohol actuales de 20 g/da de la Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un Ejemplo 11.14 A partir de las estimaciones del modelo con el trmino producto de la 2 consumo de alcohol de 20 g/da es el de los fumadores actuales con un ndice de masa corporal de 25 kg/m y un de masa 2 Tabla 11.11, el nivel medio de colesterol HDL de los no fumadores con un ndice (25, y 20, 1) = 1,49 0,016 25y +un 0,0029 20 +de 0,18 - 0,010 25 1,070 consumo alcohol de 20= g/da es ndice de masa corporal de -25 kg/m 2 y un0) consumo alcohol de g/da es= 1,091, corporal de 25 Ejemplo 11.14 A partir de estimaciones del modelo con el trmino producto kg/m y (28,5; 20; = las 1,49 -de 0,016 28,5 + 20 0,0029 20 consumo de alcohol de 20 g/da es (25, 20, 1) = 1,49 - 0,01625 + 0,002920 + 0,18 - 0,01025 = 1,070 y (25, el 0,016 y 20, 0) =medio 1,49 25 + 0,0029 20 = 1,148, y elde dela los fumadores actuales con un elevado ndice dede masa corporal de 28,5 Tabla 11.11, nivel de colesterol HDL los no fumadores con un 2 el de los fumadores actuales con un ndice de masa corporal de 25 kg/m y un (28,5; 2 y 20; = 1,49 - 0,016 28,5 ++ 0,0029 = no y (25, 20, 1) = 1,49 - 0,016 25 +2 0,0029 20 0,18 -20 0,010 25 = 1,070 el de 2 los fumadores con0) un elevado ndice de masa corporal de1,091, 28,5 kg/m y un consumo y el deylos fumadores actuales con un ndice de masa corporal de 28,5 un consumo de alcohol de 20 elevado g/da es kg/m y un consumo de alcohol de 20 g/da ndice de masa corporal de 25 kg/m 2 es de alcohol de 20 g/da es y un el de los no fumadores con un elevado ndice de masa corporal de 28,5 kg/m consumo de alcohol de 20 g/da es 2 2 el de los fumadores actuales con un ndice corporal 25 kg/m un (28,5; y 20; 0) = 1,49 0,016 de 28,5 + 0,0029 20de = 1,091, y un consumo de alcohol de 20 g/da esmasa kg/m y el de los fumadores actuales con un elevado ndice de masa corporal de y 28,5 y (28,5; 1) = 1,49 0,016 28,5 + 0,0029 20 + 0,18 0,010 28,5 = consumo de 20; alcohol de 20 g/da es (25, 20, 0) = 1,49 - 0,01625 + 0,002920 = 1,148, 0,978. y (25, y 20, 1) = 1,49 - 0,016 25ndice + 0,0029 20 + 0,18 - 0,010 25 kg/m = 1,070 2 el de 2los fumadores con un de masa corporal de 25 y un consumo consumo deconsumo alcohol actuales de 20 g/da es y un de alcohol de 20 g/da es kg/m 2 y (28,5; 20; 1) = 1,49 0,016 28,5 + 0,0029 20 + 0,18 0,010 28,5 = 0,978. el los fumadores actuales con un ndice de masa corporal de 25 kg/m y un 2 dede alcohol de 20 g/da es Tomando como referencia con a los sujetos nondice fumadores concorporal un ndice de masa y un el de los no fumadores un elevado de masa de 28,5 kg/m 53 y el de los fumadores actuales con un elevado ndice de masa corporal de 28,5 y (25, 20, 1) 1,49 0,016 25 + = 1,070 (28,5; y 1) == 1,49 0,016 28,5 +0,0029 0,002920 20+ +0,18 0,18 -0,010 0,01025 28,5 = 0,978. consumo de 20; alcohol de 20-g/da es 2 Tomando como referencia a los sujetos no fumadores con un ndice de masa , los no fumadores con un elevado ndice de masa corporal corporal de 25 kg/m consumo de alcohol de 20 g/da es 2 y el de los actuales con y unfumadores consumo de alcohol de un 20elevado g/da esndice de masa corporal de 28,5 kg/m2 y un kg/m 2 2 consumo de alcohol de 20 g/da es y el de y los fumadores actuales con un + elevado de masa corporal de 28,5 kg/m (25, 20, 1) = - 0,016 25 0,0029 20 + 0,18 0,010 = 1,070 , 1,49 los no fumadores con un elevado ndice de25 masa corporal corporal de 25 kg/m presentan una disminucin en landice media del colesterol HDL de de 28,5 Tomando como referencia a los sujetos no fumadores con un ndice de masa 53 2(28,5; 20; y 1) = 21,49 0,016 28,5 + 0,0029 20 + 0,18 0,010 28,5 = 0,978. 2 kg/m y kg/m un alcohol de 20 g/da presentan una fumadores disminucin enes la elevado media del colesterol HDL de de 28,5 ,de los con un ndice de masa corporal corporal de consumo 25y kg/m (25, (28,5; 20; no 0) - con y 20, 0) = 1,091 - de 1,148 = corporal -0,057, y el de los fumadores actuales un elevado ndice masa de 28,5 Tomando como referencia a los sujetos no fumadores con un ndice de masa corporal de 2 2 no fumadores con un elevado ndice de masa corporal de 28,5 kg/m2 25 28,5 kg/m ,como los Tomando referencia a los sujetos fumadores con un ndice de masa presentan una disminucin en media del colesterol HDL de kg/m 2(28,5; y 20; 1) = 1,49 -0) 0,016 28,5 +no 0,0029 20 +- 0,18 - 0,010 28,5 = 0,978. (28,5; de y 20; - y (25, 20, 0) =la 1,091 1,148 = -0,057, y un consumo de alcohol 20 g/da es kg/m presentan una disminucin la media del colesterol HDL de de 25 kg/m2 de los fumadores actuales con en el mismo ndice de masa corporal corporal de 25 kg/m2, los no fumadores con un elevado ndice de masa corporal (28,5; 20; 0) y (25, 20, 0) = 1,091 1,148 = 0,057, y 2 Tomando como referencia a los sujetos fumadores con un ndice de = masa de los fumadores actuales con el mismo de masa de 25 kg/m (28,5; y 20; 1) = 1,49 0,016 28,5ndice +no 0,0029 20 + corporal 0,18 0,010 28,5 0,978. 2 y (25, 20, 1) - y (25, 20, 0) = 1,070 - 1,148 = -0,078 una disminucin en de la media del colesterol de kg/m presentan los28,5 fumadores actuales con el mismo ndice masa corporal de 25 HDL kg/m2de de 2 no con de un masa elevado ndicede de25 masa corporal corporal de 25 actuales kg/m2, los de los fumadores con elfumadores mismo ndice corporal kg/m y (25, 20, 1) y (25, 20, 0) = 1,070 1,148 = 0,078 Tomando como referencia a los sujetos no fumadores con un ndice de masa y los fumadores actuales de masa corporal de 28,5 kg/m2 de (28,5; elevado 20;con 0) -un y (25, 20, ndice 0) = 1,091 - 1,148 = -0,057, 2y una en la media del colesterol de 2 de de 28,5 kg/m presentan y los fumadores actuales condisminucin un elevado ndice de masa corporal de HDL 28,5 kg/m 2 20, 1) - y y (25, (25, 20, 0) = 1,070 1,148 = -0,078 , los con no fumadores con un elevado de de masa corporal corporal de 25 kg/m y los fumadores actuales un ndice de masandice corporal 28,5 kg/m2 de (28,5; elevado y 20; 1) y (25, 20, 0) = 0,978 1,148 = 0,170. 2 los fumadores actuales con0) el-mismo de masa-corporal 25 kg/m de (25, ndice 2y (28,5; 20; y 20, 0) = 1,091 1,148 = de -0,057, presentan una disminucin en la media del colesterol de 2 de de 28,5 kg/m y losla fumadores actuales con un ndice de masa corporal de HDL 28,5 kg/m As, disminucin media del colesterol de 0,170 mmol/l debida conjuntamente a (28,5; elevado y 20; 1) y (25, 20, HDL 0) = 0,978 - 1,148 = -0,170. As, la y disminucin del colesterol HDL demayor -0,170 mmol/l debida que la suma de (25, fumar aumentar elmedia ndice de masa corporal es en valor absoluto y 20, 1) - y (25, 20, 0) = 1,070 - 1,148 = -0,078 2 los actuales conel mismo ndice = de masa corporal de 25 kg/m y 20; 20, 1,091 1,148 -0,057, las fumadores disminuciones 0,057 = 0,135 cada factor de por separado. (28,5; (25, y (28,5; 20; 0) 1) 0,078 - y y (25, 20, 0) 0) =mmol/l 0,978 - debidas 1,148 = =a -0,170. As, la disminucin media del estudio colesterol HDL -0,170 mmol/l conjuntamente a fumar y aumentar el EURAMIC ndice dede masa corporal es debida mayor en valor En otras palabras, los datos del apuntan a un posible efecto supraaditivo 2 deHDL. y los fumadores actuales con un elevado ndice de masa corporal de 28,5 kg/m 2 o sinrgico del ndice de masa corporal y el tabaco sobre los niveles de colesterol y (25, 20, 1) y (25, 20, 0) = 1,070 1,148 = -0,078 de los fumadores actuales con el mismo ndice de masa corporal de 25 kg/m conjuntamente fumar aumentar el ndice dede masa corporal esdebida mayor en debidas valor absoluto que la a suma deylas disminuciones -0,057 - 0,078 = -0,135 mmol/l As, la disminucin media del colesterol HDL -0,170 mmol/l (28,5; 20; 1) - y (25, 20, 0) = 0,978 - 1,148 = -0,170. y 2 y los fumadores actuales con elevado ndice de corporal de 28,5 kg/m absoluto que por la a suma de disminuciones -0,057 -masa == -0,135 mmol/l debidas a cada factor separado. palabras, los datos del estudio EURAMIC conjuntamente fumar ylas aumentar el ndice de masa corporal es mayor en valorde otras y (25, 20, 1)En - un y (25, 20, 0) = 1,070 -0,078 1,148 -0,078 As, la factor disminucin media del colesterol de -0,170 mmol/l debida a cada por separado. En otras los datos del EURAMIC apuntan a un la posible efecto supraaditivo o ndice de masa corporal y absoluto que de las disminuciones -0,057 - 0,078 =estudio -0,135 mmol/l debidas suma elevado y (28,5; 20; 1) y (25,palabras, 20, HDL 0)sinrgico = 0,978 -del 1,148 = -0,170. y los fumadores actuales con un ndice de masa corporal de 28,5 kg/m2 de conjuntamente a fumar y aumentar ndice de masa corporal es en valor y apuntan asobre un por posible efecto supraaditivo o sinrgico del ndice demayor masa corporal el tabaco los niveles de colesterol HDL. a cada factor separado. En otrasel palabras, los datos del estudio EURAMIC As, la disminucin media del colesterol HDL de -0,170 mmol/l debida (28,5; 20; 1) - y (25, 20, 0) = 0,978 - 1,148 = -0,170. y absoluto que suma de lasde disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas el tabaco sobre los niveles colesterol HDL. Pastor-Barriuso R. apuntan a un la posible efecto supraaditivo o sinrgico del ndice de masa corporal y conjuntamente a fumar y aumentar el ndice de masa corporal es mayor en valor As, la factor disminucin media del colesterol HDLlos de datos -0,170 mmol/l debida a por separado. Encolesterol otras palabras, del estudio EURAMIC elcada tabaco sobre los niveles de HDL. 54 absoluto que la suma de las disminuciones -0,057 - 0,078 = -0,135 mmol/l debidas
227
MLTIPLE Segn la estructura de la regresin lineal mltiple presentada en el Apartado 11.2, cada media 0 y varianza constante 2. Estas n ecuaciones lineales pueden reescribirse en 11.8 APNDICE: FORMULACIN MATRICIAL LA REGRESIN LINEAL xDE relacin11.2, lineal una de las n observaciones independientes (yi, xi1, , Segn la estructura de la regresin lineal mltiple presentada en el la Apartado cada Regresin lineal mltiple ip) presenta forma matricial como MLTIPLE una de las n observaciones independientes (yi, xi1, , xip) presenta la relacin lineal i = 1, , n, yi = 0 + 1 xi1 + + p xip + i, 1 x x y REGRESIN 1 11.8 APNDICE: FORMULACIN MATRICIAL DE LA LINEAL 11 1p 1 0 Segn la estructura de la regresin lineal mltiple presentada en el Apartado 11.2, cada MLTIPLE yi = i = 1, , n, 0 + 1 xi 1 + + p xip + i , independientes donde los errores aleatorios y estn distribuidos normalmente con i son 1 + = la relacin lineal una la deestructura las n observaciones independientes (yi, xpresentada Segn de la regresin lineal mltiple en el Apartado 11.2, cada una de i1, , ) presenta xip son 2 donde los errores aleatorios independientes y estn distribuidos normalmente Estas n ecuaciones lineales pueden reescribirse en con 0 y varianza constante i . , x , , x ) presenta la relacin lineal las media n observaciones independientes ( y ip i i1 p 1+ x n1+ x i yn 1x , i= , n, yi = n 1, 0 + 1 p xip +np 2i media 0 y varianza constante . Estas n ecuaciones lineales pueden reescribirse en forma matricial como donde los errores aleatorios i son independientes y estn distribuidos normalmente con media los constante errores aleatorios i n son independientes y estn distribuidos normalmente con ecuaciones lineales pueden reescribirse en forma matricial 0 ydonde varianza 2. Estas forma matricial como o, abreviadamente, 1 y1 1 x11 x1 p como 0 2 pueden . Estas n ecuaciones lineales reescribirse en media 0 y varianza constante 1 x y = y X + x1 1 1 11 p, 1 = 0 + forma matricial como 1 donde y es un vector n 1 con los valores de la variable respuesta, X es una matriz de = + p 1 x x y 1 n np n n 1 x11 x1 p y1 1 dimensin n (p + 1) cuyas columnas son los valores de cada variable explicativa ms p 0 1 x n1 x np n yn o, abreviadamente, con 1 1 coeficientes de los es un vector ( p + 1) una primera columna de unos, + = o, abreviadamente, o, abreviadamente, y = X + , p El n 1 con los errores aleatorios. vector de errores aleatorios regresin y es un vector n 1 x n1 x np yn donde y es un vector n 1 con los valores de laX variable y= + , respuesta, X es una matriz de dimensin es uncolumnas vector 1 con losnormal valores de la variable respuesta, una matriz de sigue entonces una n distribucin multivariante con mediams 0X y es matriz diagonal n donde (p + 1)y cuyas son los valores de cada variable explicativa una primera columna de unos, es un vector (p + 1) 1 con los coeficientes de regresin y es un vector n 1 con o, abreviadamente, asuncin de homogeneidad 2 de la varianza, todas las varianzas de la diagonal de la y aleatorios. es n un 1 valores de variable X es una matrizms de los donde errores de errores aleatorios sigue entonces una distribucin normal dimensin vector (p + El 1)nvector cuyas columnas son losla valores derespuesta, cada variable explicativa con I , los de varianzas-covarianzas 2 multivariante con media 0 y matriz diagonal de varianzas-covarianzas I, 2 matriz de varianzas-covarianzas son iguales a+ y = X ,y que, por tratarse de observaciones dimensin n ( p + 1) cuyas columnas son los valores de cada variable explicativa de ms una primera columna de unos, es un vector (p 2+ 1) 1 con los coeficientes ~ N(0, I), independientes, las covarianzas de fuera de la diagonal son iguales a cero. donde y es vector n unos, 1ncon los valores de sus la variable X es matriz de la donde denota el vector nulo n1 1 todos iguales a una cero e I denota escon un vector ( paleatorios. +componentes 1) 1 respuesta, con coeficientes de una 0 primera de columna es un vector con los errores El los vector de errores aleatorios regresin y un donde 0 denota eln vector nulo n matricial 1 con todos sus componentes amltiple, cero e la I denota matriz identidad con unos en la diagonal y modelo ceros fuera de ella.iguales Notar por asuncin A partir den esta formulacin del de regresin linealque, resulta de homogeneidad la varianza, todas las varianzas de la diagonal de lamatriz matriz de varianzasdimensin (de p + 1) cuyas columnas son los valores de cada variable explicativa ms es un vector n 1 con los errores aleatorios. El vector errores aleatorios regresin yn sigue entonces una distribucin normal multivariante con media 0 de y diagonal 2 y que, por tratarse de observaciones independientes, las covarianzas covarianzas son iguales a la matriz identidad n n con unos en la diagonal y ceros fuera de ella. Notar que, por sencillo calcular las estimaciones de los coeficientes de regresin por el mtodo de la de fuera deentonces la diagonal cero. un vector (p + 1) 1 con los coeficientes una primera columna de iguales unos, sigue unason distribucin normal multivariante con media 0 y matriz de diagonal 2I, aes de varianzas-covarianzas 55 mnimos cuadrados. En el Apartado se comprob quelineal estas mltiple, estimaciones vienen A partir de esta formulacin matricial11.3.1, del modelo de regresin resulta sencillo 2 n aleatorios. Elmtodo vector de errores aleatorios regresin y es un vector I ,1 con los errores de varianzas-covarianzas calcular las estimaciones de los coeficientes de regresin por el mnimos cuadrados. ~N (0, 2I), por la solucin al comprob sistema de que p+1 ecuaciones lineales En dadas el Apartado 11.3.1, se estas estimaciones vienen dadas por la solucin al sigue una distribucin con media 0 y matriz diagonal sistema de entonces p + 1 ecuaciones lineales normal multivariante 2 ~ N(0, I), donde 0 denota el vectorn nulo n 1 con n todos sus componentes iguales a cero e I denota n 2 , nb0 + b1 x i1 + ... + b p x ip , de varianzas-covarianzas y i I= = = 1 1 i i =1 fuera de donde 0 denota el vector nulounos n1 con todos susycomponentes iguales a cero e I denota la matriz identidad n n con en la i diagonal ceros ella. Notar que, por la n n n n 2 x i1 y i = b0 x +N b( x2 + ... + b p x i1 x ip , 10 i1 i1 ~ , I), 55 la matriz identidad n i en y ceros fuera i =1 de ella. Notar que, por la 1 la diagonal =1 n con unos i =1 i= n n n n 55 2 donde 0 denota el vector nulo 1 con todos sus componentes iguales a cero e I denota y i =n b xip 0 x ip + b1 x i1 x ip + ... + b p x ip ,
i =1 i =1 i =1 i =1
la matriz identidad n n con unos en la diagonal y ceros fuera de ella. Notar que, por la que puede representarse matricialmente como
1 x Pastor-Barriuso 11R. x1 p y 1 1 1 x n1 = x11 x np x1 p y 1 x11 x1 p 1 b0 b x n1 1 b x np 1 x x p
55
228
2 y i = b0 x ip + b1 x i1 x ip + ... + b p x ip , i =1 i =1 Apndice: formulacin i =1matricial de la regresin lineal mltiple i =1 matricialmente que puede representarse como
i =1 n
ip
i =1 n
i =1 n
i =1 n
ecuacin anterior por la matriz inversa (XX)-1, se obtienen las estimaciones de los que puede representarse matricialmente como 1 x11 x1 p y1 1 1 1 1 b0 quecoeficientes puede representarse matricialmente como de regresin x b x n1 x11 x n1 11 x x 1 1 p = y 11 1 1 1 1 b0 b1 1 -1 = (XX) Xy. x x np x11 x np b1 x x 11 n1 n1 -1 p p p blos 1 x1 y x1 estimaciones = X X ) , se obtienen las de ecuacin anterior por la matriz inversa ( x x 1 n np n b Deesta formula matricial que los estimadores se desprende de mnimos cuadrados b x -1 x x x inversa las estimaciones los 1 p anterior 1 p(XX) , se obtienen coeficientes de regresin np p np de ecuacin por la matriz x n y los 1 x n1 y, o, abreviadamente, cuyosnpcoeficientes son combinaciones lineales de valores de la variable respuesta o, abreviadamente, coeficientes de regresin b = (XX)-1 Xy. dependen de los valores de las variables explicativas o, abreviadamente, Xy = XXb, X que se asumen constantes. En =es (suficientemente X X ) los Xy .(p + 1) donde X' esta es laformula matriz dedesprende X yb el vector 1de con las estimaciones De matricial se que estimadores mnimos cuadrados b los consecuencia, si el traspuesta tamao muestral nbes grande, puede aplicarse unade y es =X Xb , (p donde X es la matriz traspuesta de X X y b elmltiple vector + 1) 1 con estimaciones coeficientes. Como el modelo de regresin lineal asume que las las variables explicativas sonecuacin linealmente independientes ylos que el lmite dedemostrar observaciones n, estimadores es superior o igual y cuyos coeficientes son combinaciones lineales de valores de la variable respuesta XX )-1 ,los se obtienen las estimaciones de los anterior la matriz inversa (nmero b generalizacin delpor teorema central del para que los b al De esta formula matricial se desprende que estimadores de mnimos cuadrados nmero de coeficientes p + 1, la matriz X tiene rango p + 1 y, en consecuencia, la matriz de los coeficientes. Como el modelo regresin lineal las donde X es la matriz traspuesta de Xde yb es el vector (p mltiple + 1) 1 asume con lasque estimaciones cuadrada X ' X es no singular. Multiplicando ambos lados de la ecuacin anterior por la matriz X que se asumen constantes. En dependen de los valores de las variables explicativas siguen aproximadamente una normal multivariante con coeficientes de regresin y, media cuyos coeficientes son combinaciones lineales dedistribucin los valores de la variable respuesta 1 variables son linealmente independientes y mltiple que el nmero observaciones las de los coeficientes de regresin inversa (X 'Xexplicativas ) , se obtienen de los coeficientes. Como el estimaciones modelo de regresin lineal asumede que las consecuencia, si el tamao muestral n es suficientemente grande, puede aplicarse -1 -1 que se asumen constantes.una 1 X En dependen de los valores de las variables explicativas ) = E{(de XX )b X yX } = E{( X X (X + )} E (b = ( X) X+ y .X) X tiene rango p + 1 y, en n es superior o igual al nmero coeficientes p 1, la matriz variables explicativas son linealmente independientes y que el nmero de observaciones b generalizacin del teorema central del lmite para demostrar que los estimadores De esta formula matricial se desprende que los estimadores de mnimos cuadrados consecuencia, si el tamao n es grande, puede aplicarse una b son + (X X )-1 Xsuficientemente E ( ) los = estimadores =muestral X X es no singular. Multiplicando ambos lados de consecuencia, la matriz cuadrada b De esta formula matricial se desprende que de mnimos cuadrados combinaciones lineales de los valores de la variable respuesta y , cuyos coeficientes dependen en n es superior o igual al nmero de coeficientes p + 1, la matriz X tiene rango p + 1 y,la siguen aproximadamente una distribucin normal multivariante con media de los valores de las variables X que se asumen constantes. En consecuencia, si el b generalizacin del teorema explicativas central del lmite para demostrar que los estimadores y , cuyos coeficientes son combinaciones lineales de los valores de la variable respuesta tamao muestral n es suficientemente grande, puede aplicarse una generalizacin del teorema y matriz de varianzas-covarianzas consecuencia, la matriz cuadrada XX es no singular. Multiplicando ambos lados de la central del aproximadamente lmite para demostrar que los estimadores b siguen una distribucin -1 siguen distribucin multivariante 56 =E {( X X) Xy}normal = E{( X X)-1 Xaproximadamente (X + con )} media E(b) una X que se asumen constantes. En dependen de los valores de las variables explicativas normal multivariante con media var(b) = E{(b - )(b - )} = E{(XX)-1 X X(XX)-1 } 1 -1 {( +X (X X )XX } E( ) E X )n y = E= {( XX)1 X (X + puede )} E(b) =muestral consecuencia, si el tamao es suficientemente aplicarse una 56 -1 -1 grande, 2 -1 X ( X X ) = ( X X ) X ( I ) X ( X X ) = (XX)-1 XE( ) = + (XX)1 XE( ) = generalizacin del teorema central del lmite para demostrar que los estimadores b y matriz de varianzas-covarianzas = 2 (XX)-1 , y matriz de varianzas-covarianzas siguen aproximadamente una distribucin normal multivariante con media y matriz de varianzas-covarianzas var(b) = E{(b )(b 2)} = E{(XX)1 X X(XX)1 } ) = I por las1asunciones de linealidad, aditividad, ya que E() = 0 y E() = var( 2 1 = (XX)1 XE(-1 )X(XX) = (X X (XX)1 -1) X( I)X -1 -1 b{( )= Xb X X y }E ={( EX {( X) XX ) X(X X( ))}} =(E bE - {( )( -)) } = X X+ X var(b) E 1 homogeneidad de la varianza e) independencia. Cada estimador de mnimos cuadrados bj = 2 (XX ,
-1
-1+ (XX)-1XE() -1 -1 2 -1 = X) X = (X= 2E()X(XX) = (XX) X( I)X(XX) ya que E ( ) = 0 y E ( ' ) = var( ) = I por las asunciones de linealidad, aditividad, homogeneidad j y es entonces un estimador insesgado de su correspondiente coeficiente de regresin es entonces un de la varianza e independencia. Cada estimador de mnimos cuadrados b 2 j )2 = var( -1 ),= I por las asunciones de linealidad, aditividad, E( (X X) = y matriz de varianzas-covarianzas y sigue aproximadamente estimador insesgado de su correspondiente coeficiente de regresin ) = 0 y ya que E ( sigue aproximadamente la distribucin normal j la distribucin normal 2 homogeneidad la varianza e independencia. Cada estimador de-1 mnimos cuadrados bj 0de yb E ( ) {( =b var( )b =- por las asunciones de linealidad, aditividad, ya que E() = var( ~ 2 ) = E )( )I } =E {(X jX )-1 X X (p X bj - N( = 0, 1, , ,X) } j , vjj ), -1 coeficiente es entonces un estimador insesgado de su correspondiente de regresin jy homogeneidad de la = varianza Cada estimador de mnimos cuadrados bkj de donde vjj es el elemento (( jX , j)-simo de matriz X X )1 . )Adems, los estimadores bjy b X)-1e Xindependencia. E( la )X (X X)-1( = '( X X X( 2I )X (X X )-1 -1 dondecoeficientes vjj es el elemento (j, j)-simo la matriz (XX) . Adems, los estimadores y 2vjk. ) j= distintos de regresin estnde correlacionados con una covarianza cov(bj, bkb sigue aproximadamente la distribucin normal Cabe destacar que estas= distribuciones no requieren de la asuncin de normalidad j y y es entonces un estimador de su correspondiente coeficiente de regresin 2 (insesgado X X)-1, muestrales de distintos coeficientes de regresin estn correlacionados con una covarianza sonbk vlidas para cualquier distribucin subyacente de la variable respuesta, siempre que el ~ 2 tamao muestral sea suficientemente grande. sigue aproximadamente labdistribucin normal j = 0, 1, , p, j N(j,2 vjj), ) = 02 y E() = var( ) = I por las asunciones de linealidad, aditividad, ya que b( cov( b j, E k) = vjk. Cabe destacar que estas distribuciones muestrales no requieren de la ~ N( , 2v ), -1 , p, j =X 0, bj j )-simo jde la matriz jj homogeneidad de la varianza e independencia. Cada estimador de mnimos cuadrados bj donde vjj es el elemento (j, (X )1, . Adems, los estimadores bj y57
y es estimador de correspondiente coeficiente de regresin b de distintos coeficientes regresin estn correlacionados con los unaestimadores covarianza bk entonces donde vjj es un el elemento (jinsesgado , jde )-simo de su la matriz (XX)-1. Adems, j jy Pastor-Barriuso R.
2 sigue aproximadamente distribucin normal vjk. Cabela destacar que estas distribuciones muestrales no requieren de la cov( bdistintos j, bk) = coeficientes de regresin estn correlacionados con una covarianza b k de
229
0 ) = x E( y 0 E(b) = x 0 0 = b0 + bde + + bpel x0 pvalor = x b y 1 x01 0 esperado Una vez estimados los coeficientes regresin, de la variable
y varianza respuesta Y dados unos valores fijos x = (1, x01, , x0p) de las variables explicativas que, al ser una combinacin lineal de 0 b, tambin se distribuye de forma
2 2 variable respuesta Y puede estimarse como Una vez estimados los de regresin, el valor demedia la 0 ) coeficientes )(b - )}x0 = x XX)-1x h0; y = x {(b - (esperado var( 0= aproximadamente normal en muestras suficientemente grandes, con 0E 0 dados unos valores fijos x0 = (1, x01, , x0p)' de las variables explicativas puede estimarse como
E (( y E(b) = x x0 = 00 )) y = x E 0 0 0 aproximadamente normal en muestras suficientemente grandes, con media 2 -1 -1 x b )( b ) } x = x = la 2 h0; ) = E {( var(hy 0 donde el leverage = x X X ) x es una medida estandarizada de desviacin de x0 ( 0 0 0 (XX) x0 0 0 0 y varianza 0E )=x y ) {( = bx(b E(x 1 ) 2 22 0E 0 2 )b = )( b ) } x + var( y -E y var( 0 0X 0 0)( 0 var( y ) = x E {( b )( b = x ( X )1 xEl hh y ) = var( x {( b ) } x x = 0 00 0;predicho 0= 0; 0 0 0 0 0 (XX) x 0 es y respecto valor es decir, de las medias muestrales de las variables explicativas.
0 = b + + bpx0p= x y 1x 01x 0b 0b) y = E0( + es decir, 0 E(b) = x 0 que, al ser una combinacin lineal de b, tambin se distribuye de forma aproximadamente ~, tambin normal enser muestras suficientemente conmedia que, al una combinacin linealgrandes, b se2 distribuye de forma de y 0 N( x 0 , h0 ), y varianza
2 -1 es decir, Regresin lineal mltiple {1 + respuesta x x0 } = 2 (1 + h0 ). = variable y varianza el valor esperado de la 0 (XX) Y os coeficientes de regresin, un estimador insesgado no slo de la esperanza o media ~ N( x , 2 h ), poblacional de la variable 0 y 0 0 estimarse como s x0 = (1, x01, , x0p)' de las variables explicativas puede ) = x b )( b ) }x0 + var( ) y y E {( var( 0 0 Una vez 0 estimados los coeficientes de esperado de la variable respuesta 2 regresin, -1 0 el valor 2 1 0 = b0 donde x +b +leverage + b x b y el h = ( X ' X ) x es una medida estandarizada de la desviacin de x b )( b ) } x = x X X ) x normal h0; y0 (asuncin y ) = E {( ( xel ,var( sino tambin de la respuesta individual de un nuevo sujeto = xx respecto + 0 respuesta 1x01 p 0 p0 = 0 0= Si adems error de la nueva observacin se distribuye de forma 0 0 0 0 0 0 00 0 = (1, x , , x ) ' de las variables explicativas puede estimarse com dados unos valores fijos x Una vez estimados los muestrales coeficientes delas regresin, el valor esperado la variable respuesta Y estimador 0 explicativas. 01 0pde -1 es un de las medias de variables El valor predicho donde el leverage h = x X X ) x es de la desviacin de x ( 0 2 una medida estandarizada -1 2 0 0 0 0 (1,la x01 , ,de x0p) 'o de las variables explicativas puede estimarse como dados unos valores fijos x nacin lineal de b, tambin se distribuye forma aproximadamente {1 + x X )de x0 }x = (1 + h (X = 0 ). 0 0= + b + + b x = x b y = b , sino tambin insesgado no slo de esperanza media poblacional la variable respuesta 0 1 01 p 0 p 0 0 de que normalidad), la diferencia y 0 - y0 tambin seguir la distribucin normal ya ficientemente grandes, con media 0 = b0 + un b1xnuevo + bp x 0 b + 0 ya que y = x de es la decir, respuesta individual de sujeto y 01 + p= forma 0una respecto de las medias muestrales de las variables explicativas. El valor predicho )= x -0 )(b 0- ) } x,0 tambin + var( y - y0combinacin {(b var( que, al ser lineal de b distribuye dey aproximadamen 0 )se 0E 0 es 0 Si E ( x E ( b ) = x y ) = adems el error de la nueva observacin se distribuye de forma normal (asuncin 0 0 0 2 x normal muestras suficientemente grandes, media que, al ser una combinacin lineal ,E tambin distribuye de forma aproximadamente 0 en = {y b ) 0 )E ( 0 ) = 0. E (y y (b ~se de con 2 0 )b 00 x ~ N (0, =(1 + h )). y0 0y } ( hE 0),0 0 2 N( x 0 , -1 2 normal en muestras suficientemente grandes, con media un estimador insesgado no slo = dela{1 esperanza o) media poblacional de la variable + x } (1 +)h 0 ). 0 (XX 0 E( x E(b = x y )= = Como el valor predicho 0 no depende nueva observacin yx de esta diferencia es 0la 0 0 -de tambin seguir distribucin normal y y0 la de normalidad), la diferencia 0,0la varianza 1 E ( x E ( b ) = x y ) = 2 2 0=una 0 Como el valor predicho la varianza de esta y depende de la nueva observacin y -1 0 ) = x (y b En )el } xleverage = ,particular X tambin X x h ; el caso de nica variable todos los resultados 0 00 00 x sino de respuesta individual de un nuevo sujeto y0 = x + 0 respuesta 0 E{(b )( 0 (h = xes b )(explicativa, b estandarizada )}x var( 0 )0, la y {( var( no donde =) xy X x0 medida de desviacin x0 0 0de 0 ) la 0 + 0 Euna yx varianza 0 00(X Si adems el error se distribuye de forma normal (asuncin 0 de la nueva observacin 2 1 2 y varianza N (0, (1 + h y -2 y0y 2 = + XX ) } + ( 0 )). 0 0 0 ). 0 ~ var({1 )( b= )(1 }x0 =h x (XX) 1x0 = 2h0; =xx x anteriores se reducen a los obtenidos en regresin simple (vase Apartados diferencia es 0) 0 E{(blineal 0 ya que 0 es ~ 2 medias muestrales de las variables respecto de las El valor predicho y 1 2 Si N( x ,y y var( x Ede {(bla )(b )observacin x = 2 x Xdistribuye ) explicativas. x0 la = h0de ; forma = 0 seguir distribucin normal y -} y de normalidad), la 0 0 0 ), 0 )h 0 (X 00 tambin adems el error 00diferencia nueva se normal (asuncin de es decir, 10.3.1, 10.3.3 y 10.3.4). As, se tiene que y tambin seguir la distribucin normal normalidad), la diferencia En el caso particular de una nica variable explicativa, todos los resultados 1 0 0 x0'(X 'Xdecir, ) x0 es una medida estandarizada de x0 respecto ~ 2 es un estimador insesgado no slo la esperanza o media de 0 -de =desviacin E{de x b poblacional -N ()x-0 E = y0)la E( y ( , ),la variable y 0) h 0 0. 0 ( b - ) - 0 } = x 00E( 58 Si adems el error de la nueva observacin se distribuye de forma normal (asuncin 2 0 es un estimador les de las variables explicativas. El valor predicho ~ 2 0 ~N (1 + h0 )). y0 Ny (0x h(0, y 0 0 , 0 ), 1 1 anteriores se reducen a los obtenidos en regresin lineal simple (vase Apartados ,xsino donde el leverage h0 respuesta =x x'0 (X 'X ) tambin x0 es y una medida estandarizada de la desviacin de x0 respect esperanza o mediarespuesta poblacional de la variable respuesta 0' x , sino tambin de n la de un nuevo sujeto y0 = x b i individual i 0 0 0 + 0 se 1 En el caso particular de una nica variable explicativa, todos los resultados anteriores tambin seguir la distribucin normal ydepende de normalidad), diferencia bx =0medias = no de las muestrales las variables explicativas. El valor predicho ual de un nuevo sujeto y0 el '0 + la que donde el leverage h = valor x0 '( X 'predicho X ) es una medida estandarizada de la x 0 desviacin Como la varianza de esta 0 es un estimado y de la nueva observacin y0,de 0 - y0 2 0 ya 0 respecto x i lineal x isimple x i y i Apartados b1 de 10.3.1, 10.3.3 y las 10.3.4). As, tiene que reducen los obtenidos regresin (vase 10.3.1, 10.3.3respuesta y 10.3.4). en se El valor Enael caso particular una nica variable explicativa, todos los resultados insesgado no slo de la esperanza o media poblacional de la variable x'0 , sino tambi un estimador de las medias muestrales de variables explicativas. predicho 0 es ya que 0 y ) = E { x b ) } = x b ) E ( ) = 0. ( E ( y As, se tiene que 2 0 0 0 individual de un nuevo sujeto y0 x''00 , sino + ya tambin que insesgado0 no slo de la esperanza o media poblacional de la variable respuesta x x2 x i= x diferencia es 0de la respuesta i (1 i i yi 0 0 1 N(0, +yh y - yen 0 ~regresin 0)). = , 1 anteriores se reducen a los obtenidos lineal simple (vase Apartados de la respuesta individual de un nuevo sujeto y0de = esta x'0 diferencia +0 ya que 2 0 no depende de la nueva observacin y ,b la varianza es n x y i ) xi } yi nE y n x )x (x = (b ) E( 0 ) = 0. i ib i0 ) iy (( E { x = E y 0- 0 ( 00 - 0y ) = E { x b ) } = x b- ) -0 E ( 0x ) 0= 0. E (y b = = 0 0 0 E( 2 0 x x x y b E ( ) = E { x b ) } = x b ) E ( ) = 0. y y ( E ( 0 y0 ) = x 0 0 0 0 0 0 var( y b )( b ) } x + var( ) E {( 10.3.1, 10.3.3 y 10.3.4). As, se tiene que i i i i 1 0 0 nica explicativa, nueva En el casoComo particular de0 una todos los resultados el valor predicho 0variable no depende de la observacin y0, la varianza de esta diferencia es 58 2 2 1 2 donde los sumatorios son sobre i = 1, , n . Por tanto, la estimacin de la {1 + x X ) x } = (1 + h ). (X x y x x y 0 0 Como el= valor predicho no depende de la nueva observacin y , la varianza de esta diferencia es 0 todos 1 var(de i y i0 observacin i i la i varianza de esta 0 0 Como el valor predicho y no depende la nueva 0 ) } x0 + var( 0 ) y y 0, 0) = x 0 E{(b )(b =obtenidos ,Apartados anteriores se reducen a los en regresin lineal simple (vase 2 1 n x y x y n x y b n x x ( ) de la nueva observacin se distribuye de forma normal (asuncin de 0 y0 ) = 2 i 2 i 0 ) i i 1 i) var( b i)(b }x0 + var( y E{( 0 pendiente es = i {1 b = 0x = 0 (XX) x0 } = (1 + h0 ). + x 2 seguir la distribucin normal cia 0 y0 tambin 2 1 2 xi (X xi x y i+ b1 diferencia es sumatorios i tanto, As, = 10.3.1, 10.3.3 y 10.3.4). se tiene 0 }n h0 ). {1 +x que X ) = x(1 donde todos los son sobre 1, , . Por la estimacin de la pendiente es 0 i = Si adems el error 0 de la nueva observacin se distribuye de forma normal (asuncin d 2 2 y 0 y0 donde ~ N(0,todos (1 los + hsumatorios n son sobre idistribuye = 1, , n. Por tanto, la estimacin de la 0 )). x y x 1 i i i iy i y tambin seguir lax distribucin normal normalidad), la diferencia Si adems el error de la nueva observacin se de forma normal (asuncin de 0 x )(0 0 = , ( xi 2 1 y i y ) s y x 2 yi tambin seguir la distribucin la diferencia y todos xy y ar denormalidad), una nica variable explicativa, los resultados anteriores se n x )x n n( xii=1 inormal i 58 i iy 0 y (1 + h0 )). pendiente es 0 b0= b0 = b = r N(0,i 0 ~ 1= n s en regresin lineal simple (vase Apartados 10.3.1, 10.3.3 2 y 10.3.4). 2 s xi b x y N(0, (1 x + h )). i i 1 y0 ~ 0 0 xuna x ( ) 2 x i yvariable i En el caso particular de nica explicativa, todos los resultados anteriores s =1 2. Por tanto, la estimacin de la n ii donde todos los sumatorios son sobre = 1, , n Apartados a los obtenidos lineal simple En el caso particular dereducen una nica variable explicativa, todos los anteriores se 10.3.1, 10.3.3 y 10.3.4 x x i (vase xi y 1 1 en regresin i y i resultados i x x y y ( )( ) = x y b0 reducen n a los i i ,y 10.3.4). i iregresin 2 As, se tiene que obtenidos en lineal simple (vase Apartados 10.3.1, 10.3.3 s y xi y i = = n (x i= n x i y= es i i1 x ) pendiente b1 = r 1 y la de la constante es xi x i2 estimacin x y que n tiene i i b1 As, se s 2 yi b ( xix x i= x )n 1 = 0 2 b 2 x y x x y n i y1, 1 donde b0 i =b i sumatorios i i x ii in n x i laestimacin x i y i de la todos los son sobre i1= , nx . iPor tanto, n 1 = , b = = b y x 2( x x )( y y ) y n ( x i x ) 2 n xi i2 y i ( xi i x )( y i sy ) ix xi ( ix ) 1 i i x iiy x 2 x 1 = i 1 = r y x i y i x i x i y i 230 Pastor-Barriuso R. i =1 b = i =1 1 pendiente es debla y la estimacin constante es = = y 2 n , 1x . n 2 n b y= xx x y orios son sobre i = 1, , n. Por tanto, 0la estimacin de x la pendiente es 1 2 ( i i i i)s i x x n x 2 i y i xi y i i x x ( ) = , i x) ( xi 2 n n x y x y n ( x i n x ) n i= i =1 i i i i 1 n ) todos los sumatorios son sobre i = 1, , n. Por tanto, la estimacin de la pendiente es ( xi x )( y i ydonde 2
b1 =
(x
i =1
=r
i
x)
sx
Apndice: formulacin matricial de la regresin lineal mltiple
1 y la estimacin de la constante es n xi cov(b0 , b1 ) var(b0 ) 2 b) la = = var( y la estimacin de constante es xi x i2 1 b0 n , b1 ) var(b1 ) n cov( n xi cov(b0 , b1 ) var(b0 ) 2 x y ( xi x ) 2 x (= xi y2i y ) 2 var(b) = )( x 2 x xi x i i cov(bi0=, var(b1 )i =1= 1 b1 ) i b0 = = y b1 x . , 2 n x n n x x ( ) i i 2 ( xi x ) 2 x i2 x i = 1 , i =1 x n xi x )2 (n x cov(b0 , b1 ) n2 var(b0 ) i i estimadores2 b) de = que = var( Adems, la matriz varianzas-covarianzas de estos es de donde se sigue x x b b b cov( , ) var( ) i 1 es i 0 1 1 de estos estimadores Adems, la matrizde varianzas-covarianzas n 2 x i x 2 x var(b0 ) cov(b0 , b1 ) que de donde se sigue n i i , = 22 var(b) = 2 = 2 x x i ( xi x ) ) + nn b1x 2 2 i cov(b0 , b1 ) var( x ( xi 2 = 1) x xi n 1 var(b0 ) = 2 i =n , + 2 2 2 n 2 2 x x 12 ) + 2nx n (n i sx i ( xi x ) = n x x ( ) , 59 1 x i 2 i =1 2 xi , n n ( x x ) 2+ = 1 i =n de donde se siguevar( queb0 ) = i 2 n (n 1) s x n ( x i x ) 2 de donde se sigue que 2 2 i =1 n de donde se sigue que var(b1)(= , 2 2 = n x ) + nx 2 xi (n 1 ) s 2 x 2 2 1 x2 ( x x ) 2 i =1 2 i var(b0 ) = var(b ) = = + = n 2 , 1) s 2 , 1 n 1 n i =n ( n 2 x 2 2 ( n 1 ) s n ( xx )nx) 2 x i) xi + ( ( x ix 2 i =1 1 2 x , var(b0) = 2 i =1 n i =1 2 2 x = 2 + x 2 2 n = . cov(b0, b1) = n 2 ( n 1 ) s x 1) s,2 n= ( xi x ) 2 = (n var(b1) 2 2 x n 2 x x ( ) x x i (n 1) s x i =1 = = i= . cov(b0, b1) (n xi x ) 2 1 2 (n 1) s x 2 i =1 (x x) 2 i2 2 2 = i 1 = var( b ) = x 2x , 1 Por ltimo, para un valorcov( fijob x0 de la n variable explicativa, varianza del valor predicho = . (n 1) sla 0, b1) = n 2 x 2 ( x x ) (n 1) s x x) 2 (i x i explicativa, i =1 Por variable la varianza del valor predicho 0 =ltimo, x0 es un valor fijo x0 de la y b0 + b1para i =1
1.2 MEDIDAS DE TENDENCIA CENTRAL Por ltimo, para 2 explicativa, x 2 la x varianza del valor predicho 0 = b0 + b1x0un es valor fijo x0 de la variable y . cov(b0, b1) = n 1 = 2 0 = b0 + b1x0 es n xi 2 1 1) s x (n 2 2 x ( x i medidas ) de ) = [1 x ] var( y Las central informan acerca de cul es el val tendencia la variable explicativa, la varianza del valor predicho Por ltimo, para un0 valor fijo x00de xii=1 x i 1 x 0 n x 1 i 2 0 ) = 2 [1 2x 0 ] var( y de una determinada variable o, dicho de forma equivalente, estos e 2 x x i x xi 1 0 = b0 + b1x0 es y i 0 la varianza = fijo x0 de la [1xi x 0 ] explicativa, del valor predicho Por ltimo, para un valor 2 variable x0 x2i n x) n ( x i 2 agrupan alrededor de se los datos observados. Las medid 1 x i quvalor xi n = [1 x 0 ] 1 2 2 2 0 = b0 + b1x0 es y n n x) (x xn x ) x1 (ix ) + n ( x 0x x0 2 i i i central de la muestra sirven tanto para resumir los resultados obser 0 ) = 2 (x x) x var( y [ 1 ] 1 2 1 0 , = 2 i =n = + 0 x i2 2 n x 2i 2x 0 n 1) s x 2 x1) ( xi x ) + n( x20 n ( n x ) xi ( xi realizar inferencias de poblacionales corresp ( los x ) parmetros 2 1 2 acerca 1 n 2 2 1 0 i = xi = x 1 x i+ , = 2 [1 x 0 ] i =n 0 ) = 1 = var( y 2 2 x [ 1 ] 0 (n 1) s x x 2 xi 2i n ix 0 describen ) x n n ( x i x n ( xcontinuacin 0 principales estimadores de la tenden se i x) xlos i =1 2 n 2 xi 1 donde se observa que el leverage del valor x0 x 2 i 2 = x [ 1 ] + x x n x x ( ) ( ) 0 2 2 variable. 0 i valor x donde se observa que el leverage xi n ( 0 n x) (1xi del xx x) 2 i= 21 0 0 , = el leverage del = + donde se observa que valor x0 2 2 n n ) n (n 1) s x 1 (x 2 0 x2 2 ( ) 0Media =xi+ hx +x 0) x ) 2 aritmtica n ( xi n (x 1.2.1 2 n (n 1) s x 2 2 1 ( x 0 x ) i =1 = 2 i =1 1 ( x0 x ) = n n + (n 1) s 2 , h0 = La+ 2 media aritmtica, denotada por se la define como la suma de c es una medida estandarizada de su desviacin respecto media muestral de variable 2de la x x , x ) (n 1) s x n ( x i n donde se observa que el leverage del valor x explicativa. 0 i =1 valores muestrales dividida por el nmero de observaciones realiz 60 2 x x ) 1 x( donde se observa que el leverage del valor 0 n el tamao muestral y por xi el valor observado para el sujeto h0 = por +0 Pastor-Barriuso 2 60R. 231 n (n 1) s x la media dada por ( x vendra x) 2 1 h0 = + 0 2 n (n 1) s
11.9REFERENCIAS 1. Armitage P, Berry G, Matthews JNS. Statistical Methods in Medical Research, Fourth Edition. Oxford: Blackwell Science, 2002. 2. Bickel PJ, Doksum KA. Mathematical Statistics: Basic Ideas and Selected Topics. Englewood Cliffs, NJ: Prentice Hall, 1977. 3. Casella G, Berger RL. Statistical Inference, Second Edition. Belmont, CA: Duxbury Press, 2002. 4. Draper NR, Smith H. Applied Regression Analysis, Third Edition. New York: John Wiley & Sons, 1998. 5. Kleinbaum DG, Kupper LL, Nizam A, Muller KE. Applied Regression Analysis and Other Multivariable Methods, Fourth Edition. Belmont, CA: Duxbury Press, 2008. 6. McCullagh P, Nelder JA. Generalized Linear Models, Second Edition. London: Chapman & Hall, 1989. 7. Pea D. Estadstica: Modelos y Mtodos, Volumen 2, Modelos Lineales y Series Temporales. Madrid: Alianza Editorial, 1987. 8. Rosner B. Fundamentals of Biostatistics, Sixth Edition. Belmont, CA: Duxbury Press, 2006. 9. Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, Third Edition. Philadelphia: Lippincott Williams & Wilkins, 2008. 10. Seber GAF, Lee AJ. Linear Regression Analysis, Second Edition. New York: John Wiley & Sons, 2003. 11. Snedecor GW, Cochran WG. Statistical Methods, Eighth Edition. Ames, IA: Iowa State University Press, 1989. 12. Stuart A, Ord JK, Arnold S. Kendalls Advanced Theory of Statistics, Volume 2A, Classical Inference and the Linear Model, Sixth Edition. London: Edward Arnold, 1999. 13. Weisberg S. Applied Linear Regression, Third Edition. New York: John Wiley & Sons, 2005.
232
Pastor-Barriuso R.
APNDICE TABLAS ESTADSTICAS
Pastor-Barriuso R.
233
Tablas estadsticas
n k nk Tabla 1 1 Probabilidades ladistribucin distribucin binomial X con para la binomial X con Tabla Probabilidades P(X = k) = k (1 ) para parmetros n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.* parmetros n = 2, 3, ..., 20 y = 0,05, 0,10, ..., 0,50.*
n
2
k
0 1 2 0
0,05
0,10
0,15
0,20
0,25 0,30
0,35
0,40
0,45
0,50
n 2
1 0 2
1 2 0 3 1
0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000 0,0025 0,0225 0,6400 0,0400 0,5625 0,0625 0,4900 0,0900 0,4225 0,1225 0,3600 0,1600 0,3025 0,2025 0,2500 0,2500 0,9025 0,0100 0,8100 0,7225 0,8574 0,0025 0,1354 0,0071 0,8574 0,0001 0,1354 0,8145 0,0001 0,1715 0,0135 0,8145 0,0005 0,1715 0,0135 0,0000 0,7738 0,0000 0,2036 0,7738 0,0214 0,2036 0,0011 0,0214 0,0000 0,0011 0,0000
0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250 0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500
0,2430 0,0270 0,7290 0,0010 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4084 0,3750 0,0574 0,0960 0,4219 0,1406 0,3430 0,1890 0,2746 0,2389 0,2160 0,2880 0,1664 0,3341 0,1250 0,3750 0,6141 0,5120 0,0034 0,3840 0,0080 0,4219 0,0156 0,4410 0,0270 0,4436 0,0429 0,4320 0,0640 0,4084 0,0911 0,3750 0,1250 0,3251
3
4
2 0 3
1 2 0 3 1 2 4
0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750 0,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625 0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250
0,2916 0,0486 0,6561 0,0036 0,2916 0,0486 0,0001 0,3281 0,5905 0,0729 0,3281 0,0081 0,0729 0,0005 0,0081 0,0000
3 0 4 0 2 1 3 2 4 3 5 4 5 0
1 1
0,0005 0,0036 0,0115 0,0256 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500 0,5905 0,4437 0,0016 0,3277 0,0039 0,2373 0,0081 0,1681 0,0150 0,1160 0,0256 0,0778 0,0410 0,0503 0,0625 0,0313 0,0001 0,0005
0,3915
0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500 0,0975 0,1536 0,3164 0,2109 0,2401 0,2646 0,1785 0,3105 0,1296 0,3456 0,0915 0,3675 0,0625 0,3750 0,5220 0,4096 0,0115 0,4096 0,0256 0,4219 0,0469 0,4116 0,0756 0,3845 0,1115 0,3456 0,1536 0,2995 0,2005 0,2500 0,2500 0,3685 0,0975 0,0005 0,1536 0,0016 0,2109 0,0039 0,2646 0,0081 0,3105 0,0150 0,3456 0,0256 0,3675 0,0410 0,3750 0,0625 0,4096 0,3955 0,3602 0,3124 0,2592 0,2059 0,1563
0,4437 0,1382 0,3915 0,0244 0,1382 0,0022 0,0244 0,0001 0,0000 0,0005 0,0022 0,0000 0,5314 0,0000 0,0001 0,7351 0,3771
0,2321 0,7351 0,0305 0,2321 0,0021 0,0305 0,0001 0,0021 0,0000 0,0001 0,0000 0,0000 0,6983 0,2573 0,6983 0,0406 0,2573 0,0406 0,0036 0,0036 0,0002 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,6634 0,6634 0,2793 0,2793 0,0515 0,0515 0,0054 0,0054 0,0004 0,0004 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,3277 0,2048 0,4096 0,0512 0,2048 0,0064 0,0512 0,0003 0,0064 0,0003 0,2621 0,2621 0,2458 0,3932 0,0819 0,2458 0,0154 0,0819 0,0015 0,0154 0,0001 0,0015 0,0001
0,2097 0,3670 0,2097 0,2753 0,3670 0,2753 0,1147 0,1147 0,0287 0,0287 0,0043 0,0043 0,0004 0,0004 0,0000 0,0000 0,3932
0,2373 0,2637 0,3955 0,0879 0,2637 0,0146 0,0879 0,0010 0,0146 0,0010 0,1780
0,3560
0,1681 0,3087 0,3602 0,1323 0,3087 0,0284 0,1323 0,0024 0,0284 0,0024 0,1176
0,3025
0,1160 0,3364 0,3124 0,1811 0,3364 0,0488 0,1811 0,0053 0,0488 0,0053 0,0754
0,2437
0,0778 0,3456 0,2592 0,2304 0,3456 0,0768 0,2304 0,0102 0,0768 0,0102 0,0467
0,1866
0,0503 0,3369 0,0313 0,3125 0,2059 0,1563 0,2757 0,3125 0,3369 0,1128 0,3125 0,1563 0,2757 0,3125 0,0185 0,0313 0,1128 0,1563 0,0185 0,0277 0,0313 0,0156
0,1359 0,0938
0 2 1 3 2 4 3 5 4 6 5 6
0 1 0 2 1 2 3 3 4 4 5 5 6 6 7 7 0
0,3771 0,1762 0,3993 0,0415 0,1762 0,0055 0,0415 0,0004 0,0055 0,0000 0,0004 0,0000 0,0000 0,0000
0,4783 0,3720 0,4783 0,1240 0,3720 0,1240 0,0230 0,0230 0,0026 0,0026 0,0002 0,0002 0,0000 0,0000 0,0000 0,0000 0,3206 0,3960 0,3206 0,2097 0,3960 0,2097 0,0617 0,0617 0,0109 0,0109 0,0012 0,0012 0,0001 0,0001 0,0000 0,0000
0,3543 0,5314 0,0984 0,3543 0,0146 0,0984 0,0012 0,0146 0,0001 0,0012 0,0000 0,0001
0,3993
0,1780 0,2966 0,3560 0,1318 0,2966 0,0330 0,1318 0,0044 0,0330 0,0002 0,0044 0,0002
0,1335 0,3115 0,1335 0,3115 0,3115 0,3115 0,1730 0,1730 0,0577 0,0577 0,0115 0,0115 0,0013 0,0013 0,0001 0,0001 0,1001
0,1176 0,3241 0,3025 0,1852 0,3241 0,0595 0,1852 0,0102 0,0595 0,0007 0,0102 0,0007
0,0824 0,2471 0,0824 0,3177 0,2471 0,3177 0,2269 0,2269 0,0972 0,0972 0,0250 0,0250 0,0036 0,0036 0,0002 0,0002 0,0576
0,0754 0,3280 0,2437 0,2355 0,3280 0,0951 0,2355 0,0205 0,0951 0,0018 0,0205 0,0018
0,0490 0,1848 0,0490 0,2985 0,1848 0,2985 0,2679 0,2679 0,1442 0,1442 0,0466 0,0466 0,0084 0,0084 0,0006 0,0006 0,0319
0,0467 0,3110 0,1866 0,2765 0,3110 0,1382 0,2765 0,0369 0,1382 0,0041 0,0369 0,0041
0,0280 0,1306 0,0280 0,2613 0,1306 0,2613 0,2903 0,2903 0,1935 0,1935 0,0774 0,0774 0,0172 0,0172 0,0016 0,0016 0,0168
0,0277 0,0156 0,2780 0,2344 0,1359 0,0938 0,3032 0,3125 0,2780 0,2344 0,1861 0,3125 0,2344 0,3032 0,0609 0,2344 0,0938 0,1861 0,0083 0,0938 0,0156 0,0609 0,0083 0,0156
0,0152 0,0078 0,0872 0,0078 0,0547 0,0152 0,2140 0,0547 0,1641 0,0872 0,2140 0,2918 0,1641 0,2734 0,2918 0,2734 0,2388 0,2734 0,2388 0,1172 0,2734 0,1641 0,1172 0,1641 0,0320 0,0547 0,0320 0,0547 0,0037 0,0078 0,0078 0,0037 0,0084 0,0039
0 1 1 2 2 3 3 4 5 6 6 7 7
8
0,4305 0,4305 0,3826 0,3826 0,1488 0,1488 0,0331 0,0331 0,0046 0,0046 0,0004 0,0004 0,0000 0,0000 0,0000 0,0000 0,0000
0,2725 0,2725 0,3847 0,3847 0,2376 0,2376 0,0839 0,0839 0,0185 0,0185 0,0026 0,0026 0,0002 0,0002 0,0000 0,0000 0,0000
0,1678 0,3355 0,3355 0,2936 0,2936 0,1468 0,1468 0,0459 0,0459 0,0092 0,0092 0,0011 0,0011 0,0001 0,0001
0,0000
0,1678
0,1001 0,2670 0,2670 0,3115 0,3115 0,2076 0,2076 0,0865 0,0865 0,0231 0,0231 0,0038 0,0038 0,0004 0,0004
0,0000
0,0576 0,1977 0,1977 0,2965 0,2965 0,2541 0,2541 0,1361 0,1361 0,0467 0,0467 0,0100 0,0100 0,0012 0,0012
0,0001
0,0319 0,1373 0,1373 0,2587 0,2587 0,2786 0,2786 0,1875 0,1875 0,0808 0,0808 0,0217 0,0217 0,0033 0,0033
0,0002
0,0168 0,0896 0,0896 0,2090 0,2090 0,2787 0,2787 0,2322 0,2322 0,1239 0,1239 0,0413 0,0413 0,0079 0,0079
0,0007
0,0084 0,0039 0,0548 0,0313 0,0548 0,0313 0,1569 0,1094 0,1569 0,1094 0,2568 0,2188 0,2188 0,2568 0,2627 0,2734 0,2734 0,2627 0,1719 0,2188 0,2188 0,1719 0,0703 0,0703 0,1094 0,1094 0,0164 0,0313 0,0164 0,0313
0,0017 0,0039
234
Pastor-Barriuso R.
Tablas estadsticas
Tabla 1 (Continuacin)
n
9
k
0 1 2 3 4 5 6 7 8 9
0,05
0,6302 0,2985 0,0629 0,0077 0,0006 0,0000 0,0000 0,0000 0,0000 0,0000 0,5987 0,3151 0,0746 0,0105 0,0010 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,5688 0,3293 0,0867 0,0137 0,0014 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,5404 0,3413 0,0988 0,0173 0,0021 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,10
0,3874 0,3874 0,1722 0,0446 0,0074 0,0008 0,0001 0,0000 0,0000 0,0000 0,3487 0,3874 0,1937 0,0574 0,0112 0,0015 0,0001 0,0000 0,0000 0,0000 0,0000 0,3138 0,3835 0,2131 0,0710 0,0158 0,0025 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,2824 0,3766 0,2301 0,0852 0,0213 0,0038 0,0005 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,15
0,2316 0,3679 0,2597 0,1069 0,0283 0,0050 0,0006 0,0000 0,0000 0,0000 0,1969 0,3474 0,2759 0,1298 0,0401 0,0085 0,0012 0,0001 0,0000 0,0000 0,0000 0,1673 0,3248 0,2866 0,1517 0,0536 0,0132 0,0023 0,0003 0,0000 0,0000 0,0000 0,0000 0,1422 0,3012 0,2924 0,1720 0,0683 0,0193 0,0040 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000
0,20
0,1342 0,3020 0,3020 0,1762 0,0661 0,0165 0,0028 0,0003 0,0000 0,0000 0,1074 0,2684 0,3020 0,2013 0,0881 0,0264 0,0055 0,0008 0,0001 0,0000 0,0000 0,0859 0,2362 0,2953 0,2215 0,1107 0,0388 0,0097 0,0017 0,0002 0,0000 0,0000 0,0000 0,0687 0,2062 0,2835 0,2362 0,1329 0,0532 0,0155 0,0033 0,0005 0,0001 0,0000 0,0000 0,0000
0,25
0,0751 0,2253 0,3003 0,2336 0,1168 0,0389 0,0087 0,0012 0,0001 0,0000 0,0563 0,1877 0,2816 0,2503 0,1460 0,0584 0,0162 0,0031 0,0004 0,0000 0,0000 0,0422 0,1549 0,2581 0,2581 0,1721 0,0803 0,0268 0,0064 0,0011 0,0001 0,0000 0,0000 0,0317 0,1267 0,2323 0,2581 0,1936 0,1032 0,0401 0,0115 0,0024 0,0004 0,0000 0,0000 0,0000
0,30
0,0404 0,1556 0,2668 0,2668 0,1715 0,0735 0,0210 0,0039 0,0004 0,0000 0,0282 0,1211 0,2335 0,2668 0,2001 0,1029 0,0368 0,0090 0,0014 0,0001 0,0000 0,0198 0,0932 0,1998 0,2568 0,2201 0,1321 0,0566 0,0173 0,0037 0,0005 0,0000 0,0000 0,0138 0,0712 0,1678 0,2397 0,2311 0,1585 0,0792 0,0291 0,0078 0,0015 0,0002 0,0000 0,0000
0,35
0,0207 0,1004 0,2162 0,2716 0,2194 0,1181 0,0424 0,0098 0,0013 0,0001 0,0135 0,0725 0,1757 0,2522 0,2377 0,1536 0,0689 0,0212 0,0043 0,0005 0,0000 0,0088 0,0518 0,1395 0,2254 0,2428 0,1830 0,0985 0,0379 0,0102 0,0018 0,0002 0,0000 0,0057 0,0368 0,1088 0,1954 0,2367 0,2039 0,1281 0,0591 0,0199 0,0048 0,0008 0,0001 0,0000
0,40
0,0101 0,0605 0,1612 0,2508 0,2508 0,1672 0,0743 0,0212 0,0035 0,0003 0,0060 0,0403 0,1209 0,2150 0,2508 0,2007 0,1115 0,0425 0,0106 0,0016 0,0001 0,0036 0,0266 0,0887 0,1774 0,2365 0,2207 0,1471 0,0701 0,0234 0,0052 0,0007 0,0000 0,0022 0,0174 0,0639 0,1419 0,2128 0,2270 0,1766 0,1009 0,0420 0,0125 0,0025 0,0003 0,0000
0,45
0,0046 0,0339 0,1110 0,2119 0,2600 0,2128 0,1160 0,0407 0,0083 0,0008 0,0025 0,0207 0,0763 0,1665 0,2384 0,2340 0,1596 0,0746 0,0229 0,0042 0,0003 0,0014 0,0125 0,0513 0,1259 0,2060 0,2360 0,1931 0,1128 0,0462 0,0126 0,0021 0,0002 0,0008 0,0075 0,0339 0,0923 0,1700 0,2225 0,2124 0,1489 0,0762 0,0277 0,0068 0,0010 0,0001
0,50
0,0020 0,0176 0,0703 0,1641 0,2461 0,2461 0,1641 0,0703 0,0176 0,0020 0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010 0,0005 0,0054 0,0269 0,0806 0,1611 0,2256 0,2256 0,1611 0,0806 0,0269 0,0054 0,0005 0,0002 0,0029 0,0161 0,0537 0,1208 0,1934 0,2256 0,1934 0,1208 0,0537 0,0161 0,0029 0,0002
235
10
0 1 2 3 4 5 6 7 8 9 10
11
0 1 2 3 4 5 6 7 8 9 10 11
12
0 1 2 3 4 5 6 7 8 9 10 11 12
Pastor-Barriuso R.
Tablas estadsticas
n
13
k
0 1 2 3 4 5 6 7 8 9 10 11 12 13 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3
0,05
0,5133 0,3512 0,1109 0,0214 0,0028 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4877 0,3593 0,1229 0,0259 0,0037 0,0004 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4633 0,3658 0,1348 0,0307 0,0049 0,0006 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4401 0,3706 0,1463 0,0359
0,10
0,2542 0,3672 0,2448 0,0997 0,0277 0,0055 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,2288 0,3559 0,2570 0,1142 0,0349 0,0078 0,0013 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,2059 0,3432 0,2669 0,1285 0,0428 0,0105 0,0019 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,1853 0,3294 0,2745 0,1423
0,15
0,1209 0,2774 0,2937 0,1900 0,0838 0,0266 0,0063 0,0011 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,1028 0,2539 0,2912 0,2056 0,0998 0,0352 0,0093 0,0019 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0874 0,2312 0,2856 0,2184 0,1156 0,0449 0,0132 0,0030 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0743 0,2097 0,2775 0,2285
0,20
0,0550 0,1787 0,2680 0,2457 0,1535 0,0691 0,0230 0,0058 0,0011 0,0001 0,0000 0,0000 0,0000 0,0000 0,0440 0,1539 0,2501 0,2501 0,1720 0,0860 0,0322 0,0092 0,0020 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0352 0,1319 0,2309 0,2501 0,1876 0,1032 0,0430 0,0138 0,0035 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0281 0,1126 0,2111 0,2463
0,25
0,0238 0,1029 0,2059 0,2517 0,2097 0,1258 0,0559 0,0186 0,0047 0,0009 0,0001 0,0000 0,0000 0,0000 0,0178 0,0832 0,1802 0,2402 0,2202 0,1468 0,0734 0,0280 0,0082 0,0018 0,0003 0,0000 0,0000 0,0000 0,0000 0,0134 0,0668 0,1559 0,2252 0,2252 0,1651 0,0917 0,0393 0,0131 0,0034 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,0100 0,0535 0,1336 0,2079
0,30
0,0097 0,0540 0,1388 0,2181 0,2337 0,1803 0,1030 0,0442 0,0142 0,0034 0,0006 0,0001 0,0000 0,0000 0,0068 0,0407 0,1134 0,1943 0,2290 0,1963 0,1262 0,0618 0,0232 0,0066 0,0014 0,0002 0,0000 0,0000 0,0000 0,0047 0,0305 0,0916 0,1700 0,2186 0,2061 0,1472 0,0811 0,0348 0,0116 0,0030 0,0006 0,0001 0,0000 0,0000 0,0000 0,0033 0,0228 0,0732 0,1465
0,35
0,0037 0,0259 0,0836 0,1651 0,2222 0,2154 0,1546 0,0833 0,0336 0,0101 0,0022 0,0003 0,0000 0,0000 0,0024 0,0181 0,0634 0,1366 0,2022 0,2178 0,1759 0,1082 0,0510 0,0183 0,0049 0,0010 0,0001 0,0000 0,0000 0,0016 0,0126 0,0476 0,1110 0,1792 0,2123 0,1906 0,1319 0,0710 0,0298 0,0096 0,0024 0,0004 0,0001 0,0000 0,0000 0,0010 0,0087 0,0353 0,0888
0,40
0,0013 0,0113 0,0453 0,1107 0,1845 0,2214 0,1968 0,1312 0,0656 0,0243 0,0065 0,0012 0,0001 0,0000 0,0008 0,0073 0,0317 0,0845 0,1549 0,2066 0,2066 0,1574 0,0918 0,0408 0,0136 0,0033 0,0005 0,0001 0,0000 0,0005 0,0047 0,0219 0,0634 0,1268 0,1859 0,2066 0,1771 0,1181 0,0612 0,0245 0,0074 0,0016 0,0003 0,0000 0,0000 0,0003 0,0030 0,0150 0,0468
0,45
0,0004 0,0045 0,0220 0,0660 0,1350 0,1989 0,2169 0,1775 0,1089 0,0495 0,0162 0,0036 0,0005 0,0000 0,0002 0,0027 0,0141 0,0462 0,1040 0,1701 0,2088 0,1952 0,1398 0,0762 0,0312 0,0093 0,0019 0,0002 0,0000 0,0001 0,0016 0,0090 0,0318 0,0780 0,1404 0,1914 0,2013 0,1647 0,1048 0,0515 0,0191 0,0052 0,0010 0,0001 0,0000 0,0001 0,0009 0,0056 0,0215
0,50
0,0001 0,0016 0,0095 0,0349 0,0873 0,1571 0,2095 0,2095 0,1571 0,0873 0,0349 0,0095 0,0016 0,0001 0,0001 0,0009 0,0056 0,0222 0,0611 0,1222 0,1833 0,2095 0,1833 0,1222 0,0611 0,0222 0,0056 0,0009 0,0001 0,0000 0,0005 0,0032 0,0139 0,0417 0,0916 0,1527 0,1964 0,1964 0,1527 0,0916 0,0417 0,0139 0,0032 0,0005 0,0000 0,0000 0,0002 0,0018 0,0085
14
15
16
236
Pastor-Barriuso R.
Tablas estadsticas
n k
4 5 6 7 8 9 10 11 12 13 14 15 16 17 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
0,05
0,0061 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,4181 0,3741 0,1575 0,0415 0,0076 0,0010 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,3972 0,3763 0,1683 0,0473 0,0093 0,0014 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,10
0,0514 0,0137 0,0028 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,1668 0,3150 0,2800 0,1556 0,0605 0,0175 0,0039 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,1501 0,3002 0,2835 0,1680 0,0700 0,0218 0,0052 0,0010 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,15
0,1311 0,0555 0,0180 0,0045 0,0009 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0631 0,1893 0,2673 0,2359 0,1457 0,0668 0,0236 0,0065 0,0014 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0536 0,1704 0,2556 0,2406 0,1592 0,0787 0,0301 0,0091 0,0022 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,20
0,2001 0,1201 0,0550 0,0197 0,0055 0,0012 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0225 0,0957 0,1914 0,2393 0,2093 0,1361 0,0680 0,0267 0,0084 0,0021 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0180 0,0811 0,1723 0,2297 0,2153 0,1507 0,0816 0,0350 0,0120 0,0033 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000
0,25
0,2252 0,1802 0,1101 0,0524 0,0197 0,0058 0,0014 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0075 0,0426 0,1136 0,1893 0,2209 0,1914 0,1276 0,0668 0,0279 0,0093 0,0025 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0056 0,0338 0,0958 0,1704 0,2130 0,1988 0,1436 0,0820 0,0376 0,0139 0,0042 0,0010 0,0002 0,0000 0,0000 0,0000 0,0000
0,30
0,2040 0,2099 0,1649 0,1010 0,0487 0,0185 0,0056 0,0013 0,0002 0,0000 0,0000 0,0000 0,0000 0,0023 0,0169 0,0581 0,1245 0,1868 0,2081 0,1784 0,1201 0,0644 0,0276 0,0095 0,0026 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000 0,0016 0,0126 0,0458 0,1046 0,1681 0,2017 0,1873 0,1376 0,0811 0,0386 0,0149 0,0046 0,0012 0,0002 0,0000 0,0000 0,0000
0,35
0,1553 0,2008 0,1982 0,1524 0,0923 0,0442 0,0167 0,0049 0,0011 0,0002 0,0000 0,0000 0,0000 0,0007 0,0060 0,0260 0,0701 0,1320 0,1849 0,1991 0,1685 0,1134 0,0611 0,0263 0,0090 0,0024 0,0005 0,0001 0,0000 0,0000 0,0000 0,0004 0,0042 0,0190 0,0547 0,1104 0,1664 0,1941 0,1792 0,1327 0,0794 0,0385 0,0151 0,0047 0,0012 0,0002 0,0000 0,0000
0,40
0,1014 0,1623 0,1983 0,1889 0,1417 0,0840 0,0392 0,0142 0,0040 0,0008 0,0001 0,0000 0,0000 0,0002 0,0019 0,0102 0,0341 0,0796 0,1379 0,1839 0,1927 0,1606 0,1070 0,0571 0,0242 0,0081 0,0021 0,0004 0,0001 0,0000 0,0000 0,0001 0,0012 0,0069 0,0246 0,0614 0,1146 0,1655 0,1892 0,1734 0,1284 0,0771 0,0374 0,0145 0,0045 0,0011 0,0002 0,0000
0,45
0,0572 0,1123 0,1684 0,1969 0,1812 0,1318 0,0755 0,0337 0,0115 0,0029 0,0005 0,0001 0,0000 0,0000 0,0005 0,0035 0,0144 0,0411 0,0875 0,1432 0,1841 0,1883 0,1540 0,1008 0,0525 0,0215 0,0068 0,0016 0,0003 0,0000 0,0000 0,0000 0,0003 0,0022 0,0095 0,0291 0,0666 0,1181 0,1657 0,1864 0,1694 0,1248 0,0742 0,0354 0,0134 0,0039 0,0009 0,0001
0,50
0,0278 0,0667 0,1222 0,1746 0,1964 0,1746 0,1222 0,0667 0,0278 0,0085 0,0018 0,0002 0,0000 0,0000 0,0001 0,0010 0,0052 0,0182 0,0472 0,0944 0,1484 0,1855 0,1855 0,1484 0,0944 0,0472 0,0182 0,0052 0,0010 0,0001 0,0000 0,0000 0,0001 0,0006 0,0031 0,0117 0,0327 0,0708 0,1214 0,1669 0,1855 0,1669 0,1214 0,0708 0,0327 0,0117 0,0031 0,0006
237
18
Pastor-Barriuso R.
Tablas estadsticas
n k
17 18 19 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0,05
0,0000 0,0000 0,3774 0,3774 0,1787 0,0533 0,0112 0,0018 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,3585 0,3774 0,1887 0,0596 0,0133 0,0022 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,10
0,0000 0,0000 0,1351 0,2852 0,2852 0,1796 0,0798 0,0266 0,0069 0,0014 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,1216 0,2702 0,2852 0,1901 0,0898 0,0319 0,0089 0,0020 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,15
0,0000 0,0000 0,0456 0,1529 0,2428 0,2428 0,1714 0,0907 0,0374 0,0122 0,0032 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0388 0,1368 0,2293 0,2428 0,1821 0,1028 0,0454 0,0160 0,0046 0,0011 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,20
0,0000 0,0000 0,0144 0,0685 0,1540 0,2182 0,2182 0,1636 0,0955 0,0443 0,0166 0,0051 0,0013 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0115 0,0576 0,1369 0,2054 0,2182 0,1746 0,1091 0,0545 0,0222 0,0074 0,0020 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,25
0,0000 0,0000 0,0042 0,0268 0,0803 0,1517 0,2023 0,2023 0,1574 0,0974 0,0487 0,0198 0,0066 0,0018 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0032 0,0211 0,0669 0,1339 0,1897 0,2023 0,1686 0,1124 0,0609 0,0271 0,0099 0,0030 0,0008 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,30
0,0000 0,0000 0,0011 0,0093 0,0358 0,0869 0,1491 0,1916 0,1916 0,1525 0,0981 0,0514 0,0220 0,0077 0,0022 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0008 0,0068 0,0278 0,0716 0,1304 0,1789 0,1916 0,1643 0,1144 0,0654 0,0308 0,0120 0,0039 0,0010 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,35
0,0000 0,0000 0,0003 0,0029 0,0138 0,0422 0,0909 0,1468 0,1844 0,1844 0,1489 0,0980 0,0528 0,0233 0,0083 0,0024 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000 0,0002 0,0020 0,0100 0,0323 0,0738 0,1272 0,1712 0,1844 0,1614 0,1158 0,0686 0,0336 0,0136 0,0045 0,0012 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000
0,40
0,0000 0,0000 0,0001 0,0008 0,0046 0,0175 0,0467 0,0933 0,1451 0,1797 0,1797 0,1464 0,0976 0,0532 0,0237 0,0085 0,0024 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0005 0,0031 0,0123 0,0350 0,0746 0,1244 0,1659 0,1797 0,1597 0,1171 0,0710 0,0355 0,0146 0,0049 0,0013 0,0003 0,0000 0,0000 0,0000 0,0000
0,45
0,0000 0,0000 0,0000 0,0002 0,0013 0,0062 0,0203 0,0497 0,0949 0,1443 0,1771 0,1771 0,1449 0,0970 0,0529 0,0233 0,0082 0,0022 0,0005 0,0001 0,0000 0,0000 0,0000 0,0001 0,0008 0,0040 0,0139 0,0365 0,0746 0,1221 0,1623 0,1771 0,1593 0,1185 0,0727 0,0366 0,0150 0,0049 0,0013 0,0002 0,0000 0,0000 0,0000
0,50
0,0001 0,0000 0,0000 0,0000 0,0003 0,0018 0,0074 0,0222 0,0518 0,0961 0,1442 0,1762 0,1762 0,1442 0,0961 0,0518 0,0222 0,0074 0,0018 0,0003 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0046 0,0148 0,0370 0,0739 0,1201 0,1602 0,1762 0,1602 0,1201 0,0739 0,0370 0,0148 0,0046 0,0011 0,0002 0,0000 0,0000
20
*Para = 0,55, 0,60, ..., 0,95, P(X = k) = P(Y = n k) donde Y es la distribucin binomial con parmetros n y 1 .
238
Pastor-Barriuso R.
Tablas estadsticas
Tabla 2 Probabilidades Tabla 2 Probabilidades P(X = k) =
e k parala la distribucin de Poisson para distribucin de Poisson X con X con k! parmetro de 0,5 a 20 en intervalos de 0,5. parmetro de 0,5 a 20 en intervalos de 0,5.
k
0 1 2
0,5
1,0
0,3679 0,3679 0,1839
1,5
0,2231 0,3347 0,2510
2,0
0,1353 0,2707 0,2707 0,1804 0,1353
0,6065 0,3033 0,0758
0,0821 0,0498 0,2052 0,2565
2,5
3,0
3,5
0,0302 0,1057 0,1850 0,2158 0,0302 0,1057 0,1888 0,1850 0,1322 0,2158 0,0771 0,1888 0,0385 0,1322 0,0169 0,0771 0,0066 0,0385 0,0169 0,0023 0,0066 0,0007 0,0023 0,0002 0,0007 0,0001 0,0002 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 8,5 8,5 0,0002 0,0017 0,0002 0,0074 0,0017 0,0208 0,0074 0,0208 0,0443 0,0443 0,0752 0,0752 0,1066 0,1066 0,1294 0,1294 0,1375 0,1375 0,1299 0,1299 0,1104 0,1104 0,0853 0,0853 0,0604 0,0604 0,0395 0,0395 0,0240 0,0240 0,0136 0,0136 0,0072 0,0036 0,0072 0,0017 0,0036 0,0008 0,0017 0,0003 0,0008 0,0001 0,0003 0,0001 0,0001 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000
4,0
0,0183 0,0733 0,1465 0,1954 0,0183 0,0733 0,1954 0,1465 0,1563 0,1954 0,1042 0,1954 0,0595 0,1563 0,0298 0,1042 0,0132 0,0595 0,0298 0,0053 0,0132 0,0019 0,0053 0,0006 0,0019 0,0002 0,0006 0,0001 0,0002 0,0000 0,0001 0,0000 0,0000 0,0000 9,0 9,0 0,0001 0,0011 0,0001 0,0050 0,0011 0,0150 0,0050 0,0150 0,0337 0,0337 0,0607 0,0607 0,0911 0,0911 0,1171 0,1171 0,1318 0,1318 0,1318 0,1318 0,1186 0,1186 0,0970 0,0970 0,0728 0,0728 0,0504 0,0504 0,0324 0,0324 0,0194 0,0194 0,0109 0,0058 0,0109 0,0029 0,0058 0,0014 0,0029 0,0006 0,0014 0,0003 0,0006 0,0001 0,0003 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000
4,5
0,0111 0,0500 0,1125 0,1687 0,0111 0,0500 0,1898 0,1125 0,1708 0,1687 0,1281 0,1898 0,0824 0,1708 0,0463 0,1281 0,0232 0,0824 0,0463 0,0104 0,0232 0,0043 0,0104 0,0016 0,0043 0,0006 0,0016 0,0002 0,0006 0,0001 0,0002 0,0000 0,0001 0,0000 9,5 9,5 0,0001 0,0007 0,0001 0,0034 0,0007 0,0107 0,0034 0,0107 0,0254 0,0254 0,0483 0,0483 0,0764 0,0764 0,1037 0,1037 0,1232 0,1232 0,1300 0,1300 0,1235 0,1235 0,1067 0,1067 0,0844 0,0844 0,0617 0,0617 0,0419 0,0419 0,0265 0,0265 0,0157 0,0088 0,0157 0,0046 0,0088 0,0023 0,0046 0,0011 0,0023 0,0005 0,0011 0,0002 0,0005 0,0001 0,0002 0,0000 0,0000 0,0001 0,0000 0,0000
5,0
0,0067 0,0337 0,0842 0,1404 0,0067 0,0337 0,1755 0,0842 0,1755 0,1404 0,1462 0,1755 0,1044 0,1755 0,0653 0,1462 0,0363 0,1044 0,0653 0,0181 0,0363 0,0082 0,0181 0,0034 0,0082 0,0013 0,0034 0,0005 0,0013 0,0002 0,0005 0,0000 0,0002 0,0000 10,0 10,0 0,0000 0,0005 0,0000 0,0023 0,0005 0,0076 0,0023 0,0076 0,0189 0,0189 0,0378 0,0378 0,0631 0,0631 0,0901 0,0901 0,1126 0,1126 0,1251 0,1251 0,1251 0,1251 0,1137 0,1137 0,0948 0,0948 0,0729 0,0729 0,0521 0,0521 0,0347 0,0347 0,0217 0,0128 0,0217 0,0071 0,0128 0,0037 0,0071 0,0019 0,0037 0,0009 0,0019 0,0004 0,0009 0,0002 0,0004 0,0001 0,0000 0,0002 0,0001 0,0000
0,5
1,0
1,5
2,0
2,5
0,1494 0,2240 0,2240 0,0498 0,1494 0,1680 0,2240 0,1008 0,2240 0,0504 0,1680 0,0216 0,1008 0,0081 0,0504 0,0027 0,0216 0,0081 0,0008 0,0027 0,0002 0,0008 0,0001 0,0002 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 8,0 8,0 0,0003 0,0027 0,0003 0,0107 0,0027 0,0286 0,0107 0,0286 0,0573 0,0573 0,0916 0,0916 0,1221 0,1221 0,1396 0,1396 0,1396 0,1396 0,1241 0,1241 0,0993 0,0993 0,0722 0,0722 0,0481 0,0481 0,0296 0,0296 0,0169 0,0169 0,0090 0,0090 0,0045 0,0021 0,0045 0,0009 0,0021 0,0004 0,0009 0,0002 0,0004 0,0001 0,0002 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
3,0
3,5
4,0
4,5
5,0
63 4 7 5 86 97 108 119 10 12 11 13 12 14 13 15 14 16 15 16 0 1 21
52
41
30
0,0126 0,0000 0,0016 0,0000 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 5,5 5,5 0,0041
0,0225
0,0758 0,0031 0,1839 0,0141 0,2510 0,0361 0,2707 0,0002 0,0613 0,0005 0,0153 0,0001 0,0031 0,0000 0,0005 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 6,0 6,0 0,0025 0,1255 0,0035 0,0471 0,0008 0,0141 0,0001 0,0035 0,0000 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 6,5 6,5 0,0015 0,1804 0,0120 0,0902 0,0034 0,0361 0,0009 0,0120 0,0002 0,0034 0,0009 0,0000 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 7,0 7,0 0,0009
0,3033 0,0153 0,3679 0,0471 0,3347 0,0902 0,2707 0,0016
0,0126 0,6065 0,0613 0,3679 0,1255 0,2231
0,1336 0,0668 0,0031 0,0278 0,0009 0,0099 0,0031 0,0002 0,0009 0,0000 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 7,5 7,5 0,0006
0,0099 0,0041 0,0156 0,0041
0,2138 0,0278
0,2565 0,0668
0,2052 0,1336
0,2138 0,0821
5 6 6 7 7 88 99 10 10 11 11 12 12 13 13 14 14 15 15 16 17 16 18 17 19 18 20 19 21 20 22 21 23 22 24 25 23
24 25
54
43
32
0,0041 0,0149 0,0025 0,0098 0,0015 0,0064 0,0009 0,0223 0,0064 0,1133 0,0618 0,0892 0,0446 0,0688 0,0318 0,0521 0,0223 0,1133 0,1339 0,0892 0,1118 0,0688 0,0912 0,0521 0,1558 0,1558 0,1606 0,1339 0,1454 0,1118 0,1277 0,0912 0,1714 0,1714 0,1606 0,1454 0,1277 0,1571 0,1606 0,1575 0,1490 0,1571 0,1606 0,1575 0,1490 0,1234 0,1377 0,1462 0,1490 0,1234 0,1377 0,1462 0,1490 0,0849 0,1033 0,1188 0,1304 0,0849 0,1033 0,1188 0,1304 0,0519 0,0519 0,0688 0,0688 0,0858 0,0858 0,1014 0,1014 0,0285 0,0413 0,0413 0,0558 0,0558 0,0710 0,0710 0,0285 0,0143 0,0225 0,0330 0,0452 0,0143 0,0225 0,0330 0,0452 0,0065 0,0113 0,0179 0,0263 0,0065 0,0113 0,0179 0,0263 0,0028 0,0052 0,0089 0,0142 0,0028 0,0052 0,0089 0,0142 0,0011 0,0022 0,0041 0,0071 0,0011 0,0004 0,0022 0,0009 0,0041 0,0018 0,0071 0,0033 0,0004 0,0009 0,0018 0,0001 0,0003 0,0007 0,0033 0,0014 0,0000 0,0003 0,0001 0,0007 0,0003 0,0014 0,0006 0,0001 0,0000 0,0001 0,0000 0,0003 0,0001 0,0006 0,0002 0,0000 0,0000 0,0000 0,0000 0,0001 0,0000 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,0618 0,0225 0,0446 0,0149 0,0318 0,0098 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,0006
0,0389 0,0729 0,1094 0,1367 0,1465 0,1465 0,1373 0,1373 0,1144 0,1144 0,0858 0,0858 0,0585 0,0585 0,0366 0,0366 0,0211 0,0211 0,0113 0,0113 0,0057 0,0057 0,0026 0,0012 0,0026 0,0005 0,0012 0,0002 0,0005 0,0001 0,0002 0,0000 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,1367 0,0000 0,0000
0,0389 0,0156
0,0729 0,1094
Pastor-Barriuso R.
239
Tablas estadsticas
k
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
10,5
0,0000 0,0003 0,0015 0,0053 0,0139 0,0293 0,0513 0,0769 0,1009 0,1177 0,1236 0,1180 0,1032 0,0834 0,0625 0,0438 0,0287 0,0177 0,0104 0,0057 0,0030 0,0015 0,0007 0,0003 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
11,0
0,0000 0,0002 0,0010 0,0037 0,0102 0,0224 0,0411 0,0646 0,0888 0,1085 0,1194 0,1194 0,1094 0,0926 0,0728 0,0534 0,0367 0,0237 0,0145 0,0084 0,0046 0,0024 0,0012 0,0006 0,0003 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
11,5
0,0000 0,0001 0,0007 0,0026 0,0074 0,0170 0,0325 0,0535 0,0769 0,0982 0,1129 0,1181 0,1131 0,1001 0,0822 0,0630 0,0453 0,0306 0,0196 0,0119 0,0068 0,0037 0,0020 0,0010 0,0005 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
12,0
0,0000 0,0001 0,0004 0,0018 0,0053 0,0127 0,0255 0,0437 0,0655 0,0874 0,1048 0,1144 0,1144 0,1056 0,0905 0,0724 0,0543 0,0383 0,0255 0,0161 0,0097 0,0055 0,0030 0,0016 0,0008 0,0004 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
12,5
0,0000 0,0000 0,0003 0,0012 0,0038 0,0095 0,0197 0,0353 0,0551 0,0765 0,0956 0,1087 0,1132 0,1089 0,0972 0,0810 0,0633 0,0465 0,0323 0,0213 0,0133 0,0079 0,0045 0,0024 0,0013 0,0006 0,0003 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000
13,0
0,0000 0,0000 0,0002 0,0008 0,0027 0,0070 0,0152 0,0281 0,0457 0,0661 0,0859 0,1015 0,1099 0,1099 0,1021 0,0885 0,0719 0,0550 0,0397 0,0272 0,0177 0,0109 0,0065 0,0037 0,0020 0,0010 0,0005 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000
13,5
0,0000 0,0000 0,0001 0,0006 0,0019 0,0051 0,0115 0,0222 0,0375 0,0563 0,0760 0,0932 0,1049 0,1089 0,1050 0,0945 0,0798 0,0633 0,0475 0,0337 0,0228 0,0146 0,0090 0,0053 0,0030 0,0016 0,0008 0,0004 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000
14,0
0,0000 0,0000 0,0001 0,0004 0,0013 0,0037 0,0087 0,0174 0,0304 0,0473 0,0663 0,0844 0,0984 0,1060 0,1060 0,0989 0,0866 0,0713 0,0554 0,0409 0,0286 0,0191 0,0121 0,0074 0,0043 0,0024 0,0013 0,0007 0,0003 0,0002 0,0001 0,0000 0,0000 0,0000
14,5
0,0000 0,0000 0,0001 0,0003 0,0009 0,0027 0,0065 0,0135 0,0244 0,0394 0,0571 0,0753 0,0910 0,1014 0,1051 0,1016 0,0920 0,0785 0,0632 0,0483 0,0350 0,0242 0,0159 0,0100 0,0061 0,0035 0,0020 0,0011 0,0005 0,0003 0,0001 0,0001 0,0000 0,0000
15,0
0,0000 0,0000 0,0000 0,0002 0,0006 0,0019 0,0048 0,0104 0,0194 0,0324 0,0486 0,0663 0,0829 0,0956 0,1024 0,1024 0,0960 0,0847 0,0706 0,0557 0,0418 0,0299 0,0204 0,0133 0,0083 0,0050 0,0029 0,0016 0,0009 0,0004 0,0002 0,0001 0,0001 0,0000
15,5
0 1 2 3 4 5 6 7 8 9 10 11 12
16,0
0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0026 0,0060 0,0120 0,0213 0,0341 0,0496 0,0661
16,5
0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0019 0,0045 0,0093 0,0171 0,0281 0,0422 0,0580
17,0
0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0014 0,0034 0,0072 0,0135 0,0230 0,0355 0,0504
17,5
0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0025 0,0055 0,0107 0,0186 0,0297 0,0432
18,0
0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0019 0,0042 0,0083 0,0150 0,0245 0,0368
18,5
0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005 0,0014 0,0031 0,0065 0,0120 0,0201 0,0310
19,0
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0010 0,0024 0,0050 0,0095 0,0164 0,0259
19,5
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0007 0,0018 0,0038 0,0074 0,0132 0,0214
20,0
0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0005 0,0013 0,0029 0,0058 0,0106 0,0176
0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0036 0,0079 0,0153 0,0264 0,0409 0,0577 0,0745
Tablas estadsticas
k
13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
15,5
0,0888 0,0983 0,1016 0,0984 0,0897 0,0773 0,0630 0,0489 0,0361 0,0254 0,0171 0,0111 0,0069 0,0041 0,0023 0,0013 0,0007 0,0004 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
16,0
0,0814 0,0930 0,0992 0,0992 0,0934 0,0830 0,0699 0,0559 0,0426 0,0310 0,0216 0,0144 0,0092 0,0057 0,0034 0,0019 0,0011 0,0006 0,0003 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
16,5
0,0736 0,0868 0,0955 0,0985 0,0956 0,0876 0,0761 0,0628 0,0493 0,0370 0,0265 0,0182 0,0120 0,0076 0,0047 0,0028 0,0016 0,0009 0,0005 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
17,0
0,0658 0,0800 0,0906 0,0963 0,0963 0,0909 0,0814 0,0692 0,0560 0,0433 0,0320 0,0226 0,0154 0,0101 0,0063 0,0038 0,0023 0,0013 0,0007 0,0004 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
17,5
0,0582 0,0728 0,0849 0,0929 0,0956 0,0929 0,0856 0,0749 0,0624 0,0496 0,0378 0,0275 0,0193 0,0130 0,0084 0,0053 0,0032 0,0019 0,0010 0,0006 0,0003 0,0002 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000
18,0
0,0509 0,0655 0,0786 0,0884 0,0936 0,0936 0,0887 0,0798 0,0684 0,0560 0,0438 0,0328 0,0237 0,0164 0,0109 0,0070 0,0044 0,0026 0,0015 0,0009 0,0005 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000 0,0000
18,5
0,0441 0,0583 0,0719 0,0831 0,0904 0,0930 0,0905 0,0837 0,0738 0,0620 0,0499 0,0385 0,0285 0,0202 0,0139 0,0092 0,0058 0,0036 0,0022 0,0012 0,0007 0,0004 0,0002 0,0001 0,0001 0,0000 0,0000 0,0000
19,0
0,0378 0,0514 0,0650 0,0772 0,0863 0,0911 0,0911 0,0866 0,0783 0,0676 0,0559 0,0442 0,0336 0,0246 0,0173 0,0117 0,0077 0,0049 0,0030 0,0018 0,0010 0,0006 0,0003 0,0002 0,0001 0,0000 0,0000 0,0000
19,5
0,0322 0,0448 0,0582 0,0710 0,0814 0,0882 0,0905 0,0883 0,0820 0,0727 0,0616 0,0500 0,0390 0,0293 0,0211 0,0147 0,0099 0,0064 0,0040 0,0025 0,0015 0,0008 0,0005 0,0003 0,0001 0,0001 0,0000 0,0000
20,0
0,0271 0,0387 0,0516 0,0646 0,0760 0,0844 0,0888 0,0888 0,0846 0,0769 0,0669 0,0557 0,0446 0,0343 0,0254 0,0181 0,0125 0,0083 0,0054 0,0034 0,0020 0,0012 0,0007 0,0004 0,0002 0,0001 0,0001 0,0000
Pastor-Barriuso R.
241
Tablas estadsticas
Tabla 3 Funcin de distribucin normal estandarizada (z) = P(Z z) para valores z de 0 a 3,99 en intervalos de 0,01.*
z 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 1,10 1,20 1,30 1,40 1,50 1,60 1,70 1,80 1,90 2,00 2,10 2,20 2,30 2,40 2,50 2,60 2,70 2,80 2,90 3,00 3,10 3,20 3,30 3,40 3,50 3,60 3,70 3,80 3,90 0,00 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000 0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000 0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,03 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,06 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000 0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000
* Para valores z negativos, (z) = P(Z z) = P(Z z) = 1 P(Z z) = 1 (z).
242
Pastor-Barriuso R.
Tablas estadsticas
Tabla 4 Tabla de 1000 dgitos aleatorios.

15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 28068 77798 33911 45302 31759 81262 27510 84888 92551 48644 71226 59902 24973 27005 25651 34255 74791 63485 99762 85157 610 97497 61589 76198 20953 68429 04831 88900 90443 42420 97274 14223 65129 51863 74018 65765 68331 18769 89564 44503 99008 1115 24717 36980 97068 65158 61028 92203 41437 23200 29984 33475 27559 28077 86605 05569 98249 66861 92325 62107 91645 25927 1620 94945 18859 89844 70637 00200 25447 07409 86340 87522 71381 00943 80487 16991 70982 24231 37285 19959 80055 15352 31118 2125 71584 78471 07886 42792 02062 65875 87437 07731 19370 27387 46943 79160 58423 80438 32819 34606 90031 08094 25957 65466 2630 46975 07605 96716 85207 92555 71086 79309 64171 30357 50740 40680 56426 33341 76901 26680 68167 27008 85412 73662 48706 3135 80676 41910 18354 32911 82037 12676 83499 76935 33530 03176 96829 47978 70147 80061 17613 55636 25857 33589 71146 20302 3640 37564 98737 66921 93401 69832 42753 50721 02931 58101 96910 09265 08556 06005 11144 29917 70101 68520 71900 26161 26133 4145 85194 97310 85958 90088 74185 79223 40752 66982 59423 94049 94401 20753 81833 91733 47814 51328 41469 05892 98418 04751 4650 26562 76984 59963 88104 76010 63135 82801 30842 91700 65052 98461 10206 00868 07228 92539 57528 45100 63260 10195 34701
Pastor-Barriuso R.
243
Tablas estadsticas
Tabla 5 Percentiles de la distribucin t de Student para distintos grados de libertad.

Grados de libertad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 Percentil 0,75 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 0,674 0,80 1,376 1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,851 0,848 0,845 0,842 0,85 1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,060 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,050 1,045 1,041 1,036 0,90 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289 1,282 0,95 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,645 0,975 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980 1,960 0,99 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,358 2,326 0,995 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2,576 0,9995 636,619 31,599 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707 3,690 3,674 3,659 3,646 3,551 3,460 3,373 3,291
244
Pastor-Barriuso R.
Tablas estadsticas
Tabla 6 Percentiles de la distribucin chi-cuadrado para distintos grados de libertad d.

Percentil d
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100
0,005
0,000 0,01 0,07 0,21 0,41 0,68 0,99 1,34 1,73 2,16 2,60 3,07 3,57 4,07 4,60 5,14 5,70 6,26 6,84 7,43 8,03 8,64 9,26 9,89 10,52 11,16 11,81 12,46 13,12 13,79 17,19 20,71 24,31 27,99 35,53 43,28 51,17 59,20 67,33
0,01
0,025
0,05
0,004 0,10 0,35 0,71 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26
0,10
0,02 0,21 0,58 1,06 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,09 10,86 11,65 12,44 13,24 14,04 14,85 15,66 16,47 17,29 18,11 18,94 19,77 20,60 24,80 29,05 33,35 37,69 46,46 55,33 64,28 73,29 82,36
0,25
0,10 0,58 1,21 1,92 2,67 3,45 4,25 5,07 5,90 6,74 7,58 8,44 9,30 10,17 11,04 11,91 12,79 13,68 14,56 15,45 16,34 17,24 18,14 19,04 19,94 20,84 21,75 22,66 23,57 24,48 29,05 33,66 38,29 42,94 52,29 61,70 71,14 80,62 90,13
0,50
0,45 1,39 2,37 3,36 4,35 5,35 6,35 7,34 8,34 9,34 10,34 11,34 12,34 13,34 14,34 15,34 16,34 17,34 18,34 19,34 20,34 21,34 22,34 23,34 24,34 25,34 26,34 27,34 28,34 29,34 34,34 39,34 44,34 49,33
0,75
1,32 2,77 4,11 5,39 6,63 7,84 9,04 10,22 11,39 12,55 13,70 14,85 15,98 17,12 18,25 19,37 20,49 21,60 22,72 23,83 24,93 26,04 27,14 28,24 29,34 30,43 31,53 32,62 33,71 34,80 40,22 45,62 50,98 56,33
0,90
2,71 4,61 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 29,62 30,81 32,01 33,20 34,38 35,56 36,74 37,92 39,09 40,26 46,06 51,81 57,51 63,17
0,95
3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 49,80 55,76 61,66 67,50
0,975
5,02 7,38 9,35 11,14 12,83 14,45 16,01 17,53 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 30,19 31,53 32,85 34,17 35,48 36,78 38,08 39,36 40,65 41,92 43,19 44,46 45,72 46,98 53,20 59,34 65,41 71,42
0,99
6,63 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,72 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 38,93 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,59 50,89 57,34 63,69 69,96 76,15
0,995
7,88 10,60 12,84 14,86 16,75 18,55 20,28 21,95 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 35,72 37,16 38,58 40,00 41,40 42,80 44,18 45,56 46,93 48,29 49,64 50,99 52,34 53,67 60,27 66,77 73,17 79,49
0,0002 0,001 0,02 0,05 0,11 0,22 0,30 0,48 0,55 0,83 0,87 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,01 7,63 8,26 8,90 9,54 10,20 10,86 11,52 12,20 12,88 13,56 14,26 14,95 18,51 22,16 25,90 29,71 37,48 45,44 53,54 61,75 70,06 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26
6,91 7,96 7,56 8,67 8,23 9,39 8,91 10,12 9,59 10,85 10,28 10,98 11,69 12,40 13,12 13,84 14,57 15,31 16,05 16,79 20,57 24,43 28,37 32,36 40,48 48,76 57,15 65,65 74,22 11,59 12,34 13,09 13,85 14,61 15,38 16,15 16,93 17,71 18,49 22,47 26,51 30,61 34,76 43,19 51,74 60,39 69,13 77,93
59,33 66,98 74,40 79,08 83,30 88,38 91,95 69,33 77,58 85,53 90,53 95,02 100,43 104,21 79,33 88,13 96,58 101,88 106,63 112,33 116,32 89,33 98,65 107,57 113,15 118,14 124,12 128,30 99,33 109,14 118,50 124,34 129,56 135,81 140,17
Tablas estadsticas
Tabla 7 Percentiles de la distribucin F de Fisher para distintos grados de libertad del numerador d1 y del denominador d2.*
d1 d2
1
Percentil
0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975
10
15
20
30
39,86 49,50 161,45 199,50 647,79 799,50 4052,2 4999,5 16211 20000
53,59 55,83 57,24 58,20 59,44 60,19 61,22 61,74 62,26 63,33 215,71 224,58 230,16 233,99 238,88 241,88 245,95 248,01 250,10 254,31 864,16 899,58 921,85 937,11 956,66 968,63 984,87 993,10 1001,4 1018,3 5403,4 5624,6 5763,7 5859,0 5981,1 6055,9 6157,3 6208,7 6260,7 6365,9 21615 22500 23056 23437 23925 24224 24630 24836 25044 25464
8,53 9,00 9,16 9,24 9,29 9,33 9,37 9,39 9,42 9,44 9,46 9,49 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,40 19,43 19,45 19,46 19,50 38,51 39,00 39,17 39,25 39,30 39,33 39,37 39,40 39,43 39,45 39,46 39,50 98,50 99,00 99,17 99,25 99,30 99,33 99,37 99,40 99,43 99,45 99,47 99,50 198,50 199,00 199,17 199,25 199,30 199,33 199,37 199,40 199,43 199,45 199,47 199,50 5,54 10,13 17,44 34,12 55,55 4,54 7,71 12,22 21,20 31,33 4,06 6,61 10,01 16,26 22,78 3,78 5,99 8,81 13,75 18,63 3,59 5,59 8,07 12,25 16,24 3,46 5,32 7,57 11,26 14,69 3,36 5,12 7,21 10,56 13,61 3,29 4,96 6,94 10,04 12,83 3,18 4,75 6,55 5,46 9,55 16,04 30,82 49,80 4,32 6,94 10,65 18,00 26,28 3,78 5,79 8,43 13,27 18,31 3,46 5,14 7,26 10,92 14,54 3,26 4,74 6,54 9,55 12,40 3,11 4,46 6,06 8,65 11,04 3,01 4,26 5,71 8,02 10,11 2,92 4,10 5,46 7,56 9,43 2,81 3,89 5,10 5,39 9,28 15,44 29,46 47,47 4,19 6,59 9,98 16,69 24,26 3,62 5,41 7,76 12,06 16,53 3,29 4,76 6,60 9,78 12,92 3,07 4,35 5,89 8,45 10,88 2,92 4,07 5,42 7,59 9,60 2,81 3,86 5,08 6,99 8,72 2,73 3,71 4,83 6,55 8,08 2,61 3,49 4,47 5,34 9,12 15,10 28,71 46,19 4,11 6,39 9,60 15,98 23,15 3,52 5,19 7,39 11,39 15,56 3,18 4,53 6,23 9,15 12,03 2,96 4,12 5,52 7,85 10,05 2,81 3,84 5,05 7,01 8,81 2,69 3,63 4,72 6,42 7,96 2,61 3,48 4,47 5,99 7,34 2,48 3,26 4,12 5,31 9,01 14,88 28,24 45,39 4,05 6,26 9,36 15,52 22,46 3,45 5,05 7,15 10,97 14,94 3,11 4,39 5,99 8,75 11,46 2,88 3,97 5,29 7,46 9,52 2,73 3,69 4,82 6,63 8,30 2,61 3,48 4,48 6,06 7,47 2,52 3,33 4,24 5,64 6,87 2,39 3,11 3,89 5,28 8,94 14,73 27,91 44,84 4,01 6,16 9,20 15,21 21,97 3,40 4,95 6,98 10,67 14,51 3,05 4,28 5,82 8,47 11,07 2,83 3,87 5,12 7,19 9,16 2,67 3,58 4,65 6,37 7,95 2,55 3,37 4,32 5,80 7,13 2,46 3,22 4,07 5,39 6,54 2,33 3,00 3,73 5,25 8,85 14,54 27,49 44,13 3,95 6,04 8,98 14,80 21,35 3,34 4,82 6,76 10,29 13,96 2,98 4,15 5,60 8,10 10,57 2,75 3,73 4,90 6,84 8,68 2,59 3,44 4,43 6,03 7,50 2,47 3,23 4,10 5,47 6,69 2,38 3,07 3,85 5,06 6,12 2,24 2,85 3,51 5,23 8,79 14,42 27,23 43,69 3,92 5,96 8,84 14,55 20,97 3,30 4,74 6,62 10,05 13,62 2,94 4,06 5,46 7,87 10,25 2,70 3,64 4,76 6,62 8,38 2,54 3,35 4,30 5,81 7,21 2,42 3,14 3,96 5,26 6,42 2,32 2,98 3,72 4,85 5,85 2,19 2,75 3,37 5,20 8,70 14,25 26,87 43,08 3,87 5,86 8,66 14,20 20,44 3,24 4,62 6,43 9,72 13,15 2,87 3,94 5,27 7,56 9,81 2,63 3,51 4,57 6,31 7,97 2,46 3,22 4,10 5,52 6,81 2,34 3,01 3,77 4,96 6,03 2,24 2,85 3,52 4,56 5,47 2,10 2,62 3,18 5,18 8,66 14,17 26,69 42,78 3,84 5,80 8,56 14,02 20,17 3,21 4,56 6,33 9,55 12,90 2,84 3,87 5,17 7,40 9,59 2,59 3,44 4,47 6,16 7,75 2,42 3,15 4,00 5,36 6,61 2,30 2,94 3,67 4,81 5,83 2,20 2,77 3,42 4,41 5,27 2,06 2,54 3,07 5,17 8,62 14,08 26,50 42,47 3,82 5,75 8,46 13,84 19,89 3,17 4,50 6,23 9,38 12,66 2,80 3,81 5,07 7,23 9,36 2,56 3,38 4,36 5,99 7,53 2,38 3,08 3,89 5,20 6,40 2,25 2,86 3,56 4,65 5,62 2,16 2,70 3,31 4,25 5,07 2,01 2,47 2,96 5,13 8,53 13,90 26,13 41,83 3,76 5,63 8,26 13,46 19,32 3,10 4,36 6,02 9,02 12,14 2,72 3,67 4,85 6,88 8,88 2,47 3,23 4,14 5,65 7,08 2,29 2,93 3,67 4,86 5,95 2,16 2,71 3,33 4,31 5,19 2,06 2,54 3,08 3,91 4,64 1,90 2,30 2,72
10
12
246
Pastor-Barriuso R.
Tablas estadsticas
d1 d2 Percentil
0,99 0,995 14 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995 0,90 0,95 0,975 0,99 0,995
1
9,33 11,75 3,10 4,60 6,30 8,86 11,06 3,05 4,49 6,12 8,53 10,58 3,01 4,41 5,98 8,29 10,22 2,97 4,35 5,87 8,10 9,94 2,92 4,24 5,69 7,77 9,48 2,88 4,17 5,57 7,56 9,18 2,85 4,12 5,48 7,42 8,98 2,84 4,08 5,42 7,31 8,83 2,79 4,00 5,29 7,08 8,49 2,75 3,92 5,15 6,85 8,18
2
6,93 8,51 2,73 3,74 4,86 6,51 7,92 2,67 3,63 4,69 6,23 7,51 2,62 3,55 4,56 6,01 7,21 2,59 3,49 4,46 5,85 6,99 2,53 3,39 4,29 5,57 6,60 2,49 3,32 4,18 5,39 6,35 2,46 3,27 4,11 5,27 6,19 2,44 3,23 4,05 5,18 6,07 2,39 3,15 3,93 4,98 5,79 2,35 3,07 3,80 4,79 5,54
3
5,95 7,23 2,52 3,34 4,24 5,56 6,68 2,46 3,24 4,08 5,29 6,30 2,42 3,16 3,95 5,09 6,03 2,38 3,10 3,86 4,94 5,82 2,32 2,99 3,69 4,68 5,46 2,28 2,92 3,59 4,51 5,24 2,25 2,87 3,52 4,40 5,09 2,23 2,84 3,46 4,31 4,98 2,18 2,76 3,34 4,13 4,73 2,13 2,68 3,23 3,95 4,50
4
5,41 6,52 2,39 3,11 3,89 5,04 6,00 2,33 3,01 3,73 4,77 5,64 2,29 2,93 3,61 4,58 5,37 2,25 2,87 3,51 4,43 5,17 2,18 2,76 3,35 4,18 4,84 2,14 2,69 3,25 4,02 4,62 2,11 2,64 3,18 3,91 4,48 2,09 2,61 3,13 3,83 4,37 2,04 2,53 3,01 3,65 4,14 1,99 2,45 2,89 3,48 3,92
5
5,06 6,07 2,31 2,96 3,66 4,69 5,56 2,24 2,85 3,50 4,44 5,21 2,20 2,77 3,38 4,25 4,96 2,16 2,71 3,29 4,10 4,76 2,09 2,60 3,13 3,85 4,43 2,05 2,53 3,03 3,70 4,23 2,02 2,49 2,96 3,59 4,09 2,00 2,45 2,90 3,51 3,99 1,95 2,37 2,79 3,34 3,76 1,90 2,29 2,67 3,17 3,55
6
4,82 5,76 2,24 2,85 3,50 4,46 5,26 2,18 2,74 3,34 4,20 4,91 2,13 2,66 3,22 4,01 4,66 2,09 2,60 3,13 3,87 4,47 2,02 2,49 2,97 3,63 4,15 1,98 2,42 2,87 3,47 3,95 1,95 2,37 2,80 3,37 3,81 1,93 2,34 2,74 3,29 3,71 1,87 2,25 2,63 3,12 3,49 1,82 2,18 2,52 2,96 3,28
8
4,50 5,35 2,15 2,70 3,29 4,14 4,86 2,09 2,59 3,12 3,89 4,52 2,04 2,51 3,01 3,71 4,28 2,00 2,45 2,91 3,56 4,09 1,93 2,34 2,75 3,32 3,78 1,88 2,27 2,65 3,17 3,58 1,85 2,22 2,58 3,07 3,45 1,83 2,18 2,53 2,99 3,35 1,77 2,10 2,41 2,82 3,13 1,72 2,02 2,30 2,66 2,93
10
4,30 5,09 2,10 2,60 3,15 3,94 4,60 2,03 2,49 2,99 3,69 4,27 1,98 2,41 2,87 3,51 4,03 1,94 2,35 2,77 3,37 3,85 1,87 2,24 2,61 3,13 3,54 1,82 2,16 2,51 2,98 3,34 1,79 2,11 2,44 2,88 3,21 1,76 2,08 2,39 2,80 3,12 1,71 1,99 2,27 2,63 2,90 1,65 1,91 2,16 2,47 2,71
15
4,01 4,72 2,01 2,46 2,95 3,66 4,25 1,94 2,35 2,79 3,41 3,92 1,89 2,27 2,67 3,23 3,68 1,84 2,20 2,57 3,09 3,50 1,77 2,09 2,41 2,85 3,20 1,72 2,01 2,31 2,70 3,01 1,69 1,96 2,23 2,60 2,88 1,66 1,92 2,18 2,52 2,78 1,60 1,84 2,06 2,35 2,57 1,55 1,75 1,94 2,19 2,37
20
3,86 4,53 1,96 2,39 2,84 3,51 4,06 1,89 2,28 2,68 3,26 3,73 1,84 2,19 2,56 3,08 3,50 1,79 2,12 2,46 2,94 3,32 1,72 2,01 2,30 2,70 3,01 1,67 1,93 2,20 2,55 2,82 1,63 1,88 2,12 2,44 2,69 1,61 1,84 2,07 2,37 2,60 1,54 1,75 1,94 2,20 2,39 1,48 1,66 1,82 2,03 2,19
30
3,70 4,33 1,91 2,31 2,73 3,35 3,86 1,84 2,19 2,57 3,10 3,54 1,78 2,11 2,44 2,92 3,30 1,74 2,04 2,35 2,78 3,12 1,66 1,92 2,18 2,54 2,82 1,61 1,84 2,07 2,39 2,63 1,57 1,79 2,00 2,28 2,50 1,54 1,74 1,94 2,20 2,40 1,48 1,65 1,82 2,03 2,19 1,41 1,55 1,69 1,86 1,98
3,36 3,90 1,80 2,13 2,49 3,00 3,44 1,72 2,01 2,32 2,75 3,11 1,66 1,92 2,19 2,57 2,87 1,61 1,84 2,09 2,42 2,69 1,52 1,71 1,91 2,17 2,38 1,46 1,62 1,79 2,01 2,18 1,41 1,56 1,70 1,89 2,04 1,38 1,51 1,64 1,80 1,93 1,29 1,39 1,48 1,60 1,69 1,19 1,25 1,31 1,38 1,43
16
18
20
25
30
35
40
60
120
Pastor-Barriuso R.
247
Tablas estadsticas
d1 d2
Percentil
0,90 0,95 0,975 0,99 0,995
1
2,71 3,84 5,02 6,63 7,88
2
2,30 3,00 3,69 4,61 5,30
3
2,08 2,60 3,12 3,78 4,28
4
1,94 2,37 2,79 3,32 3,72
5
1,85 2,21 2,57 3,02 3,35
6
1,77 2,10 2,41 2,80 3,09
8
1,67 1,94 2,19 2,51 2,74
10
1,60 1,83 2,05 2,32 2,52
15
1,49 1,67 1,83 2,04 2,19
20
1,42 1,57 1,71 1,88 2,00
30
1,34 1,46 1,57 1,70 1,79
1,00 1,00 1,00 1,00 1,00
* Para percentiles inferiores = 0,005, 0,01, 0,025, 0,05 y 0,10, Fd1,d2, = 1/ Fd2,d1,1.
248
Pastor-Barriuso R.
Tablas estadsticas
Tabla 8 Percentiles de en la muestra de Tabla 8 Percentiles de la distribucin bajo H0 de la suma de rangos de Wilcoxon U = ri en i =1 la muestra de menor tamao n1 n2 para n1 = 3, 4, ..., 8.*
Percentil 0,95 n1 n2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
n1
Percentil 0,975 n1 7 8 3
15 18
P
7
3
14 17 19 21 24 26 28 31 33 36 38 40 43 45 47 50 52 54 57 59 61 64 66 68 71 73 75 78 80 82 85 87 89 92 94 96 99 101 103 106 108 110 113 115 117 119 122
4
24 27 30 33 36 39 42 45 48 51 54 57 59 62 65 68 71 74 77 80 83 86 89 92 95 98 101 104 107 110 113 116 119 122 125 127 130 133 136 139 142 145 148 151 154 157
4
25 28 31 34 37 41 44 47 50 53 56 59 62 66 69 72 75 78 81 84 88 91 94 97 100 103 106 109 113 116 119 122 125 128 131 134 138 141 144 147 150 153 156 159 162 166
n2 8
3 4
3
14 17 19 21 24 26 28 31 33 36 38 40 43 45 47 50 52 54 57 59 61 64 66 68 71 73 75 78 80 82 85 87 89 92 94 96 99 101 103 106 108 110 113 115 117 119 122
4
24 27 30 33 36 39 42 45 48 51 54 57 59 62 65 68 71 74 77 80 83 86 89 92 95 98 101 104 107 110 113 116 119 122 125 127 130 133 136 139 142 145 148 151 154 157
35 39 43 46 50 53 57 61 64 68 71 75 79 82 86 89 93 96 100 104 107 111 114 118 121 125 129 132 136 139 143 146 150 154 157 161 164 168 171 175 179 182 186 189 193
49 54 58 62 66 70 75 79 83 87 91 96 100 104 108 112 116 121 125 129 133 137 142 146 150 154 158 162 167 171 175 179 183 187 192 196 200 204 208 212 217 221 225 229
65 70 75 80 85 90 94 99 104 109 113 118 123 128 133 137 142 147 152 156 161 166 171 176 180 185 190 195 199 204 209 214 218 223 228 233 237 242 247 252 257 261 266
84 89 95 100 105 111 116 122 127 132 138 143 148 154 159 165 170 175 181 186 191 197 202 207 213 218 223 229 234 240 245 250 256 261 266 272 277 282 288 293 298 304
20 22 25 27 30 32 35 37 40 42 45 47 50 52 55 57 60 62 65 67 70 72 75 77 79 82 84 87 89 92 94 97 99 102 104 107 109 112 114 117 119 121 124 126 129
37 41 44 48 52 56 60 63 67 71 75 79 82 86 90 94 97 101 105 109 112 116 120 124 127 131 135 139 142 146 150 154 158 161 165 169 173 176 180 184 188 191 195 199 203
51 56 60 64 69 73 78 82 87 91 95 100 104 109 113 117 122 126 131 135 139 144 148 152 157 161 166 170 174 179 183 187 192 196 201 205 209 214 218 223 227 231 236 240
68 73 78 83 88 93 98 103 108 113 118 123 128 133 138 143 148 153 158 163 168 173 178 183 188 193 198 203 208 213 218 223 228 233 238 243 248 253 258 263 268 273 278
5 6 7 86 8 9 92 10 104 11 109 12 115 13 14 121
98
126 15 16 132 17 137 18 143 19 149

20 154 21 160 22 166 23 171 24
25 182 26 188 27 28 194 29 199 30 31 210 32 216 33 222 34
177
1 1
1 1 1 1 1
205
233 35 36 238 37 244 38 250 39

40 261 41 42 266 43 272 44 278
227
1 1 1 1 1
255
1 1 1 1 1
1 1 1 1 1
45 289 46 47 294 48 300 49
283
306 311 317
1 1 1 1 1
Pastor-Barriuso R.
249
Tablas estadsticas
Percentil 0,99 n1 n2
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
Percentil 0,995 n1 7 8 3
15 18
3
15 18 21 24 26 29 31 34 37 39 42 45 47 50 52 55 58 60 63 66 68 71 73 76 79 81 84 86 89 92 94 97 99 102 105 107 110 112 115 118 120 123 126 128 131 133 136
4
26 29 32 36 39 42 46 49 52 56 59 62 66 69 72 76 79 82 86 89 92 96 99 102 105 109 112 115 119 122 125 129 132 135 139 142 145 148 152 155 158 162 165 168 172 175
4
26 30 33 37 40 44 47 51 54 58 61 64 68 71 75 78 81 85 88 92 95 99 102 105 109 112 116 119 123 126 129 133 136 140 143 146 150 153 157 160 164 167 170 174 177 181
38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126 130 134 138 142 146 150 154 158 162 166 170 174 178 182 186 190 194 198 202 205 209 213
53 58 62 67 72 77 81 86 91 95 100 104 109 114 118 123 128 132 137 141 146 151 155 160 165 169 174 178 183 188 192 197 202 206 211 215 220 225 229 234 238 243 248 252
70 76 81 86 92 97 102 108 113 118 123 129 134 139 144 150 155 160 166 171 176 181 187 192 197 202 208 213 218 223 229 234 239 244 250 255 260 265 271 276 281 286 292
90 96 102 108 114 119 125 131 137 143 149 155 161 167 173 179 185 190 196 202 208 214 220 226 232 238 243 249 255 261 267 273 279 285 290 296 302 308 314 320 326 332
21 24 27 30 32 35 38 40 43 46 48 51 54 57 59 62 65 67 70 73 75 78 81 84 86 89 92 94 97 100 102 105 108 110 113 116 119 121 124 127 129 132 135 137 140
39 43 48 52 56 60 64 68 72 77 81 85 89 93 97 101 105 110 114 118 122 126 130 134 138 142 147 151 155 159 163 167 171 175 179 183 188 192 196 200 204 208 212 216 220
54 59 64 69 74 79 83 88 93 98 103 107 112 117 122 127 131 136 141 146 151 155 160 165 170 174 179 184 189 193 198 203 208 213 217 222 227 232 236 241 246 251 255 260
72 77 83 88 94 99 105 110 116 121 127 132 138 143 149 154 159 165 170 176 181 187 192 197 203 208 214 219 225 230 235 241 246 252 257 263 268 273 279 284 290 295 301
92 98 104 110 116 122 129 135 141 147 153 159 165 171 177 184 190 196 202 208 214 220 226 232 238 244 250 256 263 269 275 281 287 293 299 305 311 317 323 329 335 341
* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, u = n1(n1 + n2 + 1) u1.
250
Pastor-Barriuso R.
Tablas estadsticas
Tabla 9 Percentiles de la distribucin bajo H0 de la suma de rangos positivos de Tabla 9 Percentiles de la distribucin bajo H0 de la suma de rangos positivos de Wilcoxon Wilcoxon W para un nmero con diferencias nono nulas n n 16.* W= = ri para nmerode deparejas parejas con diferencias nulas 16.*
i =1 m
0,95
Percentil 0,975
15 20 25 32 39 46 55 64
Percentil 0,99 0,995 15 21 28 35 43 51 60 70 81 92 104 116
n 5 6 7 8 9 10 11 12
5 6 7 8 9 10 11 12 13 14 15 16
0,95 14 18 24 30 36 44 52 60
14 0,975 18 15 24 20 30 25 32 36 44 52 60
0,99 15 21 27 34 41 49 58 68
15 0,995 21 15 27 21 34 28 35 41 49 58 68
69 73 78 69 73 78 81 79 83 89 79 83 89 92 89 94 100 89 94 100 104 100 106 112 100 106 112 116 * Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, w = n(n + 1)/2 w1. * Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, w = n(n + 1)/2 - w1-.
39 46 55 64
43 51 60 70
13 14 15 16
Tabla 10 Percentiles de la distribucin bajo H0 del coeficiente de correlacin rs de Spearman en muestras de tamao n 10.*
Percentil n 4 5 6 7 8 9 10 0,95 0,800 0,800 0,771 0,679 0,619 0,583 0,552 0,975 1,000 0,900 0,829 0,750 0,714 0,683 0,636 0,99 1,000 0,900 0,886 0,857 0,810 0,767 0,733 0,995 1,000 1,000 0,943 0,893 0,857 0,817 0,782
* Para percentiles inferiores = 0,005, 0,01, 0,025 y 0,05, rs, = rs,1.
19

Bio Esta Di Stica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bio Esta Di Stica

Cargado por

Copyright:

Formatos disponibles

Instituto Epidemiologa de Salud Carlos III

Instituto Epidemiologa de Salud Carlos III

MINISTERIO DE ECONOMA Y COMPETITIVIDAD

Instituto de Salud Carlos III

Centro Nacional de Epidemiologa

A la memoria de Carmen A Marta, Pablo, Miguel y Antonio

TEMA 1 ESTADSTICA DESCRIPTIVA

de una determinada variable o, dicho de forma equivalente, estos estimadores indican

valores muestrales dividida por el nmero de observaciones realizadas. Si denotamos

the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

el percentil 25 es el tercer valor de la muestra, que corresponde a 0,87 mmol/l.

realizar inferencias acerca de los parmetros poblacionales correspondientes. A

the Breast (EURAMIC), un estudio multicntrico de casos y controles realizado

0 Nunca fumador Ex fumador Fumador actual

0 0 0,3 0,6 0,8 1 1,2 1,4 1,7 2 2,5

Colesterol HDL (mmol/l)

Colesterol HDL (mmol/l)

En este tema se define el concepto de probabilidad y se introducen las reglas bsicas

interpretacin de los procedimientos de inferencia estadstica (por ejemplo, el valor P

indefinidamente los registros anuales, el lmite de estos cocientes 0,4850, 0,4845,

poblacin de adultos es 0,20, la probabilidad de ser diabtico es 0,03 y la

P(BD) = P(B) + P(D)

P(BD) = 0,20 + 0,03

(A ) formalizar cmo se modifica la probabilidad deP un suceso en funcin de otro es la

De forma intuitiva, condicionar por el suceso A es equivalente a seleccionar por este

estar expuesto a un factor de riesgo, P(D|E) es la probabilidad de la

i =1 i =1 espacio muestral; es decir, A y Ac son sucesos exhaustivos AAc = y mutuamente

excluyentes AAc = . 2.4 REGLA DE LA PROBABILIDAD TOTAL

Como puede apreciarse, el valor predictivo positivo de esta prueba vara

TEMA 3 VARIABLES ALEATORIAS Y DISTRIBUCIONES DEPROBABILIDAD

Variables aleatorias y distribuciones deprobabilidad

meses de tratamiento en 4 pacientes con cncer, la probabilidad de que sobrevivan

0, 1, 2, 3 y 4 con probabilidad no nula.

de distribucin F(x) = aleatoria P(X x) variable

0,1296 0,4752 cuadrado 0,8208 0,9744 1,0000

as el valor promedio de la variable aleatoria. Notar que la media muestral se puede

calcular de forma similar, multiplicando cada valor observado de la variable por su

y 4la varianza = (k ) 2 P( X = k ) y la varianza k =0 y la varianza

2 = k) 2 =+ k(4 ) 2 P( X = (0 - 1,60) 0,1296 ... ( + - 1,60) 0,0256 = 0,96. 2

2 = (k1,60) )220,1296 P( X =+ k) ... + (4 1,60)20,0256 = 0,96. = (0

caractersticas sometidos a una misma terapia.

Ejemplo 3.5 En los ejemplos anteriores, se ha considerado el experimento de

kP( X = k ) = k k Variables aleatorias y distribuciones deprobabilidad

As, el nmero esperado de xitos es igual al n

y su varianza es y su varianza es var(X) =

probabilidad individual de xito. La varianza n

nmero de pruebas y ms extrema sea la probab

diferencia de la distribucin binomial, donde el nmero de xitos k no puede exceder el

Variables aleatorias y distribuciones deprobabilidad

0,25 0,2 0,15 0,1 0,05 0 0 5 10 15 20 0 5 10 15 20

0,15 0,1 0,05 0

la probabilidad de que una variable aleatoria

Colesterol HDL (mmol/l)

Colesterol HDL (mmol/l)

representa la esperanza o media poblacional de la distribucin y

Variables aleatorias y distribuciones deprobabilidad

corresponde a su desviacin tpica poblacional.

[Figura 3.4 aproximadamente aqu]

observarse, se trata de una funcin simtrica alrededor de 0. Para obtene 18

Distribuciones de probabilidad continuas

procedimiento de estandarizacin de variables normales permite utilizar las tablas

las probabilidades de obtener exactamente k1 o k2 xitos. Este ajuste se conoce como

binomial discreta mediante una distribucin normal continua.

100 0,10 k (1 0,10)100 k k =12 k