Está en la página 1de 36

A. MARTN ANDRS J. de D.

LUNA del CASTILLO

RESMENES de

BIOESTADSTICA
(6 edicin)

Medida

Valores posibles

(Asociacin-) Independencia (Asociacin+)

Caso

Estimacin
= (O C ) / (O C ) R 11 2 12 1

Estudios en que es vlida

0R<1 R R=1 1<R< General

= (O11 + 0,5)(C 2 +1) R (O12 + 0,5)(C1 +1)

Transversales Prospectivos

oO O Retrospectivos R Si P(E)<0,1 Riesgo relativo (de FR para E): La probabilidad de enfermar es R veces mayor en los ...

EDICIONES NORMA-CAPITEL (2004)

RESMENES de

BIOESTADSTICA
(6 edicin)

Estos Resmenes han sido extrados del libro publicado en esta misma Editorial

50 10 horas de BIOESTADSTICA (1995)


A. Martn Andrs y J. D. Luna del Castillo.

Antonio Martn Andrs Juan de Dios Luna del Castillo EDICIONES NORMA-CAPITEL La Chopera, 32. 28230 Las Rozas (Madrid) Reservados los derechos de edicin, adaptacin o reproduccin para todos los pases. No est permitida la reproduccin total o parcial de este libro, ni su tratamiento informtico, ni la transmisin de ninguna forma o por cualquier medio, ya sea electrnico, mecnico, por fotocopia, por registro u otros mtodos, sin el permiso previo y por escrito de los titulares del Copyright. ISBN: 84-8451-020-4 Depsito legal:

RESUMEN DEL CAPTULO I

LA ESTADSTICA EN LAS CIENCIAS DE LA SALUD


1.1 NECESIDAD Las Ciencias de la Salud son experimentales y se basan en el mtodo inductivo (extensin, al todo, de las conclusiones obtenidas en una parte). El nico modo de validar tales inducciones es por el Mtodo Estadstico. Las dems razones que siguen son reflejo de esta mayor razn: a) La variabilidad biolgica de los individuos objeto de estudio en las Ciencias de la Salud origina que sus datos sean impredecibles y que el modo de controlarlos sea a travs del Mtodo Estadstico. b) La naturaleza cada vez ms cuantitativa de las Ciencias de la Salud requiere del Mtodo Estadstico para analizar y poner orden en los datos. c) La investigacin en el campo de las Ciencias de la Salud requiere de la Estadstica en sus etapas de diseo, recopilacin de datos y anlisis de los resultados. d) El volumen de la informacin que recibe el profesional de la Salud requiere de conocimientos estadsticos que le permitan leer crtica y comprensivamente los resultados cientficos ajenos. e) La naturaleza del trabajo clnico es en esencia de tipo probabilstico o estadstico, disciplinas que dan rigor y objetividad a los clsicos procesos subjetivos de diagnstico, pronstico y tratamiento. f) La perspectiva comunitaria de las Ciencias de la Salud requiere del uso de la Estadstica para poder extrapolar las conclusiones desde la parte estudiada de la poblacin a su globalidad. 1.2 DEFINICIN DE ESTADSTICA No existe una definicin internacionalmente aceptada, pero para nuestros propsitos basta con esta: Es el conjunto de mtodos necesarios para recoger, clasificar, representar y resumir datos, as como para hacer inferencias (extraer consecuencias) cientficas a partir de ellos. De ah que conste de dos partes: a) Estadstica Descriptiva, cuyo fin es la recogida, clasificacin, representacin y resumen de los datos. b) Inferencia Estadstica, cuyo fin es extender las conclusiones obtenidas en una parte de la poblacin de inters (la muestra) a toda ella. 1.3 CONSIDERACIONES FINALES a) Es importante estar familiarizado con el lenguaje estadstico. b) El Mtodo Estadstico es un mtodo riguroso para el anlisis de datos. Su validez est condicionada por la verificacin de ciertas hiptesis que no pueden ser violadas. c) Es importante la planificacin adecuada de la experiencia. Una planificacin incorrecta puede hacer desaprovechable toda la experiencia o una gran parte de ella. d) La Estadstica Descriptiva no tiene valor inferencial alguno. Ella slo describe lo que hay, no permitiendo extraer conclusiones ciertas sobre nada.

LA ESTADSTICA EN LAS CIENCIAS DE LA SALUD

1.4 CONTENIDOS DE ESTOS RESMENES El Cuadro R.1.1 presenta esquemticamente los contenidos y el Resumen del Captulo que los contiene.

Descriptiva II

Estadstica

Herramientas

Intervalos de confianza y de Aceptacin Cunto vale una caracterstica en una poblacin o individuo? IV y partes del VI y XI

Probabilidad Inferencial III

Tipos y familias de datos III

Test de Hiptesis Es cierta esta hiptesis? Generalidades: V

Hiptesis que implican una caracterstica en:

Hiptesis que implican dos caractersticas (Problemas de Asociacin)

1 poblacin VI

2 poblaciones VII

3 o ms poblaciones IX

Ensayos Clnicos VIII

Ambas no numricas IX

Ambas numricas X y XI

Una numrica y otra no XI

RESUMEN DEL CAPTULO II

ESTADSTICA DESCRIPTIVA
2.1 TIPOS DE DATOS a) Cuantitativos: Se expresan numricamente. i) Discretos: Toman valores numricos aislados. ii) Continuos: Toman cualquier valor (dentro de unos lmites dados). b) Cualitativos: No se expresan numricamente. i) Ordinales: Admiten una ordenacin lgica y ascendente. (Nominales en otro caso). ii) Dicotmicos: Solo aceptan dos posibilidades. 2.2 PRESENTACIN TABULAR DE LOS DATOS a) Se les agrupa en clases (si son discretos o cualitativos) o en intervalos de clase de igual longitud (si son continuos o discretos con muchos valores posibles). La primera y la ltima clase pueden ser excepcin. b) A cada clase se le anota la frecuencia absoluta (fi), o nmero de datos en la clase, y la frecuencia relativa (hi = fi/n, con n el nmero total de datos). Suceder que fi = n y hi = 1. Multiplicando hi por 100, 1.000, etc se obtienen los %, 0/00, etc. c) Los intervalos de clase vienen definidos por dos nmeros, el lmite inferior (LI) y el lmite superior (LS); la diferencia de ellos es la longitud de clase y la semisuma es la marca de clase. 2.3 PRESENTACIN GRFICA DE LOS DATOS a) Histograma: Sobre cada punto (o intervalo) de las abscisas, se levanta una barra (o rectngulo) de tanta altura como frecuencia haya. b) Polgono de frecuencias: Se unen por una poligonal los puntos del plano que tienen por abscisa la clase o marca de clase y por ordenada la frecuencia. c) Pictograma: Se define una figura-motivo y se la repite o se la ampla de modo proporcional a la frecuencia de la clase, obteniendo as un pictograma de repeticin (o de amplificacin). d) Diagrama de sectores: En un crculo, se asigna a cada clase un sector de rea proporcional a la frecuencia de la clase. El ngulo que lo delimita es 360hi (en grados). 2.4 SNTESIS DE DATOS a) Medidas de posicin: Describen cmo se encuentra el resto de la muestra con respecto a ellas. i) Moda: la clase con mas frecuencia absoluta (si nominal) o relativa (resto de los casos). ii) Mediana: divide a la muestra ordenada (de menor a mayor) en dos partes iguales. iii) Percentil: El percentil pi deja a su izquierda un "i% de la muestra ordenada de menor a mayor (i=1, 2, ...., 99). iv) Cuartil: c1=p25, c2=p50, c3=p75.

ESTADSTICA DESCRIPTIVA

v) Decil: d1=p10, d2=p20, ..., d9=p90. vi) Media aritmtica: x i Datos no agrupados: x= n

Datos agrupados:
vii) Media ponderada: x p =

x =

w i x i , con wi los pesos de ponderacin. w i b) Medidas de dispersin: Describen cmo de variables o dispersos son los datos. i) Recorrido, rango o amplitud: Es la diferencia entre los valores ms grande y ms pequeo de la muestra. ii) Desviacin media: dm = xi x /n iii) Varianza: En lo que sigue, la primera frmula es la definicin y la segunda es la apropiada para el clculo: (x i - x) 2 1 2 ( x i ) 2 Datos no agrupados: s 2 = = x i n -1 n -1 n Datos agrupados: s 2 =

f i x i , con fi = n n

f i (x i - x) 2 1 ( f i x i ) 2 2 = f x i i , n -1 n -1 n

con fi = n iv) Desviacin tpica: la raz cuadrada (s) de la varianza. v) Rango intercuartlico: c3c1 vi) Coeficiente de variacin: CV = (s/ x )100%.

DISTRIBUCIONES DE PROBABILIDAD
3.1 DEFINICIONES a) Fenmeno aleatorio: Aquel fenmeno cuyo resultado es impredecible. b) Probabilidad (de un resultado dado de un fenmeno aleatorio): Es el lmite de la frecuencia relativa del mismo cuando el nmero de experiencias (repeticiones del fenmeno) tiende hacia infinito. La existencia de dicho lmite se sustenta en la ley de azar (o de estabilizacin de las frecuencias relativas). c) Variable aleatoria: es el resultado numrico de un fenmeno aleatorio. Son: i) Discretas: se identifican por la funcin de probabilidad (regla que asocia a cada valor de la variable, su probabilidad). ii) Continuas: se identifican por la funcin de densidad (que indica cmo de probable es que la v.a. caiga en los alrededores del punto), cuya representacin grfica es la curva de densidad. En general a ambas funciones se les llama distribucin de probabilidad. d) Parmetros poblacionales: Por contraposicin a los parmetros muestrales (que, como la media, varianza, etc, describen las muestras) se definen de igual modo los parmetros poblacionales (que describen las poblaciones o las son los pov.a.). Los paralelos a los parmetros muestrales x , s2, s y h = p blacionales , 2, y p. 3.2 DISTRIBUCIONES DE PROBABILIDAD TERICAS La mayora de la v.a. de la Naturaleza siguen alguna de las siguientes: a) Distribucin Normal: i) Definicin: xN(; ) si su curva de densidad tiene forma de campana con centro de simetra en (media) y dispersin (desviacin tpica). ii) Tipificacin: z = (x)/ N(0; 1) llamada Normal tpica. iii) Tabla 2: Para cada da un z de una N(0; 1) con P(zz+z) = 1. iv) Teorema Central del Lmite: Si x es una v.a. cualquiera de media y desviacin tpica , y si x es la media de una muestra de tamao n30, x se distribuye aproximadamente como una Normal: x N(;/ n ), con / n el error estndar. Si x es Normal, lo anterior se verifica exactamente para cualquier valor de n. b) Distribucin Binomial: i) Definicin: Si de una poblacin de tamao (N) infinito, cuyos individuos verifican una cierta caracterstica dicotmica con probabilidad p, se extrae una muestra de tamao n, el nmero x de individuos, de entre los n, que verifican la caracterstica sigue una distribucin Binomial (lo que se expresa abreviadamente diciendo que xB(n; p)). Cuando N, x sigue aproximadamente una Binomial si N > 40 y n/N (fraccin de muestreo) 0,10. ii) Media y Varianza: Son np y npq respectivamente. iii) Propiedad: Si n es suficientemente grande se aproxima a la Normal. c) Distribucin de Poisson: i) Identificacin: Son distribuciones de Poisson: i) Una Binomial con n grande y p pequeo; ii) El nmero de partculas por unidad de medio (si un gran nmero de partculas estn repartidas al azar en una gran cantidad de medio); iii) El nmero de sucesos que ocurren por unidad de tiempo (si estos suceden al azar e independientemente entre s). ii) Media y Varianza: en ambos casos. iii) Propiedad: Si es suficientemente grande se aproxima a la Normal.

RESUMEN DEL CAPTULO III

INTERVALOS DE CONFIANZA Y DE ACEPTACIN


4.1 MUESTREO ALEATORIO Las muestras deben tomarse al azar, de modo que todo individuo de la poblacin tenga igual probabilidad de ser seleccionado y que la seleccin de uno de ellos no condicione la seleccin de otro. El azar puede imitarse mediante dados, bolas en urna, etc, pero lo mejor es hacerlo a travs de una Tabla de Nmeros Aleatorios como la Tabla 5. 4.2 ESTIMACIN Los parmetros poblacionales no suelen ser conocidos. Se les determina a travs de muestras aleatorias. La Teora de la Estimacin es la parte de la Inferencia Estadstica que sirve para determinar el valor de los parmetros poblacionales en base al de los parmetros muestrales. La estimacin puede ser: ) a) Por punto: Si se asigna al parmetro desconocido () un nico valor ( es que ser su valor aproximado y que depende de la muestra. Se dice que , se un estimador de . Cuando se haya obtenido la muestra y calculado es el parmetro muestral es una estimacin de . Usualmente dice que ). = x, 2 = s 2 y p=h homnimo del parmetro poblacional a estimar (as, b) Por intervalo: Si se asigna al parmetro desconocido () un intervalo de valores, (a; b), entre los cuales est con una cierta confianza 1. As, si P(ab) = 1, (a; b) es el intervalo de confianza, es el error del intervalo y 1 la confianza del intervalo. 4.3 INTERVALO DE CONFIANZA PARA UNA MEDIA a) Intervalo con v.a. Normales: Si xN(; ) y x1, x2, ..., xn es una muestra aleatoria de ella, con media x y desviacin s: i) Si 2 es conocida: x z/ n , con z en la Tabla 2. ii) Si2 es desconocida: x ts/ n , con t en la Tabla 6 con (n1) g.l. y s/ n el llamado error estndar. b) Intervalo con v.a. no Normales: Si, en las condiciones de antes, x es no Normal, lo que sigue vale aproximadamente: i) Si 2 es conocida y n30: x z/ n , con z en la Tabla 2. ii) Si 2 es desconocida y n60: x zs/ n , con z en la Tabla 2. En ambos casos, si la v.a. x es discreta (y saltando de 1 en 1), a las expresiones anteriores hay que aadirles el trmino 1/(2n) como correccin por continuidad. c) Tamao de muestra: Si xN(; ) y se desea obtener un tamao de muestra n tal que la media x de esa muestra verifique que x d, entonces: i) Si 2 es conocida: n = (z/d)2, con z en la Tabla 2. ii) Si 2 es desconocida pero se conoce un valor mximo para ella: n = {z(Mx ) / d}2, con z en la Tabla 2. iii) Si 2 es desconocida pero hay una muestra piloto: n = (ts/d)2, con t en la Tabla 6 con ( n l) g.l., n el tamao de la muestra piloto y s2 su varianza. iv) En otro caso: Hacer d=K y n = (z/K)2, con z en la Tabla 2. Los casos ii) e iii) requieren comprobar que la muestra del tamao n aconsejado verifica las especificaciones. Si el n resultante es grande (60),

RESUMEN DEL CAPTULO IV

INTERVALOS DE CONFIANZA Y DE ACEPTACIN

las frmulas anteriores tambin valen, aproximadamente, si x es no Normal.


4.4 INTERVALO DE CONFIANZA PARA UNA PROPORCIN Si xB(n; p): =x/n, q =1 p y son x, nx>5: a) Intervalo: Si x es una observacin de ella, p 2 2 z z x 0,5 (x 0,5) + z + (x 0,5) 1 2 4 n p 2 n + z expresin que se puede simplificar en esta otra si, adems, son x, nx>20: x(n - x) x z + 0,5 n pq 1 z pp + = n 2n n con z siempre en la Tabla 2. La expresin primera es siempre ms exacta que la segunda. b) Tamao de muestra: Si se desea obtener un tamao de muestra n tal que la en ella verifique que p pd, entonces: proporcin p i) Con informacin: Si en base a una informacin previa -bibliogrfica o de muestra piloto- se conoce que p(p1;p2), n = (z/d)2pq, con p el valor de dicho intervalo que est ms cercano a 0,5, q=1p y z en la Tabla 2. ii) Sin informacin: n = (z/2d)2. con z siempre en la Tabla 2. En el primer caso hace falta comprobar que la muestra del tamao n aconsejado verifica las especificaciones. 4.5 GENERALIDADES SOBRE LOS INTERVALOS DE CONFIANZA Las siguientes observaciones son vlidas para todos los intervalos de confianza: a) Los intervalos de confianza construidos son de dos colas -es decir del tipo (1; 2)- y con una confianza de 1 (o con un error de ). Cuando se desee un intervalo de confianza de una cola, obtener el extremo que interese (1 o 2) al error 2. El intervalo ser 2 o 1. b) Las frmulas de tamao de muestra son vlidas para un intervalo de confianza de dos colas al error . Cuando se le desee de una cola, cambiar por 2. c) En ciertos casos del tamao de muestra se alude a que al final hay que comprobar que la muestra del tamao aconsejado verifica las especificaciones. El modo de hacerlo pasa por determinar el intervalo de confianza 1 d y (1; 2) a partir de dicha muestra; deber ocurrir que segn el caso. 2 d, con igual a x o p 4.6 INTERVALOS DE ACEPTACIN Si x1, x2, ..., xn es una muestra aleatoria de una v.a. continua de parmetros desconocidos: a) Variables Normales: x x Ks, con x y s la media y desviacin tpica de la muestra y K en la Tabla 9. b) Variables cualesquiera: ordenar la muestra de menor a mayor y proceder como se indica en la Tabla 10. En ambos casos el intervalo obtenido contiene al menos al 100% de la poblacin con una confianza de (1).

10

RESUMEN DEL CAPTULO V

CONCEPTO GENERAL DE TEST DE HIPTESIS


5.1 OBJETIVO Un test o contraste de hiptesis es un conjunto de reglas tendentes a decidir cul de dos hiptesis -H0 (hiptesis nula) o H1 (hiptesis alternativa)- debe aceptarse en base al resultado obtenido en una muestra. 5.2 TIPOS a) Test bilateral o de dos colas: Si H1 es la negacin de H0. b) Test unilateral o de una cola: Si H1 es una parte de la negacin de H0. 5.3 ELECCIONES PREVIAS Antes de realizar un test, el investigador debe decidir cuatro cosas: a) H0: Hiptesis formada por una igualdad o afirmacin positiva. b) H1: Es la hiptesis que se quiere demostrar fuera de toda duda. Podr ser una parte de la negacin de H0 si la otra parte implica una conclusin equivalente a la que proporciona H0. c) : Es un valor tanto ms pequeo cuantas ms garantas se precisen de que una decisin por H1 sea correcta. Usualmente =5% . d) Estadstico de contraste: Es la v.a. (dependiente de los valores de la muestra y que comprime toda la informacin relevante de ella) que se va a utilizar para realizar el test. 5.4 MTODO Para tomar la decisin debe obtenerse un conjunto de valores del estadstico de contraste (intervalo) cuya probabilidad (bajo H0) sea . El intervalo -que ser de dos colas en los test bilaterales y de una cola (con la desigualdad en el mismo sentido que la de H1) en los unilaterales- es llamado regin de aceptacin, y lo de fuera de l regin crtica o de rechazo. Obtenida la muestra, si el valor que toma en ella el estadstico de contraste est en la regin de aceptacin se acepta H0; si est fuera, se acepta H1. En el primer caso se dice que el test (o el resultado) es estadsticamente no significativo; en el segundo se dice que es test (o el resultado) es estadsticamente significativo (ambos al error ). 5.5 ERRORES Toda decisin por H1 viene acompaada de una posibilidad de error llamada error , de Tipo I o nivel de significacin: = P(decidir H1es cierta H0). Toda decisin por H0 viene acompaada de una posibilidad de error llamada error o de Tipo II: = P(decidir H0es cierta H1). En particular: a) El error est controlado, pues se fija de antemano. Por ello las decisiones por H1 son siempre fiables. b) El error no est controlado de antemano y puede ser grande. Por ello las decisiones por H0 no son de fiar.

CONCEPTO GENERAL DE TEST DE HIPTESIS

11

c) El error es un nico nmero, pero el error depende de la alternativa que se considere. d) El error disminuye conforme aumenta , conforme H1 se aleja de H0 y conforme aumenta el tamao de la muestra (si todo lo dems permanece fijo). 5.6 POTENCIA DE UN TEST Se llama potencia a la capacidad que tiene un test para detectar las hiptesis alternativas, es decir: = 1 = P(decidir H1es cierta H1) Como es funcin de la hiptesis alternativa, en el caso de tests acerca de parmetros su representacin grfica da la curva de potencia. Un test es tanto mejor cuanto ms potente sea. 5.7 VALOR P a) Al mnimo error al cual un resultado es significativo se le llama valor P o nivel crtico P o nivel mnimo de significacin. b) P es tambin la probabilidad de obtener un resultado tan extrao o ms que el obtenido cuando H0 es cierta, midiendo por tanto las evidencias que hay en contra de H0 (pero no mide cunto de falsa es H0). c) En un test de una cola (en el sentido favorable) P suele ser la mitad de su valor en el test de dos colas. d) Fijado un valor de : si P se decide H1; si P se decide H0. e) Las conclusiones de un test suelen expresarse as: H0 (P>tal) o H1 (P<cual). 5.8 TAMAO DE MUESTRA Determinando el tamao de muestra n de antemano las conclusiones por H0 tambin son fiables (las conclusiones por H1 siempre lo son). Para determinar n hace falta especificar: a) El error del test; b) La primera alternativa de inters, es decir la primera H1 (digamos 1) que se desea diferenciar de H0 (digamos 0), o la mnima diferencia de inters = 10. Si el test es para H0 =0, la primera alternativa de inters ser 1 = 0+ para H1 >0, 1 = 0 para H1 <0 o 1 = 0 para H1 0. c) El error (o la potencia ) para tal alternativa. El n obtenido garantiza que el test realizado con tal muestra (al error ) dar significativo el (1)100% de las veces en que la verdadera hiptesis H1 se diferencie de H0 en la cantidad especificada (o ms veces si la diferencia es mayor, o menos veces si es menor). 5.9 INTERVALOS DE CONFIANZA TRAS UN TEST DE HIPTESIS a) Tras realizar un test de hiptesis acerca de parmetros es conveniente dar un intervalo de confianza para el parmetro implicado, tanto si se concluye H0 (para as matizar la posible magnitud del error de tal conclusin) como si se concluye H1 (para as indicar cunto de falsa es H0). b) Cuando el test es de dos colas, el intervalo ser de dos colas (al error si se concluy H1; al error 2 si se concluy H0). c) Cuando el test es de una cola, el intervalo ser de una cola (al error y con la desigualdad en el sentido que indica H1 si se concluy H1; al error y con la desigualdad en el sentido contrario al que indica H1 si se concluy H0).

12

CONCEPTO GENERAL DE TEST DE HIPTESIS

5.10 REGLAS PARA TOMAR LA DECISIN a) Si n fue determinado de antemano: i) Si P se concluye H1 (la decisin es fiable); ii) Si P> se concluye H0 (la decisin es fiable). b) Si n no se determin de antemano, pero se conocen los errores y y la mnima diferencia de inters (o la primera alternativa de inters 1 a la hiptesis nula 0): i) Si P se concluye H1 (la decisin es fiable). ii) Si P> se concluye H0 =0 provisionalmente. El intervalo de confianza (I; S) construido en base a lo indicado en el Resumen 5.9b) y c) permite tomar la decisin final: si la primera alternativa de inters 1 = 0 (para H1 <0), 1 = 0+ (para H1 >0) o alguna de las 1 = 0 (para H1 0) pertenece al intervalo, la conclusin por H0 no es fiable (y debe ampliarse la muestra y repetir el test); en otro caso la conclusin por H0 es fiable (y el problema finaliza). c) En otro caso (Regla Automtica de Decisin para el caso de =5%): i) Si P5%: Se concluye H1; ii) Si P>15% o 20% (depende de n): Se concluye H0; iii) En otro caso: Se concluye H0, indicando que hay indicios de significacin y que conviene ampliar la muestra y repetir el test.

13

RESUMEN DEL CAPTULO VI

TESTS CON UNA MUESTRA


6.1 CRITERIOS GENERALES PARA TODOS LOS TESTS DE HIPTESIS Salvo indicacin expresa de lo contrario, todos los tests de hiptesis se basarn en los siguientes criterios: a) El criterio de test (dos colas): Calcular una cantidad experimental (Cexp) a partir de los datos y una cantidad terica (C) a partir de las tablas para un error dado. Entonces: Si Cexp < C se decide H0 (al error ); Si Cexp C se decide H1 (con error ) b) Obtencin del valor P (dos colas): Localizar en la Tabla terica dos valores C tales que C < Cexp < C (con < ); en tal caso < P < . La decisin se toma en funcin de P y en el modo indicado en el Resumen 5.10. c) Test de una cola: Comprobar si lo experimental es conforme con H1 y: i) Si NO es conforme con H1: Decidir H0 sin ms. ii) Si S es conforme con H1: Actuar como en a) pero en base a 2 u obtener el valor de P como b) y dividirlo por 2: / 2 < P < / 2 . d) Tamao de la muestra: Las frmulas de tamao de muestra que se vern sirven para determinar el mnimo tamao de muestra preciso para que un test de dos colas al error d significativo el (1)100% de las veces en que la verdadera hiptesis H1 se diferencie de H0 en la cantidad que se especifique (o ms veces si la diferencia es mayor, o menos veces si es menor). En todo caso, cuando el test es de una cola hay que cambiar en la frmula por 2. 6.2 TEST DE HIPTESIS PARA UNA PROPORCIN (H0 p=p0) Si xB(n; p), con p desconocido: a) Test: Si x es una observacin de ella y ocurre que np0>5 y nq0>5, con q0 = 1p0, comparar zexp = (xnp00,5) / np0 q 0 con una z de la Tabla 2. b) Tamao de la muestra: Para detectar alternativas p1 -con p1p0= - n0= {(z p0 q 0 +z2 p1q1 )/}2 con q1 = 1p1, las z en la Tabla 2 y: i) En tests de una cola: p1=p0 para H1p<p0; p1=p0+ para H1p>p0; ii) En tests de dos colas: p1 el valor ms cercano a 0,5 de entre los p0. 6.3 TEST PARA LA MEDIA DE UNA NORMAL (H0 =0) Si xN(; ), con desconocida: a) Test: Si x1, x2, ..., xn es una muestra aleatoria de x de media x y varianza s2: i) Si 2 es conocida: zexp = x 0 / (/ n ) vs. z de la Tabla 2. ii) Si 2 es desconocida: texp = x 0/ (s/ n ) vs. t(n1 g.l.) de la Tabla 6. b) Tamao de la muestra: Para detectar alternativas 1 con 10=: i) Si2 es conocida: n = {(z+z2)/}2 con las z en la Tabla 2. ii) Si 2 es desconocida, pero se sabe el mximo valor que puede tomar: n = {(z+z2)(Mx ) / }2, con las z en la Tabla 2.

14

TESTS CON UNA MUESTRA

iii) Si 2 es desconocida, pero hay una muestra piloto de tamao n y varianza s2: n = {(t+t2)s/}2 con las t en la Tabla 6 con ( n 1) g.l. iv) Si 2 es desconocida y no hay muestra piloto: Haciendo = K, n = {(z+z2)/K}2, con las z de la Tabla 2. 6.4 TEST DE HIPTESIS PARA LA MEDIA DE UNA VARIABLE CUALQUIERA (H0 =0) Si x es una variable cualquiera de media desconocida y varianza 2, el Resumen 6.3 es vlido aproximadamente, con las siguientes matizaciones: a) Cuando 2 es conocida: Si n30. b) Cuando 2 es desconocida: Si n60 (pero las cantidades t se miran tambin en la Tabla 2). c) Si la variable es discreta y saltando de 1 en 1: Al numerador de las cantidades experimentales hay que restarles 1/(2n), con lo que quedan as: x 01/(2n). 6.5 MTODOS DE MEDIDA a) Un mtodo de medida se dice que es insesgado si en promedio mide lo que realmente hay. Ser sesgado en otro caso. b) Un mtodo de medida se dice que es preciso si tiene poca variabilidad (varianza). Ser impreciso en otro caso. c) Un mtodo de medida se dice que es exacto si es insesgado y preciso. 6.6 TEST DE NORMALIDAD DE DAGOSTINO (H0 La muestra proviene de una v.a. Normal) Si x1, x2, ..., xn es una muestra aleatoria ordenada de menor a mayor, comparar con una D de la Tabla 11 (por el modo all indicado) la cantidad: 2 2 Dexp = {ixi(n+1)(xi)/2)} / {n n x i - ( x i ) / n }

Si el test da significativo, la comprobacin de la causa de la no-Normalidad se hace calculando Fn(xi) = {n de observaciones menores o iguales que xi}/n, representando en le plano las parejas (xi; Fn(xi)) y comparando la curva obtenida con las curvas ms usuales.
6.7 RECHAZO DE OBSERVACIONES EXTREMAS (H0 La observacin xS debe aceptarse) Si x1, x2, ..., xn es una muestra aleatoria de una v.a. x Normal y x es su media, la observacin sospechosa xS ser aquella que ms diste de x , es decir xS = Mxi xi x . Comparar texp = xS x / x i2 -(x i ) 2 / n con una t de la Tabla 13 por el modo all se indicado. Si el test da significativo (con valor P=P1) rechazar la observacin. Con las n1 observaciones restantes puede intentarse rechazar otra observacin (valor P2), pero ahora el valor P para la segunda es P = P1+P2.

15

RESUMEN DEL CAPTULO VII

TESTS DE HOMOGENEIDAD CON DOS MUESTRAS


7.1 TESTS PARAMTRICOS PARA COMPARAR DOS MEDIAS DE VARIABLES NORMALES (H0 1=2) a) Test para muestras independientes: Si las muestras -de tamaos n1 y n2, 2 medias x1 y x 2 y varianzas s1 y s2 2 - provienen de variables de medias 1 y 2 2 2 2 2 2 y varianzas 1 y 2 desconocidas, obtener Fexp = s1 / s2 2 , con s1 s 2 y compararla con F0,10 [n11; n21] de la Tabla 8; entonces: i) Si Fexp<F0,10 (Varianzas iguales: 1=2=) (Test de Student): Comparar con una t(n1+n22) de la Tabla 6 la cantidad: 2 x1 x 2 (n 1)s1 + (n 2 1)s 2 2 , con s 2 = 1 t exp = n n 2 + n + n2 1 2 s2 1 n 1n 2 ii) Si FexpF0,10 (Varianzas distintas: 12) (Test de Welch): Comparar con una t(f) de la Tabla 6 la cantidad: x x2 s2 s2 (A + B) 2 , con A= 1 , B= 2 y f = t exp = 1 A2 B2 n1 n2 A+B + n1 1 n 2 1 b) Test para muestras apareadas (Test de Student): Dadas dos v.a. (x1; x2) y n parejas de datos (x1i; x2i) de las mismas, con i=1, 2, , n, obtener sus diferencias di = x1ix2i y la media ( d ) y desviacin (sd) de las mismas. Si d N(d=12; d), con i la media de xi, comparar con una t(n1) de la Tabla 2 /n . 6 la cantidad texp = d / s d c) Intervalo de confianza para la diferencia de medias: La siguiente expresin es vlida para los tres casos citados en a) y b), con la misma notacin, condiciones y alusiones de entonces: 12(numerador de la texp sin valor absoluto) t(denominador de la texp) d) Tamao de muestra: Con igual notacin que en a) y b), para detectar una diferencia 12= (en lo que sigue, zx en la Tabla 2; tx en la Tabla 6 con f g.l.): i) Muestras independientes (Varianzas iguales): n1=n2=n, con: 2 2 2 z + z 2 t + t 2 2 z + z 2 2 n= 2 , n = 2s , n = 2 K la primera expresin cuando (o su mximo) es conocida, la segunda 2 cuando hay una muestra piloto de tamaos n i y varianza comn s (con + n2 2 ), y la tercera cuando = K. f = n1 ii) Muestras independientes (Varianzas distintas): Si r = 2/1 (o s2/s1):

16
2

TESTS CON DOS MUESTRAS

z + z 2 t + t 2 z + z 2 2 2 n1 = (r + 1)1 , n1 = (r + 1)s1 , n1 =(r+1) K la primera expresin cuando 1 (o su mximo) es conocida, la segunda 2 cuando hay una muestra piloto de tamaos n i y varianzas s i (con f = 2 2 (1+r ) / {(1/( n1 1)+ r / ( n 2 1)}), la tercera cuando = K1. Obtenido n1, entonces n2 = rn1. iii) Muestras apareadas: 2 2 2 z + z 2 2 t + t 2 2 z + z 2 n= d , n = sd , n = K la primera expresin cuando d (o su mximo) es conocido, la segunda 2 (con f = cuando hay una muestra piloto de tamao n y varianza s d n 1), la tercera cuando 12= Kd.
2 2

7.2 TESTS NO PARAMTRICOS PARA COMPARAR DOS MEDIAS DE VARIABLES CUALESQUIERA (H0 1=2) Si, en las condiciones y notacin del Resumen 7.1, las variables implicadas (x o d) no son Normales, gran parte de lo indicado all es aproximadamente vlido si las muestras son grandes (mayores que 30 o 60 segn lo no Normal que sea la variable). Las reglas aconsejadas son las siguientes: a) Test para muestras independientes: Comparar con una z de la Tabla 2 la 2 cantidad zexp = x1 x 2 / s1 / n1 + s 2 2 / n2 . b) Test para muestras apareadas: Comparar con una z de la Tabla 2 la canti2 /n . dad zexp = d / s d

c) Intervalo de confianza para la diferencia de medias: Con la notacin de a) y b): 12(numerador de la zexp sin valor absoluto) t(denominador de la zexp) d) Tamao de muestra: Es vlido lo indicado en el Resumen 7.1.d) -con las t miradas tambin en la Tabla 2- si el n final predicho es superior a 30 o 60. e) Variables discretas: En los casos a), b) y c), si la variable implicada es discreta y saltando de 1 en 1, conviene efectuar una correccin por continuidad consistente en sumar al radio del intervalo de confianza la cantidad c o restar al numerador de la zexp la cantidad c, con: i) Muestras independientes: c = 1/ {2 Mx (n1; n2)}. ii) Muestras apareadas: c = 1/(2n). 7.3 TESTS NO PARAMTRICOS (TEST DE WILCOXON) PARA COMPARAR DOS MUESTRAS DE VARIABLES CUALESQUIERA (H0 La primera poblacin no tiende a dar valores ms altos o ms bajos que la segunda) a) Asignacin de rangos: En lo que sigue se hablar de asignar rangos a una muestra ordenada. Por tal se entiende al proceso de, dada una muestra ordenada de menor a mayor (x1x2 ... xn), asignar el rango 1 al elemento x1, el rango 2 al elemento x2, ..., el rango n al elemento xn. Cuando haya varios elementos xi consecutivos iguales (empates) a cada uno de ellos se le asigna

TESTS CON DOS MUESTRAS

17

el rango promedio que tendran si fueran distintos; por ejemplo, si xr = xr+1 = ... = xs, a cada elemento se le asigna el rango promedio (r+s)/2. b) Muestras independientes (Test de Wilcoxon): Dadas dos muestras independientes de tamaos n1 y n2 (n1n2 por convenio), unir las dos muestras en una sola, ordenarla de menor a mayor, asignarle rangos a sus elementos y calcular las sumas de rangos (R1 y R2) de los elementos de cada una de las muestras. Deber suceder que R1+R2 = (n1+n2)(n1+n2+1)/2. Llamar por Rexp a la suma de rangos (R1) de la muestra de menor tamao y entonces: i) Si n1+n230: Comparar Rexp con una R de la Tabla 14 por el modo all indicado. ii) Si n1+n2>30: Comparar zexp = {RexpE(R)0,5} / V(R) con una z de la Tabla 2, en donde E(R) = (n1+n2+1)n1/2 y V(R) = (n1+n2+1)n1n2/12 si no hay empates, en tanto que cuando haya r grupos de t1, t2, ..., tr empates cada uno: (n1 + n 2 ) {(n1 + n 2 )2 - 1} - Ti V(R)= n1n 2 , con Ti=(ti1)ti(ti+1)= t 3 i - ti 12(n1 + n 2 )(n1 + n 2 - 1) c) Muestras apareadas (Test de Wilcoxon): Dadas n' parejas de datos, obtener las n' diferencias entre ellas, rechazar las que sean cero, ordenar el resto (n) de menor a mayor valor de sus valores absolutos, asignarles rangos y calcular las sumas de rangos -R(+) y R()- de las diferencias positivas y negativas. Deber suceder que R(+)+R() = n(n+1)/2. Entonces: i) Si n25: Comparar R(+) -o R(), es lo mismo- con una R de la Tabla 15 por el modo all indicado. ii) Si n>25: Comparar la cantidad zexp = {R(+)E(R)0,5} / V(R) con una z de la Tabla 2, en donde E(R) = n(n+1)/4 y V(R) = n(n+1)(2n+1) / 24 cuando no hay empates, en tanto que cuando haya r grupos de t1, t2, ..., tr empates cada uno, V(R) = {2n(n+1)(2n+1)Ti}/48 con Ti = (ti1)ti(ti+ 1) = t 3 i - ti .
7.4 TESTS DE COMPARACIN DE DOS PROPORCIONES (MUESTRAS INDEPENDIENTES) (H0 p1=p2) Si xiB(ni; pi), con i=1, 2, son independientes, y si de cada una de ellas se obtiene una muestra en el formato de la Tabla R.7.1, entonces, llamando por i =xi/ni, p i =1 p i y q =1- p (en lo que sigue las cantidades zx siem =a1/N, q p pre en la Tabla 2, pues se utiliza la aproximacin de la Binomial a la Normal): a) Test: Si E = Mn (a1; a2)Mn (n1; n2)/N > 5, comparar 1 1 - p 2 p 2 Mx (n1; n 2 ) zexp = vs. z n1 +n 2 pq n1 n 2 b) Intervalo de confianza para la diferencia de proporciones: Si x1, x2, y1, y2 son todos mayores que 5: q p q p 1 1 - p 2 ) z 1 1 + 2 2 + p1 - p2 ( p n n x (n ; n ) 2 M 1 2 1 2 c) Tamao de muestra: Para detectar una diferencia = p1p2:

18

TESTS CON DOS MUESTRAS

i) Con informacin:
z 2pq + z2 p1q1 + p2q 2 n= , con p = (p1+p2), q = 1p, qi = 1pi y las p1 y p2 lo ms cercanas posibles a 0,5/2, compatibles con la informacin que se posea sobre ellas y tales que p1 p2 = . ii) Sin informacin: Cuando no hay informacin previa sobre las pi, la frmula anterior se convierte en n = {z+z2 1 - 2 }2 / 22.
Tabla R.7.1 Presentacin de datos cuando se comparan dos proporciones independientes. Tabla R.7.2 Presentacin de datos cuando se comparan dos proporciones apareadas.
2

Caracterstica S Muestras 1 2 Totales NO Totales A

B S S NO Total NO Total

x1 x2 a1

y1 y2 a2

n1 n2 N

n11 n21

n12 n22 n

7.5 TEST DE COMPARACIN DE DOS PROPORCIONES (MUESTRAS APAREADAS) (H0 p1=p2) Si los n individuos de una muestra son clasificados segn que presenten (S) o no (NO) una determinada caracterstica tras la aplicacin de un tratamiento A (entendido de modo genrico: no tiene porqu ser un tratamiento mdico) y lo mismo tras la aplicacin de otro tratamiento B, los datos pueden presentarse como en la Tabla R.7.2. Si p1 y p2 son las proporciones de respuestas S a cada tratamiento (en lo que sigue zx siempre en la Tabla 2): a) Test de McNemar: Si n12+n21 > 10, comparar zexp = {n12n211} / n12 + n 21 vs. z. b) Intervalo de confianza para la diferencia de proporciones: Si n12, n21 > 5: (n n 21 ) 2 + 0,5 / n p1 p 2 (n12 n 21 ) z (n12 + n 21 ) 12 n c) Tamao de muestra: Para detectar una diferencia p1p2= : i) Con informacin: n = {(z p12 + p21 +z2 p12 + p21 2 ) / }2, en donde p12 (o p21) es la proporcin de individuos que responden S y NO (o NO y S) a los tratamientos A y B respectivamente, y con p12+p21 sustituido por lo mximo que pueda valer (sus sumandos lo ms prximos posibles a 0,5 /2) compatible con la informacin y con que p1p2= . ii) Sin informacin: Cuando no hay informacin previa sobre las pij, la frmula anterior se convierte n = {(z+z2 1 - 2 ) / }2. 7.6 GENERALIDADES VLIDAS PARA TODO EL RESUMEN ACTUAL a) Muestras: Dos muestras son independientes cuando cada individuo de las mismas proporciona una nica observacin. Son apareadas, relacionadas o

TESTS CON DOS MUESTRAS

19

dependientes cuando cada individuo proporciona dos observaciones (los datos se obtienen por parejas). Cuando la asociacin entre esas parejas de datos es positiva, el muestreo apareado es preferible. b) Test: Las comprobaciones previas a un test de una cola (H1 1<2 o H1 1 < p 2 ). p1<p2 por ejemplo) son las lgicas ( x1 < x 2 o p c) Intervalos de confianza: Todos estn construidos como de dos colas. Para una cola cambiar por 2 y conservar slo el extremo apropiado. d) Tamaos de muestra: En las frmulas para n debe entenderse que: i) El tamao pronosticado n alude al tamao de cada una de las dos muestras (n = n1 = n2), salvo indicacin expresa de lo contrario. ii) Aluden a un test de dos colas: Cuando sea de una cola cambiar por 2. iii) La mnima diferencia importante alude al primer valor de 12 o de p1p2 a diferenciar del valor 0. Si el test es de una cola, lo anterior es vlido sin el valor absoluto. 7.7 COMPARACIONES MLTIPLES a) Mtodo de Bonferroni: Cuando deban hacerse K tests de hiptesis sobre los que se desea un error global de , el nivel de error a utilizar en cada test individual debe ser de /K. La Tabla 19 ayuda a obtener las cantidades tericas t/K (f g.l.). b) Mtodo de Newman-Keuls: Al realizar K tests de hiptesis a un error global de , en el primer paso hacer previsiones para los K tests (error /K con el mtodo de a), en el segundo paso hacer previsiones para los K' tests que dieron no significativos en el primero (error /K' con el mtodo de a)), etc.

20

RESUMEN DEL CAPTULO VIII

ENSAYOS CLNICOS

8.1 CONCEPTO DE ENSAYO CLNICO Un Ensayo Clnico es un diseo experimentalmente planificado para verificar la eficacia de un tratamiento en humanos a travs de la comparacin de los resultados obtenidos en dos grupos de pacientes que reciben, uno el tratamiento problema, y otro un tratamiento alternativo (nuevo o clsico) o ningn tratamiento, ambos grupos tomados, tratados y seguidos durante igual perodo de tiempo y obtenidos por la particin al azar en dos de un grupo inicial nico. Se rigen por un protocolo. 8.2 OBJETIVO El objetivo de un EC es que los dos grupos de individuos sean comparables en todo, excepto en el tratamiento. Las diferencias entre ambos pueden deberse: a) Al azar de la toma de muestras: lo controla el mtodo estadstico. b) A diferencias existentes entre los dos grupos de individuos (distintas del tratamiento y previas a su aplicacin): lo controla el diseo del EC. c) A diferencia ocurrida en la manipulacin y evaluacin de los grupos en el curso de la investigacin (simultneas o posteriores a la aplicacin de los tratamientos): lo controla el tipo de EC. d) A diferencias entre los efectos de los dos tratamientos: su determinacin, si existe, es el objetivo del EC. Las causas b) y c) producen un sesgo o error sistemtico de los datos. 8.3 TIPOS DE ENSAYOS CLNICOS a) Grupo Control: El que no recibe tratamiento alguno. b) Grupo Placebo: El que recibe un tratamiento ficticio (aplicado con los mismos ritos que el tratamiento problema). c) Tcnica de simple ciego: El enfermo no conoce qu tratamiento recibe. d) Tcnica de doble ciego: Ni el enfermo ni el mdico conocen qu tratamiento se est aplicando. e) Tcnica de triple ciego: Ni el enfermo, ni el mdico ni el comit que monitoriza el EC (incluyendo al bioestadstico) conocen qu tratamiento se est aplicando. 8.4 TIPOS DE ESTUDIOS CLNICOS Y CONDICIONES PARA QUE SEAN UN ENSAYO CLNICO a) Un estudio es experimental cuando el tratamiento est controlado, es decir cuando es el investigador quien decide qu tratamiento se da a cada enfermo. En caso contrario (tratamiento no controlado) el estudio es observacional. Un EC debe ser controlado. b) Un estudio es concurrente cuando los dos grupos de individuos se toman, tratan y siguen durante el mismo perodo de tiempo. En otro caso el estudio es no concurrente. El grupo Control no concurrente puede ser histrico o literario. Un EC debe ser concurrente. c) Un estudio es aleatorizado si, siendo controlado, la asignacin del tratamiento se hace al azar por un mecanismo de sorteo. En otro caso es no aleatorizado. Se haga de un modo u otro, debe indicarse al final la ficha tcnica de las muestras utilizadas (incluyendo en ella toda la informacin pertinente sobre la distribucin en cada muestra de todos los posibles factores de riesgo). Un EC debe ser aleatorizado.

ENSAYOS CLNICOS

21

8.5 TIPOS DE DISEOS a) Diseo en muestras independientes o apareadas: Ver el Resumen 7.6a). b) Diseo cruzado (en muestras apareadas): Si la mitad de los individuos reciben los tratamientos en un orden y la otra mitad en el orden contrario. c) Diseo estratificado: Si se aparea parcialmente en base a una estratificacin en uno o ms factores de riesgo. Cada clase en que se divide un factor de riesgo se llama nivel. Cada conjuncin de niveles de los factores considerados se llama estrato. 8.6 MTODOS DE ASIGNACIN ALEATORIA DEL TRATAMIENTO La aleatorizacin debe realizarse mediante una Tabla de Nmeros Aleatorios como la Tabla 5. Es preferible tener una lista aleatoria ya construida de antemano o, en ensayos doble ciego, tener introducido el orden de aplicacin de los tratamientos en unos sobres opacos numerados y cerrados. 8.7 EL ENSAYO CLNICO IDEAL a) Con respecto al tipo y diseo: Aleatorizado (con placebo, si uno de los tratamientos es un control) a doble ciegas y con diseo cruzado. El orden de importancia es el de escritura. Si el EC es multicntrico conviene estratificar por Centros. b) Hiptesis a contratar: Casi siempre el test es de una cola (excepto si los dos tratamientos son nuevos o los dos son clsicos). c) Medida de la respuesta: Puede ser un suceso clnico (curacin, muerte, etc) o una medida indirecta (presin sangunea, nivel de colesterol, etc) y ha de ser fcil de diagnosticar u observar, estar libre de errores de medida, poder ser observada con independencia del tratamiento, tener relevancia clnica, ser elegida antes de comenzar la recoleccin de los datos y ser lo ms informativa posible. d) Tamao de muestra: Ahora es imprescindible determinarlo para evitar rechazar tratamientos que pudieran ser efectivos. Depende del diseo, del tipo de respuesta, de la hiptesis a probar, de la razn de asignacin, de si el test es de una o de dos colas, del error , del error , de la mnima diferencia a detectar, del conocimiento acerca de ciertos parmetros poblacionales y de que haya una o ms medidas de la respuesta. 8.8 LA TICA EN LOS ENSAYOS CLNICOS Son ticamente admisibles por ser el nico mecanismo cientfico vlido para comprobar la eficacia de un tratamiento. Requieren del consentimiento informado del paciente. 8.9 LOS ENSAYOS CLNICOS EN ESPAA: FASES DE UN ENSAYO La legislacin espaola (B.O.E. del 13-5-93) entiende por tal a toda evaluacin experimentar de una sustancia o medicamento en el ser humano. Los divide en cuatro tipos (segn sus objetivos): de Fase I (estudios, generalmente en individuos sanos, para evaluar el efecto, seguridad y dosificacin del producto; de Fase II (estudios en enfermos para evaluar la eficacia del producto y ampliar la informacin sobre su seguridad y dosificacin); de Fase III (estudios en enfermos para evaluar la eficacia y seguridad del tratamiento frente a otros alternativos y en condiciones de uso habituales); de Fase IV (estudios con medicamentos ya comercializados para valorar nuevos aspectos de los mismos).

22

RESUMEN DEL CAPTULO IX

EL TEST 2 Y SUS APLICACIONES


9.1 TEST DE HOMOGENEIDAD DE VARIAS MUESTRAS CUALITATIVAS (H0 La proporcin de individuos que caen en una determinada clase es la misma para todas las poblaciones y esto vale para todas las clases Todas las muestras provienen de igual poblacin). Dadas r muestras cuyos individuos se clasifican en s clases como en la Tabla R.9.1 (muestras = filas; clases = columnas), se define: Oij = N de individuos de la muestra i que caen en la clase j; Fi = Total de la fila i = n de individuos de la muestra i = jOij; Cj = Total de la columna j = n de individuos de la clase j =iOij; T = Gran total = n total de individuos considerados = Fi = Cj =Oij. a) Test en Tablas rs distintas de 22: Calcular las cantidades esperadas Eij = FiCj/T (cuyos totales de fila y de columna han de ser las Fi y Cj de antes) y entonces, si ninguna Eij es inferior a 1 y no mas del 20% de ellas son inferiores o iguales que 5, comparar (la segunda expresin de las dos que siguen es la ms apropiada para el clculo)

2 exp

i, j

(O

ij

E ij )

E ij

E
i, j

2 Oij ij

2 T con {g.l.=(r1)(sl)} de Tabla 7.

Tabla R.9.1 Tabla de contingencia rs

Columnas
Oij 1 2 O12 O22 Or2 C2 s O1s O2s Ors Cs F1 F2 Fr T Totales

1 Filas
2 r Totales

O11 O21 Or1 C1

b) Test en Tablas 22: Si Mn (E1 ; E2)Mn (C1; E2) / T > 5, comparar 2 Mn (F1; F2 ) O11O 22 O12O 21 2 2 T con 2 {g.l.=l} de Tabla 7. exp = F1F2C1C2 Si la cantidad Mn (F1; F2)/2 se cambia por T/2 se obtiene la clsica 2 Y (chi-cuadrado de Yates).

EL TEST 2 Y SUS APLICACIONES

23

9.2 TEST DE INDEPENDENCIA PARA VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA (H0 Los caracteres A y B son independientes). Si en los T individuos de una muestra aleatoria se determinan dos caracteres cualitativos A y B, el primero dividido en r clases y el segundo en s clases, y se les clasifica en base a ello en una tabla como la Tabla R.9.1 -cambiando filas y columnas por clases del carcter A y clases del carcter B respectivamente- proceder como en el Resumen 9.1, salvo que en las Tablas 22:

2 exp

(O

11

O 22 O12O 21 0,5 ) F1F2C1C 2

9.3 PARTICIN DE TABLAS Cuando se concluye H1, la bsqueda de las causas de la significacin se efecta mediante la particin de la tabla inicial en otras subtablas que se obtienen colapsando (juntando) las filas o columnas apropiadas: a) Sugerencias sobre los colapsos: Se obtienen a travs de los porcentajes de observaciones por filas o por columnas y, sobre todo, a travs de la contribu2 cin de cada casilla a la exp total: residuales (OijEij)2 / Eij. b) Caso de Tablas 22: En las particiones no se realiza c.p.c., de modo que el 2 en una tabla 22 (sea cual sea su origen) es: valor de exp

T F1F2C1C 2 c) Comprobacin de la particin: La suma de los g.l. de las tablas partidas de2 , pero la igualbe ser los g.l. de la tabla original. De igual modo con las exp dad es ahora solo aproximada. d) Significacin de las subtablas: Si la particin se hizo a priori (no por la regla de a)), las significaciones se obtienen del modo usual. Si la particin se hizo a posteriori (por la regla de a)), se declarar significativo un resultado con P<1% si a) lo previ como significativo; se declarar como no significativo un resultado con P>10% si a) lo previ como tal.
N 2 exp

( O11O22 O12O21 )

9.4 TIPOS DE MUESTREO EN TABLAS 22, TEST APROPIADO Y MEDIDAS DE ASOCIACIN Con frecuencia, los dos caracteres dicotmicos estudiados (E y FR) suelen aludir a la presencia o no de una enfermedad o efecto indeseado (E y E ) y a la presencia o no de un factor de riesgo (FR y FR ). En lo que sigue se supone que la enfermedad se ubica en filas, obteniendo as unos datos como los de la Tabla R.9.2.
Tabla R.9.2 Formato estndar para los estudios epidemiolgicos. S FR O11 O21 C1 NO FR O12 O22 C2 Factor de riesgo Enfermedad S E NO E Totales

Totales F1 F2 T

a) Tipos de muestreo: Para estudiar la asociacin entre E y FR los tipos de

24

EL TEST 2 Y SUS APLICACIONES

muestreo pueden ser dos, lo que da lugar a tres tipos de estudio: i) Muestreo de Tipo I (Estudio Transversal): Tomar T individuos al azar y clasificarlos en base a E y a FR. ii) Muestreo de Tipo II (Preferible al de Tipo I si las Fi o las Cj se planifican como iguales): Estudio Prospectivo, Longitudinal o de Seguimiento: Tomar C1 y C2 individuos al azar y clasificarlos en base a E. Estudio Retrospectivo o de Caso-Control: Tomar F1 y F2 individuos al azar y clasificarlos en base a FR. Desde un punto de vista estadstico el diseo ptimo consiste en tomar muestras de igual tamao de los niveles de la caracterstica ms infrecuente (en general la enfermedad: estudio retrospectivo). b) Test apropiado: Si Mn (E1 ; E2)Mn (C1; E2) > 5, comparar
2 T con {g.l.=l} de Tabla 7 F1F2C1C2 con c = 0,5 en los transversales, c = Mn (C1; C2)/2 en los prospectivos y c = Mn (F1; F2) en los retrospectivos. En todos los casos c = T/2 da la clsica c.p.c. de Yates. c) Medidas de asociacin: Una medida de asociacin es un nmero que indica el grado de dependencia existente entre los dos caracteres E y FR estudiados, pero la medida a usar depende del fin perseguido y del muestreo utilizado. El Cuadro R.9.1 las resume (pero l es aplicable solo a datos en el formato de la Tabla R.9.2. 2 exp

(O

11

O 22 O12O 21 c )

9.5 ASIGNACIN DE VALORES CUANTITATIVOS ARBITRARIOS a) Los mtodos basados en datos cuantitativos son preferibles a los basados en datos cualitativos (como el mtodo 2). b) Si una caracterstica cualitativa es ordinal es posible y preferible asignarle valores numricos a sus clases y analizar los nuevos datos por la tcnica apropiada. c) La asignacin puede hacerse si el fenmeno estudiado hubiera podido medirse en una escala continua de haber dispuesto de los instrumentos adecuados, y si las clases obtenidas pueden considerarse como un agrupamiento de tal escala por medio de otra ms burda formada por sus valores redondeados. 9.7 EVALUACIN DE UN MTODO DE DIAGNSTICO Si en la Tabla R.9.2 se entiende que FR alude a que un test diagnstico ha dado positivo (suceso T), el objetivo entonces es evaluar la bondad del test diagnstico, lo que puede hacerse de dos modos (aunque es preferible el segundo). En lo que sigue se entiende que: p = Prevalencia = % de enfermos en la poblacin estudiada a) Sin considerar la prevalencia: Se define % de enfermos diagnosticados positivamente; SN = Sensibilidad = FN = Falsos Negativos = % de enfermos diagnosticados negativamente; % de sanos diagnosticados negativamente; EP = Especificad = FP = Falsos Positivos = % de sanos diagnosticados positivamente; en donde SN+FN = EP+FP = 100.

EL TEST 2 Y SUS APLICACIONES

25

Para estimar tales valores se toman F1 enfermos y F2 sanos y se anota en cuntos de ellos el test da positivo (O11 y O21 respectivamente), expresando los datos en una tabla como la Tabla R.9.2 -cambiando FR por T- y dando lugar as a un estudio retrospectivo. Entonces: SN = O11 O O O , FN = 12 , E P = 22 , FP = 21 F1 F1 F2 F2

cantidades a las que es posible aplicarle los resultados del Resumen 4.4.a). Las conclusiones son: i) Si EP es alta, el test es til para confirmar la enfermedad (conviene aplicarlo a individuos sospechosos de poseerla); ii) Si SN es alta, el test es til para descartar la enfermedad (conviene aplicarlo como procedimiento de rutina para el diagnstico precoz de la enfermedad). b) Considerando la prevalencia: Los porcentajes de aciertos en los diagnsticos positivos (Valor Predictivo Positivo) o negativos (Valor Predictivo Negativo) sern: VPP = % de enfermos entre los diagnosticados positivamente % de sanos entre los diagnosticados negativamente VPN = Si los datos de la Tabla R.9.2 provienen de un estudio retrospectivo, tales valores se pueden estimar por: p S (1 - p) EP VPP = , VPN = p SN + (1 - p) (1 - EP) (1 - p) EP + p (1 - SN) con S y EP como en a), cantidad que depende de la prevalencia que se asuma. Cuando los datos de la Tabla R.9.2 provienen de un estudio transversal, entonces: F O O = 1 , VPP = 11 , VPN = 22 p C1 C2 T Tambin, y a efectos de evaluar la ganancia obtenida en el diagnstico por el hecho de utilizar el test, se definen: Ganancia del Positivo = VPP p GP = Ganancia del Negativo = VPN (1p) GN = Las conclusiones (para la prevalencia asumida) son: i) Si VPP es alto, el test es til para confirmar la enfermedad; ii) Si VPN es alto, el test es til para descartar la enfermedad.

26

EL TEST 2 Y SUS APLICACIONES

Cuadro R.9.1 Medidas de asociacin epidemiolgicas en tablas 22

Medida

(Asociacin-) Valores Independencia posibles (Asociacin+)

Caso

Estimacin
= (O C ) / (O C ) R 11 2 12 1

Estudios en que es vlida

Intervalo de Confianza (aproximado) (z en la TABLA 2)


exp R R z 1 1 1 1 + O11 + 0,5 O12 + 0,5 C1 +1 C 2 +1

0R<1 R R=1 1<R<

General

= (O11 + 0,5)(C 2 +1) R (O12 + 0,5)(C1 +1)


R oO O

Transversales Prospectivos

Riesgo relativo (de FR para E): La probabilidad de enfermar es R veces mayor en los individuos con el FR que en los sin el FR. 0O<1 O=1 1<O General
= (O O ) / (O O ) O 11 22 12 21

Si P(E)<0,1

exp z Retrospectivos R O

1 1 1 1 + + + O11 + 0,5 O12 + 0,5 O 21 + 0,5 O 22 + 0,5

Transversales 1 1 1 1 exp + + + Prospectivos O O Si alguna z (O + 0,5)(O + 0,5) 11 22 O + 0,5 O + 0,5 O + 0,5 O + 0,5 O = Retrospectivos 11 12 21 22 Oij vale (O + 0,5)(O + 0,5) 12 21 cero Razn del producto cruzado: La fraccin de individuos que enferman frente a los que no, es O veces mayor en los que individuos con el FR que en los sin el FR.

RFR

P(FR) RFR<0 General 1 - P(FR)

= O11O 22 O12 O 21 R FR F1C2


R FR O11O22 - O12 O21 O22 F1

Transversales

) exp R FR 1 (1 R z FR

FR (O11 + O 22) O 21 + R TO12 1 O12

RFR = 0 0<RFR+1

Si P(E)<0,1

Retrospectivos

) exp R FR 1 (1 R z FR

1 O 22

T F1F2

Riesgo atribuible (al FR): Una fraccin RFR de los enfermos podran no haberlo sido si ninguno hubiera estado sometido al factor de riesgo.

27

RESUMEN DEL CAPTULO X

REGRESIN LINEAL
10.1 CONCEPTO DE REGRESIN a) Objetivo: Dadas dos v.a. cuantitativas x e y medidas en los mismos individuos, la tcnica de regresin persigue tres objetivos: i) Estudiar si ambas variables estn relacionadas o son independientes. ii) Estudiar el tipo de relacin que las liga (si existe). iii) Predecir los valores de una de ellas a travs de los de la otra. b) Relaciones deterministas y aleatorias: En las Ciencias Exactas la relacin entre dos variables puede ser exacta: conocido el valor de una de ellas se conoce exactamente el de la otra. En Estadstica la relacin es aleatoria: conocido el valor de una variable se conoce el de la otra slo de un modo aproximado. Ello sucede en las Ciencias de la Salud por dos motivos: i) Por la variabilidad biolgica de los objetos muestrales. ii) Por la variabilidad aleatoria de los mtodos de medida. c) Sobre la existencia de regresin: Dadas n parejas de valores (xi; yi) obtenidos de una muestra, su representacin por puntos en el plano cartesiano da lugar a una nube de puntos. Si a ella se ajusta alguna curva, se dice que existe regresin, a la curva se le llama lnea de regresin y a la funcin que la representa se le llama funcin de regresin. A la variable ubicada en el eje horizontal (usualmente x) se le llama variable independiente; a la ubicada en el eje vertical (usualmente y) se le llama variable dependiente. d) Regresin lineal simple: Aqu solo nos ocupamos del caso en que contamos con solo dos variables, x e y, relacionadas entre s mediante una lnea recta. e) Asociacin y causalidad: La demostracin estadstica de que dos variables estn asociadas no constituye una prueba de que una de ellas sea causa de la otra. Puede ocurrir: i) Que x sea realmente causa de y. ii) Que ambas variables se influyan mutuamente. iii) Que ambas variables dependan de una causa comn (una tercera variable z no contemplada). 10.2 MODELO Y MUESTREO EN REGRESIN LINEAL SIMPLE a) Modelo: Para cada valor de x, la variable y sigue una distribucin Normal de media +x y de varianza 2 (independiente de x). A yPOB = E(yx) = +x se le llama recta de regresin poblacional, a altura en el origen poblacional (altura en que corta la recta al eje vertical, es decir cuando x=0) y a pendiente poblacional (lo que aumenta y cuando x aumenta en una unidad). b) Tipos de muestreo: La consecucin de las n parejas (xi; yi) pueden hacerse bajo dos tipos de muestreo: i) Muestreo de Tipo I: Tomar n individuos al azar y anotar sus valores x e y. ii) Muestreo de Tipo II: Tomar n valores de x elegidos de antemano y obtener un valor de y al azar en cada uno de tales x. 10.3 ESTIMACIN DE LOS PARMETROS Si (xi; yi), con i = 1, 2, ..., n, son n parejas de valores de (x; y) obtenidos por alguno de los tipos de muestreo anteriores: a) Clculos intermedios: En lo que sigue la segunda expresin es la definicin,

28

REGRESIN LINEAL

la tercera su mtodo de clculo abreviado y la primera su smbolo corto para referencias: = x i2 (xi)2/n (xx) = (xi x )2 (yy) = (yi y )2 = yi2 (yi)2/n (xy) = (xi x )(yi y ) = xiyi (xi)(yi)/n b) Estimacin de la recta de regresin (yPOB=+x): Se determina bajo el principio de que (yiabxi)2 sea lo ms pequeo posible -principio de los mnimos cuadrados- obteniendo as la recta de regresin muestral (o esti = a+bx, con y la prediccin, a la altura en el origen muestral (o mada) y estimada), b la pendiente muestral (o estimada) y: b = (xy) / (xx), a = y bx c) Estimacin de la varianza de regresin (2): Mide la variabilidad de los puntos alrededor de la recta de regresin: 1 1 ( xy )2 i )2 = s2 = (yi y (yy) n2 n2 ( xx) i los residuos o residuales y sea la d) Comprobacin del modelo: Sean yi y i (en el eje nube de puntos de residuales que se obtiene al representar yi y i (en el eje horizontal): vertical) contra y i) Normalidad: No se verifica si la variable y es discreta o si el test de DAgostino es significativo al aplicarlo a cada conjunto de observaciones y en cada x (lo que requiere de observaciones repetidas). ii) Linealidad: La nube de puntos ha de mostrar una tendencia exclusivamente lineal. La de residuales ha de ser paralela al eje horizontal. Cuando esto no es as, a veces un cambio de escala apropiado puede convertir la curva en recta (linealizacin): cambiar x por log x, 1/x, x , etc y/o similarmente con y. iii) Homogeneidad de varianzas: La nube de puntos ha de ser ovalada, sin mostrar tendencia a ser ms ancha o estrecha con el aumento de x. La de . residuales igual con el aumento de y e) Quin sobre quin?: Los parmetros anteriores se entiende que son ayx, byx y s2 y i x por haber sido obtenidos de la regresin de y sobre x. Los resultados no son los mismos (axy, bxy y s2 x i y ) si en el eje horizontal se pone a la variable y y en el vertical a x (regresin de x sobre y). Se hace la regresin de y sobre x cuando el objetivo es predecir y a partir de x. El muestreo de Tipo I permite hacer ambas; el de Tipo II slo la de y sobre x. f) Precauciones y consejos: i) No pueden hacerse inferencias fuera del rango de muestreo de x (el intervalo de valores entre el menor y el mayor valor de x obtenidos). ii) El muestreo de Tipo II permite elegir el rango de inters de las x y, tomndolo amplio, hace ms fiables las conclusiones.
10.4 INFERENCIAS CON RECTAS DE REGRESIN En lo que sigue, salvo indicacin expresa de lo contrario, la cantidad t aludida implcita (en el test) o explcitamente (en los intervalos) se busca en la Tabla 6 con (n2) g.1.: a) Sobre la pendiente: i) Intervalo de confianza: bts/ (xx);

REGRESIN LINEAL

29

ii) Tets (H0 =0): texp = b0 (xx) /s; iii) Test de independencia (H0 =0): texp = b (xx) /s. b) Sobre la altura: i) Intervalo: at s2 {1/ n +x 2 /(xx) } ; ii) Test (H0 =0): texp = a0/ s2 {1/ n +x 2 /(xx) } . c) Sobre la media de y en un valor dado x0 de x: i) Intervalo: + x 0 a+bx 0 t s2 {1/ n +( x 0 x)2 /(xx) }
Para muchos intervalos, t = {2F[2; n2]}0,5 con F en la Tabla 8; ii) Test (H0 +x0=h0): texp = a+bx0h0/ s2 {1/ n +( x 0 x)2 /(xx) } . d) Sobre valores pronosticados: i) Una prediccin de y en x0: y0 (a+bx0)t s2 {1 + 1/ n +( x 0 x)2 /(xx) } Cambiando el 1 del interior de la raz por l/m se obtiene un intervalo para la media y0 de m observaciones de y en igual x0. ii) Muchas predicciones (intervalo de aceptacin) de y en diversos x: Al error y conteniendo al menos a un 100% de las observaciones 1 (x x) 2 n2 y (a + bx) s 2F/2 (2; n 2) + + z1 2 1 / 2 (n 2) (xx) n con F, z y 2 en Tablas 8, 2 y 7 respectivamente. Cambiando z1 por z1 / m se obtiene el intervalo para la media de m valores de y en igual x. iii) Una prediccin del x0 que dio un cierto y0 (calibracin lineal): t 2 s2 b(y0 y) t s 1 (y y) 2 x 0 x+ c 1 + + 0 , con c = b 2 c c (xx) (xx) n Cambiando y0 por y0 y el 1 por l/m, se obtiene un intervalo para el x0 que produjo la media y0 de m observaciones. iv) Muchas predicciones de los valores de x que ocasionaron los valores de y (calibracin lineal): Al error , conteniendo al menos a un 100% de las observaciones, y si b0 (F, z y 2 como en ii)): b(y y A) s 2 F/2 (2; n 2) c (y y A) 2 x x+ + con c c n (xx)

2 F/2 (2; n 2) s 2 n2 , A=z1 s 2 (xx) 1 / 2 (n 2) Cuando b0, cambiar A por A . Si se disponen de medias y de m observaciones en igual x, cambiar y por y y z1 por z1/ m . e) Rechazo de observaciones extremas (H0 La observacin xS debe aceptarse): De entre todas las parejas (xi; yi), la sospechosa (xS; yS) es aquella que i , aunque generalmente se la puede localizar hace mxima la residual yi y a travs de la nube de puntos. Si dS=ySabxS, comparar con una t(f= n3; K=n) de la Tabla 16 la cantidad 2 2 2 2 t exp = (n 3)dS / (n 2)s {1 1/n (x S x) /(xx)} dS c = b2

30

RESUMEN DEL CAPTULO XI

CORRELACIN
11.1 COEFICIENTE DE CORRELACIN LINEAL SIMPLE (O DE PEARSON) a) Objetivo: Dadas dos v.a. cuantitativas x e y, se trata de medir la fuerza con que ambas estn ligadas a travs de los resultados (xi; yi), con i =1, 2,..., n, obtenidos en n individuos. b) Modelo, tipos de muestreo, clculos intermedios y comprobacin del modelo: Como en Resmenes 10.2.a) y b) y 10.3.a y d). c) Estimacin: La fuerza con que las dos variables estn ligadas se mide mediante el coeficiente de correlacin poblacional , el cual se estima (bajo el muestreo I) por el coeficiente de correlacin muestral r = (xy)/ (xx)(yy). d) Propiedades: Lo que sigue es vlido tambin para r: i) es un nmero adimensional que no depende de las unidades de medida ni del orden en que se enuncien las variables (xy=yx). ii) 2 es la proporcin de la variabilidad total de y que est explicada por su regresin lineal en x. iii) 1 +1. iv) El valor absoluto mide la fuerza de relacin entre x e y (a ms ms fuerza), en tanto que el signo de indica el tipo de la misma: positiva si >0 (a ms x ms y), negativa si <0 (a ms x menos y) o nula (es decir, x e y son independientes) si =0. v) Cuanto ms aplastada es una nube de puntos y cuanto mayor sea la pendiente de la recta de regresin, ms grande es (cuando es paralela a uno de los ejes entonces =0). e) Test de independencia: H0 =0 (independientes) vs. H1 0 (dependientes): Comparar (test idntico al del Resumen 12.4.a.iii)):

t exp =

2 (n 2)rxy 2 1 rxy

vs. t(n2 g.l.) de la Tabla 6

11.2 COEFICIENTE DE CORRELACIN PARCIAL a) Objetivo: La correlacin xy entre dos variables x e y puede ser debida a su comn relacin con una tercera variable z no contemplada hasta ahora. El coeficiente de correlacin parcial xyz mide el grado de asociacin entre x e y que no es un reflejo de la asociacin de ambas con z (es decir, el grado de asociacin entre x e y para valores constantes de z). b) Estimacin: Obtener n ternas de valores (xi; yi; zi) en cada uno de los n individuos de una muestra, obtener los coeficientes de correlacin lineal rxy, rxz y ryz y entonces: rxy rxz ryz xy i z = rxy i z = 2 2 (1 rxz )(1 ryz )

CORRELACIN

31

c) Test de independencia: Comparar

t exp =

2 (n 3)rxy iz 2 1 rxy iz

vs. t (n 3) de la Tabla 6

11.3 COEFICIENTE DE CORRELACIN DE SPEARMAN a) Objetivo: Medir la asociacin entre dos variables cuantitativas cualesquiera (verifique o no el modelo de regresin lineal). Es un mtodo no paramtrico. b) Condiciones: La asociacin ha de ser monotnica (una variable siempre crece o siempre decrece con la otra). c) Estimacin: La fuerza de la asociacin la mide el coeficiente de correlacin poblacional (de Spearman) S, el cual se estima (bajo el muestreo I) por el coeficiente de correlacin muestral rS determinado a travs de los siguientes pasos: (1) Obtener una muestra de n parejas de valores (xi; yi); (2) Ordenar de menor a mayor los valores de x y asignarles rangos Ri como en el Resumen 7.3.a); (3) Proceder igual con las y asignando rangos R i ; (4) Anotar las parejas (Ri; R ) correspondientes a las (x ; y ) originales, comprobando que Ri = i i i R = n(n+1)/2; (5) Obtener el coeficiente de correlacin lineal simple para i las n parejas de rangos, es decir, y con igual convenio que en el Resumen 10.3.a), rS = rS = (RR ) / (RR)(R R ). Cuando no hay empates, la frmula se puede simplificar en la siguiente: 2 ( R i R i ) rS = 1 6 (n 1)n(n+1) d) Propiedades: Como en el Resumen 11.1.d), pero relativas a los rangos. e) Test de independencia: (H0 S=0 vs. H1 S0): Con cualquier muestreo: i) Si n30: Comparar rS con r de la Tabla 22 en el modo all indicado. ii) Si n>30: Comparar zexp = rS n 1 con una z de la Tabla 2. 11.4 TEST DE INDEPENDENCIA CON VARIABLES MIXTAS (H0 Los valores que toma un individuo con respecto a una variable cuantitativa x son independientes de la clase a que este pertenece respecto de una cualidad C). Sea x una variable cuantitativa cualquiera y C una cualidad con s clases. Si se toma una muestra de n individuos se obtendrn n parejas de valores (x; C) a partir de las cuales hay que contrastar H0. El mtodo para ello depende del caso: a) Si C es una cualidad ordinal: Convertir la cualidad en cantidad asignndole a sus clases valores cuantitativos arbitrarios y por el mtodo del Resumen 9.6, y aplicar a las parejas (xi; yi) as obtenidas el Resumen 11.1 o el 11.3. b) Si C es una cualidad no ordinal: i) Si r=2: Comparar los valores medios de x (1 y 2) en las dos clases de C por el procedimiento de los Resmenes 7.1.a), 7.2.b) o 7.3.b) segn proceda. ii) Si r>2: Comparar los valores medios de x (1, 2, ..., s) en las s clases de C por el procedimiento del anlisis de la varianza (no contemplado en estos Resmenes). Alternativamente, convertir la cantidad x en cualidad (definiendo r intervalos de clase arbitrarios), formar la tabla contingencia rs que ello produce y analizarla por la tcnica de 2 del Resumen 9.2 (aunque ello conlleva una gran prdida de potencia).

También podría gustarte