Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RESMENES de
BIOESTADSTICA
(6 edicin)
Medida
Valores posibles
Caso
Estimacin
= (O C ) / (O C ) R 11 2 12 1
Transversales Prospectivos
oO O Retrospectivos R Si P(E)<0,1 Riesgo relativo (de FR para E): La probabilidad de enfermar es R veces mayor en los ...
RESMENES de
BIOESTADSTICA
(6 edicin)
Estos Resmenes han sido extrados del libro publicado en esta misma Editorial
Antonio Martn Andrs Juan de Dios Luna del Castillo EDICIONES NORMA-CAPITEL La Chopera, 32. 28230 Las Rozas (Madrid) Reservados los derechos de edicin, adaptacin o reproduccin para todos los pases. No est permitida la reproduccin total o parcial de este libro, ni su tratamiento informtico, ni la transmisin de ninguna forma o por cualquier medio, ya sea electrnico, mecnico, por fotocopia, por registro u otros mtodos, sin el permiso previo y por escrito de los titulares del Copyright. ISBN: 84-8451-020-4 Depsito legal:
1.4 CONTENIDOS DE ESTOS RESMENES El Cuadro R.1.1 presenta esquemticamente los contenidos y el Resumen del Captulo que los contiene.
Descriptiva II
Estadstica
Herramientas
Intervalos de confianza y de Aceptacin Cunto vale una caracterstica en una poblacin o individuo? IV y partes del VI y XI
1 poblacin VI
2 poblaciones VII
3 o ms poblaciones IX
Ambas no numricas IX
Ambas numricas X y XI
ESTADSTICA DESCRIPTIVA
2.1 TIPOS DE DATOS a) Cuantitativos: Se expresan numricamente. i) Discretos: Toman valores numricos aislados. ii) Continuos: Toman cualquier valor (dentro de unos lmites dados). b) Cualitativos: No se expresan numricamente. i) Ordinales: Admiten una ordenacin lgica y ascendente. (Nominales en otro caso). ii) Dicotmicos: Solo aceptan dos posibilidades. 2.2 PRESENTACIN TABULAR DE LOS DATOS a) Se les agrupa en clases (si son discretos o cualitativos) o en intervalos de clase de igual longitud (si son continuos o discretos con muchos valores posibles). La primera y la ltima clase pueden ser excepcin. b) A cada clase se le anota la frecuencia absoluta (fi), o nmero de datos en la clase, y la frecuencia relativa (hi = fi/n, con n el nmero total de datos). Suceder que fi = n y hi = 1. Multiplicando hi por 100, 1.000, etc se obtienen los %, 0/00, etc. c) Los intervalos de clase vienen definidos por dos nmeros, el lmite inferior (LI) y el lmite superior (LS); la diferencia de ellos es la longitud de clase y la semisuma es la marca de clase. 2.3 PRESENTACIN GRFICA DE LOS DATOS a) Histograma: Sobre cada punto (o intervalo) de las abscisas, se levanta una barra (o rectngulo) de tanta altura como frecuencia haya. b) Polgono de frecuencias: Se unen por una poligonal los puntos del plano que tienen por abscisa la clase o marca de clase y por ordenada la frecuencia. c) Pictograma: Se define una figura-motivo y se la repite o se la ampla de modo proporcional a la frecuencia de la clase, obteniendo as un pictograma de repeticin (o de amplificacin). d) Diagrama de sectores: En un crculo, se asigna a cada clase un sector de rea proporcional a la frecuencia de la clase. El ngulo que lo delimita es 360hi (en grados). 2.4 SNTESIS DE DATOS a) Medidas de posicin: Describen cmo se encuentra el resto de la muestra con respecto a ellas. i) Moda: la clase con mas frecuencia absoluta (si nominal) o relativa (resto de los casos). ii) Mediana: divide a la muestra ordenada (de menor a mayor) en dos partes iguales. iii) Percentil: El percentil pi deja a su izquierda un "i% de la muestra ordenada de menor a mayor (i=1, 2, ...., 99). iv) Cuartil: c1=p25, c2=p50, c3=p75.
ESTADSTICA DESCRIPTIVA
v) Decil: d1=p10, d2=p20, ..., d9=p90. vi) Media aritmtica: x i Datos no agrupados: x= n
Datos agrupados:
vii) Media ponderada: x p =
x =
w i x i , con wi los pesos de ponderacin. w i b) Medidas de dispersin: Describen cmo de variables o dispersos son los datos. i) Recorrido, rango o amplitud: Es la diferencia entre los valores ms grande y ms pequeo de la muestra. ii) Desviacin media: dm = xi x /n iii) Varianza: En lo que sigue, la primera frmula es la definicin y la segunda es la apropiada para el clculo: (x i - x) 2 1 2 ( x i ) 2 Datos no agrupados: s 2 = = x i n -1 n -1 n Datos agrupados: s 2 =
f i x i , con fi = n n
f i (x i - x) 2 1 ( f i x i ) 2 2 = f x i i , n -1 n -1 n
con fi = n iv) Desviacin tpica: la raz cuadrada (s) de la varianza. v) Rango intercuartlico: c3c1 vi) Coeficiente de variacin: CV = (s/ x )100%.
DISTRIBUCIONES DE PROBABILIDAD
3.1 DEFINICIONES a) Fenmeno aleatorio: Aquel fenmeno cuyo resultado es impredecible. b) Probabilidad (de un resultado dado de un fenmeno aleatorio): Es el lmite de la frecuencia relativa del mismo cuando el nmero de experiencias (repeticiones del fenmeno) tiende hacia infinito. La existencia de dicho lmite se sustenta en la ley de azar (o de estabilizacin de las frecuencias relativas). c) Variable aleatoria: es el resultado numrico de un fenmeno aleatorio. Son: i) Discretas: se identifican por la funcin de probabilidad (regla que asocia a cada valor de la variable, su probabilidad). ii) Continuas: se identifican por la funcin de densidad (que indica cmo de probable es que la v.a. caiga en los alrededores del punto), cuya representacin grfica es la curva de densidad. En general a ambas funciones se les llama distribucin de probabilidad. d) Parmetros poblacionales: Por contraposicin a los parmetros muestrales (que, como la media, varianza, etc, describen las muestras) se definen de igual modo los parmetros poblacionales (que describen las poblaciones o las son los pov.a.). Los paralelos a los parmetros muestrales x , s2, s y h = p blacionales , 2, y p. 3.2 DISTRIBUCIONES DE PROBABILIDAD TERICAS La mayora de la v.a. de la Naturaleza siguen alguna de las siguientes: a) Distribucin Normal: i) Definicin: xN(; ) si su curva de densidad tiene forma de campana con centro de simetra en (media) y dispersin (desviacin tpica). ii) Tipificacin: z = (x)/ N(0; 1) llamada Normal tpica. iii) Tabla 2: Para cada da un z de una N(0; 1) con P(zz+z) = 1. iv) Teorema Central del Lmite: Si x es una v.a. cualquiera de media y desviacin tpica , y si x es la media de una muestra de tamao n30, x se distribuye aproximadamente como una Normal: x N(;/ n ), con / n el error estndar. Si x es Normal, lo anterior se verifica exactamente para cualquier valor de n. b) Distribucin Binomial: i) Definicin: Si de una poblacin de tamao (N) infinito, cuyos individuos verifican una cierta caracterstica dicotmica con probabilidad p, se extrae una muestra de tamao n, el nmero x de individuos, de entre los n, que verifican la caracterstica sigue una distribucin Binomial (lo que se expresa abreviadamente diciendo que xB(n; p)). Cuando N, x sigue aproximadamente una Binomial si N > 40 y n/N (fraccin de muestreo) 0,10. ii) Media y Varianza: Son np y npq respectivamente. iii) Propiedad: Si n es suficientemente grande se aproxima a la Normal. c) Distribucin de Poisson: i) Identificacin: Son distribuciones de Poisson: i) Una Binomial con n grande y p pequeo; ii) El nmero de partculas por unidad de medio (si un gran nmero de partculas estn repartidas al azar en una gran cantidad de medio); iii) El nmero de sucesos que ocurren por unidad de tiempo (si estos suceden al azar e independientemente entre s). ii) Media y Varianza: en ambos casos. iii) Propiedad: Si es suficientemente grande se aproxima a la Normal.
10
11
c) El error es un nico nmero, pero el error depende de la alternativa que se considere. d) El error disminuye conforme aumenta , conforme H1 se aleja de H0 y conforme aumenta el tamao de la muestra (si todo lo dems permanece fijo). 5.6 POTENCIA DE UN TEST Se llama potencia a la capacidad que tiene un test para detectar las hiptesis alternativas, es decir: = 1 = P(decidir H1es cierta H1) Como es funcin de la hiptesis alternativa, en el caso de tests acerca de parmetros su representacin grfica da la curva de potencia. Un test es tanto mejor cuanto ms potente sea. 5.7 VALOR P a) Al mnimo error al cual un resultado es significativo se le llama valor P o nivel crtico P o nivel mnimo de significacin. b) P es tambin la probabilidad de obtener un resultado tan extrao o ms que el obtenido cuando H0 es cierta, midiendo por tanto las evidencias que hay en contra de H0 (pero no mide cunto de falsa es H0). c) En un test de una cola (en el sentido favorable) P suele ser la mitad de su valor en el test de dos colas. d) Fijado un valor de : si P se decide H1; si P se decide H0. e) Las conclusiones de un test suelen expresarse as: H0 (P>tal) o H1 (P<cual). 5.8 TAMAO DE MUESTRA Determinando el tamao de muestra n de antemano las conclusiones por H0 tambin son fiables (las conclusiones por H1 siempre lo son). Para determinar n hace falta especificar: a) El error del test; b) La primera alternativa de inters, es decir la primera H1 (digamos 1) que se desea diferenciar de H0 (digamos 0), o la mnima diferencia de inters = 10. Si el test es para H0 =0, la primera alternativa de inters ser 1 = 0+ para H1 >0, 1 = 0 para H1 <0 o 1 = 0 para H1 0. c) El error (o la potencia ) para tal alternativa. El n obtenido garantiza que el test realizado con tal muestra (al error ) dar significativo el (1)100% de las veces en que la verdadera hiptesis H1 se diferencie de H0 en la cantidad especificada (o ms veces si la diferencia es mayor, o menos veces si es menor). 5.9 INTERVALOS DE CONFIANZA TRAS UN TEST DE HIPTESIS a) Tras realizar un test de hiptesis acerca de parmetros es conveniente dar un intervalo de confianza para el parmetro implicado, tanto si se concluye H0 (para as matizar la posible magnitud del error de tal conclusin) como si se concluye H1 (para as indicar cunto de falsa es H0). b) Cuando el test es de dos colas, el intervalo ser de dos colas (al error si se concluy H1; al error 2 si se concluy H0). c) Cuando el test es de una cola, el intervalo ser de una cola (al error y con la desigualdad en el sentido que indica H1 si se concluy H1; al error y con la desigualdad en el sentido contrario al que indica H1 si se concluy H0).
12
5.10 REGLAS PARA TOMAR LA DECISIN a) Si n fue determinado de antemano: i) Si P se concluye H1 (la decisin es fiable); ii) Si P> se concluye H0 (la decisin es fiable). b) Si n no se determin de antemano, pero se conocen los errores y y la mnima diferencia de inters (o la primera alternativa de inters 1 a la hiptesis nula 0): i) Si P se concluye H1 (la decisin es fiable). ii) Si P> se concluye H0 =0 provisionalmente. El intervalo de confianza (I; S) construido en base a lo indicado en el Resumen 5.9b) y c) permite tomar la decisin final: si la primera alternativa de inters 1 = 0 (para H1 <0), 1 = 0+ (para H1 >0) o alguna de las 1 = 0 (para H1 0) pertenece al intervalo, la conclusin por H0 no es fiable (y debe ampliarse la muestra y repetir el test); en otro caso la conclusin por H0 es fiable (y el problema finaliza). c) En otro caso (Regla Automtica de Decisin para el caso de =5%): i) Si P5%: Se concluye H1; ii) Si P>15% o 20% (depende de n): Se concluye H0; iii) En otro caso: Se concluye H0, indicando que hay indicios de significacin y que conviene ampliar la muestra y repetir el test.
13
14
iii) Si 2 es desconocida, pero hay una muestra piloto de tamao n y varianza s2: n = {(t+t2)s/}2 con las t en la Tabla 6 con ( n 1) g.l. iv) Si 2 es desconocida y no hay muestra piloto: Haciendo = K, n = {(z+z2)/K}2, con las z de la Tabla 2. 6.4 TEST DE HIPTESIS PARA LA MEDIA DE UNA VARIABLE CUALQUIERA (H0 =0) Si x es una variable cualquiera de media desconocida y varianza 2, el Resumen 6.3 es vlido aproximadamente, con las siguientes matizaciones: a) Cuando 2 es conocida: Si n30. b) Cuando 2 es desconocida: Si n60 (pero las cantidades t se miran tambin en la Tabla 2). c) Si la variable es discreta y saltando de 1 en 1: Al numerador de las cantidades experimentales hay que restarles 1/(2n), con lo que quedan as: x 01/(2n). 6.5 MTODOS DE MEDIDA a) Un mtodo de medida se dice que es insesgado si en promedio mide lo que realmente hay. Ser sesgado en otro caso. b) Un mtodo de medida se dice que es preciso si tiene poca variabilidad (varianza). Ser impreciso en otro caso. c) Un mtodo de medida se dice que es exacto si es insesgado y preciso. 6.6 TEST DE NORMALIDAD DE DAGOSTINO (H0 La muestra proviene de una v.a. Normal) Si x1, x2, ..., xn es una muestra aleatoria ordenada de menor a mayor, comparar con una D de la Tabla 11 (por el modo all indicado) la cantidad: 2 2 Dexp = {ixi(n+1)(xi)/2)} / {n n x i - ( x i ) / n }
Si el test da significativo, la comprobacin de la causa de la no-Normalidad se hace calculando Fn(xi) = {n de observaciones menores o iguales que xi}/n, representando en le plano las parejas (xi; Fn(xi)) y comparando la curva obtenida con las curvas ms usuales.
6.7 RECHAZO DE OBSERVACIONES EXTREMAS (H0 La observacin xS debe aceptarse) Si x1, x2, ..., xn es una muestra aleatoria de una v.a. x Normal y x es su media, la observacin sospechosa xS ser aquella que ms diste de x , es decir xS = Mxi xi x . Comparar texp = xS x / x i2 -(x i ) 2 / n con una t de la Tabla 13 por el modo all se indicado. Si el test da significativo (con valor P=P1) rechazar la observacin. Con las n1 observaciones restantes puede intentarse rechazar otra observacin (valor P2), pero ahora el valor P para la segunda es P = P1+P2.
15
16
2
z + z 2 t + t 2 z + z 2 2 2 n1 = (r + 1)1 , n1 = (r + 1)s1 , n1 =(r+1) K la primera expresin cuando 1 (o su mximo) es conocida, la segunda 2 cuando hay una muestra piloto de tamaos n i y varianzas s i (con f = 2 2 (1+r ) / {(1/( n1 1)+ r / ( n 2 1)}), la tercera cuando = K1. Obtenido n1, entonces n2 = rn1. iii) Muestras apareadas: 2 2 2 z + z 2 2 t + t 2 2 z + z 2 n= d , n = sd , n = K la primera expresin cuando d (o su mximo) es conocido, la segunda 2 (con f = cuando hay una muestra piloto de tamao n y varianza s d n 1), la tercera cuando 12= Kd.
2 2
7.2 TESTS NO PARAMTRICOS PARA COMPARAR DOS MEDIAS DE VARIABLES CUALESQUIERA (H0 1=2) Si, en las condiciones y notacin del Resumen 7.1, las variables implicadas (x o d) no son Normales, gran parte de lo indicado all es aproximadamente vlido si las muestras son grandes (mayores que 30 o 60 segn lo no Normal que sea la variable). Las reglas aconsejadas son las siguientes: a) Test para muestras independientes: Comparar con una z de la Tabla 2 la 2 cantidad zexp = x1 x 2 / s1 / n1 + s 2 2 / n2 . b) Test para muestras apareadas: Comparar con una z de la Tabla 2 la canti2 /n . dad zexp = d / s d
c) Intervalo de confianza para la diferencia de medias: Con la notacin de a) y b): 12(numerador de la zexp sin valor absoluto) t(denominador de la zexp) d) Tamao de muestra: Es vlido lo indicado en el Resumen 7.1.d) -con las t miradas tambin en la Tabla 2- si el n final predicho es superior a 30 o 60. e) Variables discretas: En los casos a), b) y c), si la variable implicada es discreta y saltando de 1 en 1, conviene efectuar una correccin por continuidad consistente en sumar al radio del intervalo de confianza la cantidad c o restar al numerador de la zexp la cantidad c, con: i) Muestras independientes: c = 1/ {2 Mx (n1; n2)}. ii) Muestras apareadas: c = 1/(2n). 7.3 TESTS NO PARAMTRICOS (TEST DE WILCOXON) PARA COMPARAR DOS MUESTRAS DE VARIABLES CUALESQUIERA (H0 La primera poblacin no tiende a dar valores ms altos o ms bajos que la segunda) a) Asignacin de rangos: En lo que sigue se hablar de asignar rangos a una muestra ordenada. Por tal se entiende al proceso de, dada una muestra ordenada de menor a mayor (x1x2 ... xn), asignar el rango 1 al elemento x1, el rango 2 al elemento x2, ..., el rango n al elemento xn. Cuando haya varios elementos xi consecutivos iguales (empates) a cada uno de ellos se le asigna
17
el rango promedio que tendran si fueran distintos; por ejemplo, si xr = xr+1 = ... = xs, a cada elemento se le asigna el rango promedio (r+s)/2. b) Muestras independientes (Test de Wilcoxon): Dadas dos muestras independientes de tamaos n1 y n2 (n1n2 por convenio), unir las dos muestras en una sola, ordenarla de menor a mayor, asignarle rangos a sus elementos y calcular las sumas de rangos (R1 y R2) de los elementos de cada una de las muestras. Deber suceder que R1+R2 = (n1+n2)(n1+n2+1)/2. Llamar por Rexp a la suma de rangos (R1) de la muestra de menor tamao y entonces: i) Si n1+n230: Comparar Rexp con una R de la Tabla 14 por el modo all indicado. ii) Si n1+n2>30: Comparar zexp = {RexpE(R)0,5} / V(R) con una z de la Tabla 2, en donde E(R) = (n1+n2+1)n1/2 y V(R) = (n1+n2+1)n1n2/12 si no hay empates, en tanto que cuando haya r grupos de t1, t2, ..., tr empates cada uno: (n1 + n 2 ) {(n1 + n 2 )2 - 1} - Ti V(R)= n1n 2 , con Ti=(ti1)ti(ti+1)= t 3 i - ti 12(n1 + n 2 )(n1 + n 2 - 1) c) Muestras apareadas (Test de Wilcoxon): Dadas n' parejas de datos, obtener las n' diferencias entre ellas, rechazar las que sean cero, ordenar el resto (n) de menor a mayor valor de sus valores absolutos, asignarles rangos y calcular las sumas de rangos -R(+) y R()- de las diferencias positivas y negativas. Deber suceder que R(+)+R() = n(n+1)/2. Entonces: i) Si n25: Comparar R(+) -o R(), es lo mismo- con una R de la Tabla 15 por el modo all indicado. ii) Si n>25: Comparar la cantidad zexp = {R(+)E(R)0,5} / V(R) con una z de la Tabla 2, en donde E(R) = n(n+1)/4 y V(R) = n(n+1)(2n+1) / 24 cuando no hay empates, en tanto que cuando haya r grupos de t1, t2, ..., tr empates cada uno, V(R) = {2n(n+1)(2n+1)Ti}/48 con Ti = (ti1)ti(ti+ 1) = t 3 i - ti .
7.4 TESTS DE COMPARACIN DE DOS PROPORCIONES (MUESTRAS INDEPENDIENTES) (H0 p1=p2) Si xiB(ni; pi), con i=1, 2, son independientes, y si de cada una de ellas se obtiene una muestra en el formato de la Tabla R.7.1, entonces, llamando por i =xi/ni, p i =1 p i y q =1- p (en lo que sigue las cantidades zx siem =a1/N, q p pre en la Tabla 2, pues se utiliza la aproximacin de la Binomial a la Normal): a) Test: Si E = Mn (a1; a2)Mn (n1; n2)/N > 5, comparar 1 1 - p 2 p 2 Mx (n1; n 2 ) zexp = vs. z n1 +n 2 pq n1 n 2 b) Intervalo de confianza para la diferencia de proporciones: Si x1, x2, y1, y2 son todos mayores que 5: q p q p 1 1 - p 2 ) z 1 1 + 2 2 + p1 - p2 ( p n n x (n ; n ) 2 M 1 2 1 2 c) Tamao de muestra: Para detectar una diferencia = p1p2:
18
i) Con informacin:
z 2pq + z2 p1q1 + p2q 2 n= , con p = (p1+p2), q = 1p, qi = 1pi y las p1 y p2 lo ms cercanas posibles a 0,5/2, compatibles con la informacin que se posea sobre ellas y tales que p1 p2 = . ii) Sin informacin: Cuando no hay informacin previa sobre las pi, la frmula anterior se convierte en n = {z+z2 1 - 2 }2 / 22.
Tabla R.7.1 Presentacin de datos cuando se comparan dos proporciones independientes. Tabla R.7.2 Presentacin de datos cuando se comparan dos proporciones apareadas.
2
B S S NO Total NO Total
x1 x2 a1
y1 y2 a2
n1 n2 N
n11 n21
n12 n22 n
7.5 TEST DE COMPARACIN DE DOS PROPORCIONES (MUESTRAS APAREADAS) (H0 p1=p2) Si los n individuos de una muestra son clasificados segn que presenten (S) o no (NO) una determinada caracterstica tras la aplicacin de un tratamiento A (entendido de modo genrico: no tiene porqu ser un tratamiento mdico) y lo mismo tras la aplicacin de otro tratamiento B, los datos pueden presentarse como en la Tabla R.7.2. Si p1 y p2 son las proporciones de respuestas S a cada tratamiento (en lo que sigue zx siempre en la Tabla 2): a) Test de McNemar: Si n12+n21 > 10, comparar zexp = {n12n211} / n12 + n 21 vs. z. b) Intervalo de confianza para la diferencia de proporciones: Si n12, n21 > 5: (n n 21 ) 2 + 0,5 / n p1 p 2 (n12 n 21 ) z (n12 + n 21 ) 12 n c) Tamao de muestra: Para detectar una diferencia p1p2= : i) Con informacin: n = {(z p12 + p21 +z2 p12 + p21 2 ) / }2, en donde p12 (o p21) es la proporcin de individuos que responden S y NO (o NO y S) a los tratamientos A y B respectivamente, y con p12+p21 sustituido por lo mximo que pueda valer (sus sumandos lo ms prximos posibles a 0,5 /2) compatible con la informacin y con que p1p2= . ii) Sin informacin: Cuando no hay informacin previa sobre las pij, la frmula anterior se convierte n = {(z+z2 1 - 2 ) / }2. 7.6 GENERALIDADES VLIDAS PARA TODO EL RESUMEN ACTUAL a) Muestras: Dos muestras son independientes cuando cada individuo de las mismas proporciona una nica observacin. Son apareadas, relacionadas o
19
dependientes cuando cada individuo proporciona dos observaciones (los datos se obtienen por parejas). Cuando la asociacin entre esas parejas de datos es positiva, el muestreo apareado es preferible. b) Test: Las comprobaciones previas a un test de una cola (H1 1<2 o H1 1 < p 2 ). p1<p2 por ejemplo) son las lgicas ( x1 < x 2 o p c) Intervalos de confianza: Todos estn construidos como de dos colas. Para una cola cambiar por 2 y conservar slo el extremo apropiado. d) Tamaos de muestra: En las frmulas para n debe entenderse que: i) El tamao pronosticado n alude al tamao de cada una de las dos muestras (n = n1 = n2), salvo indicacin expresa de lo contrario. ii) Aluden a un test de dos colas: Cuando sea de una cola cambiar por 2. iii) La mnima diferencia importante alude al primer valor de 12 o de p1p2 a diferenciar del valor 0. Si el test es de una cola, lo anterior es vlido sin el valor absoluto. 7.7 COMPARACIONES MLTIPLES a) Mtodo de Bonferroni: Cuando deban hacerse K tests de hiptesis sobre los que se desea un error global de , el nivel de error a utilizar en cada test individual debe ser de /K. La Tabla 19 ayuda a obtener las cantidades tericas t/K (f g.l.). b) Mtodo de Newman-Keuls: Al realizar K tests de hiptesis a un error global de , en el primer paso hacer previsiones para los K tests (error /K con el mtodo de a), en el segundo paso hacer previsiones para los K' tests que dieron no significativos en el primero (error /K' con el mtodo de a)), etc.
20
ENSAYOS CLNICOS
8.1 CONCEPTO DE ENSAYO CLNICO Un Ensayo Clnico es un diseo experimentalmente planificado para verificar la eficacia de un tratamiento en humanos a travs de la comparacin de los resultados obtenidos en dos grupos de pacientes que reciben, uno el tratamiento problema, y otro un tratamiento alternativo (nuevo o clsico) o ningn tratamiento, ambos grupos tomados, tratados y seguidos durante igual perodo de tiempo y obtenidos por la particin al azar en dos de un grupo inicial nico. Se rigen por un protocolo. 8.2 OBJETIVO El objetivo de un EC es que los dos grupos de individuos sean comparables en todo, excepto en el tratamiento. Las diferencias entre ambos pueden deberse: a) Al azar de la toma de muestras: lo controla el mtodo estadstico. b) A diferencias existentes entre los dos grupos de individuos (distintas del tratamiento y previas a su aplicacin): lo controla el diseo del EC. c) A diferencia ocurrida en la manipulacin y evaluacin de los grupos en el curso de la investigacin (simultneas o posteriores a la aplicacin de los tratamientos): lo controla el tipo de EC. d) A diferencias entre los efectos de los dos tratamientos: su determinacin, si existe, es el objetivo del EC. Las causas b) y c) producen un sesgo o error sistemtico de los datos. 8.3 TIPOS DE ENSAYOS CLNICOS a) Grupo Control: El que no recibe tratamiento alguno. b) Grupo Placebo: El que recibe un tratamiento ficticio (aplicado con los mismos ritos que el tratamiento problema). c) Tcnica de simple ciego: El enfermo no conoce qu tratamiento recibe. d) Tcnica de doble ciego: Ni el enfermo ni el mdico conocen qu tratamiento se est aplicando. e) Tcnica de triple ciego: Ni el enfermo, ni el mdico ni el comit que monitoriza el EC (incluyendo al bioestadstico) conocen qu tratamiento se est aplicando. 8.4 TIPOS DE ESTUDIOS CLNICOS Y CONDICIONES PARA QUE SEAN UN ENSAYO CLNICO a) Un estudio es experimental cuando el tratamiento est controlado, es decir cuando es el investigador quien decide qu tratamiento se da a cada enfermo. En caso contrario (tratamiento no controlado) el estudio es observacional. Un EC debe ser controlado. b) Un estudio es concurrente cuando los dos grupos de individuos se toman, tratan y siguen durante el mismo perodo de tiempo. En otro caso el estudio es no concurrente. El grupo Control no concurrente puede ser histrico o literario. Un EC debe ser concurrente. c) Un estudio es aleatorizado si, siendo controlado, la asignacin del tratamiento se hace al azar por un mecanismo de sorteo. En otro caso es no aleatorizado. Se haga de un modo u otro, debe indicarse al final la ficha tcnica de las muestras utilizadas (incluyendo en ella toda la informacin pertinente sobre la distribucin en cada muestra de todos los posibles factores de riesgo). Un EC debe ser aleatorizado.
ENSAYOS CLNICOS
21
8.5 TIPOS DE DISEOS a) Diseo en muestras independientes o apareadas: Ver el Resumen 7.6a). b) Diseo cruzado (en muestras apareadas): Si la mitad de los individuos reciben los tratamientos en un orden y la otra mitad en el orden contrario. c) Diseo estratificado: Si se aparea parcialmente en base a una estratificacin en uno o ms factores de riesgo. Cada clase en que se divide un factor de riesgo se llama nivel. Cada conjuncin de niveles de los factores considerados se llama estrato. 8.6 MTODOS DE ASIGNACIN ALEATORIA DEL TRATAMIENTO La aleatorizacin debe realizarse mediante una Tabla de Nmeros Aleatorios como la Tabla 5. Es preferible tener una lista aleatoria ya construida de antemano o, en ensayos doble ciego, tener introducido el orden de aplicacin de los tratamientos en unos sobres opacos numerados y cerrados. 8.7 EL ENSAYO CLNICO IDEAL a) Con respecto al tipo y diseo: Aleatorizado (con placebo, si uno de los tratamientos es un control) a doble ciegas y con diseo cruzado. El orden de importancia es el de escritura. Si el EC es multicntrico conviene estratificar por Centros. b) Hiptesis a contratar: Casi siempre el test es de una cola (excepto si los dos tratamientos son nuevos o los dos son clsicos). c) Medida de la respuesta: Puede ser un suceso clnico (curacin, muerte, etc) o una medida indirecta (presin sangunea, nivel de colesterol, etc) y ha de ser fcil de diagnosticar u observar, estar libre de errores de medida, poder ser observada con independencia del tratamiento, tener relevancia clnica, ser elegida antes de comenzar la recoleccin de los datos y ser lo ms informativa posible. d) Tamao de muestra: Ahora es imprescindible determinarlo para evitar rechazar tratamientos que pudieran ser efectivos. Depende del diseo, del tipo de respuesta, de la hiptesis a probar, de la razn de asignacin, de si el test es de una o de dos colas, del error , del error , de la mnima diferencia a detectar, del conocimiento acerca de ciertos parmetros poblacionales y de que haya una o ms medidas de la respuesta. 8.8 LA TICA EN LOS ENSAYOS CLNICOS Son ticamente admisibles por ser el nico mecanismo cientfico vlido para comprobar la eficacia de un tratamiento. Requieren del consentimiento informado del paciente. 8.9 LOS ENSAYOS CLNICOS EN ESPAA: FASES DE UN ENSAYO La legislacin espaola (B.O.E. del 13-5-93) entiende por tal a toda evaluacin experimentar de una sustancia o medicamento en el ser humano. Los divide en cuatro tipos (segn sus objetivos): de Fase I (estudios, generalmente en individuos sanos, para evaluar el efecto, seguridad y dosificacin del producto; de Fase II (estudios en enfermos para evaluar la eficacia del producto y ampliar la informacin sobre su seguridad y dosificacin); de Fase III (estudios en enfermos para evaluar la eficacia y seguridad del tratamiento frente a otros alternativos y en condiciones de uso habituales); de Fase IV (estudios con medicamentos ya comercializados para valorar nuevos aspectos de los mismos).
22
2 exp
i, j
(O
ij
E ij )
E ij
E
i, j
2 Oij ij
Columnas
Oij 1 2 O12 O22 Or2 C2 s O1s O2s Ors Cs F1 F2 Fr T Totales
1 Filas
2 r Totales
b) Test en Tablas 22: Si Mn (E1 ; E2)Mn (C1; E2) / T > 5, comparar 2 Mn (F1; F2 ) O11O 22 O12O 21 2 2 T con 2 {g.l.=l} de Tabla 7. exp = F1F2C1C2 Si la cantidad Mn (F1; F2)/2 se cambia por T/2 se obtiene la clsica 2 Y (chi-cuadrado de Yates).
23
9.2 TEST DE INDEPENDENCIA PARA VARIABLES CUALITATIVAS: TABLAS DE CONTINGENCIA (H0 Los caracteres A y B son independientes). Si en los T individuos de una muestra aleatoria se determinan dos caracteres cualitativos A y B, el primero dividido en r clases y el segundo en s clases, y se les clasifica en base a ello en una tabla como la Tabla R.9.1 -cambiando filas y columnas por clases del carcter A y clases del carcter B respectivamente- proceder como en el Resumen 9.1, salvo que en las Tablas 22:
2 exp
(O
11
9.3 PARTICIN DE TABLAS Cuando se concluye H1, la bsqueda de las causas de la significacin se efecta mediante la particin de la tabla inicial en otras subtablas que se obtienen colapsando (juntando) las filas o columnas apropiadas: a) Sugerencias sobre los colapsos: Se obtienen a travs de los porcentajes de observaciones por filas o por columnas y, sobre todo, a travs de la contribu2 cin de cada casilla a la exp total: residuales (OijEij)2 / Eij. b) Caso de Tablas 22: En las particiones no se realiza c.p.c., de modo que el 2 en una tabla 22 (sea cual sea su origen) es: valor de exp
T F1F2C1C 2 c) Comprobacin de la particin: La suma de los g.l. de las tablas partidas de2 , pero la igualbe ser los g.l. de la tabla original. De igual modo con las exp dad es ahora solo aproximada. d) Significacin de las subtablas: Si la particin se hizo a priori (no por la regla de a)), las significaciones se obtienen del modo usual. Si la particin se hizo a posteriori (por la regla de a)), se declarar significativo un resultado con P<1% si a) lo previ como significativo; se declarar como no significativo un resultado con P>10% si a) lo previ como tal.
N 2 exp
( O11O22 O12O21 )
9.4 TIPOS DE MUESTREO EN TABLAS 22, TEST APROPIADO Y MEDIDAS DE ASOCIACIN Con frecuencia, los dos caracteres dicotmicos estudiados (E y FR) suelen aludir a la presencia o no de una enfermedad o efecto indeseado (E y E ) y a la presencia o no de un factor de riesgo (FR y FR ). En lo que sigue se supone que la enfermedad se ubica en filas, obteniendo as unos datos como los de la Tabla R.9.2.
Tabla R.9.2 Formato estndar para los estudios epidemiolgicos. S FR O11 O21 C1 NO FR O12 O22 C2 Factor de riesgo Enfermedad S E NO E Totales
Totales F1 F2 T
24
muestreo pueden ser dos, lo que da lugar a tres tipos de estudio: i) Muestreo de Tipo I (Estudio Transversal): Tomar T individuos al azar y clasificarlos en base a E y a FR. ii) Muestreo de Tipo II (Preferible al de Tipo I si las Fi o las Cj se planifican como iguales): Estudio Prospectivo, Longitudinal o de Seguimiento: Tomar C1 y C2 individuos al azar y clasificarlos en base a E. Estudio Retrospectivo o de Caso-Control: Tomar F1 y F2 individuos al azar y clasificarlos en base a FR. Desde un punto de vista estadstico el diseo ptimo consiste en tomar muestras de igual tamao de los niveles de la caracterstica ms infrecuente (en general la enfermedad: estudio retrospectivo). b) Test apropiado: Si Mn (E1 ; E2)Mn (C1; E2) > 5, comparar
2 T con {g.l.=l} de Tabla 7 F1F2C1C2 con c = 0,5 en los transversales, c = Mn (C1; C2)/2 en los prospectivos y c = Mn (F1; F2) en los retrospectivos. En todos los casos c = T/2 da la clsica c.p.c. de Yates. c) Medidas de asociacin: Una medida de asociacin es un nmero que indica el grado de dependencia existente entre los dos caracteres E y FR estudiados, pero la medida a usar depende del fin perseguido y del muestreo utilizado. El Cuadro R.9.1 las resume (pero l es aplicable solo a datos en el formato de la Tabla R.9.2. 2 exp
(O
11
O 22 O12O 21 c )
9.5 ASIGNACIN DE VALORES CUANTITATIVOS ARBITRARIOS a) Los mtodos basados en datos cuantitativos son preferibles a los basados en datos cualitativos (como el mtodo 2). b) Si una caracterstica cualitativa es ordinal es posible y preferible asignarle valores numricos a sus clases y analizar los nuevos datos por la tcnica apropiada. c) La asignacin puede hacerse si el fenmeno estudiado hubiera podido medirse en una escala continua de haber dispuesto de los instrumentos adecuados, y si las clases obtenidas pueden considerarse como un agrupamiento de tal escala por medio de otra ms burda formada por sus valores redondeados. 9.7 EVALUACIN DE UN MTODO DE DIAGNSTICO Si en la Tabla R.9.2 se entiende que FR alude a que un test diagnstico ha dado positivo (suceso T), el objetivo entonces es evaluar la bondad del test diagnstico, lo que puede hacerse de dos modos (aunque es preferible el segundo). En lo que sigue se entiende que: p = Prevalencia = % de enfermos en la poblacin estudiada a) Sin considerar la prevalencia: Se define % de enfermos diagnosticados positivamente; SN = Sensibilidad = FN = Falsos Negativos = % de enfermos diagnosticados negativamente; % de sanos diagnosticados negativamente; EP = Especificad = FP = Falsos Positivos = % de sanos diagnosticados positivamente; en donde SN+FN = EP+FP = 100.
25
Para estimar tales valores se toman F1 enfermos y F2 sanos y se anota en cuntos de ellos el test da positivo (O11 y O21 respectivamente), expresando los datos en una tabla como la Tabla R.9.2 -cambiando FR por T- y dando lugar as a un estudio retrospectivo. Entonces: SN = O11 O O O , FN = 12 , E P = 22 , FP = 21 F1 F1 F2 F2
cantidades a las que es posible aplicarle los resultados del Resumen 4.4.a). Las conclusiones son: i) Si EP es alta, el test es til para confirmar la enfermedad (conviene aplicarlo a individuos sospechosos de poseerla); ii) Si SN es alta, el test es til para descartar la enfermedad (conviene aplicarlo como procedimiento de rutina para el diagnstico precoz de la enfermedad). b) Considerando la prevalencia: Los porcentajes de aciertos en los diagnsticos positivos (Valor Predictivo Positivo) o negativos (Valor Predictivo Negativo) sern: VPP = % de enfermos entre los diagnosticados positivamente % de sanos entre los diagnosticados negativamente VPN = Si los datos de la Tabla R.9.2 provienen de un estudio retrospectivo, tales valores se pueden estimar por: p S (1 - p) EP VPP = , VPN = p SN + (1 - p) (1 - EP) (1 - p) EP + p (1 - SN) con S y EP como en a), cantidad que depende de la prevalencia que se asuma. Cuando los datos de la Tabla R.9.2 provienen de un estudio transversal, entonces: F O O = 1 , VPP = 11 , VPN = 22 p C1 C2 T Tambin, y a efectos de evaluar la ganancia obtenida en el diagnstico por el hecho de utilizar el test, se definen: Ganancia del Positivo = VPP p GP = Ganancia del Negativo = VPN (1p) GN = Las conclusiones (para la prevalencia asumida) son: i) Si VPP es alto, el test es til para confirmar la enfermedad; ii) Si VPN es alto, el test es til para descartar la enfermedad.
26
Medida
Caso
Estimacin
= (O C ) / (O C ) R 11 2 12 1
General
Transversales Prospectivos
Riesgo relativo (de FR para E): La probabilidad de enfermar es R veces mayor en los individuos con el FR que en los sin el FR. 0O<1 O=1 1<O General
= (O O ) / (O O ) O 11 22 12 21
Si P(E)<0,1
exp z Retrospectivos R O
Transversales 1 1 1 1 exp + + + Prospectivos O O Si alguna z (O + 0,5)(O + 0,5) 11 22 O + 0,5 O + 0,5 O + 0,5 O + 0,5 O = Retrospectivos 11 12 21 22 Oij vale (O + 0,5)(O + 0,5) 12 21 cero Razn del producto cruzado: La fraccin de individuos que enferman frente a los que no, es O veces mayor en los que individuos con el FR que en los sin el FR.
RFR
Transversales
) exp R FR 1 (1 R z FR
RFR = 0 0<RFR+1
Si P(E)<0,1
Retrospectivos
) exp R FR 1 (1 R z FR
1 O 22
T F1F2
Riesgo atribuible (al FR): Una fraccin RFR de los enfermos podran no haberlo sido si ninguno hubiera estado sometido al factor de riesgo.
27
REGRESIN LINEAL
10.1 CONCEPTO DE REGRESIN a) Objetivo: Dadas dos v.a. cuantitativas x e y medidas en los mismos individuos, la tcnica de regresin persigue tres objetivos: i) Estudiar si ambas variables estn relacionadas o son independientes. ii) Estudiar el tipo de relacin que las liga (si existe). iii) Predecir los valores de una de ellas a travs de los de la otra. b) Relaciones deterministas y aleatorias: En las Ciencias Exactas la relacin entre dos variables puede ser exacta: conocido el valor de una de ellas se conoce exactamente el de la otra. En Estadstica la relacin es aleatoria: conocido el valor de una variable se conoce el de la otra slo de un modo aproximado. Ello sucede en las Ciencias de la Salud por dos motivos: i) Por la variabilidad biolgica de los objetos muestrales. ii) Por la variabilidad aleatoria de los mtodos de medida. c) Sobre la existencia de regresin: Dadas n parejas de valores (xi; yi) obtenidos de una muestra, su representacin por puntos en el plano cartesiano da lugar a una nube de puntos. Si a ella se ajusta alguna curva, se dice que existe regresin, a la curva se le llama lnea de regresin y a la funcin que la representa se le llama funcin de regresin. A la variable ubicada en el eje horizontal (usualmente x) se le llama variable independiente; a la ubicada en el eje vertical (usualmente y) se le llama variable dependiente. d) Regresin lineal simple: Aqu solo nos ocupamos del caso en que contamos con solo dos variables, x e y, relacionadas entre s mediante una lnea recta. e) Asociacin y causalidad: La demostracin estadstica de que dos variables estn asociadas no constituye una prueba de que una de ellas sea causa de la otra. Puede ocurrir: i) Que x sea realmente causa de y. ii) Que ambas variables se influyan mutuamente. iii) Que ambas variables dependan de una causa comn (una tercera variable z no contemplada). 10.2 MODELO Y MUESTREO EN REGRESIN LINEAL SIMPLE a) Modelo: Para cada valor de x, la variable y sigue una distribucin Normal de media +x y de varianza 2 (independiente de x). A yPOB = E(yx) = +x se le llama recta de regresin poblacional, a altura en el origen poblacional (altura en que corta la recta al eje vertical, es decir cuando x=0) y a pendiente poblacional (lo que aumenta y cuando x aumenta en una unidad). b) Tipos de muestreo: La consecucin de las n parejas (xi; yi) pueden hacerse bajo dos tipos de muestreo: i) Muestreo de Tipo I: Tomar n individuos al azar y anotar sus valores x e y. ii) Muestreo de Tipo II: Tomar n valores de x elegidos de antemano y obtener un valor de y al azar en cada uno de tales x. 10.3 ESTIMACIN DE LOS PARMETROS Si (xi; yi), con i = 1, 2, ..., n, son n parejas de valores de (x; y) obtenidos por alguno de los tipos de muestreo anteriores: a) Clculos intermedios: En lo que sigue la segunda expresin es la definicin,
28
REGRESIN LINEAL
la tercera su mtodo de clculo abreviado y la primera su smbolo corto para referencias: = x i2 (xi)2/n (xx) = (xi x )2 (yy) = (yi y )2 = yi2 (yi)2/n (xy) = (xi x )(yi y ) = xiyi (xi)(yi)/n b) Estimacin de la recta de regresin (yPOB=+x): Se determina bajo el principio de que (yiabxi)2 sea lo ms pequeo posible -principio de los mnimos cuadrados- obteniendo as la recta de regresin muestral (o esti = a+bx, con y la prediccin, a la altura en el origen muestral (o mada) y estimada), b la pendiente muestral (o estimada) y: b = (xy) / (xx), a = y bx c) Estimacin de la varianza de regresin (2): Mide la variabilidad de los puntos alrededor de la recta de regresin: 1 1 ( xy )2 i )2 = s2 = (yi y (yy) n2 n2 ( xx) i los residuos o residuales y sea la d) Comprobacin del modelo: Sean yi y i (en el eje nube de puntos de residuales que se obtiene al representar yi y i (en el eje horizontal): vertical) contra y i) Normalidad: No se verifica si la variable y es discreta o si el test de DAgostino es significativo al aplicarlo a cada conjunto de observaciones y en cada x (lo que requiere de observaciones repetidas). ii) Linealidad: La nube de puntos ha de mostrar una tendencia exclusivamente lineal. La de residuales ha de ser paralela al eje horizontal. Cuando esto no es as, a veces un cambio de escala apropiado puede convertir la curva en recta (linealizacin): cambiar x por log x, 1/x, x , etc y/o similarmente con y. iii) Homogeneidad de varianzas: La nube de puntos ha de ser ovalada, sin mostrar tendencia a ser ms ancha o estrecha con el aumento de x. La de . residuales igual con el aumento de y e) Quin sobre quin?: Los parmetros anteriores se entiende que son ayx, byx y s2 y i x por haber sido obtenidos de la regresin de y sobre x. Los resultados no son los mismos (axy, bxy y s2 x i y ) si en el eje horizontal se pone a la variable y y en el vertical a x (regresin de x sobre y). Se hace la regresin de y sobre x cuando el objetivo es predecir y a partir de x. El muestreo de Tipo I permite hacer ambas; el de Tipo II slo la de y sobre x. f) Precauciones y consejos: i) No pueden hacerse inferencias fuera del rango de muestreo de x (el intervalo de valores entre el menor y el mayor valor de x obtenidos). ii) El muestreo de Tipo II permite elegir el rango de inters de las x y, tomndolo amplio, hace ms fiables las conclusiones.
10.4 INFERENCIAS CON RECTAS DE REGRESIN En lo que sigue, salvo indicacin expresa de lo contrario, la cantidad t aludida implcita (en el test) o explcitamente (en los intervalos) se busca en la Tabla 6 con (n2) g.1.: a) Sobre la pendiente: i) Intervalo de confianza: bts/ (xx);
REGRESIN LINEAL
29
ii) Tets (H0 =0): texp = b0 (xx) /s; iii) Test de independencia (H0 =0): texp = b (xx) /s. b) Sobre la altura: i) Intervalo: at s2 {1/ n +x 2 /(xx) } ; ii) Test (H0 =0): texp = a0/ s2 {1/ n +x 2 /(xx) } . c) Sobre la media de y en un valor dado x0 de x: i) Intervalo: + x 0 a+bx 0 t s2 {1/ n +( x 0 x)2 /(xx) }
Para muchos intervalos, t = {2F[2; n2]}0,5 con F en la Tabla 8; ii) Test (H0 +x0=h0): texp = a+bx0h0/ s2 {1/ n +( x 0 x)2 /(xx) } . d) Sobre valores pronosticados: i) Una prediccin de y en x0: y0 (a+bx0)t s2 {1 + 1/ n +( x 0 x)2 /(xx) } Cambiando el 1 del interior de la raz por l/m se obtiene un intervalo para la media y0 de m observaciones de y en igual x0. ii) Muchas predicciones (intervalo de aceptacin) de y en diversos x: Al error y conteniendo al menos a un 100% de las observaciones 1 (x x) 2 n2 y (a + bx) s 2F/2 (2; n 2) + + z1 2 1 / 2 (n 2) (xx) n con F, z y 2 en Tablas 8, 2 y 7 respectivamente. Cambiando z1 por z1 / m se obtiene el intervalo para la media de m valores de y en igual x. iii) Una prediccin del x0 que dio un cierto y0 (calibracin lineal): t 2 s2 b(y0 y) t s 1 (y y) 2 x 0 x+ c 1 + + 0 , con c = b 2 c c (xx) (xx) n Cambiando y0 por y0 y el 1 por l/m, se obtiene un intervalo para el x0 que produjo la media y0 de m observaciones. iv) Muchas predicciones de los valores de x que ocasionaron los valores de y (calibracin lineal): Al error , conteniendo al menos a un 100% de las observaciones, y si b0 (F, z y 2 como en ii)): b(y y A) s 2 F/2 (2; n 2) c (y y A) 2 x x+ + con c c n (xx)
2 F/2 (2; n 2) s 2 n2 , A=z1 s 2 (xx) 1 / 2 (n 2) Cuando b0, cambiar A por A . Si se disponen de medias y de m observaciones en igual x, cambiar y por y y z1 por z1/ m . e) Rechazo de observaciones extremas (H0 La observacin xS debe aceptarse): De entre todas las parejas (xi; yi), la sospechosa (xS; yS) es aquella que i , aunque generalmente se la puede localizar hace mxima la residual yi y a travs de la nube de puntos. Si dS=ySabxS, comparar con una t(f= n3; K=n) de la Tabla 16 la cantidad 2 2 2 2 t exp = (n 3)dS / (n 2)s {1 1/n (x S x) /(xx)} dS c = b2
30
CORRELACIN
11.1 COEFICIENTE DE CORRELACIN LINEAL SIMPLE (O DE PEARSON) a) Objetivo: Dadas dos v.a. cuantitativas x e y, se trata de medir la fuerza con que ambas estn ligadas a travs de los resultados (xi; yi), con i =1, 2,..., n, obtenidos en n individuos. b) Modelo, tipos de muestreo, clculos intermedios y comprobacin del modelo: Como en Resmenes 10.2.a) y b) y 10.3.a y d). c) Estimacin: La fuerza con que las dos variables estn ligadas se mide mediante el coeficiente de correlacin poblacional , el cual se estima (bajo el muestreo I) por el coeficiente de correlacin muestral r = (xy)/ (xx)(yy). d) Propiedades: Lo que sigue es vlido tambin para r: i) es un nmero adimensional que no depende de las unidades de medida ni del orden en que se enuncien las variables (xy=yx). ii) 2 es la proporcin de la variabilidad total de y que est explicada por su regresin lineal en x. iii) 1 +1. iv) El valor absoluto mide la fuerza de relacin entre x e y (a ms ms fuerza), en tanto que el signo de indica el tipo de la misma: positiva si >0 (a ms x ms y), negativa si <0 (a ms x menos y) o nula (es decir, x e y son independientes) si =0. v) Cuanto ms aplastada es una nube de puntos y cuanto mayor sea la pendiente de la recta de regresin, ms grande es (cuando es paralela a uno de los ejes entonces =0). e) Test de independencia: H0 =0 (independientes) vs. H1 0 (dependientes): Comparar (test idntico al del Resumen 12.4.a.iii)):
t exp =
2 (n 2)rxy 2 1 rxy
11.2 COEFICIENTE DE CORRELACIN PARCIAL a) Objetivo: La correlacin xy entre dos variables x e y puede ser debida a su comn relacin con una tercera variable z no contemplada hasta ahora. El coeficiente de correlacin parcial xyz mide el grado de asociacin entre x e y que no es un reflejo de la asociacin de ambas con z (es decir, el grado de asociacin entre x e y para valores constantes de z). b) Estimacin: Obtener n ternas de valores (xi; yi; zi) en cada uno de los n individuos de una muestra, obtener los coeficientes de correlacin lineal rxy, rxz y ryz y entonces: rxy rxz ryz xy i z = rxy i z = 2 2 (1 rxz )(1 ryz )
CORRELACIN
31
t exp =
2 (n 3)rxy iz 2 1 rxy iz
vs. t (n 3) de la Tabla 6
11.3 COEFICIENTE DE CORRELACIN DE SPEARMAN a) Objetivo: Medir la asociacin entre dos variables cuantitativas cualesquiera (verifique o no el modelo de regresin lineal). Es un mtodo no paramtrico. b) Condiciones: La asociacin ha de ser monotnica (una variable siempre crece o siempre decrece con la otra). c) Estimacin: La fuerza de la asociacin la mide el coeficiente de correlacin poblacional (de Spearman) S, el cual se estima (bajo el muestreo I) por el coeficiente de correlacin muestral rS determinado a travs de los siguientes pasos: (1) Obtener una muestra de n parejas de valores (xi; yi); (2) Ordenar de menor a mayor los valores de x y asignarles rangos Ri como en el Resumen 7.3.a); (3) Proceder igual con las y asignando rangos R i ; (4) Anotar las parejas (Ri; R ) correspondientes a las (x ; y ) originales, comprobando que Ri = i i i R = n(n+1)/2; (5) Obtener el coeficiente de correlacin lineal simple para i las n parejas de rangos, es decir, y con igual convenio que en el Resumen 10.3.a), rS = rS = (RR ) / (RR)(R R ). Cuando no hay empates, la frmula se puede simplificar en la siguiente: 2 ( R i R i ) rS = 1 6 (n 1)n(n+1) d) Propiedades: Como en el Resumen 11.1.d), pero relativas a los rangos. e) Test de independencia: (H0 S=0 vs. H1 S0): Con cualquier muestreo: i) Si n30: Comparar rS con r de la Tabla 22 en el modo all indicado. ii) Si n>30: Comparar zexp = rS n 1 con una z de la Tabla 2. 11.4 TEST DE INDEPENDENCIA CON VARIABLES MIXTAS (H0 Los valores que toma un individuo con respecto a una variable cuantitativa x son independientes de la clase a que este pertenece respecto de una cualidad C). Sea x una variable cuantitativa cualquiera y C una cualidad con s clases. Si se toma una muestra de n individuos se obtendrn n parejas de valores (x; C) a partir de las cuales hay que contrastar H0. El mtodo para ello depende del caso: a) Si C es una cualidad ordinal: Convertir la cualidad en cantidad asignndole a sus clases valores cuantitativos arbitrarios y por el mtodo del Resumen 9.6, y aplicar a las parejas (xi; yi) as obtenidas el Resumen 11.1 o el 11.3. b) Si C es una cualidad no ordinal: i) Si r=2: Comparar los valores medios de x (1 y 2) en las dos clases de C por el procedimiento de los Resmenes 7.1.a), 7.2.b) o 7.3.b) segn proceda. ii) Si r>2: Comparar los valores medios de x (1, 2, ..., s) en las s clases de C por el procedimiento del anlisis de la varianza (no contemplado en estos Resmenes). Alternativamente, convertir la cantidad x en cualidad (definiendo r intervalos de clase arbitrarios), formar la tabla contingencia rs que ello produce y analizarla por la tcnica de 2 del Resumen 9.2 (aunque ello conlleva una gran prdida de potencia).