Documentos de Académico
Documentos de Profesional
Documentos de Cultura
08 Guiones Bioestadistica CAP.8
08 Guiones Bioestadistica CAP.8
×2 (R.8.1.a)
VIII.2. Test de homogeneidad en tablas distintas a las 2×
VIII.2.1. Introducción e hipótesis a contrastar
Tabla 8.1
Generalización del problema de la comparación de dos proporciones al de la
homogeneidad de varias muestras.
→ En filas: los tratamientos.
→ En columnas: las respuestas.
→ En el interior: los porcentajes poblacionales de respuestas de cada tipo con cada
tratamiento.
→ Debajo de cada tabla: la hipótesis nula a contrastar (las afirmaciones entre paréntesis
son redundantes, pues se deducen de las que hay encima de ellas).
92 VIII.- TEST CHI-CUADRADO Y TABLAS 2×2
SÍ NO Suma SÍ NO Suma
1 p1 q1 1 1 p1 q1 1
2 p2 q2 1 2 p2 q2 1
H0: p1 = p2 3 p3 q3 1
(q1 = q2) 4 p4 q4 1
H0: p1 = p2 = p3 = p4
(q1 = q2 = q3 = q4)
(c) Tabla 4×3:
4 tratamientos y 3 respuestas
Tabla 8.2
Clasificación de r = 4 grupos de individuos según su estado (s = 3 respuestas) tras 4 tratamientos
Oij Peor Igual Mejor Totales
Tratamiento 1 7 = O11 28 = O12 115 = O13 150 = F1
Tratamiento 2 15 = O21 20 = O22 85 = O23 120 = F2
Tratamiento 3 10 = O31 30 = O32 90 = O33 130 = F3
Tratamiento 4 5 = O41 40 = O42 115 = O43 160 = F4
Totales 37 = C1 118 = C2 405 = C3 560 = T
• Tabla 8.1 (c) → datos de la Tabla 8.2, en donde:
→ Los r = 4 totales de fila están fijados de antemano.
→ Cada total de fila se distribuye al azar en las s = 3 columnas.
→ Oij = Nº de individuos de la muestra i que caen en la clase j = Cantidades
Observadas.
→ Fi = Total de la fila i = nº de individuos de la muestra i = Σj Oij.
→ Cj = Total de la columna j = nº de individuos de la clase j = Σi Oij.
→ T = Gran total = nº total de individuos considerados = ΣFi = ΣCj =ΣΣOij.
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 93
• Hay que ver lo que sucedería si H0 fuera cierta ⇒ % “Peor” es el mismo con los 4
tratamientos + bis para “Igual” y “Mejor”.
• Si p1 = % “Peor” = 10% ⇒ de los 120 = F2 individuos del tratamiento 2, empeorarían
en promedio E21 = media de una binomial = tamaño muestra (F2) × probabilidad (p1):
E21 = F2×p1 =120×0,10 = 12
• Como p1 es desconocido, se la puede estimar (bajo H0) a partir de los datos
globales: p̂1 = 37 / 560 = C1 / T ⇒
37 120 × 37 F2C1
E21 = F2 × ˆp1 = 120 × = = = 7 ,93
560 560 T
• De modo general, las
• El estadístico χ exp
2
que sigue es discreto (pues las Oij en que se basa lo son) ⇒ hacen
(O − Eij )
2
Oij 2
χ exp =∑ =∑ − T (≥ 0 por definición)
2 ij
(8.2)
Eij Eij
• Corrección por continuidad: Se sabe que en tablas ≠ 2×2 no es preciso efectuar cpc.
De hacerla, el nuevo estadístico sería (cpc de 0,5 pues las Oij saltan de 1 en 1):
{O }
2
ij − Eij − 0 ,5
Estadístico chi-cuadrado de Yates = χY2 = ∑ (8.3)
Eij
• χ exp
2
= 13,87 ≥ χ 52% {gl = 3 × 2 = 6} = 12 ,596 ⇒ H1 al error α = 5%.
χ α2
• Si no todos los tratamientos son iguales: ¿cuáles son = y cuáles son ≠? ¿en qué clases?
Tabla 8.5
Búsqueda de las causas de la significación encontrada en la Tabla 8.2: porcentajes por filas
Clases
Peor Igual Mejor Total Por ejemplo:
Trat.
7
1 4,67 18,67 76,67 100% 4 , 67 = × 100
2 12,50 16,67 70,83 100% 150
3 7,69 23,08 69,23 100%
4 3,13 25,00 71,88 100%
• No se ve en detalle: hay que hacer una partición de tablas.
96 VIII.- TEST CHI-CUADRADO Y TABLAS 2×2
• De un modo aproximado e intuitivo puede deducirse algo observando los % por filas
(pues las Fi se fijaron de antemano) de la Tabla 8.5 ⇒ como si H0 fuera cierta, los %
de cada columna deberías ser aproximadamente iguales, los datos sugieren que:
T2 ≠ (T3=T4=T1), sobre todo en la columna “Peor”
×2 (R.8.1.b)
VIII.3. Test de independencia para cualidades en tablas ≠ 2×
Hipótesis a contrastar
• H0: Los caracteres A y B son independientes ≡ no asociados ≡ no relacionados.
• H1: Los caracteres A y B son dependientes ≡ sí asociados ≡ sí relacionados.
• En el ejemplo: H0: La “Naturaleza” del tumor es independiente de su “Localización”.
Antes vs. Ahora
• Las hipótesis son intercambiables, pues H0 es:
→ Ahora (Tabla 8.6): La Naturaleza es independiente de la Localización.
≡ % Benignos es = en todas las áreas, etc.
→ Antes (Tabla 8.2): % Peor es = en todos los tratamientos, etc.
≡ La Curación es independiente del Tratamiento.
Test y Conclusión
• El test se realiza como en la sección anterior:
Tabla 8.8 ⇒ χ exp
2
=7,86 (4 gl) ⇒ 5% < P < 10% ⇒ H0 (P > 5%).
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 97
Lóbulo temporal 21 4 3
28
15,49 7,35 5,16
Otras loc. 34 24 17
75
41,49 19,68 13,83
Total 78 37 26 141
Observaciones
• Clases cajón de sastre (“Otras áreas” con E23 = 5,16) para que se verifiquen las cdv.
• De dar H1 ⇒ calcular los % por filas (o por columnas) como en la Tabla 8.9.
Tabla 8.9
Porcentajes por filas para los datos de la Tabla 8.6
(% de tumores de cada tipo en cada zona cerebral)
Naturaleza
Benigno Maligno Otros Totales
Localización
Lóbulo frontal 60,5 23,7 15,8 100%
Lóbulo temporal 75,0 14,3 10,7 100%
Otras áreas 45,3 32,0 22,7 100%
×2 (R.8.2)
VIII.4. Tests en tablas 2×
• Surgen si en los dos casos de antes r = s = 2 ⇒ tabla 2×2.
• Se excluyen de las soluciones del caso general r×s anterior pues (como se ve abajo):
→ Ahora si es conveniente una cpc (≠ para cada problema).
→ Esto hace que varíen las cdv (≠ para cada problema).
• Además, el estadístico chi-cuadrado adopta ahora una forma más sencilla.
• En todo caso la cantidad teórica es χα2 (gl = 1) de la Tabla 9: gl = (2−1)×(2−1) = 1.
(O O − O12O21 ) ( 21 × 72 − 69 × 32 )
2 2
χ = 11 22
2
T= × 194 = 1,344 ⇒ H0 (P > 20%)
90 × 104 × 53 × 141
P
F1 F2C1C2
• Sus cdv del Comentario 1 serán “todas Eij > 5” (pues hay sólo 4 casillas) ⇒ E = Mín
Eij > 5 con
( Mín Fi ) × ( Mín C j ) 90 × 53
E = mínima cantidad esperada = = = 26 ,4 > 5
T 194
• Test no fiable: es liberal (da más significaciones de las debidas) + cdv no correctas.
Ejemplo
• Ejemplo 7.4 ⇒ Tabla 7.6(b) es adaptable al caso actual (r = s = 2) ⇒ Tabla 8.10 con:
H0: p1 = p2 (los % de éxitos son el mismo con ambos fármacos) vs. H1: p1 ≠ p2
Tabla 8.10: Los datos de Tabla 7.6 (b) en el formato actual
(homogeneidad de dos proporciones independientes)
Mejoría
SÍ NO Totales
Muestras
Fármaco A O11 = 21 O12 = 69 F1 = 90
Fármaco B O21 = 32 O22 = 72 F2 = 104
Totales C1 = 53 C2 = 141 T = 194
Tests incondicionado
Ahora la cpc es incondicionada (solo el marginal de filas está fijado)
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 99
Comentario 3
El test chi-cuadrado incondicionado de homogeneidad en tablas 2×2 (dos
muestras) es válido si E ≥ 14,9 (aunque cuando T ≤ 500 basta con que E ≥ 7,7).
(O O22 − O12O21 − c )
2
1 si F1 ≠ F2
χ 2
=
11
× T , con c=
2 si F1 = F2
exp
F1 F2C1C2
⇓
( 21 × 72 − 69 × 32 − 1)
2
χ 2
= × 194 = 1,340
90 × 104 × 53 × 141
exp
↓ ↓
Iguales por Iguales por
fórmulas definición
χα2 (1 gl ) = zα2
• ¡Son el mismo test! ⇒ elegir el que se desee:
→ χ exp
2
es más cómodo, pero las tablas χα2 (1) son más cortas + el test no está
Ejemplo
Tabla 8.11: Los datos de la Tabla 7.7 (d) en el formato actual
(2 proporciones apareadas) o (independencia de 2 cualidades dicotómicas)
Centro de Salud
SÍ NO Totales
Ambulatorio
SÍ O11 = 27 O12 = 35 F1 = 62
NO O21 = 43 O22 = 20 F2 = 63
Totales C1 = 70 C2 = 55 T = 125
Tests incondicionado
Ahora la cpc es incondicionada (ningún marginal está fijado)
Comentario 4
El test chi-cuadrado incondicionado de independencia en tablas 2×2 (una
muestra) es válido si E ≥ 6,2 (aunque cuando T ≤ 500 basta con que E ≥ 3,9).
(O O22 − O12O21 − 0 ,5 )
2
χ 2
exp =
11
×T
F1F2C1C2
⇓
Centro de Salud
SÍ NO Totales
Ambulatorio
SÍ O11 = 27 O12 = 35 F1 = 62
NO O21 = 43 O22 = 20 F2 = 63
Totales C1 = 70 C2 = 55 T = 125
( 27 × 20 − 35 × 43 − 0,5)
2
χ 2
= × 125 = 7 ,773 (1 gl )
62 × 63 × 70 × 55
exp
• Conclusión: Hay asociación entre las opiniones sobre ambos sistemas. El tipo de
asociación (+ ó −) se ve luego: ella aconsejará sobre la conveniencia de planificar el
test H0: pA = pCS con muestras independientes o apareadas.
• Observar: χ exp
2 2
=7,773 ≠ zexp = 0,8492 pues son dos tests ≠.
Cuadro 8.1
Test a emplear cuando hay dos variables implicadas
Hipótesis Muestras independientes Muestras apareadas
a contrastar Homogeneidad Homogeneidad Independencia
2
2 cualidades dicotómicas Test z ≡ Test χ McNemar Test χ2
2 cantidades Student/Wilcoxon Student/Wilcoxon Correlación
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 101
• Los métodos basados en datos cuantitativos son preferibles a los basados en datos
cualitativos (como el método χ2), pues dan lugar a tests más potentes. Una prueba de
ello es el ejemplo de la Tabla 8.12 que se analiza a continuación.
• Objetivo: H0: El Cambio de Salud es independiente del Grado de Infiltración.
Tabla 8.12
(a) Clasificación de 196 leprosos de acuerdo con su cambio de salud
y el grado de infiltración en la piel
Cambios de salud (x)
Grado Mejoría Estacionario Peor Total
de infiltración Marcada Moderada Ligera
x=3 x=2 x=1 x=0 x = −1
Poca 11 27 42 53 11 144
Mucha 7 15 16 13 1 52
(b) % por filas
• Tabla 8.12 (a): Es una tabla de contingencia 2×5 ⇒ calcular esperadas, etc.
102 VIII.- TEST CHI-CUADRADO Y TABLAS 2×2
• χ exp
2
= 6,87 (4 gl) ⇒ 10% < P < 20% ⇒ H0 (P > 10%) (hay ligeros síntomas de H1).
• Tabla 8.12 (b): Sugiere que la mejoría con “mucha” es mejor que la de con “poca”.
n1 + n2 144 + 52
x1 − x2 − 0,8194 − 1,2692 −
zexp =
2n1n2
= 2 × 144 × 52 = 2 ,559 ( 91,7 gl ) ⇒ H ( P < 2% )
1
s12 s22 1,1420 1,2692
+
+
n1 n2 144 52
obtenidas pueden considerarse como un agrupamiento de tal escala por medio de otra
más burda formada por sus valores redondeados.
• En el ejemplo se asume la existencia de un aparato ideal que mide el grado de mejoría
y que lo anotado es su redondeo al entero más cercano.
×2 (R.8.4)
VIII.6. Medidas de asociación en tablas 2×
VIII.6.1. Introducción, convenio y ejemplo
• Tablas 2×2: hasta ahora desde un punto de vista general; desde ahora desde un punto
de vista epidemiológico.
• Con frecuencia, los dos caracteres dicotómicos estudiados (E y FR) suelen aludir a:
→ La presencia o no de una enfermedad o efecto indeseado (E y E ) y a
Tabla 8.14
Asociación entre la época de la muerte (antes o después
de la edad media) y el hecho de fumar (sí o no)
Fuma SÍ NO
Muerte Totales
FR FR
Antes: E O11 = 60 O12 = 20 F1 = 80
Después: E O21 = 40 O22 = 30 F2 = 70
Totales C1 = 100 C2 = 50 T = 150
• ¿Cómo se tomaron los datos de la Tabla 8.14?: ello afecta a cómo analizarlos.
• Para estudiar la asociación entre E y FR los tipos de muestreo pueden ser dos, lo que
da lugar a tres tipos de estudio (se subraya el nombre que se utilizará en adelante):
i) Muestreo de Tipo I (Estudio Transversal): Tomar T individuos al azar y
clasificarlos en base a E y FR (T = 150 muertos y clasificarlos).
ii) Muestreo de Tipo II (preferible al de Tipo I si las Fi o las Cj se planifican como
iguales):
→ Estudio Prospectivo, Longitudinal o de Seguimiento (“hacia adelante en el
tiempo”): Tomar C1 y C2 individuos al azar y clasificarlos en base a E (C1 =
100 “fumadores” y C2 = 50 “no fumadores” y clasificarlos).
→ Estudio Retrospectivo o de Caso-Control (“hacia atrás en el tiempo”): Tomar
F1 y F2 individuos al azar y clasificarlos en base a FR (F1 = 80 “antes” y F2 =
70 “después” y clasificarlos).
• Desde un punto de vista estadístico, el diseño óptimo consiste en tomar muestras de
igual tamaño de los niveles de la característica cuya probabilidad es más diferente del
50% (en general la enfermedad: estudio retrospectivo): se trata de que los marginales
sean lo más homogéneos posible.
Procedimiento de test
• Si E = Mín (F1 ; F2)×Mín (C1; C2) / T , comparar
Definición
• ¿Cómo de peligroso es fumar para morir antes?
Fuma SÍ NO
Muerte Totales
FR FR
Antes: E O11 = 60 O12 = 20 F1 = 80
Después: E O21 = 40 O22 = 30 F2 = 70
Totales C1 = 100 C2 = 50 T = 150
• Si Prospectivo (de igual modo si transversal):
O11 60
p1 = % "antes" en SÍ FUMA → ˆp1 = C = 100 = 60%
1
p2 = % "antes" en NO FUMA → ˆp2 = O12 = 20 = 40%
C2 50
• ¿Cuánto de distintos son? ⇒ se mide por:
→ En particular: “el riesgo (o probabilidad) de morir antes es 1,5 veces mayor en los
fumadores que en los no fumadores”.
→ En general: “el riesgo de enfermar es R veces mayor en los individuos que poseen
el factor de riesgo que entre los que no lo poseen”.
→ Muy habitual en la literatura (incluso periódicos).
Validez
Valores posibles
Si p1 = p2 Si p1 < p2 Si p1 > p2
R = 1,, δ = 0 R < 1,, δ < 0 R > 1,, δ > 0
Fumar: No influye Es bueno Es malo
Fumar: No es FR Es Factor de Protección Es Factor de Riesgo
Asociación: Nula Negativa Positiva
Mínimo R: p1 = 0 ⇒ R = 0; Máximo R: p2 = 0 ⇒ R = ∞
Mínimo δ: p1 = 0, p2 = 1 ⇒ δ = +1; Máximo δ: p1 = 1, p2 = 0 ⇒ δ = −1
⇓
Asociación→ − Nula +
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 107
R→ 0 1 ∞
• R = 1/5 ≡ R′ = 5 en fuerza (pero ≠ sentido) pues R = p1/p2 ≡ R′ = p2/p1.
• Si FR = “varón” da R < 1 ⇒ hacer FR = “mujer” para que R > 1 (que es de
interpretación más directa y sencilla) para tener un verdadero factor de riesgo.
(de modo similar para δ)
Inferencias
δ∈
O11 + h O21 + h
− ± zα
(O11 + h )(O21 + h ) + (O12 + h )(O22 + h ) con h = zα2 /4
C1 + 2h C2 + 2h ( C1 + 2h ) ( C2 + 2h )
3 3
Fuma SÍ NO
Muerte Totales
FR FR
Antes: E O11 = 60 O12 = 20 F1 = 80
Después: E O21 = 40 O22 = 30 F2 = 70
Totales C1 = 100 C2 = 50 T = 150
• Grupo de SÍ FUMA:
Antes 60 3 O11
= = = : de cada 5 fumadores, 3 mueren “antes” y 2 “después”
Después 40 2 O21
• Grupo de NO FUMA:
Antes 20 2 O12
= = = : de cada 5 no fumadores, 2 mueren “antes” y 3 “después”
Después 30 3 O22
• Cada fracción es la odds ≡ Superioridad = Ventaja CON/SIN el FR (lenguaje de las
apuestas de la cultura inglesa).
• Dividiendo ambos:
O11O22 60 × 30 3 / 2
Ô = = = = 2 , 25
O12O21 20 × 40 2 / 3
Razón del Producto Cruzado = Odds-ratio = Razón de Superioridades = Razón de Ventajas
108 VIII.- TEST CHI-CUADRADO Y TABLAS 2×2
⇓
• En particular: la fracción de personas que mueren “antes” respecto de las que lo hacen
Ô′ =
( O11 + 0,5 )( O22 + 0,5)
( O12 + 0,5)( O21 + 0,5)
Definición: si Retrospectivo
Otros
• Valores posibles: como en R.
• Test: H0: O = 1 ≡ Test χ2 (O es el poblacional).
• ˆ ′ × exp ± z
IC (optativo): O ∈ O
1
+
1
+
1
+
1
α
O11 + 0,5 O12 + 0,5 O21 + 0,5 O22 + 0,5
Generalidad
• Rara ≡ Pr (E) = prevalencia de la enfermedad < 10% (pequeña).
• Si P(E) < 0,1 ⇒ R ≈ O, Rˆ ≈ O
ˆ ⇒ Rˆ se puede estimar también en los retrospectivos
ˆ = 20 × 294 = 3,27
→ R̂ ≈ O
60 × 26
→ ¡No ha hecho falta permutar filas por columnas (para poner la enfermedad en filas)
Tabla 8.16
Resultados de un test diagnóstico cuando éste se aplica a un grupo de 1.000 mujeres con cáncer
y a otro de 1.500 mujeres sanas
Definición
• Hay 850 y 1.455 aciertos + 150 y 45 fallos en el diagnóstico ⇒ obtener los
porcentajes por filas para evaluar el método.
nº diagnósticos + entre los enfermos O11 850
• SN = = = = 85% = Sensibilidad
nº enfermos F1 1.000
SN + FN =1 ó 100%
nº diagnósticos − entre los sanos O22 1.455
• EP = = = = 97% = Especificidad
nº sanos F2 1.500
EP + FP =1 ó 100%
0 ,85 × 0 ,15 1
SN ∈ 0,85 ± 1,96 + ⇒ 82,7% ≤ SN ≤ 87,3%
1.000 2.000
Evaluación
• Deseable: los aciertos SN y EP sean ambos >>> → es raro que lo sean los dos.
• Si SN >>> (≡ FN <<<): Si el individuo tuviera la enfermedad ⇒ el test debería dar +
(pues SN >>>) ⇒ luego si da − es porque no la tiene ⇒
Si SN >>> ⇒ el test es útil para descartar la enfermedad
⇒ se le utilizará para el diagnóstico precoz de la enfermedad (para descartarla con
seguridad) ⇒ como test de cribado (“screening”).
• Si EP >>> (≡ FP <<<): Si el individuo estuviera sano ⇒ el test debería dar − (pues
EP >>>) ⇒ luego si da + es porque la tiene ⇒
Si EP >>> ⇒ el test es útil para afirmar la enfermedad
BIOESTADÍSTICA – GRADO – MEDICINA, ENFERMERÍA 111
¡Ojo!
• Un método que clasifique al azar (lanzando una moneda al aire) da SN+EP = 1 ⇒
SN + EP >> 1 para que el método sea útil en algo
¡un test que diagnostique + a todos ⇒ SN = 100, EP = 0!
¡un test que diagnostique − a todos ⇒ EP = 100, SN = 0!
• Por ello algunos autores utilizan el:
Índice de Youden = J = SN + EP − 1 ⇒ −1 ≤ J ≤ +1 (debe ser J >> 0)
• ¿Test χ2 de homogeneidad/independencia previo?: sin interés (se supone que el
método no clasifica al azar).
Introducción + Utilidad
• Al paciente le interesa conocer la fiabilidad de su diagnóstico ya ocurrido.
• Si me da +, ¿qué probabilidad tengo de estar realmente enfermo? :
VPP = % enfermos entre los diagnosticados positivamente = Valor Predictivo Positivo
(por ejemplo, el 95% de los diagnósticos + son correctos)
• Si me da −, ¿qué probabilidad tengo de estar realmente sano?:
VPN = % sanos entre los diagnosticados negativamente = Valor Predictivo Negativo
(por ejemplo, el 91% de los diagnósticos − son correctos) ⇒
VPP >>> ⇒ test útil para afirmar la enfermedad
VPN >>> ⇒ test útil para descartar la enfermedad
¡Ojo!
• Si se clasifica al azar ⇒ VPP+VPN = 1 ⇒ debería ser VPP+VPN >>> 1 (como aquí).