Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MODULO II
BIOESTADÍSTICA
CLÍNICA
Quinta edición
2015
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
2
Indice
Capítulo Pag.
1 Bioestadística - Introducción 3
A. Bioestadística descriptiva 12
B. Bioestadística inferencial 64
9 B.1 Muestreo 65
10 B.2 Determinación de tamaño de muestra 77
11 B.3 Nociones básicas de Distribución normal 86
12 B.4 Nociones básicas de probabilidad 94
13 B.5 Nociones básicas de correlación 102
14 B.6 Chi cuadrado 107
15 B.7 Intervalo de confianza 114
119
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
3
BIOESTADISTICA
1
1.1 Introducción
Que equivocación; jamás ni nadie podrá estar lejos de los números; porque nacimos con
los números, vivimos con los números y moriremos con los mismos. Nacimos con Apgar
8 (evaluado o calculado por el neonatólogo), con un peso de 3200 gramos ubicado en
percentil 50, una frecuencia cardiaca de 120 latidos por minuto, teniendo como rango
normal entre 110 y 140 con intervalo de confianza del 95%; en nuestro primer análisis de
sangre teníamos hemoglobina de 17 gr/ml sabiendo que el rango normal es entre 16.5-
19.5 g/100 ml etc. etc.
¿De dónde obtenemos esos valores para clasificar a las personas en normales o
anormales? Por supuesto, de estudios de investigación con cálculos estadísticos sobre
poblaciones.
No importa la Carrera que estudia, todas son parte de las ciencias y como tal, la ciencia
crece y se nutre con los nuevos conocimientos logrados a través de la investigación,
utilizando el método científico (que estudiaremos en capítulos siguientes) y que no puede
prescindir de la estadística.
Todo es medible, así como nos enseñaron cuando éramos niños, que la distancia se mide
en metros, los líquidos se miden en litros, el peso en kilos, más tarde aprendimos que no
solo se utilizaba el metro, también habían centímetros, milímetros, micrones,
nanomicrones, etc. Ahora que estudiando en “Ciencias de la Salud” sabemos que un
glóbulo rojo vive en nuestro cuerpo solo 100 a 120 días, mide 7 a 7.5 μm de diámetro
(micrómetro = millonésima parte de un metro) que en un milímetro cúbico existen
aprisionados más de 4 millones de glóbulos rojos, que si tenemos 5 litros de sangre
nuestra calculadora no soportará hacer el cálculo, y solo nos dará un resultado en
notación científica de 2,5 X1013.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
4
salud mental, autoestima, satisfacción con el trabajo, ejercicio físico, etc. La recolección
de datos y la estimación de indicadores tienen como fin generar, en forma sistemática,
evidencia que permita identificar patrones y tendencias que ayuden a emprender
acciones de protección y promoción de la salud y de prevención y control de la
enfermedad de la población.
Entre las formas más útiles y comunes de medir las condiciones generales de salud de
la población destacan los censos nacionales, que se llevan a cabo decenalmente, que
proporcionan el conteo periódico de la población y varias de sus características, cuyo
análisis permite hacer estimaciones y proyecciones.
Para permitir las comparaciones a lo largo del tiempo en una misma población o bien
entre poblaciones diferentes, se requiere de procedimientos de medición estandarizados.
Muchas veces los estudiantes de Medicina, se hacen las siguientes preguntas: ¿Por qué
es necesario estudiar estadística en Medicina? ¿Para qué vamos a estudiar números si
en toda la Carrera solo vamos a estudiar músculos, huesos o tejidos? ¿Es realmente una
asignatura que me va a servir en mi vida profesional o es simplemente un relleno del Plan
de estudios?
Si como nuevo profesional investiga “la evolución del VIH/SIDA en Bolivia”, seguramente
tendrá que hacer un estudio de la población (sexo, raza, religión, edad, ocupación,
ingresos económicos, nivel de estudio, estado civil, etc.), investigar en los distintos
hospitales los casos de VIH positivos diagnosticados, registrar esa información,
ordenarla, tabularla y con los datos que tiene responderse a las siguientes preguntas:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
5
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
6
CLASIFICACIÓN DE LA ESTADÍSTICA
Conjunto de procedimientos necesarios para recoger,
ESTADÍSTICA clasificar, representar y resumir (mediante métodos
1. DESCRIPTIVA numéricos y gráficos) el conjunto de datos que
forman una muestra obtenida de una población.
PROBABILIDAD
Puede considerarse la estadística inferencial como los métodos que hacen posible
la estimación de una característica de una población, o la toma de una decisión con
respecto a una población, con base únicamente en resultados muestrales.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
7
a) Razones
c) Tasas
a) Media
a) Medidas de b) Mediana
tendencia central c) Moda
a) Rango
b) Desviación media
3. Medidas de dispersión o variación c) Varianza
d) Desviación estándar
e) Coeficiente de variación
a) Curtosis
4. Medidas de forma b) Coeficiente de asimetría
2. Distribución normal
3. Probabilidad
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
8
6. Intervalo de confianza
1.5 Una necesaria aclaración antes de continuar con los siguientes capítulos de
bioestadística
En mis largos años de docente, he podido advertir que los alumnos tienen serias
dificultades, con simples detalles que no toman en cuenta. Por este motivo me permito
explicar esos detalles simples pero importantes:
Una persona que utiliza la calculadora erróneamente sin darse cuenta, cree que la
respuesta es correcta porque fue el resultado dado por la calculadora, sin embargo puede
estar cometiendo tremendos errores.
En muchos países del mundo para anotar un decimal se utiliza una coma decimal, pero
también en otros utilizan para representar lo mismo un punto decimal.
Unos escriben: 3,256 y otros 3.256 ; sin tomar en cuenta estas formas de escritura,
unos leerán 3 enteros con 256 milésimos, pero otros leerán 3256 enteros, cifras
totalmente diferentes.
En unos países para separar unidades de miles utilizan el punto y en otros la coma
Qué sistema utilizamos en Bolivia? Para expresar los decimales utilizamos la coma
decimal y no el punto decimal. El punto solo utilizamos para separar las cifras enteras,
miles, millones, etc. En el ejemplo anterior en Bolivia 3 y medio se escribe “3,5” y para
escribir el año 2015 escribimos “2.015” o simplemente “2015”
Ahora bien, cuando compramos y utilizamos una calculadora científica, según ha sido
fabricada o programada para determinado país, podrá mostrarnos datos utilizando uno
u otro sistema vale decir para expresar un decimal utiliza un punto decimal o una coma
decimal. Debemos identificar qué sistema utiliza nuestra nueva calculadora, para no
cometer errores.
Generalmente las calculadoras que vienen de Asia (China, Japón,etc.), utilizan el punto
decimal para expresar un decimal; por tanto si es de este tipo nuestra calculadora
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
9
3.256
Muchas calculadoras científicas, para valores muy grandes o muy pequeños, sacan los
resultados en notación científica, por lo que es importante conocer e interpretar los
mismos. Por este motivo vamos hacer un breve repaso.
Cualquier número se puede escribir en potencias de base diez como producto de sus
factores, siéndole primer factor un numero comprendido entre 1 y 9 y el segundo la
potencia de base diez. Este proceso recibe el nombre de notación científica.
La notación científica es muy útil para expresar números muy grandes o muy pequeños.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
10
Esta abreviación también puede ser usada con números muy pequeños. Cuando la
notación científica se usa con números menores a uno, el exponente sobre el 10 es
negativo, y el decimal se mueve hacia la izquierda, en vez de hacia la derecha.
Por ejemplo:
6,5 X 10-3 = 0,0065
Por consiguiente, usando la notación científica, el diámetro de un glóbulo rojo es 6.5 X10-
3 cm. (0,0065); la distancia de la tierra al sol es 1.5 X 10 8 Km (150 000 000. y el número
de moléculas en 1 gramo de agua es 3.34 X 1022 (33 400 000 000 000 000 000 000)
- 1,56234×1029 = 156 234 000 000 000 000 000 000 000 000
- 0,000 000 000 000 000 000 000 000 000 000 910 939 kg (masa de un electrón) puede
ser escrito como 9.10939×10–31kg.
1.5.3 Redondeo:
Depende del número de cifras significativas con que queremos dar solución. En teoría se
debería dar siempre con el número de cifras significativas que tenga la expresión que
menos cifras tenga.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
12
2 A. BIOESTADISTICA DESCRIPTIVA
2.1 Introducción
Para medir es necesario seguir un proceso que consiste, en breves palabras, en el paso
de una entidad teórica a una escala conceptual y, posteriormente, a una escala operativa.
En general, los pasos que se siguen durante la medición son los siguientes: a) se delimita
la parte del evento que se medirá, b) se selecciona la escala con la que se medirá, c) se
compara el atributo medido con la escala y, d) finalmente, se emite un juicio de valor
acerca de los resultados de la comparación. Para medir el crecimiento de un menor, por
ejemplo, primero se selecciona la variable a medir (la edad, el peso, la talla); luego se
seleccionan las escalas de medición (meses cumplidos, centímetros, gramos);
inmediatamente después se comparan los atributos con las escalas seleccionadas (un
mes de edad, 60 cm de talla, 4 500 gramos de peso) y, por último, se emite un juicio de
valor, que resume la comparación entre las magnitudes encontradas y los criterios de
salud aceptados como válidos en ese momento. Como resultado, el infante se califica
como bien nutrido, desnutrido o sobrenutrido.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
13
2.2 Número:
Es un concepto matemático que expresa cantidad. Por ejemplo, decimos que se han
detectado 120 casos de tuberculosis en una determinada población.
Éstas dan una idea de la magnitud o volumen real de un suceso. Tienen utilidad para
la asignación de recursos (por ejemplo, el número mensual de partos en un
establecimiento hospitalario da una idea del número de camas, personal y recursos
físicos necesarios para satisfacer esta demanda). Al efectuar comparaciones, el uso
de cifras absolutas tiene limitaciones, puesto que no aluden a la población de la cual
se obtienen (así, 40 defunciones anuales en una población de 15.000 habitantes,
puede ser proporcionalmente mayor que 50, ocurridas en una población de 20.000
habitantes). Sin embargo, la comparación de cifras absolutas referidas a la misma
población en periodos cortos de tiempo puede ser un buen estimador de riesgo al
mantenerse constante el denominador.
2.3 Tasas:
Las tasas son magnitudes que expresan la dinámica de un suceso en una población a
lo largo del tiempo, vale decir que miden la intensidad, frecuencia o velocidad de un
fenómeno en relación al universo que es capaz de producir el mismo o que está
expuesto a su producción en un lugar determinado y durante un periodo de tiempo
también determinado.
Es una medida que relaciona el número de veces que ocurre un evento en un área y
un periodo de tiempo definidos, con el número de habitantes de la población en la cual
puede ocurrir.
Están compuestas por un numerador que expresa la frecuencia con que ocurre un
suceso (por ejemplo, 564 muertes por cáncer de mama el 2014 en Bolivia) y un
denominador, dado por la población que está expuesta a tal suceso (4.583.443
mujeres). De ésta forma se obtiene un cociente que representa la probabilidad
matemática de ocurrencia de un suceso en una población y tiempo definido. En el
ejemplo, la tasa obtenida estima el riesgo de cada mujer mayor de 30 años en Bolivia
de fallecer de cáncer de mama en el curso de 2014.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
14
De ésta forma, la tasa de mortalidad por cáncer de mama en mujeres el 2014 fue de
12,31 muertes por cada 100.000 mujeres. (564/4583443 X 100.000 = 12,31)
564
Tasa mortalidad cáncer mama = ------------------------ X 100000 = 12,31
4583443
a) Naturaleza del fenómeno: El evento que figura en el numerador tiene que ser capaz
de ser producido o afectar a la población que figura en el denominador.
b) Lugar: Tanto el evento que figura en el numerador como el que figura en el
denominador deben corresponder a la misma área geográfica o lugar.
c) Periodo: La frecuencia del evento como la población expuesta deben corresponder
al mismo periodo de tiempo.
2.4 Razones:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
15
Ejemplo:
Razón de mortalidad materna: Mide el número de muertes maternas por cada 100.000
nacimientos.
Por lo tanto decimos que la razón de mortalidad materna es de 650 por cada 100.000
nacimientos
2.5 Proporciones:
Las proporciones son medidas que expresan la frecuencia con la que ocurre un evento
en relación con la población total en la cual éste puede ocurrir. Esta medida se calcula
dividiendo el número de eventos ocurridos entre la población en la que ocurrieron.
Como cada elemento de la población puede contribuir únicamente con un evento es
lógico que al ser el numerador (el volumen de eventos) una parte del denominador
(población en la que se presentaron los eventos) aquel nunca pueda ser más grande
que éste. Es por éste motivo que el resultado nunca puede ser mayor que la unidad y
oscile siempre entre cero y uno.
Las proporciones expresan únicamente la relación que existe entre el número de veces
en las que se presenta un evento y el número total de ocasiones en las que se pudo
presentar.
Por ejemplo, ¿Qué proporción de las muertes ocurridas en la ciudad de Sucre el año
2013 fue causada por enfermedades cardiovasculares? Esto se calcula construyendo
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
16
2.6 Índices:
Surgen de la comparación de dos tasas o dos razones. Por ejemplo, el cociente entre
la tasa de mortalidad general en varones respecto de las mujeres en 2010.
Este indicador da una idea de la existencia de mayor o menor riesgo de una condición
dependiendo si su valor es mayor o menor de 1 (o de 100%). En este caso, se tiene:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
17
La media aritmética de una variable estadística es el valor obtenido al sumar todos los
datos y dividir el resultado entre el número total de datos.
Su cálculo tiene como objetivo obtener un valor al cual tienden los datos u observaciones
individuales.
Con fines didácticos, en lo sucesivo seguiremos utilizando este último símbolo para
referirnos en general a la “media aritmética”.
Fórmula:
X = Media
Σ = Sumatoria
Xi = Todos los valores de la distribución
n = Número de datos
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
18
Fórmula:
Otro ejemplo:
Fórmula:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
19
Fórmula:
Σ ( X i *f i )
X=
n
X = Media
Σ = Sumatoria
Xi = Todos los valores de la distribución
fi = Todas las frecuencias
n = Número de datos, vale decir : Σ fi
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
20
Σ ( X i *f i )
Edad en años Número de X=
de alumnos alumnos n
Xi fi
20 8
21 7
22 9
23 6
24 5
TOTAL: 35
(n = Σ fi)
Σ ( X i *f i )
X=
n
Edad en años Número de
de alumnos alumnos Xi * fi
Xi fi
20 8 20*8 = 160
21 7 21*7 = 147
22 9 22*9 = 198
23 6 23*6=138
24 5 24*5 = 120
TOTAL: 35
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
21
Σ ( X i *f i )
X=
n
Edad en años Número de
de alumnos alumnos ΣXi * fi
Xi fi
20 8 160
21 7 147
22 9 198
23 6 138
24 5 120
TOTAL: 35 763
763
Σ ( X i *f i )
X= = 21,8 años
X=
n 35
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
22
Total: 62
Fórmula:
Σ ( X’ * f i )
X=
n
X = Media
Σ = Sumatoria
X’= Punto medio o marca de clase
del intervalo de clase
fi = Todas las frecuencias
n = Número de datos , vale decir : Σ fi
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
23
Total: 62
809
Σ ( X’ * f i )
X= = 13,05 años
X=
62
n
Total: 62 809
809
Σ ( X’ * f i )
X= = 13,05 años
X=
62
n
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
24
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
25
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
26
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
27
4 Mediana
Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados
de menor a mayor y se representa con el signo Me.
De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana
representarán el 50% de los datos, y los que sean mayores que la mediana representarán
el otro 50% del total de datos de la muestra
En este ejemplo tenemos 9 valores, que representa a un número impar, por lo que
el medio de los mismos representa un solo número, si en vez de un número impar
de valores, tenemos par, los dos valores que quedan al medio, se suman y dividen
entre 2 (se saca un promedio), como a continuación presentamos:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
28
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
29
Tercer paso:
12 + 12 + 1 25
Aplicando la formula: Me = = = 12,5
2 2
n - Fi
2
Fórmula: = Li + ( ) *a
fi
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
30
n
-Fi
2
Fórmula: = Li + ( ) *a
fi
( 40 ) - 14
2 20 – 14 6
Me = 90,0 +( )* 5 = 90 + * 5 = 90 + * 5 = 95
6 6 6
= 90+(6/6)*5 = 95
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
31
96/2= 48
1. En primer lugar averiguamos cual es la posición de la observación que
constituye el promedio: n / 2 = 96/2 = 48, como no coincide, buscamos
el inmediato superior que es 50, y remarcamos toda fila, quedando en
el recuadro 10 que corresponde al límite inferior (Li) luego 24 que
corresponde a (fi).
2. Calculamos la amplitud del intervalo o de la clase:
a = 10 – 14 = 5
( 96 ) - 26
2 48 – 26 22
Me = 10 + ( )* 5 = 10+( )* 5 = 10 + *5 =
24 24 24
= 10+(0,92)*5 =
= 10 + 4,6 = 14,6
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
32
Moda
5
Moda es el valor que más veces se repite en una distribución. Si en un grupo dos
puntuaciones se presentan con la misma frecuencia y esa frecuencia es la máxima, la
distribución es bimodal. Si son tres es trimodal; cuando son las de tres hablamos de
multimodal, pero cuando todas las puntuaciones de un grupo tienen la misma frecuencia,
no hay moda.
8; 9; 9;10;10;10;11;12;13
1; 1; 2; 2; 3; 3; 3; 4; 4; 4; 5; 6
En este caso las frecuencias que más se repiten son 3 y 4, pero como
están juntas se saca el promedio, vale decir 3 + 4 = 7/2 = 3,5 por tanto la
moda es 3,5
Si no estarían juntas, sería bimodal 3 y 4.
En este caso las frecuencias que más se repiten son 1 y 3 por tanto al no
estar juntas no se saca promedio quedando como bimodal 1 y 3
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
33
Ejercicio 5:
Edades alumnos Frecuencia absoluta
Xi fi
17 5
18 10
19 20
20 15
21 26 Frecuencia más elevada.
22 4
23 10 La Moda (Mo) es 21 años,
24 3 ya que su frecuencia 26 es
TOTAL 93 la más elevada.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
34
Ejercicio 7:
Edades alumnos Frecuencia absoluta
Xi fi Frecuencias más elevadas
17 5 de dos valores similares.
18 7
19 15 La Moda (Mo) es 21,5 años, ya
20 14 que su frecuencia 28 es la más
21 28 elevada, para ambos casos,
22 28 21 y 22 años por lo tanto se
23 3 saca la media
24 2 21+22/2 = 21,5
TOTAL 102
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
35
Ejercicio 9:
d1
Fórmula: Mo = Li + ( )a
d1 + d2
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
36
18
Mo = 20 + ( )*5 =
18 + 16
18
Mo = 20 + ( )*5 =
34
Ejercicio 11:
Grupos de edades Frecuencia absoluta
Xi fi
15 – 20 12 Clase moda/o puesto que
20 – 25 13 su frecuencia es la mayor:
26
25 – 30 26 d1= 26 – 13 = 13
30 – 35 14 d2 = 26 – 14 = 12
Li = 25
35 – 40 6 a = 5 (20 al 25 = 5)
TOTAL 71
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
37
d1
Fórmula: Mo = Li + ( )a
d1 + d2
13
Mo = 25 + ( )*5 =
13 + 12
13
Mo = 25 + ( ) * 5 = 25 + 2,6 = 27,6 años
25
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
38
6 A.2.2 CUANTILES
Cuartiles, Deciles y Percentiles
6.1 Introducción
Hasta ahora, hemos estudiado las medidas de tendencia central (Media, Mediana y
Moda), que nos muestra un valor central (y solo central) que representa al conjunto de
datos; sin interesar lo que ocurre con el resto de valores.
Por ejemplo:
Dos grupos de 10 pacientes cada uno, acuden a una revisión cardiológica y se les toma
las siguientes frecuencias cardiacas en reposo:
Grupo A: 62 63 64 65 70 70 75 76 77 78 X = 700/10 = 70
Grupo B: 50 54 64 69 70 70 71 76 86 90 X = 700/10 = 70
Sin embargo, observando no solo las medidas de tendencia central, sino todos los datos
paciente por paciente, concluimos que en el grupo B, existen 4 pacientes con probable
alteración cardiológica, 2 pacientes con menos de 60 (50 y 54) y 2 con más de 80 (86 y
90) latidos cardiacos por minuto a los que hay que estudiar para conocer la causa de
estas alteraciones.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
39
Grupo A: 62 63 64 65 70 70 75 76 77 78
Grupo B: 50 54 64 69 70 70 71 76 86 90
Con las medidas de posición (cuartiles, deciles y percentiles) podemos hacer cortes y
observar los diferentes valores (3, 9 y 99 cortes para lograr 4, 10 ó 100 partes iguales)
en diferentes lugares de la cadena de valores de datos ordenados de menor a mayor y
conocer el valor exacto en cada corte y casi de cada paciente o subgrupos de pacientes
y diagnosticar lo que ocurre con cada uno de ellos y no solo con una medida de tendencia
central que representa a todos.
Por tanto las medidas de posición (cuartiles, deciles y percentiles) resultan ser medidas
que permiten el estudio en detalle de todos los valores en diferentes posiciones de la
cadena de datos, dándo un diagnóstico no general sino particular de cada paciente y/o
subgrupo de pacientes. (¡Importante herramienta de análisis! que permite no perder de
vista lo que pasa con cada paciente).
Con una serie de datos ordenados de menor a mayor, podemos dividir en 4 partes
iguales, en 10 partes iguales o en 100 partes iguales y conocer exactamente a qué valor
y posición corresponde cada corte.
Los cuartiles se representan con el símbolo “Q”, los deciles con el símbolo “D” y los
percentiles con el símbolo “P”.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
40
Q1 Q2 Q3 (4 sectores)
D1 D2 D3 D4 D5 D6 D7 D8 D9 (10 sectores)
Me = 50,5
32, 35, 37, 39, 44, 48, 53, 55, 57, 59, 70, 74
Q1 Q2 Q3
P25 = 38 D5 = 50,5 P75 = 58
P50
6.2 Cuartiles:
Con 3 cortes las fracciones son cuartas partes iguales del total de datos.
Teniendo en nuestro ejemplo 12 datos, para dividir en 4 partes iguales, cada sector debe
tener 3 datos (4 X 3 = 12). Cada corte o cuartil para dejar 4 partes iguales, el primer cuartil
o corte se produce entre el tercer y cuarto dato, el segundo cuartil entre el sexto y séptimo
dato, y el tercer cuartil entre el noveno y décimo dato. De esta manera:
Q1 Representa al primer corte llamado primer cuartil; dejando el 25 % de los valores por
debajo y 75 % de valores por encima del corte. En nuestro ejemplo, el corte cae
exactamente entre el valor 37 y 39, por tanto para saber exactamente a qué valor
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
41
corresponde Q1 sacamos un promedio (37 + 39/2 = 38); por tanto el cuartil 1 (Q1) es
igual a 38 años, que coincide con el P 25.
Q3 Representa al tercer corte llamado tercer cuartil; dejando el 75 % de los valores por
debajo y 25 % de los valores por encima del corte. En nuestro ejemplo, el corte cae
exactamente entre el valor 57 y 59, por tanto para saber exactamente a qué valor
corresponde Q3 sacamos un promedio (57 + 59 /2 = 58); por tanto el cuartil 3 (Q3) es
igual a 58 años, que coincide con el P 75.
6.3 Deciles:
Teniendo en nuestro ejemplo 12 datos, para dividir en 10 partes iguales, cada sector
debe tener 1,2 partes de datos (1,2 X 10 = 12).
El resto de cortes para los otros deciles, sería muy complicado sacar, por lo tanto
debemos utilizar fórmulas que más adelante aplicaremos, para conocer exactamente a
qué valor corresponde cada corte.
6.4 Percentiles
Con 99 cortes las fracciones son centésimas partes del total. Los percentiles son los 99
valores que dividen la serie de datos en 100 partes iguales.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
42
Teniendo en nuestro ejemplo 12 datos, para dividir en 100 partes iguales, cada sector
debe tener 0,12 partes de datos (0,12 X 100 = 12).
De manera intuitiva como hemos hecho con los cuartiles, podemos sacar los percentiles
25, 50 y 75 que coincide con los cuartiles 1, 2 y 3. De esta forma el percentil 25 se
encuentra entre el tercer y cuarto dato, el percentil 50 entre el sexto y séptimo dato, y el
percentil 75 entre el noveno y décimo dato. De esta manera:
P25 Representa al corte 25; dejando el 25 % de los valores por debajo y 75 % de valores
por encima del corte. En nuestro ejemplo, el corte cae exactamente entre el valor 37
y 39, por tanto para saber exactamente a qué valor corresponde P 25 sacamos un
promedio (37 + 39/2 = 38); por tanto el percentil 25 1 (P 25) es igual a 38 años.
P50 Representa al corte 50; dejando el 50 % de los valores por debajo y 50 % por encima
del corte. En nuestro ejemplo, el corte cae exactamente entre el valor 48 y 53, por
tanto para saber exactamente a qué valor corresponde el P 50 sacamos un promedio
(48 + 53/2 = 50,5); por tanto el percentil 50 (P 50) es igual a 50,5 años. P50 coincide
con la mediana 50,5.
P75 Representa al tercer corte 75; dejando el 75 % de los valores por debajo y 25 % de
los valores por encima del corte. En nuestro ejemplo, el corte cae exactamente entre
el valor 57 y 59, por tanto para saber exactamente a qué valor corresponde P75
sacamos un promedio (57 + 59 /2 = 58); por tanto el percentil 75 (P 75) es igual a 58
años.
De la misma manera que para la deciles, para el resto de cortes para los otros percentiles,
sería muy complicado sacar; por lo tanto debemos utilizar fórmulas que a continuación
aplicaremos, para conocer exactamente a qué valor corresponde cada corte.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
43
70 cms
Niño de 21 meses de
65 cms
edad que tiene 93
centímetros de talla, al
60 cms
encontrarse por encima
Niño de 5 meses de edad del percentil 97 y 97 se
que tiene 55 centímetros encuentra con talla alta. 55 cms
de talla, al encontrarse
por debajo del percentil 50 cms
3 se encuentra con talla
baja 45 cms
Talla
Ref. http://www.elbebe.com/index.php/es/servicios/percentiles
El peso y la talla de los niños, relacionados con su edad, nos dan un resultado en
percentiles (que son una forma de describir una medida si se encuentra del rango de
normalidad o salen fuera de la normalidad).
Pero hay otros niños que pesan/miden más allá del P 50 sin salir del P97 ó menos del P50
sin salir del P3 que también son normales. Estadísticamente hablando, un 3% de los
bebés de cualquier edad pueden tener peso/talla bajo o superior a lo normal (si están por
debajo de P3 ó por encima de P97).
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
44
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
45
a) Si el subíndice es entero
5 - 8 - 10 - 12 - 14 - 16 - 18 - 20 - 25 - 30 - 35
J(n + 1) 3o observación = 10
Q1 = ----------------- como es entero
C Q1=10
1(11 + 1) 1 ( 12 ) 12
Q1 = ----------------- = ---------------- = -------- = 3
4 4 4
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
46
b) Si el subíndice es decimal
2 - 3 - 7 - 15 - 24 - 30
J(n + 1)
Q1 = -----------------
C
1(6 + 1)
Q1 = ----------------- = 1,75 redondear al inmediato inferior = 1
4 i = 1 = 1er lugar de los datos Xi = 2
Q1 = 2 + 0,75 1
Q1 = 2 + 0,75 = 2,75
Q1 = 2,75
2 - 3 - 7 - 15 - 24 - 30
J(n + 1)
Q2 = -----------------
C
2(6 + 1)
Q2 = ----------------- = 3,5 redondear al inmediato inferior = 3
4 i = 3 = 3er lugar de los datos Xi= 7
Segundo paso: Aplicar la fórmula completa
J(n + 1)
CJ = Xi + ------------- - i Xi + 1 - Xi
C
Xi + 1 = 3er lugar + 1 lugar
Q2 = 7 + 3,5 - 3 15 - 7 = 4to lugar = 15
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
47
Q2 = 7 + 0,5 8
Q2 = 7 + 4 = 11
Q2 = 11
Sacar Q3 de lo siguientes datos:
2 - 3 - 7 - 15 - 24 - 30
Q3 = 24 + 0,25 6
Q3 = 24 + 1,5 = 25,5
Q3 = 25,5
Sacar D7 de lo siguientes datos:
2 - 3 - 7 - 15 - 24 - 30
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
48
D7 = 15 + 0,9 9
D7 = 15 + 8,1 = 23,1
D7 = 23,1
2 - 3 - 7 - 15 - 24 - 30
P80 = 24 + 0,6 6
P80 = 27,6
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
49
Xi fi Fi
30 - 34 3 3
35 - 39 8 11
40 - 44 11 22
45 - 49 9 31Fi-1
50Li - 54 4fi 35
35
J(n / c) – Fi - 1
CJ = Li + -------------------- *a
fi
0,5
D9 = 50 + -------------- * 5
4
D9 = 50 + 0,125 *5
D9 = 50 + 0,625
D9 = 50,625
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
50
Xi fi Fi
30 - 34 3 3
35 - 39 8 11
40 - 44 11 22 Fi-1
45 Li - 49 9 fi 31
50 - 54 4 35
35
J(n / c) – Fi - 1
CJ = Li + -------------------- *a
fi
Primer paso: Utilizar la siguiente parte de la fórmula presentada
n
P76 = J -------
c
35
P76 =76 ------- = 26,6 Remarco la “Fi” inmediata superior a 26,6 (31)
100
Segundo paso: Aplicar la fórmula completa
26,6 – 22
P76 = 45 + -------------- * 5
9
4,6
P76 = 45 + -------------- * 5
9
P76 = 45 + 0,51 *5
P76 = 45 + 2,55
P76 = 47,55
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
51
El grado en que los datos numéricos tienden a extenderse alrededor de algún valor medio
se llama variación o dispersión. Una medida de dispersión es importante desde dos
puntos de vista:
a) Puede utilizarse para mostrar el grado de variación entre los valores de los datos
observados; así una pequeña dispersión en las calificaciones de un grupo de
alumnos, indicará que son aproximadamente iguales en su rendimiento; por otro
lado, una dispersión mayor, dará a entender de que los alumnos son muy
desiguales en su rendimiento.
b) En segundo lugar, puede emplearse para complementar un promedio, para
describir un conjunto de datos o para comparar una serie de informaciones con
otra. Cuando la dispersión es baja, el valor promedio se vuelve altamente
significativo, en cambio, si la dispersión es alta, la media (o la medida de tendencia
central) se vuelve poco o nada representativa.
Para calcular las variaciones se toma como referencia un punto central de los valores,
observados, es decir, alguna de las medidas de tendencia central. En la práctica, resulta
de mucha aplicación la medida de dispersión calculada en torno a la media aritmética.
Entre las de mayor aplicación se tienen:
El recorrido
La desviación media
Varianza
Desviación estándar.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
52
Una de las medidas más simples de dispersión es el recorrido, llamada también, rango
o amplitud total y, es la diferencia entre los valores máximo y mínimo del conjunto de
datos. Como ejemplo, supóngase que se tienen dos grupos de 7 niños sean estos A y
B y que ambos tengan una media de 6 años; si solo tenemos esta información
podremos decir que entre ambos grupos no existe ninguna diferencia; pero si nos dan
la información adicional de las edades extremas tenemos: Grupo A se tiene entre 2 y
10 años y en el grupo B se tiene entre 5 y 7 años, se observa claramente que, aunque
ambos grupos tienen la misma media, son muy diferentes por la variabilidad de las
edades, veamos lo siguiente:
Grupo A: 10 – 2 = 8 años de recorrido
Grupo B: 7 – 5 = 2 años de recorrido
Grupo Θ Θ Θ Θ Θ Θ Θ
A 1 2 3 4 5 6 7 8 9 10
Grupo ΘΘ ΘΘ ΘΘ
B 1 2 3 4 5 Θ 7 8 9 10
6
Esta observación nos indica que en el grupo A las edades de los niños están
distribuidas entre 10 y 2 y en el grupo B, entre 7 y 5 años.
Sin embargo, esta medida, solo considera los datos extremos, razón por la cual
no nos informa sobre la forma cómo están distribuidos los datos en su conjunto
(datos intermedios)
Para calcular el recorrido se desarrolla la siguiente fórmula:
Ejercicio 1:
a) 4, 5, 5, 6, 7 Rec. = 7 – 4 = 3
Otra medida de dispersión es la desviación media que incluye todos los datos en el
cálculo y es la media de los desvíos (o diferencias ) con relación de algún valor
central, tales como la media, mediana o moda. Cuando se toma la media como valor
central, se tiene la desviación media, es decir la media aritmética de los desvíos
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
53
Como teóricamente la suma de los desvíos con relación a la media es nula (cero),
para el cálculo de la desviación media, se toman los desvíos en valores absolutos (sin
sus signos)
∑( )
DM =
Pasos Procedimiento
4+4+5+7 20
= = =5
4 4
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
54
1 + 1 + 0 +2 4
DM = = = 1
4 4
Σ ( Xi - X ) fi
DM =
n
Pasos Procedimientos
1º Se determina el valor absoluto 1º Sin
de cada diferencia entre los signo
valores que toma la variable y su Calif Frec.
Absol. Xi - X (Xi - X)
media aritmética Xi fi
Media aritmética =5,36 3 1 3-5,36=-2,36 2,36
4 5 4-5,36=-1,36 1,36
5 8 5-5,36= 0,36 0,36
6 6 6-5,36= 0,64 0,64
7 5 7-5,36= 1,64 1,64
2º
2º Según nos indica la fórmula, los Calif Frec.
valores absolutos de las Absol. (Xi - X) Σ(Xi - X)fi
diferencias se multiplican por las Xi fi
frecuencias absolutas y dichos 3 1 2,36 2,36X1=2,36
productos parciales deben 4 5 1,36 1,36X5=6,8
5 8 0,36 0,36X8=2,88
sumarse
6 6 0,64 0,64X6=3,84
7 5 1,64 1,64X5=8,2
Σ n= 25 24,08
3º 24,08
3º Para obtener el resultado final, DM = = 0,96
la suma anterior se divide entre el 25
total de casos
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
55
Aplicando la fórmula: (Obviando algunos pasos que se dan por sobre entendido).
Calif Frec.
Absol. (Xi - X) (Xi - X)fi
Xi fi
3 1 2,36 2,36
4 5 1,36 6,8
5 8 0,36 2,88
6 6 0,64 3,84
7 5 1,64 8,2
Σ n=25 24,08
Σ ( Xi - X ) fi 24,08
DM = = = 0,96
n 25
Σ ( Xi - X ) fi 27,28
DM = = = 1,09
n 25
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
56
Σ ( Xi – X )2
σ2 =
N
Σ ( Xi – X )2
σ=
N
Pasos Procedimiento
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
57
4º El resultado anterior es la 4º
varianza, para calcular la σ = √ 1.5 = 1,2247 = 1,2 Desvia-
desviación estándar se extrae ción estandar
la raíz cuadrada positiva
Fórmula varianza:
Σ ( Xi – X )2 fi
σ2 =
n
Σ ( Xi – X )2 fi
σ=
n
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
58
Pasos Procedimiento
1º Se calcula la diferencia 1º
entre los distintos valores Calif. Frecuencia
que toma la variable en Absol. (Xi - X)
relación a su media. Xi fi
3 1 3 – 5,36 = -2,36
4 5 4 – 5,36 = -1,36
5 8 5 – 5,36 = -0,36
6 6 6 – 5,36 = 0,64
7 5 7 – 5,36 = 1,64
3º
3º Los resultados anteriores Calif. Frec.
se deben multiplicar por Absol. (Xi - X)2 (Xi - X)2 fi
las frecuencias absolutas Xi fi
que les corresponde y, se 3 1 5,57 5,57 X 1 = 5,57
suman productos 4 5 1,84 1,84 X 5 = 9,2
5 8 0,13 0,13 X 8 = 1,04
6 6 0,41 0,41 X 6 = 2,46
7 5 2,69 2,69 X 5 = 13,45
Σ 25 31,72
4º El resultado anterior se 4º
divide entre el total de 31,72
casos, siendo este σ2 = = 1,27 Varianza
resultado, la varianza 25
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
59
Σ ( X’ – X )2 fi 206,24
σ2 = = = 5,16 Varianza
n 40
Σ ( X’ – X )2 fi
σ= = √ 5,16 = 2,27 Desviación Estándar
n
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida
de dispersión relativa de los datos y se calcula dividiendo la desviación estándar
muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que
nos permite comparar la dispersión o variabilidad de dos o más grupos. El coeficiente
de variación se utiliza para comparar la homogeneidad de dos series de datos, aún
cuando estén expresados en distintas unidades de medida.
Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media
es de 69,6 kg. y su desviación estándar (S) = 10,44 kg y la Talla de los mismos (150,
170, 135, 180 y 195 cm) cuya media es de 166 cm y su desviación estándar de 21,3
cm. La pregunta sería: ¿qué distribución es más dispersa, el peso o la talla? Si
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
60
Desviación ∑( ) ∑( )∗ ∑( )∗
media DM = DM = DM =
Varianza ∑( ) ∑( ) ∗ ∑( ) ∗
S2 = S2 = S2 =
Desviación 2 ∑(
2 ′ 2
∑( − ) − ) ∗ ∑( − ) ∗
estándar S =√ S =√ S=√
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
61
8 Coeficiente de asimetría
y curtosis
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores,
( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta
ecuación se interpretan:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
62
b) (g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a
reunir más en la parte izquierda que en la derecha de la media.
c) (g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a
reunir más en la parte derecha de la media
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia
que separa la aglomeración de los valores con respecto a la media.
8.2 Curtosis
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la
media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se
interpretan:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
63
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y
un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es
de suma importancia ya que para la mayoría de los procedimientos de la estadística de
inferencia se requiere que los datos se distribuyan normalmente.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
64
B. BIOESTADISTICA INFERENCIAL
El resultado es quizás extraño, difuso pero preciso; y a partir de resultados que logramos
con la estadística inferencial podemos por ejemplo afirmar que: “Existe una asociación
estadísticamente significativa entre el Índice de Salud Municipal y la Mortalidad Materna
(p < 0.001 eso quiere decir con un 99,99 % de probabilidad). Los municipios con un Índice
de Salud Municipal muy bajo tienen una Razón de Mortalidad Materna 5.79 (IC95%: 5.59
– 5.99) veces más alta que los municipios con un ISM Medio”.
Las afirmaciones que nos permite hacer la estadística inferencial tienen un riesgo, y quien
la usa debe saberlo. No es difícil, de todas maneras, porque todas estas afirmaciones
están formuladas en términos de riesgo, de seguridad e inseguridad: de probabilidad.
Los dos tipos de problemas que resuelven las técnicas estadísticas son “estimación y
contraste de hipótesis”. En ambos casos se trata de generalizar la información obtenida
en una muestra a una población. Estas técnicas exigen que la muestra sea en lo posible
aleatoria.
Sabiendo que la estadística inferencial efectúa cálculos de probabilidad para toda una
población a partir de una muestra, por tanto por aspectos didácticos empezaremos a
estudiar la determinación del tamaño de muestra en el siguiente capítulo.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
65
B.1 Muestreo
9
9.1 Introducción
9.2 Individuo:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
66
En Ciencias de la Salud, no solo vamos a estudiar a las personas, ya que la salud de las
mismas depende de su entorno, de los animales, de las plantas o de los objetos, que
también serán estudiados.
9.3 Población:
La población según su número total sea conocido o desconocido, se clasifica en: finita,
si el número de población es conocida e infinita si el número de población es
desconocida.
9.4 Muestra:
a) Rapidez
b) Costo
c) Factibilidad
d) Exactitud
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
67
En cuanto a las tres primeras razones, es obvio que existe mayor rapidez y menor costo
en estudiar en estudiar cien personas que mil o más y es mejor hacerlo por situaciones
de recursos humanos, físicos y apoyos logísticos. En cuanto a exactitud, se refiere al
hecho de que a menor volumen de trabajo, es posible emplear personal mejor capacitado
que garantice una medición del fenómeno de interés con mayor precisión y poder
supervisar mejor para producir resultados más exactos.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
68
Población
Muestra
Los elegidos de la muestra no pueden hacerse por voluntad propia, en lo posible deben
elegirse al azar.
2 4 6 8 1 1 1 1 1
1 3 5 7 9 0 1 2 1 4 1 6 1 8 1
1 3 5 7 9
2 2 2 2 2 3 3 3 3
2 1 2 3 2 5 2 7 2 9 3 1 3 3 3 5 3 7 3
0 2 4 6 8 0 2 4 6 8
Para escoger y saber quiénes son los elegidos, existen 2 tipos de muestreo que se
pueden utilizar: Probabilístico y no probabilístico.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
69
Donde los individuos de la población a ser elegidos, se incorporan por criterios personales
o subjetivos del investigador.
1. Aleatorio simple
A. Probabilístico
2. Aleatorio sistemático
Tipos de muestreo
3. Muestreo estratificado
4. Muestreo por conglomerados
5. Muestreo unietápico
6. Muestreo polietápico
B. No Probabilístico
1. Muestreo accidental
2. Muestreo intencional o de conveniencia
3. Muestra de voluntarios
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
70
A. Probabilístico ó Aleatorio
a) Método de la urna:
Una manera sencilla aunque poco
práctica de obtener una muestra
1. Aleatorio Simple
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
71
2 4 6 8 1 1 1 1 1
1 3 5 7 9 0 1 2 1 4 1 6 1 8 1
1 3 5 7 9
2 2 2 2 2 3 3 3 3
2 1 2 3 2 5 2 7 2 9 3 1 3 3 3 5 3 7 3
0 2 4 6 8 0 2 4 6 8
También es posible, utilizar un medio informático, como el STATStm v.2 u otros, dónde
es preciso introducir el tamaño de la muestra, el número límite inferior (que en nuestro
ejemplo anterior es 1) y el número límite superior (que en nuestro ejemplo es 38)
35
10
30
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
72
2 4 6 8 10 12 14 16 18
1 3 5 7 9 11 13 15 17 19
21 23 25 27 29 31 33 35 37
20 22 24 26 28 30 32 34 36 38
Población = 38 personas
Muestra = 3 personas
35
10
30
Muestra
A. Probabilístico ó Aleatorio
2. Aleatorio Sistemático
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
73
A. Probabilístico ó Aleatorio
A. Probabilístico ó Aleatorio
4. Muestreo por conglomerados
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
74
A. Probabilístico ó Aleatorio
5. Muestreo unietápico
A. Probabilístico ó Aleatorio
6. Muestreo Polietápico
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
75
Tipos de muestreo
B. No Probabilístico o No Aleatorio
B. No Probabilístico o No Aleatorio
2. Muestreo intencional o de
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
76
B. No Probabilístico o No Aleatorio
B. No Probabilístico o No Aleatorio
4. Muestreo de voluntarios
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
77
Una pregunta frecuente que reciben los investigadores es: ¿Qué porcentaje de la
población es una buena muestra? Desgraciadamente, no hay una respuesta satisfactoria
para todos los casos; el tamaño apropiado de muestra está determinado por diversos
factores, por lo que el tamaño óptimo debe ser determinado en cada caso, teniendo en
cuenta las particularidades del estudio.
Los parámetros que se toman en cuenta para el cálculo de tamaño de muestra son:
- Nivel de confianza
- Proporción
- Margen de error (Precisión absoluta)
- Valor de Q
- Población o universo de estudio
a) Nivel de confianza
El nivel de confianza lleva como símbolo la letra Z y mide como su nombre indica el
nivel de confianza de un resultado en un estudio de una muestra, que permite
generalizar y que podemos encontrar los mismos datos en el resto de la población al
cual representa la muestra. Por lo tanto por propia lógica un estudio tendrá un nivel
de confianza del 100% si la investigación se realiza en el 100% de población; sin
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
78
embargo al tratarse solo de una muestra los resultados ya no podrán tener el 100%
de nivel de confianza, ya que éste nivel irá descendiendo a partir de 99% a medida
que se haga más pequeño el tamaño de la muestra.
La recomendación para que los resultados de una investigación tengan una suficiente
significación estadística, el nivel de confianza no debe ser inferior a 90%; por tanto el
nivel de confianza para la determinación de tamaño de muestra va en un intervalo de
90 a 99%.
90 % 1,65
91 % 1,695
92 % 1,751
93 % 1,812
94 % 1,881
95 % 1,96
96 % 2,054
97 % 2,170
98 % 2,326
99 % 2,576
b) Proporción
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
79
El margen de error lleva como símbolo la letra “d”. Nos habremos dado cuenta que
el valor de proporción estudiado líneas arriba puede ser diferente de un lugar a otro,
e inclusive ser diferente en un mismo lugar en diferentes investigaciones, por tanto el
valor adoptado para la aplicación en nuestro cálculo de tamaño de muestra puede
ser diferente con relación al que encontremos en nuestra investigación futura; por
tanto tratando de amortiguar estas diferencias, así como algunas diferencias en la
lectura e interpretación de resultados en los equipos utilizados, o los posibles errores
humanos, el método estadístico prevé introducir el parámetro “margen de error” que
va entre 1 y 5%.
Cuanto menos sea nuestro margen de error, nuestro tamaño de muestra será mayor,
al contrario, cuanto mayor sea nuestro margen de error nuestro tamaño de muestra
será menor.
d) Valor de Q
Q = 100-P = 100 – 1 = 99
Q = 99
Esta población puede ser conocida (cuantificada o finita), o de lo contrario, puede ser
desconocida (no cuantificada o infinita).
En función de que ésta población sea infinita o finita, el cálculo de tamaño de muestra
difiere utilizando una fórmula diferente como vemos a continuación:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
80
Z2 (P * Q)
n=
d2
n = Tamaño de la muestra
Z2 = Nivel de confianza o seguridad buscada
P = Porcentaje o proporción de casos, que se asume existen en la población que nos
interesa estudiar por estudio previos, en el mismo lugar de investigación o en otro
similar. Si no se conoce se asume que existen 50%.
Q = Diferencia del porcentaje o proporción a estudiar. Es decir Q = 100 – P
d = Precisión deseada o margen de error estimado tolerable
Ejercicio:
10.3.2 Cálculo de tamaño de muestra con población conocida y/o universo finito
La fórmula que se utiliza para determinar el tamaño de muestra con población conocida
es la siguiente:
n= NZ2 (P * Q)
d2(N-1) + Z2(P * Q)
n = Tamaño de la muestra
N = Población conocida (número de habitantes) del lugar donde se realizará la
investigación.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
81
Ejercicio:
N = 4500
Z = 1,96
P = 14
Q = 100-14 = 86
d=2
Vale decir que el tamaño de la muestra para este estudio es de 920 personas
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
82
Para hacer el cálculo de tamaño de muestra haciendo uso de éste programa de análisis,
se presiona con el botón izquierdo del mouse con la “flecha” en “Métodos”
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
83
Proporción
Inmediatamente aparece otra ventana donde solicita introducir los datos para hacer el
cálculo de tamaño de muestra:
Se introduce cada uno de los datos solicitados, que en el ejemplo anterior tiene un tamaño
poblacional de 4500; una proporción esperada de 14 (el programa utiliza el sistema de
puntuación de punto para indicar una fracción, por tanto aparece 14.000 que quiere decir
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
84
Como podemos observar; con los parámetros introducidos, que son los mismos, los
utilizados en forma manual; el cálculo de tamaño de muestra obtenido en pocos segundos
es también de 920 personas. Por lo tanto comprobamos que el Programa de Análisis
Epidemiológico, obtiene exactamente el mismo resultado, ahorrando mucho tiempo sin
opciones de errores de procedimiento.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
85
En términos generales, los estudios grandes son potentes, los estudios pequeños son
débiles. El concepto de “sesgo de los estudios pequeños” ilustra la importancia de
comprender la potencia estadística cuando se interpretan investigaciones
epidemiológicas.
Cálculo 1 Cálculo 2
N = 680 Tamaño de N = 680 Tamaño de
Z = 90 Muestra Z = 99 Muestra
d=5 d=5
p = 10 n = 86 p = 10 n = 177
Cálculo 3 Cálculo 4
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
86
11.1 Introducción
Distribución de triglicéridos en
alumnos de la Carrera de Medicina
120
100
Alumnos
80
60
40
Triglicéridos mg/dl
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
87
Por ejemplo: consideramos normal que un adulto tuviera una presión arterial sistólica de
130 mm de mercurio y anormal que tuviera una presión sistólica de 210 mm de mercurio.
S S S X S S S
68,27 %
95,45 %
99,73 %
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
88
X – 1S y X + 1S = 68,27 %
X – 2S y X + 2S = 95,45 %
X – 3S y X + 3S = 99,73 %
Para calcular el área bajo la curva normal de determinado valor de la variable “x”
se han construido tablas de áreas de la distribución normal con las siguientes
características:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
90
CALCULO DE AREAS
CALCULO DE AREAS
Para calcular el área bajo la curva normal a
partir de determinado valor de la variable “x”,
es necesario tranaformar la variable original en
que están dados los datos, de manera que su
promedio y su desviación estándar tengan
estos valores. Esta variable transformada se
llama variable normal estándar y se simboliza
por “Z” ó sea:
X-X
Z = -------------
S
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
91
CALCULO DE AREAS
X-X
Z = -------------
S
Donde:
Z = Nº de desviaciones estándar a partir de la media
X = Algún valor de interés
X = Media aritmética de la distribución normal
S = Desviación estándar de la distribución normal.
CALCULO DE AREAS
Ejemplo: Supongamos que frente a una determinación de
hematocrito en la sangre tengamos que decidir si este
valor es normal o no. Aceptamos que el hematocrito tiene
distribución normal con promedio de 48 % y desviación
estándar de 4 %. Supongamos que en un paciente se
encuentra un valor de 56 %. ¿Cuál es la probabilidad de
que esto ocurra estando sano?
X = 48 56 – 48 8
X-X
Z = ------- Z = ----------- = ----- = 2 Z = 2,00
S S=4
4 4
X = 56
Esto quiere decir que el hematocrito de 56 %
se encuentra a 2 desviaciones estándar del
promedio.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
92
CALCULO DE AREAS
En la tabla de la distribución normal, el área
correspondiente al valor anotado en la intersección
de la fila correspondiente a 2,00 de la primera
columna y la columna correspondiente a 0,00 en la
primera fila es de 0,0228.
Esto significa que según el modelo de la
distribución normal, la probabilidad de encontrar
hematocritos iguales o superiores a 56 % es igual
a 0,0228; ó bien multiplicando este valor por 100 es
igual a 2,28 % lo que quiere decir que es probable
que haya un 2,28 % de individuos sanos con
valores iguales o superiores a 56 % de
hematocrito.
CALCULO DE AREAS
Así mismo la tabla permite calcular otras
probabilidades, como por ejemplo la de encontrar
valores en determinado intervalo de la variable “x”,
para lo cual habrá que tener presente que la
superficie total vale 1.
Pore ejemplo: Quisiéramos conocer la probabilidad
de encontrar valores de hematocrito entre 45% y
50%. Buscamos “Z” para ambos valores:
X = 48
X-X
S=4 Z = -----------
S
X = 45 y 50
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
93
CALCULO DE AREAS
45 - 48 -3 P1 = 0,2266
Z = --------- = ----- = - 0,75
4 4
50 - 48 2
Z = --------- = ----- = 0,50 P2 = 0,3085
4 4
Sumando las áreas extremas P1 y P2 y restándole a la superficie total “1”,
encontramos la probabilidad buscada:
P1 + P2 =
0,2266 + 0,3085 = 0,5351
1 – 0,5351 = 0,4649
De modo que la probabilidad de encontrar valores entre 45% y 50% de
hematocrito es de 0,4649 ó lo que es lo mismo, que el 46,49 % de los
individuos sanos tenga hematocrito entre 45 y 50 %.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
94
12.1 Introducción
6 Posibles Resultados
1 2 3 4 5 6
1/6 + 1/6 + 1/6 + 1/6 + 1/6 + 1/6 =1
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
95
NO se conoce de antemano el
Ante un Fenómeno Aleatorio
resultado
0,5 + 0,5 = 1
50 % de probabilidad de lograr cara y 50 % de cruz
50 + 50 = 100 %
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
96
Propiedades de la probabilidad
1º Experimento
2º Experimento
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
97
Probabilidad
0,5 de Cara de la
moneda = 0.5
Probabilidad
0 de Cruz de la
1 2 5 10 20 50 100 200 500 1000 2000 5000 10000
moneda = 0.5
Nº lanzamientos
Ley de azar:
Propiedades de la probabilidad:
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
98
Regla de Laplace
h
P (A)=
n
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
99
d
P (A)=
n
P(A) + P(A) = 1 h d
P (A)= P (A)=
n n
Ejemplos:
1. Al lanzar una moneda al aire, la probabilidad de
que salga cara es:
0,5 + 0,5 = 1
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
100
h d
P(A) + P(A) = 1 P (A)= P (A)=
n n
Ejemplos:
2. Cual es la probabilidad de obtener 5 al arrojar
un dado?:
1 probabilidad de sacar 5 sobre 6
0,17 + 0,83 = 1
h d
P(A) + P(A) = 1 P (A)=
n
P (A)=
n
Ejemplos:
3. En un grupo formado por 7 enfermos de hipertensión
arterial y 3 de diabetes, se eligen 2 personas al azar.
¿Cuál es la probabilidad de que salga enfermo de
diabetes?
n = 10 personas
h = 3 diabetes
d = 7 hipert.
P(A) = 3/10 = 0,30 ó bien 30 %
P(A) = 7/10 = 0,70 ó bien 70 %
0,30 + 0,70 = 1
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
101
h d
P(A) + P(A) = 1 P (A)= P (A)=
n n
Ejemplos:
4. En un grupo formado por 3 enfermos de tuberculosis y 9
personas sanas, se eligen 4 personas al azar.
¿Cuál es la probabilidad de que salga 1 enfermo de
tuberculosis?
n = 12 personas
h = 3 tubercul.
d = 9 sanos
P(A) = 3/12 = 0,25 ó bien 25 %
P(A) = 9/12 = 0,75 ó bien 75 %
0,25 + 0,75 = 1
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
102
El realizar la representación gráfica de los datos para demostrar la relación entre el valor
del coeficiente de correlación y la forma de la gráfica es fundamental ya que existen
relaciones no lineales.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
103
El cálculo del coeficiente de correlación (r) entre peso y talla de 20 niños varones se
muestra en la tabla adjunta. La covarianza, que en este ejemplo es el producto de peso
(kg) por talla (cm), para que no tenga dimensión y sea un coeficiente, se divide por la
desviación típica de X (talla) y por la desviación típica de Y (peso) con lo que obtenemos
el coeficiente de correlación de Pearson que en este caso es de 0.885 e indica una
importante correlación entre las dos variables. Es evidente que el hecho de que la
correlación sea fuerte no implica causalidad. Si elevamos al cuadrado el coeficiente de
correlación obtendremos el coeficiente de determinación (r2=0.783) que nos indica que el
78.3% de la variabilidad en el peso se explica por la talla del niño. Por lo tanto existen
otras variables que modifican y explican la variabilidad del peso de estos niños. La
introducción de más variable con técnicas de análisis multivariado nos permitirá identificar
la importancia de que otras variables pueden tener sobre el peso.
Y X
Peso Talla
(Kg) (cm)
9 72 5.65 1.4 7.91
10 76 9.65 2.4 23.16
6 59 -7.35 -1.6 11.76
8 68 1.65 0.4 0.66
10 60 -6.35 2.4 -15.24
5 58 -8.35 -2.6 21.71
8 70 3.65 0.4 1.46
7 65 -1.35 -0.6 0.81
4 54 -12.35 -3.6 44.46
11 83 16.65 3.4 56.61
7 64 -2.35 -0.6 1.41
7 66 -0.35 -0.6 0.21
6 61 -5.35 -1.6 8.56
8 66 -0.35 0.4 -0.14
5 57 -9.35 -2.6 24.31
11 81 14.65 3.4 49.81
5 59 -7.35 -2.6 19.11
9 71 4.65 1.4 6.51
6 62 -4.35 -1.6 6.96
10 75 8.65 2.4 20.76
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
104
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
105
una relación no lineal como puede ser el peso del recién nacido y el tiempo de
gestación. En este caso el r infraestima la asociación al medirse linealmente. Los
métodos no paramétrico estarían mejor utilizados en este caso para mostrar si
las variables tienden a elevarse conjuntamente o a moverse en direcciones
diferentes.
800
n=28; r= -0,628;p<0,01
700
Razón de Mortalidad Materna
600
500
400
300
200
100
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
-100
Indice de Desarrollo Humano
A mayor índice de Desarrollo Humano existe una tendencia de disminución de la Razón
de Mortalidad Materna
A través de la prueba estadística de asociación de Pearson (-0,628), se comprobó, para
la población en estudio, la existencia de una relación directa significativa al nivel 0,01
Coeficiente de correlación de Tau-b de Kendall -0,484, significativa al nivel 0,01
Coeficiente de correlación de Rho de Spearman -0,654, significativa al nivel 0,01
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
106
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
107
Supongamos que se quiere estudiar la posible asociación entre el hecho de que una
gestante fume durante el embarazo y que el niño presente bajo peso al nacer. Por lo
tanto, se trata de ver si la probabilidad de tener bajo peso es diferente en gestantes que
fumen o en gestantes que no fumen durante la gestación. Para responder a esta pregunta
se realiza un estudio de seguimiento sobre una cohorte de 2000 gestantes, a las que se
interroga sobre su hábito tabáquico durante la gestación y se determina además el peso
del recién nacido. Los resultados de este estudio se muestran en la Tabla 2.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
108
Esta última cuestión podrá resolverse mediante las denominadas medidas de asociación
o de efecto (riesgo relativo (RR), odds ratio (OR), reducción absoluta del riesgo (RAR)),
que ya han sido abordadas en otros trabajos. Por otro lado, para responder a la primera
pregunta, la metodología de análisis de las tablas de contingencia dependerá de varios
aspectos como son: el número de categorías de las variables a comparar, del hecho de
que las categorías estén ordenadas o no, del número de grupos independientes de
sujetos que se estén considerando o de la pregunta a la que se desea responder.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
109
donde:
• ij O denota a las frecuencias observadas. Es el número de casos observados
clasificados en la fila i de la columna j.
Así, el estadístico χ 2 mide la diferencia entre el valor que debiera resultar si las dos
variables fuesen independientes y el que se ha observado en la realidad. Cuanto mayor
sea esa diferencia (y, por lo tanto, el valor del estadístico), mayor será la relación entre
ambas variables. El hecho de que las diferencias entre los valores observados y
esperados estén elevadas al cuadrado en convierte cualquier diferencia en positiva. El
test χ 2 es así un test no dirigido (test de planteamiento bilateral), que nos indica si existe
o no relación entre dos factores pero no en qué sentido se produce tal asociación.
Para obtener los valores esperados ij E, estos se calculan a través del producto de los
totales marginales dividido por el número total de casos (n). Para el caso más sencillo de
una tabla 2x2 como la Tabla 1, se tiene que:
Para los datos del ejemplo en la Tabla 2 los valores esperados se calcularían como sigue:
De modo que los valores observados y esperados para los datos del ejemplo planteado
se muestran en la Tabla 3.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
110
El valor del estadístico χ 2 , para este ejemplo en concreto, vendría dado entonces
como:
A la vista de este resultado, lo que tenemos que hacer ahora es plantear un contraste de
hipótesis entre la hipótesis nula:
H0: No hay asociación entre las variables (en el ejemplo, el bajo peso del niño y el hecho
de fumar durante la gestación son independientes, no están asociados).
Y la hipótesis alternativa:
Ha: Sí hay asociación entre las variables, es decir, el bajo peso y el fumar durante la
gestación están asociados.
Bajo la hipótesis nula de independencia, se sabe que los valores del estadístico χ 2 se
distribuyen según una distribución conocida denominada ji-cuadrado, que depende de un
parámetro llamado .grados de libertad. (g.l.). Para el caso de una tabla de contingencia
de r filas y k columnas, los g.l. son igual al producto del número de filas menos 1 (r-1) por
el número de columnas menos 1 (k-1). Así, para el caso en el que se estudie la relación
entre dos variables dicotómicas (Tabla 2x2) los g.l. son 1.
De ser cierta la hipótesis nula, el valor obtenido debería estar dentro del rango de mayor
probabilidad según la distribución ji-cuadrado correspondiente. El valor-p que usualmente
reportan la mayoría de paquetes estadísticos no es más que la probabilidad de obtener,
según esa distribución, un dato más extremo que el que proporciona el test o,
equivalentemente, la probabilidad de obtener los datos observados si fuese cierta la
hipótesis de independencia. Si el valor-p es muy pequeño (usualmente se considera
p<0.05) es poco probable que se cumpla la hipótesis nula y se debería de rechazar.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
111
Para el caso de una Tabla 2x2, la expresión (1) del estadístico χ 2 puede simplificarse y
obtenerse como:
En el ejemplo previo el cálculo del estadístico χ 2 con la corrección de Yates nos daría
un valor de 2 Y χ =38,43 (p<0.0.1) en lugar de χ 2 =40,04. No existe consenso en la
literatura sobre la utilización o no de esta corrección conservadora de Yates, que con
muestras reducidas dificulta rechazar la hipótesis nula, si bien el efecto es prácticamente
imperceptible cuando se trabaja con muestras de mayor tamaño.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
112
elementales, resultan algo engorrosos, por lo que no se incluirán en este trabajo, siendo
múltiples las referencias que se pueden consultar a este respecto.
Para finalizar, recalcar que existen otros métodos estadísticos que nos permiten analizar
la relación entre variables cualitativas, y que vienen a complementar la información
obtenida por el estadístico χ 2 . Por una parte, el análisis de los residuos estandarizados
permitirá constatar la dirección en que se da la relación entre las variables estudiadas. A
su vez, existen también otras medidas de asociación, muchas de las cuales resultan
especialmente útiles cuando alguna de las variables se mide en una escala nominal u
ordinal, que permiten cuantificar el grado de relación que existe entre ambos factores.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
113
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
114
Población
p>0.05
Seguridad Muestra
Resultados
I.C. Intervalo de confianza
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
115
Ejemplo:
38 39 39 40 41 41 43 45 45 45
45 45 45 46 46 46 47 47 47 47
47 48 48 48 49 50 50 51 51 51
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
116
S S
IC95 = X - 1,96 x ---------- - IC95 = X + 1,96 x ----------
√n √n
3,7 3,7
IC95 = 45,7 - 1,96 x ---------- - IC95 = 45,7 + 1,96 x ----------
√30 √30
3,7 3,7
IC95 = 45,7 - 1,96 x ---------- - IC95 = 45,7 + 1,96 x ----------
5,4 5,4
8 8
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
117
Fórmula:
Ejemplo:
IC95: Z = 1,96
IC95 = 0,26 - 1,96 x √ 0,26 x (1 – 0,26) / 825 - IC95 = 0,26 + 1,96 x√ 0,26 x (1 – 0,26) / 825
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
118
IC95 = 0,26 - 1,96 x √ 0,26 x (0,74) / 825 - IC95 = 0,26 + 1,96 x √ 0,26 x (0,74) / 825
IC95 = 0,26 - 1,96 x √ 0,19 / 825 - IC95 = 0,26 + 1,96 x √ 0,19 / 825
= 50 centímetros
s=2
n = 30
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
119
Como Z para 95 % es
Fórmula:
S equivalente a 1,96
IC95 = X ± Z x ---------- S
IC95 = X ± 1,96 x ----------
√n √n
S
IC95 = X - 1,96 x ---------- - S
IC95 = X + 1,96 x ----------
√n √n
2
IC95 = 50 - 1,96 x ---------- - 2
IC95 = 50 + 1,96 x ----------
√30 √30
2
IC95 = 50 - 1,96 x ---------- - 2
IC95 = 50 + 1,96 x ----------
5,48 5,48
Por tanto, la talla de nacimiento en niñas de Sucre varía entre 48,28 y 50,72, con
una confianza de 95%.
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015