02 Libro 2 - Bioestadística - Linares 2019

1
UNIVERSIDAD MAYOR, REAL Y PONTIFICIA DE SAN FRANCISCO

XAVIER DE CHUQUISACA
FACULTAD DE MEDICINA
SALUD PÚBLICA I
MODULO II
BIOESTADÍSTICA
CLÍNICA
Dr. Gróver Linares Padilla Ph.D.
Quinta edición
2015
USFXCh - Facultad de Medicina - Apuntes de Salud Pública II – Bioestadística – Dr. Gróver Linares Ph.D -2015
2
Indice
Capítulo Pag.
1 Bioestadística - Introducción 3
A. Bioestadística descriptiva 12
2 A.1 Medidas de frecuencia en salud 12

3 A.2 Medidas de posición: A.2.1 Medidas de 17
tendencia central: – Media aritmética
4 Mediana 27
5 Moda 32
6 A.2.2 Cuantiles: Cuartiles, deciles, percentiles 38
7 A.3 Medidas de dispersión 51
8 A.4 Medidas de forma: Coeficiente de
asimetría y curtosis 61
B. Bioestadística inferencial 64
9 B.1 Muestreo 65
10 B.2 Determinación de tamaño de muestra 77
11 B.3 Nociones básicas de Distribución normal 86
12 B.4 Nociones básicas de probabilidad 94
13 B.5 Nociones básicas de correlación 102
14 B.6 Chi cuadrado 107
15 B.7 Intervalo de confianza 114
119
3
BIOESTADISTICA
1
1.1 Introducción
Un estudiante bachiller, que desea seguir sus estudios en la Universidad, y generalmente

no le gustan los números, y tiene vocación por Carreras de Ciencias de la Salud, decide
estudiar medicina, odontología, enfermería, bioquímica, farmacia, nutrición, fisioterapia o
imágenes, dejando los números cuanto más lejos mejor.
Que equivocación; jamás ni nadie podrá estar lejos de los números; porque nacimos con
los números, vivimos con los números y moriremos con los mismos. Nacimos con Apgar
8 (evaluado o calculado por el neonatólogo), con un peso de 3200 gramos ubicado en
percentil 50, una frecuencia cardiaca de 120 latidos por minuto, teniendo como rango
normal entre 110 y 140 con intervalo de confianza del 95%; en nuestro primer análisis de
sangre teníamos hemoglobina de 17 gr/ml sabiendo que el rango normal es entre 16.5-
19.5 g/100 ml etc. etc.
Alguien podrá morir de infarto de miocardio, porque tenía un riesgo cardiovascular

elevado al tener un colesterol total superior a 240 mg/dl, colesterol LDL por encima de
160 mg/dl, colesterol HDL inferior a 35 mg/dl, triglicéridos por encima de 50 mg/dl.
¿De dónde obtenemos esos valores para clasificar a las personas en normales o
anormales? Por supuesto, de estudios de investigación con cálculos estadísticos sobre
poblaciones.
No importa la Carrera que estudia, todas son parte de las ciencias y como tal, la ciencia
crece y se nutre con los nuevos conocimientos logrados a través de la investigación,
utilizando el método científico (que estudiaremos en capítulos siguientes) y que no puede
prescindir de la estadística.
Todo es medible, así como nos enseñaron cuando éramos niños, que la distancia se mide
en metros, los líquidos se miden en litros, el peso en kilos, más tarde aprendimos que no
solo se utilizaba el metro, también habían centímetros, milímetros, micrones,
nanomicrones, etc. Ahora que estudiando en “Ciencias de la Salud” sabemos que un
glóbulo rojo vive en nuestro cuerpo solo 100 a 120 días, mide 7 a 7.5 μm de diámetro
(micrómetro = millonésima parte de un metro) que en un milímetro cúbico existen
aprisionados más de 4 millones de glóbulos rojos, que si tenemos 5 litros de sangre
nuestra calculadora no soportará hacer el cálculo, y solo nos dará un resultado en
notación científica de 2,5 X1013.
Existen distintas medidas e indicadores de bienestar (social o económico) en salud y se

han desarrollado ciertos índices de “salud positiva” tanto con fines operacionales, como
para investigación y promoción de condiciones saludables, en dimensiones tales como la
4
salud mental, autoestima, satisfacción con el trabajo, ejercicio físico, etc. La recolección
de datos y la estimación de indicadores tienen como fin generar, en forma sistemática,
evidencia que permita identificar patrones y tendencias que ayuden a emprender
acciones de protección y promoción de la salud y de prevención y control de la
enfermedad de la población.
Entre las formas más útiles y comunes de medir las condiciones generales de salud de
la población destacan los censos nacionales, que se llevan a cabo decenalmente, que
proporcionan el conteo periódico de la población y varias de sus características, cuyo
análisis permite hacer estimaciones y proyecciones.
Para permitir las comparaciones a lo largo del tiempo en una misma población o bien
entre poblaciones diferentes, se requiere de procedimientos de medición estandarizados.
La medición del estado de salud requiere de procedimientos estandarizados

universalmente aceptados y comparables, que puedan ser interpretados de la misma
manera en cualquier parte del mundo.
Muchas veces los estudiantes de Medicina, se hacen las siguientes preguntas: ¿Por qué
es necesario estudiar estadística en Medicina? ¿Para qué vamos a estudiar números si
en toda la Carrera solo vamos a estudiar músculos, huesos o tejidos? ¿Es realmente una
asignatura que me va a servir en mi vida profesional o es simplemente un relleno del Plan
de estudios?
Todos, absolutamente todos (usted también), queremos ser excelentes profesionales.

Muchos lo lograrán, espero que usted también. Con seguridad le puedo decir que si
quiere ser un excelente profesional, una de las llaves para serlo es no quedarse en la
mediocridad repitiendo y aceptando lo que sus colegas en cualquier parte del mundo
investigaron y aportaron conocimientos nuevos a la ciencia; usted debe investigar y
convertirse en la referencia para los demás, para compartir sus investigaciones en
congresos, jornadas, reuniones; y/o presentar trabajos de investigación en revistas
científicas. Para lograr todo esto, usted debe investigar, conocer la metodología de
investigación y utilizar la bioestadística.
Cuando se habla de bioestadística, se suele pensar en una relación de datos numéricos

presentada en forma ordenada y sistemática.
Si como nuevo profesional investiga “la evolución del VIH/SIDA en Bolivia”, seguramente
tendrá que hacer un estudio de la población (sexo, raza, religión, edad, ocupación,
ingresos económicos, nivel de estudio, estado civil, etc.), investigar en los distintos
hospitales los casos de VIH positivos diagnosticados, registrar esa información,
ordenarla, tabularla y con los datos que tiene responderse a las siguientes preguntas:
¿Cuántos casos de Sida hay en Bolivia actualmente?, Se incrementará el número de

casos de Sida en los próximos cinco años?, ¿Qué departamento tendrá el mayor índice
de casos de VIH positivos?, ¿Los mecanismos de control de la enfermedad están dando
5
resultados satisfactorios?, ¿El personal con que se cuenta es el suficiente?, ¿Cuántos

casos de mortalidad por VIH/SIDA existen al año?, etc.
Resumen de la epidemia del Sida en Bolivia

Número de personas 7.642 casos Vía de transmisión del VIH
registradas con VIH de
1984 a Marzo 2012 Sexual 94 %
Número de personas 38.210 casos Perinatal 3%

estimado con VIH a
Sanguínea 1%
Marzo 2012 (5
personas por cada
caso diagnosticado)
Distribución por departamentos
Santa Cruz 52 %
Transmisión del VIH según la La Paz 20 %
orientación sexual Cochabamba 17 %
Heterosexual 80 % Beni 3%
Homosexual 15 % Tarija 2%
Bisexual 5% Chuquisaca 2%
1 de cada 262 habitantes en Bolivia Oruro 2%

viven con el VIH – SIDA. Potosí 1%
6 de cada 10 personas infectadas con Pando 1%
VIH/Sida tienen entre 15 y 34 años
El motivo por el que surge la bioestadística, es porque el mundo está lleno de

variaciones, por ejemplo varía la edad de las personas, la altura, su estado civil, su
color de ojos, el tipo de enfermedad que puedan tener, varía su tratamiento, su
pronóstico, etc. Es así que debido a esas variaciones surge la bioestadística, la cual
se va a ocupar de estudiar dichas variaciones para sacar determinadas
conclusiones.
Una vez convencidos de la utilidad de la bioestadística, empecemos entonces a ver

qué es Estadística y algunos conceptos básicos que nos permitirán ir
comprendiendo de una mejor manera la misma.
Por mucho tiempo, la palabra estadística se refería a información numérica sobre

los estados o territorios políticos. La palabra viene del latín “statisticus” que significa
“del estado”. Antiguamente la estadística solo se la utilizaba para conocer el número
de habitantes de una determinada región, para el cobro de impuestos.
La Estadística es el conjunto de métodos necesarios para recoger, clasificar,

representar y resumir datos, así como para hacer inferencias (extraer
conclusiones) científicas a partir de ellos.
La Bioestadística es la ciencia que estudia los métodos y procedimientos de

hechos vitales para la: Recolección Clasificación Presentación Análisis e
Interpretación de datos.
6
La bioestadística contribuye al análisis y solución de la problemática de salud,

construyendo “Indicadores de Salud”.
Indicadores: Son valores o expresiones estadísticas que intentan cuantificar en

forma directa o parcial, diferentes fenómenos en estudio.
1.2. Clasificación de la bioestadística
CLASIFICACIÓN DE LA ESTADÍSTICA
Conjunto de procedimientos necesarios para recoger,
ESTADÍSTICA clasificar, representar y resumir (mediante métodos
1. DESCRIPTIVA numéricos y gráficos) el conjunto de datos que
forman una muestra obtenida de una población.
PROBABILIDAD
Conjunto de métodos que, apoyándose en el cálculo de

ESTADÍSTICA
2. INFERENCIAL
probabilidades y a partir de los datos de una muestra,
permiten obtener conclusiones válidas para la
población en estudio.
Puede considerarse la estadística inferencial como los métodos que hacen posible
la estimación de una característica de una población, o la toma de una decisión con
respecto a una población, con base únicamente en resultados muestrales.
7
1.3 Medidas en bioestadística Descriptiva
Las medidas utilizadas en bioestadística descriptiva son las siguientes:
a) Razones
1. Medidas de frecuencia b) Proporciones
c) Tasas
a) Media
a) Medidas de b) Mediana
tendencia central c) Moda
2. Medidas de posición a) Cuartiles

b) Cuantiles b) Deciles
c) Percentiles
a) Rango
b) Desviación media
3. Medidas de dispersión o variación c) Varianza
d) Desviación estándar
e) Coeficiente de variación
a) Curtosis
4. Medidas de forma b) Coeficiente de asimetría
1.4 Medidas en bioestadística Inferencial
Las medidas utilizadas en bioestadística inferencial son las siguientes:
a) Universo finito a) Muestreo probabilístico
1. Determinación del tamaño de muestra b) Muestreo no probabilístico

b) Universo infinito
2. Distribución normal
3. Probabilidad
4. Regresión lineal y correlación
8
5. Prueba de Chi cuadrado
6. Intervalo de confianza
1.5 Una necesaria aclaración antes de continuar con los siguientes capítulos de
bioestadística
En mis largos años de docente, he podido advertir que los alumnos tienen serias
dificultades, con simples detalles que no toman en cuenta. Por este motivo me permito
explicar esos detalles simples pero importantes:
1.5.1 ¿La calculadora programada con punto decimal o coma decimal?
Una persona que utiliza la calculadora erróneamente sin darse cuenta, cree que la
respuesta es correcta porque fue el resultado dado por la calculadora, sin embargo puede
estar cometiendo tremendos errores.
En muchos países del mundo para anotar un decimal se utiliza una coma decimal, pero
también en otros utilizan para representar lo mismo un punto decimal.
Por ejemplo para representar 3 enteros con 256 milésimos
Unos escriben: 3,256 y otros 3.256 ; sin tomar en cuenta estas formas de escritura,
unos leerán 3 enteros con 256 milésimos, pero otros leerán 3256 enteros, cifras
totalmente diferentes.
En unos países para separar unidades de miles utilizan el punto y en otros la coma
Para representar el año 2015
Unos escriben 2.015 y otros 2,015
Qué sistema utilizamos en Bolivia? Para expresar los decimales utilizamos la coma
decimal y no el punto decimal. El punto solo utilizamos para separar las cifras enteras,
miles, millones, etc. En el ejemplo anterior en Bolivia 3 y medio se escribe “3,5” y para
escribir el año 2015 escribimos “2.015” o simplemente “2015”
Ahora bien, cuando compramos y utilizamos una calculadora científica, según ha sido
fabricada o programada para determinado país, podrá mostrarnos datos utilizando uno
u otro sistema vale decir para expresar un decimal utiliza un punto decimal o una coma
decimal. Debemos identificar qué sistema utiliza nuestra nueva calculadora, para no
cometer errores.
Generalmente las calculadoras que vienen de Asia (China, Japón,etc.), utilizan el punto
decimal para expresar un decimal; por tanto si es de este tipo nuestra calculadora
9
debemos transformar mentalmente ese punto decimal en coma decimal cuando

transformamos para Bolivia estas expresiones numéricas.
3.256
Calculadora con punto decimal Calculadora con coma decimal
1.5.2 Notación científica:
Muchas calculadoras científicas, para valores muy grandes o muy pequeños, sacan los
resultados en notación científica, por lo que es importante conocer e interpretar los
mismos. Por este motivo vamos hacer un breve repaso.
Cualquier número se puede escribir en potencias de base diez como producto de sus
factores, siéndole primer factor un numero comprendido entre 1 y 9 y el segundo la
potencia de base diez. Este proceso recibe el nombre de notación científica.
La notación científica es muy útil para expresar números muy grandes o muy pequeños.
Tiene tres partes:
• Una parte entera de una sola cifra

• Las otras cifras significativas como la parte decimal
• Una potencia de base diez que da el orden de magnitud de la cifra
Ejemplo: 3,287 X 1012 = 3287 000 000 000

Cada cero en los números de arriba representa un múltiplo de 10. Por ejemplo, el número
100 representa 2 múltiplos de 10 (10 X 10 = 100). En la notación científica, 100 puede
ser escrito como 1 por 2 múltiplos de 10:
100 = 1 X 10 X 10 = 1 X 102 (en la notación científica)

Por ejemplo
10
5.7 X 106 = 5700000
Esta abreviación también puede ser usada con números muy pequeños. Cuando la
notación científica se usa con números menores a uno, el exponente sobre el 10 es
negativo, y el decimal se mueve hacia la izquierda, en vez de hacia la derecha.
Por ejemplo:
6,5 X 10-3 = 0,0065
Por consiguiente, usando la notación científica, el diámetro de un glóbulo rojo es 6.5 X10-
3 cm. (0,0065); la distancia de la tierra al sol es 1.5 X 10 8 Km (150 000 000. y el número
de moléculas en 1 gramo de agua es 3.34 X 1022 (33 400 000 000 000 000 000 000)
- 1,56234×1029 = 156 234 000 000 000 000 000 000 000 000
- 0,000 000 000 000 000 000 000 000 000 000 910 939 kg (masa de un electrón) puede
ser escrito como 9.10939×10–31kg.
Nota final: En la notación científica, la base numeral es siempre representada como un

digito simple seguido por decimales si es necesario. Por consiguiente, el número 0.0065
siempre se representa como 6.5 x 10-3, nunca como .65 x 10-2 ó 65 x 10-4.
1.5.3 Redondeo:
Depende del número de cifras significativas con que queremos dar solución. En teoría se
debería dar siempre con el número de cifras significativas que tenga la expresión que
menos cifras tenga.
Contamos el número de cifras que queremos dar y nos fijamos en la siguiente, si es 5 o

mayor, la última se aumenta en una unidad, si es 4 o menor la última se deja como está.
Dígito menor que 5: Si el siguiente decimal es menor que 5, el anterior no se modifica.

Ejemplo: 12,612. Redondeando a 2 decimales deberemos tener en cuenta el tercer
decimal: 12,612= 12,61.
Dígito mayor que 5: Si el siguiente decimal es mayor o igual que 5, el anterior se

incrementa en una unidad. Ejemplo: 12,618. Redondeando a 2 decimales deberemos
tener en cuenta el tercer decimal: 12,618= 12,62. Ejemplo: 12,615. Redondeando a 2
decimales deberemos tener en cuenta el tercer decimal: 12,615= 12,62.
Si quieres practicar el redondeo con tu computadora, puedes visitar la siguiente página

web, estoy seguro que no solo aprenderás, sino además te divertirás.
http://redondear.com/ ¡Ah y no te olvides utilizar la coma decimal y no el punto decimal!
11
12
2 A. BIOESTADISTICA DESCRIPTIVA
A1. MEDIDAS DE FRECUENCIA EN SALUD
Números, Tasas, Razones,

Proporciones e Índices
2.1 Introducción
La medición consiste en asignar un número o una calificación a alguna propiedad

específica de un individuo, una población o un evento usando ciertas reglas. No obstante,
la medición es un proceso de abstracción. En términos estrictos no se mide al individuo
sino cierta característica suya, abstrayéndola de otras propiedades. Uno no mide al niño
sino que obtiene información sobre su estatura o su peso. Además, lo que se hace es
comparar el atributo medido en otros individuos (o en el mismo individuo en otro
momento), con el fin de evaluar sus cambios en el tiempo o cuando se presenta en
condiciones distintas de las originales.
Para medir es necesario seguir un proceso que consiste, en breves palabras, en el paso
de una entidad teórica a una escala conceptual y, posteriormente, a una escala operativa.
En general, los pasos que se siguen durante la medición son los siguientes: a) se delimita
la parte del evento que se medirá, b) se selecciona la escala con la que se medirá, c) se
compara el atributo medido con la escala y, d) finalmente, se emite un juicio de valor
acerca de los resultados de la comparación. Para medir el crecimiento de un menor, por
ejemplo, primero se selecciona la variable a medir (la edad, el peso, la talla); luego se
seleccionan las escalas de medición (meses cumplidos, centímetros, gramos);
inmediatamente después se comparan los atributos con las escalas seleccionadas (un
mes de edad, 60 cm de talla, 4 500 gramos de peso) y, por último, se emite un juicio de
valor, que resume la comparación entre las magnitudes encontradas y los criterios de
salud aceptados como válidos en ese momento. Como resultado, el infante se califica
como bien nutrido, desnutrido o sobrenutrido.
Como se puede notar, la medición es un proceso instrumental sólo en apariencia, ya que

la selección de la parte que se medirá, de la escala de medición y de los criterios de salud
que se usarán como elementos de juicio deben ser resultado de un proceso de decisión
teórica. En otras palabras, sólo puede medirse lo que antes se ha concebido
teóricamente. La medición, sin embargo, nos permite alcanzar un alto grado de
objetividad al usar los instrumentos, escalas y criterios aceptados como válidos por la
mayor parte de la comunidad científica.
13
La frecuencia de cualquier suceso puede medirse de cinco formas:
2.2 Número:
Es un concepto matemático que expresa cantidad. Por ejemplo, decimos que se han
detectado 120 casos de tuberculosis en una determinada población.
Éstas dan una idea de la magnitud o volumen real de un suceso. Tienen utilidad para
la asignación de recursos (por ejemplo, el número mensual de partos en un
establecimiento hospitalario da una idea del número de camas, personal y recursos
físicos necesarios para satisfacer esta demanda). Al efectuar comparaciones, el uso
de cifras absolutas tiene limitaciones, puesto que no aluden a la población de la cual
se obtienen (así, 40 defunciones anuales en una población de 15.000 habitantes,
puede ser proporcionalmente mayor que 50, ocurridas en una población de 20.000
habitantes). Sin embargo, la comparación de cifras absolutas referidas a la misma
población en periodos cortos de tiempo puede ser un buen estimador de riesgo al
mantenerse constante el denominador.
2.3 Tasas:
Las tasas son magnitudes que expresan la dinámica de un suceso en una población a
lo largo del tiempo, vale decir que miden la intensidad, frecuencia o velocidad de un
fenómeno en relación al universo que es capaz de producir el mismo o que está
expuesto a su producción en un lugar determinado y durante un periodo de tiempo
también determinado.
Es una medida que relaciona el número de veces que ocurre un evento en un área y
un periodo de tiempo definidos, con el número de habitantes de la población en la cual
puede ocurrir.
Están compuestas por un numerador que expresa la frecuencia con que ocurre un
suceso (por ejemplo, 564 muertes por cáncer de mama el 2014 en Bolivia) y un
denominador, dado por la población que está expuesta a tal suceso (4.583.443
mujeres). De ésta forma se obtiene un cociente que representa la probabilidad
matemática de ocurrencia de un suceso en una población y tiempo definido. En el
ejemplo, la tasa obtenida estima el riesgo de cada mujer mayor de 30 años en Bolivia
de fallecer de cáncer de mama en el curso de 2014.
Cuando en el denominador se trata de población general, para fines del cálculo de la

población expuesta, se usa como convención la existente al 30 de junio en ese lugar
durante ese año (mitad de año). Por razones prácticas, como el numerador de la tasa
nunca podrá ser mayor que su denominador, el resultado será menor que la unidad y
para evitar el uso de decimales, los resultados se multiplican por un factor de
amplificación por algún múltiplo de 10 (ya sea 1.000, 10.000, 100.000).Este mismo
factor de amplificación sirve para comparar las tasas internacionalmente con factores
preestablecidos.
14
De ésta forma, la tasa de mortalidad por cáncer de mama en mujeres el 2014 fue de
12,31 muertes por cada 100.000 mujeres. (564/4583443 X 100.000 = 12,31)
564
Tasa mortalidad cáncer mama = ------------------------ X 100000 = 12,31
4583443
El numerador y el denominador deben guardar estricta correspondencia en tres

aspectos:
a) Naturaleza del fenómeno: El evento que figura en el numerador tiene que ser capaz
de ser producido o afectar a la población que figura en el denominador.
b) Lugar: Tanto el evento que figura en el numerador como el que figura en el
denominador deben corresponder a la misma área geográfica o lugar.
c) Periodo: La frecuencia del evento como la población expuesta deben corresponder
al mismo periodo de tiempo.
Las tasas por su naturaleza se clasifican en tres tipos:
a) Tasas brutas, generales o crudas: Cuando están referidas al total de población.

b) Tasas específicas: Cuando están referidas a determinados segmentos de la
población en forma específica que guardan relación con el evento en estudio.
c) Tasas ajustadas o estandarizadas: Cuando se encuentran ajustadas a un
población estándar
Las tasas por el fenómeno que miden pueden ser:
a) Tasas de natalidad: Miden los eventos relacionados con los nacimientos en la

población.
b) Tasas de mortalidad: Miden los eventos relacionados con las muertes que ocurren
en la población.
c) Tasas de morbilidad: Miden los eventos relacionados con las enfermedades o
patologías que ocurren en la población.
2.4 Razones:
Es un indicador matemático que establece la relación de dos partes de un todo entre

sí. Una razón expresa la relación entre dos sucesos. Es el cociente de dos cantidades
en el que el numerador no está incluido en el denominador. (Número de individuos de
una categoría con el número de individuos en la otra). En éste caso, la interpretación
del cociente no alude a una probabilidad o a un riesgo, como es el caso de la tasa.
15
Ejemplo:
Razón de mortalidad materna: Mide el número de muertes maternas por cada 100.000
nacimientos.
Resulta de la división del número de muertes maternas, dividido por el número de

nacimientos, multiplicado por 100.000
Si en una población se presentaron durante el año 2009, 400 muertes maternas y

65.000 nacimientos
Entonces: 400/65.000 X 100.000 = 615
Por lo tanto decimos que la razón de mortalidad materna es de 650 por cada 100.000
nacimientos
2.5 Proporciones:
Son cifras o magnitudes relativas que relacionan dos categorías de un mismo

fenómeno en las que una de ellas está contenida en la otra, es decir, que una es parte
y otra el todo.
Numerador Es una PARTE

------------------- ----------------------
Denominador Es el TODO
Las proporciones son medidas que expresan la frecuencia con la que ocurre un evento
en relación con la población total en la cual éste puede ocurrir. Esta medida se calcula
dividiendo el número de eventos ocurridos entre la población en la que ocurrieron.
Como cada elemento de la población puede contribuir únicamente con un evento es
lógico que al ser el numerador (el volumen de eventos) una parte del denominador
(población en la que se presentaron los eventos) aquel nunca pueda ser más grande
que éste. Es por éste motivo que el resultado nunca puede ser mayor que la unidad y
oscile siempre entre cero y uno.
Las proporciones expresan únicamente la relación que existe entre el número de veces
en las que se presenta un evento y el número total de ocasiones en las que se pudo
presentar.
Por ejemplo, ¿Qué proporción de las muertes ocurridas en la ciudad de Sucre el año
2013 fue causada por enfermedades cardiovasculares? Esto se calcula construyendo
16
el cociente entre el número de muertes ocurridas por causa cardiovascular (740) y el

número total de muertes ocurridas ese año (4.432) amplificado por 100 (16,70% de las
muertes de 2013 fueron causadas por enfermedades cardiovasculares). Las
proporciones no se interpretan como una probabilidad ni tampoco otorgan un riesgo
puesto que no se calculan con la población expuesta al riesgo. Una proporción puede
considerarse como la estimación de una probabilidad cuando se calcula en una
muestra representativa de una determinada población.
Otro ejemplo: Si en una población de 25.000 habitantes se diagnostican 1.500

pacientes con diabetes, la proporción de diabetes en esa población es de 1.500/25.000
= 0.06 (si multiplicamos por 100 = 6%). El valor de una proporción puede variar así de
0 a 1, y suele expresarse como un porcentaje.
2.6 Índices:
Surgen de la comparación de dos tasas o dos razones. Por ejemplo, el cociente entre
la tasa de mortalidad general en varones respecto de las mujeres en 2010.
Este indicador da una idea de la existencia de mayor o menor riesgo de una condición
dependiendo si su valor es mayor o menor de 1 (o de 100%). En este caso, se tiene:
Sexo Defunciones Población Tasa x 1000 Indice

Hombres 2368 104.000 22,77
1.28 (128%)
Mujeres 2064 116.000 17,79
17
A2. MEDIDAS DE POSICIÓN

3
Media Aritmética
La media aritmética de una variable estadística es el valor obtenido al sumar todos los
datos y dividir el resultado entre el número total de datos.
Su cálculo tiene como objetivo obtener un valor al cual tienden los datos u observaciones
individuales.
Para representar la media poblacional y la media muestral se utilizan los siguientes

símbolos:
µ : es la letra griega “mu” que determinará la media de una población
X : Es el símbolo que se utiliza para determinar la media de una “muestra” analizada.
Con fines didácticos, en lo sucesivo seguiremos utilizando este último símbolo para
referirnos en general a la “media aritmética”.
1. Media aritmética de datos no agrupados
Fórmula:
X = Media
Σ = Sumatoria
Xi = Todos los valores de la distribución
n = Número de datos
18
Fórmula:
Sacar la media de las edades de 9 pacientes:

Edades: 9; 11; 10; 8; 12; 9; 13; 10; 10
Σ 9 + 11 + 10 +8 + 12+ 9 +13 + 10 +10

X=
9
Se suman cada una de las edades y se divide entre el
número de pacientes
92
X= =10,2 años
9
La media de esta población es de 10, 2 años
Otro ejemplo:
Fórmula:
Sacar la media de la frecuencia cardiaca de 10 pacientes:

Número de latidos: 60; 62; 68; 70; 76; 76;79;79;82; 82
Σ 60+62+68+70+76+76+79+79+82+82
X=
10
Se suman cada una de las edades y se divide entre el
número de pacientes
734
X= =73,4 latidos por minuto
10
19
2. Media aritmética de datos agrupados en

frecuencias
Edad en años Número de
de alumnos alumnos
Xi Fi
20 8
21 7
22 9
23 6
24 5
TOTAL: 35
Fórmula:
Σ ( X i *f i )
X=
n
X = Media
Σ = Sumatoria
Xi = Todos los valores de la distribución
fi = Todas las frecuencias
n = Número de datos, vale decir : Σ fi
20
Σ ( X i *f i )
Edad en años Número de X=
de alumnos alumnos n
Xi fi
20 8
21 7
22 9
23 6
24 5
TOTAL: 35
(n = Σ fi)
Σ ( X i *f i )
X=
n
de alumnos alumnos Xi * fi
Xi fi
20 8 20*8 = 160
21 7 21*7 = 147
22 9 22*9 = 198
23 6 23*6=138
24 5 24*5 = 120
TOTAL: 35
21
Σ ( X i *f i )
X=
n
de alumnos alumnos ΣXi * fi
Xi fi
20 8 160
21 7 147
22 9 198
23 6 138
24 5 120
TOTAL: 35 763
Edad en años de Número de

alumnos alumnos ΣXi * fi
Xi fi
20 8 160
21 7 147
22 9 198
6 138
23 5 120
24
TOTAL: n =35 763
763
Σ ( X i *f i )
X= = 21,8 años
X=
n 35
22
3. Media aritmética de datos agrupados en

frecuencias con intervalos de clase
Personas edad Número
en años
Xi fi
0–4 8
5–9 12
10 – 14 15
15 – 19 13
20 - 24 14
Total: 62
Fórmula:
Σ ( X’ * f i )
X=
n
X = Media
Σ = Sumatoria
X’= Punto medio o marca de clase
del intervalo de clase
fi = Todas las frecuencias
n = Número de datos , vale decir : Σ fi
23
Personas edad Número Punto medio

en años
Xi fi X’
0–4 8 0 + 4/2 = 2
5–9 12 5 + 9/2 = 7
10 – 14 15 10 + 14/2 =12
15 – 19 13 15 + 19/2 =17
20 - 24 14 20 + 24/2 =22
Total: 62
809
Σ ( X’ * f i )
X= = 13,05 años
X=
62
n

en años
Xi fi X’ Xi * fi
0–4 8 2 2 * 8 = 16
5–9 12 7 7 * 12 = 84
10 – 14 15 12 12 * 15 = 180
15 – 19 13 17 17 * 13 = 221
20 - 24 14 22 22 * 14 = 308
Total: 62 809
809
Σ ( X’ * f i )
X= = 13,05 años
X=
62
n
24

en años
Xi fi X’ Xi * fi
0–4 8 2 2 * 8 = 16
5–9 12 7 7 * 12 = 84
10 – 14 15 12 12 * 15 = 180
15 – 19 13 17 17 * 13 = 221
20 - 24 14 22 22 * 14 = 308
Total: n=62 809

809
Σ ( X’ * f i )
X= = 13,05 años
X=
62
n
Ventajas de la Media aritmética:

1. Es un concepto familiar a la mayoría de las personas e
intuitivamente claro
2. Es una medida que puede ser calculada y es única. Ya
que cada conjunto de datos tiene una y solo una media.
3. En el cálculo de la media, es tomada en cuenta cada
observación del conjunto de datos
4. La media es una medida digna de confianza, porque
se determina con mayor certeza que otras características
de un conjunto de datos.
Moya Calderón 2001
25
Desventajas de la Media aritmética:

1. La media aritmética puede verse afectado por valores
extremos que no son representados del resto de
observaciones. Por ello, cuando se está utilizando esta
medida en un análisis, vale la pena advertir la
representatividad de los valores extremos y la influencia
que estos tiene sobre el rresultado.
Moya Calderón 2001

2. El cálculo de la media aritmética es tedioso por que se
usan todas las observaciones en los cálculos (a menos,
por supuesto que se use el método corto de datos
agrupados para aproximar la media.
Moya Calderón 2001
26

3. No se puede calcular la media aritmética para un
conjunto de datos que tiene intervalos de clases abiertos
en los extremos.
Moya Calderón 2001
27
4 Mediana
Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados
de menor a mayor y se representa con el signo Me.
De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana
representarán el 50% de los datos, y los que sean mayores que la mediana representarán
el otro 50% del total de datos de la muestra
1. Mediana de serie no agrupada
Ejercicio 1: Determinar la mediana de los siguientes valores:
Edades de 9 pacientes: 9; 11; 10; 8; 12; 9; 13; 10; 10
Primero ordenar de menor a mayor:

8 ; 9; 9; 10; 10; 10; 11; 12; 13
Como tenemos 9 valores; para buscar la mediana, colocamos igual número de

valores a la derecha y a la izquierda vale decir que en nuestro ejemplo dejamos 4
a la derecha y 4 a la izquierda, quedando en medio el número 10, el cual
representa a la mediana.
En este ejemplo tenemos 9 valores, que representa a un número impar, por lo que
el medio de los mismos representa un solo número, si en vez de un número impar
de valores, tenemos par, los dos valores que quedan al medio, se suman y dividen
entre 2 (se saca un promedio), como a continuación presentamos:
Ejercicio No. 2 Determinar la mediana de los siguientes valores:
Edades de 12 pacientes: 4; 8; 10; 9; 8; 7; 6; 6; 4; 10; 5; 8

4; 4; 5; 6; 6; 7; 8; 8; 8; 9; 10; 10
Como tenemos 12 valores; para buscar la mediana, colocamos 5 a la derecha y 5

a la izquierda, quedando en medio (dos valores porque 12 es par) por lo tanto
quedan los números 7 y 8; siendo el promedio de 7,5 ( 7+8 / 2 = 7,5 ) que
corresponde a la mediana.
28
2. Mediana de serie agrupada
a) Presentación agrupada simple
Se utiliza la siguiente fórmula:

X k + X k+1
Me =
2
Ejercicio 3: Sacar la mediana de la edad del siguiente grupo de personas

Edad (años) Frecuencia Frecuencia
Xi absoluta acumulada
fi Fi
20 5
21 10
22 15
23 20
24 20
25 30
Total: 100
Primer paso: Sacar la frecuencia acumulada
fi Fi
20 5 5
21 10 15
22 15 30
23 Xk 20 50
24 20 70
25 30 100
Total: 100 ---
Segundo paso: Dividir entre 2, la suma de los valores f i: 100 / 2 = 50
La primera frecuencia acumulada igual o superior a 50 es 50, correspondiente

al valor Xi = 23 que se denominará Xk
Tercer paso: Aplicar la fórmula:

X k + X k+1
X k = Valor que coincide en la Me =
columna X (23) con la 2
frecuencia acumulada
remarcada (50) 23 + 23 + 1 23 + 24 47
Aplicando la formula: Me = = = = 23,5
2 2 2
29
Por lo tanto la mediana es de 23,5 años
Ejercicio 4: Sacar la mediana de la edad del siguiente grupo de personas
Primer paso: Sacar la frecuencia acumulada

Xi absoluta acumulado
fi Fi
10 10 10
11 12 22
12 Xk 24 46
13 15 61
14 5 66
15 25 91
Total: 91 ---
Segundo paso: Dividir entre 2, la suma de los valores f i: 91/2 = 45,5
La primera frecuencia acumulada igual o superior a 45,5 es 46, correspondiente

al valor Xi = 12 que representa a Xk
Tercer paso:
12 + 12 + 1 25
Aplicando la formula: Me = = = 12,5
2 2
Por lo tanto la mediana será de 12,5 años
b) Presentación agrupada con intervalos de clase
n - Fi
2
Fórmula: = Li + ( ) *a
fi
n = Número total de observaciones o suma de las frecuencias absolutas (fi)

Li = Límite inferior de la clase que contiene el promedio remarcado
Fi = Frecuencia absoluta acumulada de la clase inmediata anterior,
a la que contiene el promedio remarcado.
fi = Frecuencia absoluta de la clase donde está el promedio remarcado
a = Amplitud del intervalo de clase donde está el promedio remarcado
30
Ejercicio 6: Cual es la mediana de los datos de Glicemia de 40 pacientes?
Glucemia Frecuencia Frecuencia

absoluta acumulada
fi Fi
70,0 – 74,0 3 3
75,0 – 79,0 4 7
80,0 – 84,0 2 9
85,0 – 89,0 5 14Fi
90,0Li – 94,0 6fi 20
95,0 – 99,0 4 24
100,0 – 104,0 2 26
105,0 – 109,0 7 33
110,0 - 114,0 5 38
115,0 - 119,0 1 39
120,0 – 124,0 1 40
TOTAL: 40n ---
40/2 = 20
1. En primer lugar averiguamos cual es la posición de la observación que
constituye el promedio: n / 2 = 40/2 = 20
2. La frecuencia acumulada que contiene el promedio 20 es justo el 20, que es el
que lo remarcamos correspondiendo al intervalo 90,0 – 94,0
3. Calculamos la amplitud del intervalo o de la clase:
a = 90,0 – 94,0 = 5 (de 90 a 94 hay 5 puntos de amplitud)
4. Aplicamos la fórmula para determinar el valor de la mediana, reemplazando
n
-Fi
2
Fórmula: = Li + ( ) *a
fi
( 40 ) - 14
2 20 – 14 6
Me = 90,0 +( )* 5 = 90 + * 5 = 90 + * 5 = 95
6 6 6
= 90+(6/6)*5 = 95
Explicación: Li =90,0 es el límite inferior de 90,0 a 95,0

n= 40 es el total de pacientes que se divide entre 2 según fórmula
Fi=14 es frecuencia acumulada anterior a 20, que era el
promedio
que contenía 20
fi= 6 es la cifra que corresponde en horizontal a la Frecuencia
absoluta de la clase donde está el promedio remarcado.
31
a = 5 que es la amplitud entre 90 y 95
Ejercicio 7: Cual es la mediana de los datos de las siguientes edades?

fi Fi
0–4 10 10
5–9 16 26 Fi
10 Li – 14 24 fi 50
15 – 19 27 77
20 - 24 13 90
25 – 29 6 96
Total: 96
96/2= 48
1. En primer lugar averiguamos cual es la posición de la observación que
constituye el promedio: n / 2 = 96/2 = 48, como no coincide, buscamos
el inmediato superior que es 50, y remarcamos toda fila, quedando en
el recuadro 10 que corresponde al límite inferior (Li) luego 24 que
corresponde a (fi).
2. Calculamos la amplitud del intervalo o de la clase:
a = 10 – 14 = 5
Aplicamos la fórmula para determinar el valor de la mediana, reemplazando
( 96 ) - 26
2 48 – 26 22
Me = 10 + ( )* 5 = 10+( )* 5 = 10 + *5 =
24 24 24
= 10+(0,92)*5 =
= 10 + 4,6 = 14,6
Explicación: Li = 10 es el límite inferior de 10 a 14

n = 96 es el total de personas que se divide entre 2 según fórmula
Fi = 26 es frecuencia acumulada anterior a 50 remarcada
fi = 24 es la cifra que corresponde en horizontal a la
frecuencia acumulada 50, en la columna de número de
pacientes.
32
Moda
5
Moda es el valor que más veces se repite en una distribución. Si en un grupo dos
puntuaciones se presentan con la misma frecuencia y esa frecuencia es la máxima, la
distribución es bimodal. Si son tres es trimodal; cuando son las de tres hablamos de
multimodal, pero cuando todas las puntuaciones de un grupo tienen la misma frecuencia,
no hay moda.
1. Moda de datos no agrupados
Ejercicio 1: Determinar la Moda de los siguientes datos:
Edades de 9 pacientes: 9; 11; 10; 8; 12; 9; 13; 10; 10
Primero se ordena de menor a mayor:
8; 9; 9;10;10;10;11;12;13
La moda es 10 porque es la que más se repite.
Ejercicio 2: Determinar la Moda de los siguientes datos:
Número de hijos en 12 mujeres: 6; 1; 5; 3; 4; 2; 3; 2; 3; 4; 1; 3
1; 1; 2; 2; 3; 3; 3; 4; 4; 4; 5; 6
En este caso las frecuencias que más se repiten son 3 y 4, pero como
están juntas se saca el promedio, vale decir 3 + 4 = 7/2 = 3,5 por tanto la
moda es 3,5
Si no estarían juntas, sería bimodal 3 y 4.
Ejercicio 3: Determinar la Moda de los siguientes datos
Número de hijos de 10 mujeres: 1; 1; 1; 2; 2; 3; 3; 3; 4; 4
En este caso las frecuencias que más se repiten son 1 y 3 por tanto al no
estar juntas no se saca promedio quedando como bimodal 1 y 3
33
2. Moda de datos agrupados simples
Ejercicio 4 : Determinar la moda de un grupo de alumnos de segundo

año de Medicina según la distribución por edades:
Edades alumnos Frecuencia absoluta

Xi fi
17 2
18 5
19 22 Frecuencia más elevada.
20 16
21 8 La Moda (Mo) es 19 años,
22 6 ya que su frecuencia 22 es
23 3 la más elevada.
24 1
TOTAL 63
Ejercicio 5:
Xi fi
17 5
18 10
19 20
20 15
21 26 Frecuencia más elevada.
22 4
23 10 La Moda (Mo) es 21 años,
TOTAL 93 la más elevada.
Ejercicio 6: Determinar la moda/o de otro grupo de alumnos de segundo

año de Medicina, según la distribución por edades:

Xi fi Frecuencias más elevadas
17 3 de dos valores similares.
18 4 Como están juntas se saca
19 22 un promedio
20 22
21 7 La Moda (Mo) es 19,5 años,
23 3 la más elevada, para ambos
24 2 casos, 19 y 20 años
TOTAL 68
34
Como son consecutivas 19 y 20, la Moda es la media de dichos valores

(19+20/2=19,5)
Ejercicio 7:
Xi fi Frecuencias más elevadas
17 5 de dos valores similares.
18 7
19 15 La Moda (Mo) es 21,5 años, ya
20 14 que su frecuencia 28 es la más
21 28 elevada, para ambos casos,
22 28 21 y 22 años por lo tanto se
23 3 saca la media
24 2 21+22/2 = 21,5
TOTAL 102
Ejercicios 8: Determinar la moda de otro grupo de alumnos de segundo año

de Medicina, según la distribución por edades:

Xi fi
17 2
Frecuencias más elevadas.
18 5
19 20
La Moda (Mo) es 19 y 22
20 16
años, ya que no son
21 14
consecutivas. (bimodal).
22 20
23 3
24 1
TOTAL 81
Cuando se presentan dos frecuencias similares las más elevadas, y no son

consecutivas, no se saca la media aritmética, quedando los dos valores
como moda/o, siendo en este caso bimodal.
35
Ejercicio 9:

Xi fi
17 14 Frecuencias más elevada.
18 26
19 17 La Moda (Mo) es 18 y 23
20 15 años, ya que no son
21 12 consecutivas. (bimodal)
22 9
23 26
24 2
TOTAL 121
3. Moda con valores agrupados en intervalos de clase
d1
Fórmula: Mo = Li + ( )a
d1 + d2
Li = Límite inferior de la clase modal.

d1 = Diferencia entre la frecuencia absoluta de la clase modal y la
frecuencia
absoluta de la clase anterior.
d2 = Diferencia entre la frecuencia absoluta de la clase modal y la
frecuencia
absoluta de la clase posterior.
a = Amplitud del intervalo de clase modal
Ejercicio 10: Determinar la moda/o de un grupo de personas, según

agrupación por edades:
Grupos de edades Frecuencia absoluta

Xi fi Clase modal puesto que su
15 – 19 10 frecuencia es la mayor: 28
20 – 24 28
d1= 28 – 10 = 18
25 – 29 12 d2 = 28 – 12 = 16
30 – 34 11 Li = 20
a = 5 (20 al 24 = 5)
35 – 39 8
TOTAL 69
36
Reemplazando según la fórmula:

d1
d1 + d2
18
Mo = 20 + ( )*5 =
18 + 16
18
Mo = 20 + ( )*5 =
34
Mo = 20 + ( 0,529411764 ) * 5 = 20 + 2,6 = 22,6 años
Vale decir que Mo = 22,6 años
Explicación de donde salieron los datos:

Li = 20 Límite inferior del intervalo de la clase modal
d1 = 18 Diferencia entre la frecuencia absoluta de la escala modal (28)
y la
frecuencia de la clase anterior (10) 28-10 = 18.
d2 = 16 Diferencia entre la frecuencia absoluta de la clase modal (28)
y la
frecuencia de la clase posterior (12) 28-12= 16
a = 5 Amplitud del intervalo de clase modal 20 – 24 = 5
Ejercicio 11:
Grupos de edades Frecuencia absoluta
Xi fi
15 – 20 12 Clase moda/o puesto que
20 – 25 13 su frecuencia es la mayor:
26
25 – 30 26 d1= 26 – 13 = 13
30 – 35 14 d2 = 26 – 14 = 12
Li = 25
35 – 40 6 a = 5 (20 al 25 = 5)
TOTAL 71
37
Reemplazando según la fórmula:
d1
d1 + d2
13
Mo = 25 + ( )*5 =
13 + 12
13
Mo = 25 + ( ) * 5 = 25 + 2,6 = 27,6 años
25
38
6 A.2.2 CUANTILES
Cuartiles, Deciles y Percentiles
6.1 Introducción
Hasta ahora, hemos estudiado las medidas de tendencia central (Media, Mediana y
Moda), que nos muestra un valor central (y solo central) que representa al conjunto de
datos; sin interesar lo que ocurre con el resto de valores.
Por ejemplo:
Dos grupos de 10 pacientes cada uno, acuden a una revisión cardiológica y se les toma
las siguientes frecuencias cardiacas en reposo:
Grupo A: 62 63 64 65 70 70 75 76 77 78 X = 700/10 = 70
Grupo B: 50 54 64 69 70 70 71 76 86 90 X = 700/10 = 70
Sabiendo que la frecuencia cardiaca normal en reposo se encuentra entre 60 y 80 latidos

por minuto; analizando ambos grupos, concluimos que ambos tienen una media, mediana
y moda de 70 latidos por minuto; por tanto podríamos equivocadamente concluir si solo
observamos estas medidas de tendencia central que ambos grupos de pacientes son
iguales y tienen frecuencias cardiacas normales y no existen pacientes que llamen la
atención con probable patología. (¡Diagnóstico errado!)
Sin embargo, observando no solo las medidas de tendencia central, sino todos los datos
paciente por paciente, concluimos que en el grupo B, existen 4 pacientes con probable
alteración cardiológica, 2 pacientes con menos de 60 (50 y 54) y 2 con más de 80 (86 y
90) latidos cardiacos por minuto a los que hay que estudiar para conocer la causa de
estas alteraciones.
39
Grupo A: 62 63 64 65 70 70 75 76 77 78
Grupo B: 50 54 64 69 70 70 71 76 86 90
Con las medidas de posición (cuartiles, deciles y percentiles) podemos hacer cortes y
observar los diferentes valores (3, 9 y 99 cortes para lograr 4, 10 ó 100 partes iguales)
en diferentes lugares de la cadena de valores de datos ordenados de menor a mayor y
conocer el valor exacto en cada corte y casi de cada paciente o subgrupos de pacientes
y diagnosticar lo que ocurre con cada uno de ellos y no solo con una medida de tendencia
central que representa a todos.
Por tanto las medidas de posición (cuartiles, deciles y percentiles) resultan ser medidas
que permiten el estudio en detalle de todos los valores en diferentes posiciones de la
cadena de datos, dándo un diagnóstico no general sino particular de cada paciente y/o
subgrupo de pacientes. (¡Importante herramienta de análisis! que permite no perder de
vista lo que pasa con cada paciente).
Con una serie de datos ordenados de menor a mayor, podemos dividir en 4 partes
iguales, en 10 partes iguales o en 100 partes iguales y conocer exactamente a qué valor
y posición corresponde cada corte.
Cuando dividimos en 4 partes iguales se llaman cuartiles, cuando dividimos en 10 partes

iguales se llaman deciles y cuando dividimos en 100 partes iguales llamamos
percentiles.
Los cuartiles se representan con el símbolo “Q”, los deciles con el símbolo “D” y los
percentiles con el símbolo “P”.
Para lograr 4 partes iguales, utilizamos 3 cortes, cada corte se llama Q 1, Q2 y Q3

Para lograr 10 partes iguales, utilizamos 9 cortes, cada corte se llama D 1, D2 ….y D9
Para lograr 100 partes iguales, utilizamos 99 cortes, cada corte se llama P 1, P2 ….y P99
40
Q1 Q2 Q3 (4 sectores)
D1 D2 D3 D4 D5 D6 D7 D8 D9 (10 sectores)
P25 P50 P75 P99 (100 sectores)
Ejemplo con datos reales de 12 pacientes de diferentes edades:
Me = 50,5
32, 35, 37, 39, 44, 48, 53, 55, 57, 59, 70, 74
Q1 Q2 Q3
P25 = 38 D5 = 50,5 P75 = 58
P50
P25 = 25% de 12 datos P75 = 75% de 12 datos

= 3 datos a la izquier- = 9 datos a la izquier-
da de 39 da de 59
6.2 Cuartiles:
Con 3 cortes las fracciones son cuartas partes iguales del total de datos.
Teniendo en nuestro ejemplo 12 datos, para dividir en 4 partes iguales, cada sector debe
tener 3 datos (4 X 3 = 12). Cada corte o cuartil para dejar 4 partes iguales, el primer cuartil
o corte se produce entre el tercer y cuarto dato, el segundo cuartil entre el sexto y séptimo
dato, y el tercer cuartil entre el noveno y décimo dato. De esta manera:
Q1 Representa al primer corte llamado primer cuartil; dejando el 25 % de los valores por
debajo y 75 % de valores por encima del corte. En nuestro ejemplo, el corte cae
exactamente entre el valor 37 y 39, por tanto para saber exactamente a qué valor
41
corresponde Q1 sacamos un promedio (37 + 39/2 = 38); por tanto el cuartil 1 (Q1) es
igual a 38 años, que coincide con el P 25.
Q2 Representa al segundo corte llamado segundo cuartil; dejando el 50 % de los valores

por debajo y 50 % por encima del corte. En nuestro ejemplo, el corte cae exactamente
entre el valor 48 y 53, por tanto para saber exactamente a qué valor corresponde Q 2
sacamos un promedio (48 + 53/2 = 50,5); por tanto el cuartil 2 (Q 2) es igual a 50,5
años. Q2 coincide con la mediana 50,5.
Q3 Representa al tercer corte llamado tercer cuartil; dejando el 75 % de los valores por
debajo y 25 % de los valores por encima del corte. En nuestro ejemplo, el corte cae
exactamente entre el valor 57 y 59, por tanto para saber exactamente a qué valor
corresponde Q3 sacamos un promedio (57 + 59 /2 = 58); por tanto el cuartil 3 (Q3) es
igual a 58 años, que coincide con el P 75.
6.3 Deciles:
Con 9 cortes las fracciones son décimas partes del total.
Teniendo en nuestro ejemplo 12 datos, para dividir en 10 partes iguales, cada sector
debe tener 1,2 partes de datos (1,2 X 10 = 12).
D1 deja el 10 % de los valores por debajo y el 90 % por encima

De manera intuitiva podemos sacar el decil 5 (D 5), que corresponde a la mitad de la

cadena de valores, ya que dejamos al 50% de los valores por debajo y 50 % por encima
del corte. En nuestro ejemplo, el corte cae exactamente entre el valor 48 y 53, por tanto
para saber exactamente a qué valor corresponde D 5 sacamos un promedio (48 + 53/2 =
50,5); por tanto el decil 5 (D5) es igual a 50,5 años. D5 coincide con Q2 con P50 y con la
mediana.
El resto de cortes para los otros deciles, sería muy complicado sacar, por lo tanto
debemos utilizar fórmulas que más adelante aplicaremos, para conocer exactamente a
qué valor corresponde cada corte.
6.4 Percentiles
Con 99 cortes las fracciones son centésimas partes del total. Los percentiles son los 99
valores que dividen la serie de datos en 100 partes iguales.
42
Teniendo en nuestro ejemplo 12 datos, para dividir en 100 partes iguales, cada sector
debe tener 0,12 partes de datos (0,12 X 100 = 12).
P1 deja el 1 % de los valores por debajo y el 99 % por encima

Y así sucesivamente
De manera intuitiva como hemos hecho con los cuartiles, podemos sacar los percentiles
25, 50 y 75 que coincide con los cuartiles 1, 2 y 3. De esta forma el percentil 25 se
encuentra entre el tercer y cuarto dato, el percentil 50 entre el sexto y séptimo dato, y el
percentil 75 entre el noveno y décimo dato. De esta manera:
P25 Representa al corte 25; dejando el 25 % de los valores por debajo y 75 % de valores
por encima del corte. En nuestro ejemplo, el corte cae exactamente entre el valor 37
y 39, por tanto para saber exactamente a qué valor corresponde P 25 sacamos un
promedio (37 + 39/2 = 38); por tanto el percentil 25 1 (P 25) es igual a 38 años.
P50 Representa al corte 50; dejando el 50 % de los valores por debajo y 50 % por encima
del corte. En nuestro ejemplo, el corte cae exactamente entre el valor 48 y 53, por
tanto para saber exactamente a qué valor corresponde el P 50 sacamos un promedio
(48 + 53/2 = 50,5); por tanto el percentil 50 (P 50) es igual a 50,5 años. P50 coincide
con la mediana 50,5.
P75 Representa al tercer corte 75; dejando el 75 % de los valores por debajo y 25 % de
los valores por encima del corte. En nuestro ejemplo, el corte cae exactamente entre
el valor 57 y 59, por tanto para saber exactamente a qué valor corresponde P75
sacamos un promedio (57 + 59 /2 = 58); por tanto el percentil 75 (P 75) es igual a 58
años.
De la misma manera que para la deciles, para el resto de cortes para los otros percentiles,
sería muy complicado sacar; por lo tanto debemos utilizar fórmulas que a continuación
aplicaremos, para conocer exactamente a qué valor corresponde cada corte.
43
6.5 Aplicación e interpretación de percentiles:
Tabla de crecimiento y desarrollo para niños, clasificado por percentiles

0 3 6 9 12 15 18 21 24 meses
Edad en meses
P97 90 cms
Niño de 9 meses de edad
que tiene 72 centímetros P50 85 cms
de talla, al encontrarse
entre percentil 50 y 97
se encuentra con talla P3 80 cms
normal
75 cms
70 cms
Niño de 21 meses de
65 cms
edad que tiene 93
centímetros de talla, al
60 cms
encontrarse por encima
Niño de 5 meses de edad del percentil 97 y 97 se
que tiene 55 centímetros encuentra con talla alta. 55 cms
de talla, al encontrarse
por debajo del percentil 50 cms
3 se encuentra con talla
baja 45 cms
Talla
Ref. http://www.elbebe.com/index.php/es/servicios/percentiles
El peso y la talla de los niños, relacionados con su edad, nos dan un resultado en
percentiles (que son una forma de describir una medida si se encuentra del rango de
normalidad o salen fuera de la normalidad).
La normalidad abarca un rango amplio de medidas. Se consideran normales a todos los

niños cuyo peso por ejemplo se encuentra entre los percentiles 3 y 97.
En cualquier muestra estadística, el percentil 50 coincide con la mediana. Esto quiere

decir que un niño cuyo peso y/o talla están en el percentil 50, pesa/mide lo mismo que el
50% de los niños de su misma edad y sexo.
Pero hay otros niños que pesan/miden más allá del P 50 sin salir del P97 ó menos del P50
sin salir del P3 que también son normales. Estadísticamente hablando, un 3% de los
bebés de cualquier edad pueden tener peso/talla bajo o superior a lo normal (si están por
debajo de P3 ó por encima de P97).
En el ejemplo anterior un niño de 9 meses de edad que tiene 72 centímetros de talla, al

encontrarse entre percentil 50 y 97 se encuentra con talla normal; otro niño de 5 meses
de edad que tiene 55 centímetros de talla, al encontrarse por debajo del percentil 3 se
encuentra con talla baja y otro niño de 21 meses de edad que tiene 93 centímetros de
talla, al encontrarse por encima del percentil 97 y 97 se encuentra con talla alta.
44
Como observamos con el anterior ejemplo, el uso de cuartiles, deciles y percentiles es

muy útil para el diagnóstico en Medicina. Todos los parámetros medibles en las ciencias
médicas según las especialidades cuentan con curvas distribuidas por percentiles.
Uso de los percentiles en el seguimiento de crecimiento y desarrollo fetal, utilizando

percentiles:
45
6.6 Cuantiles de datos no agrupados
Se utiliza la siguiente fórmula genérica:
CJ = Xi + ( J ( n+1) - i) (Xi + 1 – Xi)

c
CJ = Cuantil que se desea sacar

Xi = Valor del lugar indicado
J = Cuantil que nos piden sacar (Q 1,2,3; D 1,2…9; P 1,2,3….99)
n = Número de datos o valores X
+1= Suma al número de datos 1 unidad
c = Nº de sectores que tiene el cuantil solicitado Q=4; D=10; P=100
i = Lugar indicado
Xi+1= Valor del lugar indicado + 1 lugar
a) Si el subíndice es entero
Sacar Q1 de lo siguientes datos:
5 - 8 - 10 - 12 - 14 - 16 - 18 - 20 - 25 - 30 - 35
Primer paso: Utilizar la siguiente parte de la fórmula presentada
J(n + 1) 3o observación = 10
Q1 = ----------------- como es entero
C Q1=10
1(11 + 1) 1 ( 12 ) 12
Q1 = ----------------- = ---------------- = -------- = 3
4 4 4
46
b) Si el subíndice es decimal
Sacar Q1 Q2 Q3 D7 y P8 de lo siguientes datos:
2 - 3 - 7 - 15 - 24 - 30
J(n + 1)
Q1 = -----------------
C
1(6 + 1)
Q1 = ----------------- = 1,75 redondear al inmediato inferior = 1
4 i = 1 = 1er lugar de los datos Xi = 2
Segundo paso: Aplicar la fórmula completa

J(n + 1)
CJ = Xi + ------------- - i Xi + 1 - Xi
C
Xi + 1 = 1er lugar + 1 lugar
Q1 = 2 + 1,75 - 1 3 -2 = 2do lugar = 3
Q1 = 2 + 0,75 1
Q1 = 2 + 0,75 = 2,75
Q1 = 2,75
2 - 3 - 7 - 15 - 24 - 30
J(n + 1)
Q2 = -----------------
C
2(6 + 1)
4 i = 3 = 3er lugar de los datos Xi= 7
J(n + 1)
CJ = Xi + ------------- - i Xi + 1 - Xi
C
Q2 = 7 + 3,5 - 3 15 - 7 = 4to lugar = 15
47
Q2 = 7 + 0,5 8
Q2 = 7 + 4 = 11
Q2 = 11
2 - 3 - 7 - 15 - 24 - 30

J(n + 1)
Q3 = -----------------
C
3(6 + 1)
J(n + 1)
CJ = Xi + ------------- - i Xi + 1 - Xi
C
Q3 = 24 + 5,25 - 5 30 - 24 = 6to lugar = 30
Q3 = 24 + 0,25 6
Q3 = 24 + 1,5 = 25,5
Q3 = 25,5
Sacar D7 de lo siguientes datos:
2 - 3 - 7 - 15 - 24 - 30

J(n + 1)
D7 = -----------------
C
7(6 + 1)
D7 = ----------------- = 4,9 redondear al inmediato inferior = 4
J(n + 1)
CJ = Xi + ------------- - i Xi + 1 - Xi
C
D7 = 15 + 4,9 - 4 24 - 15 = 5to lugar = 24
48
D7 = 15 + 0,9 9
D7 = 15 + 8,1 = 23,1
D7 = 23,1
Sacar P80 de lo siguientes datos:
2 - 3 - 7 - 15 - 24 - 30

J(n + 1)
P80 = -----------------
C
80(6 + 1)
P80 = ----------------- = 5,6 redondear al inmediato inferior = 5
J(n + 1)
CJ = Xi + ------------- - i Xi + 1 - Xi
C
P80 = 24 + 5,6 - 5 30 - 24 = 6to lugar = 30
P80 = 24 + 0,6 6
P80 = 24 + 3,6 = 27,6
P80 = 27,6
49
6.7 Cuantiles de datos agrupados
Se utiliza la siguiente fórmula genérica
Con los siguientes datos de hematocrito obtener D 9
Xi fi Fi
30 - 34 3 3
35 - 39 8 11
40 - 44 11 22
45 - 49 9 31Fi-1
50Li - 54 4fi 35
35
J(n / c) – Fi - 1
CJ = Li + -------------------- *a
fi

n
D9 = J -------
c
35
D9 = 9 ------- = 31,5 Remarco la “Fi” inmediata superior a 31,5 (35)
10

31,5 – 31
D9 = 50 + -------------- * 5
4
0,5
D9 = 50 + -------------- * 5
4
D9 = 50 + 0,125 *5
D9 = 50 + 0,625
D9 = 50,625
50
Con los siguientes datos de hematocrito obtener P 76
Xi fi Fi
30 - 34 3 3
35 - 39 8 11
40 - 44 11 22 Fi-1
45 Li - 49 9 fi 31
50 - 54 4 35
35
J(n / c) – Fi - 1
CJ = Li + -------------------- *a
fi
n
P76 = J -------
c
35
P76 =76 ------- = 26,6 Remarco la “Fi” inmediata superior a 26,6 (31)
100
26,6 – 22
P76 = 45 + -------------- * 5
9
4,6
P76 = 45 + -------------- * 5
9
P76 = 45 + 0,51 *5
P76 = 45 + 2,55
P76 = 47,55
51
A.3. MEDIDAS DE DISPERSIÓN O VARIACIÓN
7 Rango, Desviación Media, Varianza,

Desviación Estándar, Coeficiente de variación
7.1 Introducción
Las medidas de tendencia central, como se ha visto anteriormente, nos presentan

información sobre el comportamiento de los datos a través de un valor que tiende a
ubicarse en un punto más o menos central. Sin embargo, no nos proporciona información
sobre la dispersión o “esparcimiento” que puedan tener los datos observados en su
conjunto. Ej.: Si tenemos como información que en dos cursos se tuvo un
aprovechamiento de 60 puntos de promedio sobre 100 en cada curso, ¿Qué conclusiones
podemos obtener en base a esta información? Seguramente que en ambos cursos el
aprovechamiento es el mismo. Surge, entonces, la necesidad de complementar una
medida de tendencia central con una medida de dispersión para tener una información
más amplia sobre el conjunto de datos que está en análisis.
El grado en que los datos numéricos tienden a extenderse alrededor de algún valor medio
se llama variación o dispersión. Una medida de dispersión es importante desde dos
puntos de vista:
a) Puede utilizarse para mostrar el grado de variación entre los valores de los datos
observados; así una pequeña dispersión en las calificaciones de un grupo de
alumnos, indicará que son aproximadamente iguales en su rendimiento; por otro
lado, una dispersión mayor, dará a entender de que los alumnos son muy
desiguales en su rendimiento.
b) En segundo lugar, puede emplearse para complementar un promedio, para
describir un conjunto de datos o para comparar una serie de informaciones con
otra. Cuando la dispersión es baja, el valor promedio se vuelve altamente
significativo, en cambio, si la dispersión es alta, la media (o la medida de tendencia
central) se vuelve poco o nada representativa.
Para calcular las variaciones se toma como referencia un punto central de los valores,
observados, es decir, alguna de las medidas de tendencia central. En la práctica, resulta
de mucha aplicación la medida de dispersión calculada en torno a la media aritmética.
Entre las de mayor aplicación se tienen:
 El recorrido
 La desviación media
 Varianza
 Desviación estándar.
52
7.2 Rango ó Recorrido
Una de las medidas más simples de dispersión es el recorrido, llamada también, rango
o amplitud total y, es la diferencia entre los valores máximo y mínimo del conjunto de
datos. Como ejemplo, supóngase que se tienen dos grupos de 7 niños sean estos A y
B y que ambos tengan una media de 6 años; si solo tenemos esta información
podremos decir que entre ambos grupos no existe ninguna diferencia; pero si nos dan
la información adicional de las edades extremas tenemos: Grupo A se tiene entre 2 y
10 años y en el grupo B se tiene entre 5 y 7 años, se observa claramente que, aunque
ambos grupos tienen la misma media, son muy diferentes por la variabilidad de las
edades, veamos lo siguiente:
 Grupo A: 10 – 2 = 8 años de recorrido
 Grupo B: 7 – 5 = 2 años de recorrido
Grupo Θ Θ Θ Θ Θ Θ Θ
A 1 2 3 4 5 6 7 8 9 10
Grupo ΘΘ ΘΘ ΘΘ
B 1 2 3 4 5 Θ 7 8 9 10
6
Esta observación nos indica que en el grupo A las edades de los niños están
distribuidas entre 10 y 2 y en el grupo B, entre 7 y 5 años.
Sin embargo, esta medida, solo considera los datos extremos, razón por la cual
no nos informa sobre la forma cómo están distribuidos los datos en su conjunto
(datos intermedios)
Para calcular el recorrido se desarrolla la siguiente fórmula:
Recorrido = X máx. – X min.
Ejercicio 1:
a) 4, 5, 5, 6, 7 Rec. = 7 – 4 = 3
b) 60, 30, 80, 90, 100 Rec. = 100 – 30 = 70
7.3 Desviación media (DM)
Otra medida de dispersión es la desviación media que incluye todos los datos en el
cálculo y es la media de los desvíos (o diferencias ) con relación de algún valor
central, tales como la media, mediana o moda. Cuando se toma la media como valor
central, se tiene la desviación media, es decir la media aritmética de los desvíos
53
alrededor de la media. Si se toma la mediana como valor central, se tiene la desviación

mediana, etc.
Como teóricamente la suma de los desvíos con relación a la media es nula (cero),
para el cálculo de la desviación media, se toman los desvíos en valores absolutos (sin
sus signos)
7.3.1 La desviación media en datos no agrupados:
∑( )
DM =
Ejercicio 2: Calcular la DM de los siguientes datos de número de hijos: 4,

4, 5, 7
Pasos Procedimiento
1º Se calcula la media aritmética 1º

ΣX
X =
n
4+4+5+7 20
= = =5
4 4
2º Se determina el valor absoluto 2º Σ (Xi - X )

de las diferencias o desvíos de
cada valor que toma la variable = (4-5) , (4-5) , (5-5) , (7-5) =
con respecto a su media (sin = (-1) , (-1) , ( 0 ) , ( 2 ) =
tomar en cuenta el signo = 1 , 1 , 0 , 2 =
negativo).
3º Se suman los valores 3º Σ 1+1 +0+2 = 4

absolutos
4º El resultado anterior se divide 4º 4

entre el Nº de casos DM = = 1
observados, obteniéndose de 4
esta manera el resultado final.
54
Desarrollando la fórmula tenemos:
Σ (Xi - X ) (4-5) + (4-5) + (5-5) + (7-5) (-1)+(-1)+(0)+(2)

DM = = = =
n 4 4
1 + 1 + 0 +2 4
DM = = = 1
4 4
7.3.2 Desviación media cuando se tienen datos agrupados:
Para el cálculo de la desviación media en datos agrupados se desarrolla la

siguiente fórmula:
Σ ( Xi - X ) fi
DM =
n
7.3.2.1 En datos agrupados con clase única
Ejercicio 3: Sacar la desviación Media, de los siguientes datos agrupados.

( El valor de la media aritmética aplicando el procedimientos aprendido es de 5,36)
Pasos Procedimientos
1º Se determina el valor absoluto 1º Sin
de cada diferencia entre los signo
valores que toma la variable y su Calif Frec.
Absol. Xi - X (Xi - X)
media aritmética Xi fi
Media aritmética =5,36 3 1 3-5,36=-2,36 2,36
4 5 4-5,36=-1,36 1,36
5 8 5-5,36= 0,36 0,36
6 6 6-5,36= 0,64 0,64
7 5 7-5,36= 1,64 1,64
2º
2º Según nos indica la fórmula, los Calif Frec.
valores absolutos de las Absol. (Xi - X) Σ(Xi - X)fi
diferencias se multiplican por las Xi fi
frecuencias absolutas y dichos 3 1 2,36 2,36X1=2,36
productos parciales deben 4 5 1,36 1,36X5=6,8
5 8 0,36 0,36X8=2,88
sumarse
6 6 0,64 0,64X6=3,84
7 5 1,64 1,64X5=8,2
Σ n= 25 24,08
3º 24,08
3º Para obtener el resultado final, DM = = 0,96
la suma anterior se divide entre el 25
total de casos
55
Aplicando la fórmula: (Obviando algunos pasos que se dan por sobre entendido).
Calif Frec.
Absol. (Xi - X) (Xi - X)fi
Xi fi
3 1 2,36 2,36
4 5 1,36 6,8
5 8 0,36 2,88
6 6 0,64 3,84
7 5 1,64 8,2
Σ n=25 24,08
Σ ( Xi - X ) fi 24,08
DM = = = 0,96
n 25
7.3.2.2 En datos agrupados con intervalos de clase
Para el cálculo de la desviación media de datos agrupados con intervalos de clase,

se siguen los mismos pasos que en el caso anterior, teniéndose cuidado de
determinar, previamente, el punto medio de los intervalos, que reemplazará en la
fórmula Xi
Se enfatiza que, para desarrollar la fórmula en forma previa (como operación

auxiliar), debe calcularse la media aritmética.
Ejercicio 4: Sacar la Desviación Media de los siguientes datos donde la media es

de 4,78, según el cálculo del procedimiento aprendido.
Calif. Punto Frecuencia

medio Absoluta X’ - X (Xi - X) (Xi – X) fi
Xi X’ fi
Σ 2-3 2,5 3 2,5 – 4,78 = -2,28 2,28 2,28 X 3 = 6,84
25 3-4 3,5 4 3,5 – 4,78 = -1,28 1,28 1,28 X 4 = 5,12
4-5 4,5 6 4,5 – 4,78 = -0,28 0,28 0,28 X 6 = 1,68
5-6 5,5 7 5,5 – 4,78 = 0,72 0,72 0,72 X 7 = 5,04
6-7 6,5 5 6,5 – 4,78 = 1,72 1,72 1,72 X 5 = 8,6
27,28
Σ ( Xi - X ) fi 27,28
DM = = = 1,09
n 25
56
7.4 Varianza y Desviación estándar
Una de las medidas de dispersión de mayor utilidad dentro de un análisis estadístico,

es la desviación estándar, que es una medida que considera qué tan lejos de la
media están localizados cada uno de los valores observados y se la define como la
raíz cuadrada positiva de la varianza. Una medida que en cierto modo es previa a la
desviación estándar, es la varianza. La ventaja de estas medidas a diferencia de la
DM es que toman a las diferencias con sus respectivos signos.
Muy importante a tomar en cuenta:
Cuando se toman a todos los elementos de la población se emplean los símbolos

σ2 y σ para indicar la varianza y desviación estándar poblacional; en cambio, si los
datos provienen de una muestra, se emplearán S 2 y S para indicar la varianza y
desviación estándar muestral respectivamente.
7.4.1 La varianza y desviación estándar con datos no agrupados
Para el cálculo de estas medidas se deben desarrollar las siguientes fórmulas:
Fórmula para sacar varianza:
Σ ( Xi – X )2
σ2 =
N
Fórmula para sacar desviación estándar:
Σ ( Xi – X )2
σ=
N
Ejercicio 5: Calcular σ2 y σ en base a los siguientes datos: 4, 4, 5, 7

X=5
(Antes de aplicar la fórmula se debe calcular la media aritmética)
Pasos Procedimiento
Desarrollando las operaciones

que nos indica la fórmula:
1º Se calcula la diferencia entre 1º (4 - 5), (4 - 5), (5 - 5), (7 - 5)

cada valor de la variable en
relación a su media = (-1), (-1), (0), (2)
57
2º Se eleva al cuadrado cada 2º = (-1)2, (-1)2, (0)2, (2)2

diferencia
3º Se suman los resultados 3º 1+1+0+4

anteriores para luego dividir σ2 = = 1,5 Varianza
entre el total de casos 4
4º El resultado anterior es la 4º
varianza, para calcular la σ = √ 1.5 = 1,2247 = 1,2 Desvia-
desviación estándar se extrae ción estandar
la raíz cuadrada positiva
7.4.2 La varianza y desviación estándar con datos agrupados
Para el cálculo de la varianza y desviación estándar de datos agrupados, se deben

desarrollar las siguientes fórmulas:
Fórmula varianza:
Σ ( Xi – X )2 fi
σ2 =
n
Fórmula desviación estándar:
Σ ( Xi – X )2 fi
σ=
n
58
Ejercicio 6: Con datos agrupados con clase única.
Tomando en cuenta que la media aritmética según el procedimiento

aprendido es de 5,36.
Pasos Procedimiento
1º Se calcula la diferencia 1º
entre los distintos valores Calif. Frecuencia
que toma la variable en Absol. (Xi - X)
relación a su media. Xi fi
3 1 3 – 5,36 = -2,36
4 5 4 – 5,36 = -1,36
5 8 5 – 5,36 = -0,36
6 6 6 – 5,36 = 0,64
7 5 7 – 5,36 = 1,64
2º Los resultados anteriores 2º

se elevan al cuadrado Calif. Frecuencia
Absol. (Xi - X)2
3 1 - 2,362 = 5,57
4 5 - 1,362 = 1,84
5 8 - 0,362 = 0,13
6 6 0,642 = 0,41
7 5 1,642 = 2,69
3º
3º Los resultados anteriores Calif. Frec.
se deben multiplicar por Absol. (Xi - X)2 (Xi - X)2 fi
las frecuencias absolutas Xi fi
que les corresponde y, se 3 1 5,57 5,57 X 1 = 5,57
suman productos 4 5 1,84 1,84 X 5 = 9,2
5 8 0,13 0,13 X 8 = 1,04
6 6 0,41 0,41 X 6 = 2,46
7 5 2,69 2,69 X 5 = 13,45
Σ 25 31,72
4º El resultado anterior se 4º
divide entre el total de 31,72
casos, siendo este σ2 = = 1,27 Varianza
resultado, la varianza 25
5º De acuerdo a la fórmula, la 5º σ = √ 1,27 = 1,13 Desviación

desviación estándar será Estándar
la raíz cuadrada positiva
de la varianza.
59
Ejercicio 7: La varianza y desviación estándar con datos agrupados

con intervalos de clase.
Para el cálculo de la varianza y desviación estándar se desarrollan los mismos pasos

que en el caso anterior, sólo, debiendo previamente determinar el punto medio de
cada intervalo.
No. Punto Frecuen.

hijos medio Absol. (X’ - X) (Xi - X)2 (Xi - X)2 fi
Xi X’ fi
1–2 1,5 8 1,5 – 4,75 = -3,25 10,6 10,6 X 8 = 84,8
3–4 3,5 12 3,5 – 4,75 = -1,25 1,56 1,56 X 12 = 18,72
5–6 5,5 7 5,5 – 4,75 = 0,75 0,56 0,56 X 7 = 3,92
7–8 7,5 13 7,5 – 4,75 = 2,75 7,6 7,6 X 13 = 98,8
Σ 40 206,24
Σ ( X’ – X )2 fi 206,24
σ2 = = = 5,16 Varianza
n 40
Σ ( X’ – X )2 fi
σ= = √ 5,16 = 2,27 Desviación Estándar
n
7.5 Coeficiente de Variación
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida
de dispersión relativa de los datos y se calcula dividiendo la desviación estándar
muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que
nos permite comparar la dispersión o variabilidad de dos o más grupos. El coeficiente
de variación se utiliza para comparar la homogeneidad de dos series de datos, aún
cuando estén expresados en distintas unidades de medida.
Se debe destacar que a medida que el Coeficiente de variación disminuye, se observa

una mayor homogeneidad en los datos o lo que es lo mismo, los datos están más
concentrados alrededor del promedio.
Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media
es de 69,6 kg. y su desviación estándar (S) = 10,44 kg y la Talla de los mismos (150,
170, 135, 180 y 195 cm) cuya media es de 166 cm y su desviación estándar de 21,3
cm. La pregunta sería: ¿qué distribución es más dispersa, el peso o la talla? Si
60
comparamos las desviaciones estándar observamos que la desviación estándar de la

talla es mucho mayor; sin embargo, no podemos comparar dos variables que tienen
escalas de medidas diferentes, por lo que calculamos los coeficientes de variación:
Respuesta: La distribución más dispersa es la del peso.
Resumen de fórmulas – Medidas de dispersión
Medidas de Datos no Datos agrupación Datos agrupación

dispersión agrupados simple con intervalo
Rango R = Xi máximo – Xi mínimo
Desviación ∑( ) ∑( )∗ ∑( )∗
media DM = DM = DM =
Varianza ∑( ) ∑( ) ∗ ∑( ) ∗
S2 = S2 = S2 =
Desviación 2 ∑(
2 ′ 2
∑( − ) − ) ∗ ∑( − ) ∗
estándar S =√ S =√ S=√
61
A4. MEDIDAS DE FORMA
8 Coeficiente de asimetría
y curtosis
8.1 Coeficiente de asimetría

Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (Media aritmética). La asimetría presenta tres estados
diferentes como vemos en la siguiente figura; cada uno de los cuales define de forma
concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la
asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor
de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la
misma cantidad de valores en ambos lados de la media y se conoce como asimetría
negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que
la media.
Curva de asimetría Curva Curva de asimetría

positiva simétrica negativa
El Coeficiente de asimetría, se representa mediante la siguiente ecuación matemática:
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores,
( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta
ecuación se interpretan:
62
a) (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe

aproximadamente la misma cantidad de valores a los dos lados de la media. Este
valor es difícil de conseguir por lo que se tiende a tomar los valores que son
cercanos ya sean positivos o negativos (± 0.5).
b) (g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a
reunir más en la parte izquierda que en la derecha de la media.
c) (g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a
reunir más en la parte derecha de la media
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia
que separa la aglomeración de los valores con respecto a la media.
8.2 Curtosis
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).
Para calcular el coeficiente de Curtosis se utiliza la fórmula:
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la
media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se
interpretan:
63
a) (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante

difícil encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar
los valores cercanos (± 0.5 aprox.).
b) (g2 > 0) la distribución es Leptocúrtica
c) (g2 < 0) la distribución es Platicúrtica
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y
un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es
de suma importancia ya que para la mayoría de los procedimientos de la estadística de
inferencia se requiere que los datos se distribuyan normalmente.
La principal ventaja de la distribución normal radica en el supuesto que el 95% de los

valores se encuentra dentro de una distancia de dos desviaciones estándar de la media
aritmética; es decir, si tomamos la media y le sumamos dos veces la desviación y
después le restamos a la media dos desviaciones, el 95% de los casos se encontraría
dentro del rango que compongan estos valores.
64
B. BIOESTADISTICA INFERENCIAL
La definimos como rama de la estadística inferencial que utiliza un conjunto de métodos

que, apoyándose en el cálculo de probabilidades y a partir de los datos de una muestra
significativa, permiten generalizar y obtener conclusiones válidas para toda la población
en estudio.
La estadística inferencial resulta de aplicar la probabilidad a los resultados que ya

conocemos por la estadística descriptiva. Los resultados de esa aplicación vendrán
expresados, pues, en lenguaje probabilístico.
El resultado es quizás extraño, difuso pero preciso; y a partir de resultados que logramos
con la estadística inferencial podemos por ejemplo afirmar que: “Existe una asociación
estadísticamente significativa entre el Índice de Salud Municipal y la Mortalidad Materna
(p < 0.001 eso quiere decir con un 99,99 % de probabilidad). Los municipios con un Índice
de Salud Municipal muy bajo tienen una Razón de Mortalidad Materna 5.79 (IC95%: 5.59
– 5.99) veces más alta que los municipios con un ISM Medio”.
Las afirmaciones que nos permite hacer la estadística inferencial tienen un riesgo, y quien
la usa debe saberlo. No es difícil, de todas maneras, porque todas estas afirmaciones
están formuladas en términos de riesgo, de seguridad e inseguridad: de probabilidad.
La inferencia siempre se realiza en términos aproximados y declarando un cierto nivel de

confianza. Por ejemplo, si en una muestra de n = 500 soldados se obtiene una estatura
media X = 172 cm, se puede llegar a una conclusión del siguiente tipo: la estatura media,
de todos los soldados está comprendida entre 171 cm y 173 cm, y esta afirmación se
realiza con un nivel de confianza de un 95%. (Esto quiere decir que se acertará en el 95%
de los estudios realizados en las mismas condiciones que éste y en el 5% restante se
cometerá error.)
Los dos tipos de problemas que resuelven las técnicas estadísticas son “estimación y
contraste de hipótesis”. En ambos casos se trata de generalizar la información obtenida
en una muestra a una población. Estas técnicas exigen que la muestra sea en lo posible
aleatoria.
Sabiendo que la estadística inferencial efectúa cálculos de probabilidad para toda una
población a partir de una muestra, por tanto por aspectos didácticos empezaremos a
estudiar la determinación del tamaño de muestra en el siguiente capítulo.
65
B.1 Muestreo
9
9.1 Introducción
Uno de los propósitos importantes para desarrollar cualquier investigación, es poder

generalizar de una muestra a una población más grande. La calidad y la fiabilidad de los
resultados dependerán principalmente de la calidad y el rigor científico con la que se eligió
la muestra.
Un aspecto fundamental en el diseño de estudios clínicos es la determinación del tamaño

de muestra apropiado. Si el tamaño de muestra es muy pequeño, el estudio tendrá baja
potencia estadística y en consecuencia, las estimaciones serán menos precisas y la
probabilidad de encontrar diferencias significativas entre tratamientos o grupos será
menor. Por otra parte, si el tamaño de muestra es muy grande, se estará haciendo un
mal uso de recursos de investigación y sometiendo a pruebas a más pacientes de los
estrictamente necesarios.
En los dos capítulos que a continuación estudiamos nos referiremos a la clasificación y

aplicación del muestreo y a la determinación del tamaño de muestra.
Pero antes es importante estudiar la terminología y los conceptos que utilizaremos en

estos dos capítulos:
9.2 Individuo:
Se define como la unidad elemental de estudio, que pertenece a una población. Es el

elemento que da origen al valor de las variables. El individuo y/o unidad de estudio puede
ser una persona hombre o mujer, un animal, una planta o un objeto, una historia clínica,
una radiografía, etc.
.
66
En Ciencias de la Salud, no solo vamos a estudiar a las personas, ya que la salud de las
mismas depende de su entorno, de los animales, de las plantas o de los objetos, que
también serán estudiados.
9.3 Población:
Es el conjunto de individuos y/o unidades de estudio; también pueden ser

personas, animales, plantas o cosas.
La población según su número total sea conocido o desconocido, se clasifica en: finita,
si el número de población es conocida e infinita si el número de población es
desconocida.
Esta clasificación es importante para el uso de fórmulas en la determinación de tamaño

de muestra.
9.4 Muestra:
Es la selección de un número de unidades de estudio a partir de una población definida.

Es un aparte importante del diseño y metodología de una investigación, ya que se
encuentra fuertemente relacionado con el grado de generalización que se pueda efectuar
de los resultados obtenidos de un estudio específico.
Al efectuar una investigación existen varias razones para muestrear:
a) Rapidez
b) Costo
c) Factibilidad
d) Exactitud
67
En cuanto a las tres primeras razones, es obvio que existe mayor rapidez y menor costo
en estudiar en estudiar cien personas que mil o más y es mejor hacerlo por situaciones
de recursos humanos, físicos y apoyos logísticos. En cuanto a exactitud, se refiere al
hecho de que a menor volumen de trabajo, es posible emplear personal mejor capacitado
que garantice una medición del fenómeno de interés con mayor precisión y poder
supervisar mejor para producir resultados más exactos.
Para efectuar un muestreo tenemos que responder a tres preguntas:
a) ¿Cuál es la población en estudio?

b) Cuántas personas se requieren en la muestra?
c) ¿Cómo seleccionar la muestra?
Una muestra debe ser:
a) Representativa: Que implica todas las características importantes de la población

de la que se tomó, en proporciones similares. Esto es para que el investigador
pueda hacer inferencias válidas respecto a toda la población de donde obtuvo su
muestra, es decir que pueda cubrir uno de los requisitos para transpolar los
resultados de su muestra hacia la población de donde la obtuvo.
b) Adecuada: Se refiere a su tamaño y viene a responder a la segunda pregunta. Se

calcula con diversas fórmulas establecidas de acuerdo a si el estudio busca una
proporción existente en una población, diferencias entre las medias o diferencias
entre las proporciones de dos poblaciones. Para responder a la tercera pregunta,
hay que conocer los diferentes métodos de muestreo, que en éste capítulo
estudiaremos.
68
Población
Muestra
Los elegidos de la muestra no pueden hacerse por voluntad propia, en lo posible deben
elegirse al azar.
Si de esta población de 38 personas debemos elegir 3 a quienes elegimos?
2 4 6 8 1 1 1 1 1
1 3 5 7 9 0 1 2 1 4 1 6 1 8 1
1 3 5 7 9
2 2 2 2 2 3 3 3 3
2 1 2 3 2 5 2 7 2 9 3 1 3 3 3 5 3 7 3
0 2 4 6 8 0 2 4 6 8
Para escoger y saber quiénes son los elegidos, existen 2 tipos de muestreo que se
pueden utilizar: Probabilístico y no probabilístico.
69
9.4.1 Tipos de muestreo
9.4.1.1 Muestreo probabilístico:
Donde todos los individuos de la población en igualdad de condiciones, tienen las

mismas probabilidades de formar parte de la muestra.
9.4.1.2 Muestreo no probabilístico:
Donde los individuos de la población a ser elegidos, se incorporan por criterios personales
o subjetivos del investigador.
Ambos tipos de muestreo se clasifican en:
1. Aleatorio simple
A. Probabilístico
2. Aleatorio sistemático
Tipos de muestreo
3. Muestreo estratificado
4. Muestreo por conglomerados
5. Muestreo unietápico
6. Muestreo polietápico
B. No Probabilístico
1. Muestreo accidental
2. Muestreo intencional o de conveniencia
3. Muestra de voluntarios
En lo posible es mejor utilizar los probabilísticos porque estadísticamente tienen mejor

sustento y confiabilidad; ya que los no probabilísticos tienden a presentar sesgos
indeseados de información, que pueden confundir en los resultados.
A continuación iremos describiendo cada uno de los tipos de muestreo probabilístico

llamados también aleatorios
70
A. Probabilístico ó Aleatorio
a) Método de la urna:
Una manera sencilla aunque poco
práctica de obtener una muestra
1. Aleatorio Simple
aleatoria es la técnica “de la urna”.

Consiste en colocar en una urna, fichas
con los nombres o números de cada
elemento de la población y luego de
mezclarlos adecuadamente, se extrae
tantos elementos como haya de tener la
muestra que se ha decidido escoger.
Debido a esta mezcla cuidadosa antes de
cada extracción, cada elemento tiene la
misma posibilidad de ser seleccionado.
b) Uso de la tabla de dígitos aleatorios:
Estas tablas de números aleatorios, están distribuidos al azar, que empezando en

cualquier punto de la tabla continuando hacia arriba, abajo, a la derecha o izquierda se
obtienen los números aleatorios deseados. Como en el ejemplo anterior si la población
71
es de 38 y debemos elegir a 3 personas, empezamos en el número 12, y seguimos a la

derecha; los siguientes dos números dejando los mayores de 38, obtenemos el 27 y 5;
por tanto siendo elegidas las personas marcadas con los números 12, 27 y 5.
2 4 6 8 1 1 1 1 1
1 3 5 7 9 0 1 2 1 4 1 6 1 8 1
1 3 5 7 9
2 2 2 2 2 3 3 3 3
2 1 2 3 2 5 2 7 2 9 3 1 3 3 3 5 3 7 3
0 2 4 6 8 0 2 4 6 8
También es posible, utilizar un medio informático, como el STATStm v.2 u otros, dónde
es preciso introducir el tamaño de la muestra, el número límite inferior (que en nuestro
ejemplo anterior es 1) y el número límite superior (que en nuestro ejemplo es 38)
35
10
30
Introduciendo los datos en la computadora, observamos que los elegidos de la muestra

son las personas que están numeradas con el 35, 10 y 30 las cuales serán sujetas del
estudio de investigación
72
2 4 6 8 10 12 14 16 18
1 3 5 7 9 11 13 15 17 19
21 23 25 27 29 31 33 35 37
20 22 24 26 28 30 32 34 36 38
Población = 38 personas
Muestra = 3 personas
35
10
30
Muestra
2. Aleatorio Sistemático
Para lograr el intervalo muestral se divide la

población total entre el número de
muestra.
Ejemplo:
Población 2000 personas
Muestra 100 personas
Intervalo muestral = 20
Empezar con un número entre 1 y 20 y luego

sumar 20 hasta llegar a la muestra 100
73
Se divide a la población por estratos.
3. Muestreo estratificado Ejemplo:

1º, 2º y 3º año de la Facultad de Medicina.
De acuerdo al número sacar porcentajes
Población total: 1200

Muestra: 120
1º 600 alumnos = 50 % → 60 alumnos
TOTAL: 100% →120 alumnos
4. Muestreo por conglomerados
Se divide a la población, igual que en el anterior

caso, por estratos o conglomerados.
Ejemplo: Barrios, municipios
Se pueden escoger los barrios o municipios por
muestreo y las personas de estos también por
muestreo en proporción al tamaño.
74
5. Muestreo unietápico
Se toma en cuenta el muestreo en una sola

etapa.
Ejemplo: Solo Facultades de una Universidad
6. Muestreo Polietápico
Se toma en cuenta el muestreo en varias etapas.

Ejemplo:
Primero Facultades y luego cursos y alumnos
75
Tipos de muestreo
B. No Probabilístico o No Aleatorio
1. Muestreo Accidental Significa recoger datos de cualquier persona

que pasa por la calle, u otro lugar bajo ninguna
norma establecida.
CUIDADO ¡ Genera sesgos!
2. Muestreo intencional o de
Procurando que la muestra sea representativa.

conveniencia
Las personas seleccionadas tienen conocimiento

sobre el tema
76
3. Muestreo por cuota Dando igualdad de oportunidades en la

investigación a los involucrados
Ejemplo:
Muestra de 200 personas:
50 % de mujeres y 50 % de hombres
4. Muestreo de voluntarios
Muy utilizado en Medicina experimental.

Bajo el consentimiento voluntario de las
personas y aceptación de las condiciones y
riesgos
77
B.2 Determinación del tamaño de muestra

10
10.1 Introducción
Todo estudio de investigación lleva implícito en la fase de diseño la determinación del

tamaño muestral, necesario para la ejecución del mismo. El no realizar dicho proceso,
puede llevarnos a dos situaciones diferentes: primera que realicemos el estudio sin el
número adecuado de pacientes, con lo cual no podremos ser precisos al estimar los
parámetros y además no encontraremos diferencias significativas cuando en la realidad
sí existen. La segunda situación es que podríamos estudiar un número innecesario de
pacientes, lo cual lleva implícito no solo la pérdida de tiempo e incremento de recursos
innecesarios sino que además la calidad del estudio, dado dicho incremento, puede verse
afectada en sentido negativo.
Una pregunta frecuente que reciben los investigadores es: ¿Qué porcentaje de la
población es una buena muestra? Desgraciadamente, no hay una respuesta satisfactoria
para todos los casos; el tamaño apropiado de muestra está determinado por diversos
factores, por lo que el tamaño óptimo debe ser determinado en cada caso, teniendo en
cuenta las particularidades del estudio.
En estadística el tamaño de la muestra es el número de sujetos que componen la

muestra extraída de una población, necesarios para que los datos obtenidos sean
representativos de la misma.
10.2 Parámetros para el cálculo de tamaño de muestra
Los parámetros que se toman en cuenta para el cálculo de tamaño de muestra son:
- Nivel de confianza
- Proporción
- Margen de error (Precisión absoluta)
- Valor de Q
- Población o universo de estudio
a) Nivel de confianza
El nivel de confianza lleva como símbolo la letra Z y mide como su nombre indica el
nivel de confianza de un resultado en un estudio de una muestra, que permite
generalizar y que podemos encontrar los mismos datos en el resto de la población al
cual representa la muestra. Por lo tanto por propia lógica un estudio tendrá un nivel
de confianza del 100% si la investigación se realiza en el 100% de población; sin
78
embargo al tratarse solo de una muestra los resultados ya no podrán tener el 100%
de nivel de confianza, ya que éste nivel irá descendiendo a partir de 99% a medida
que se haga más pequeño el tamaño de la muestra.
La recomendación para que los resultados de una investigación tengan una suficiente
significación estadística, el nivel de confianza no debe ser inferior a 90%; por tanto el
nivel de confianza para la determinación de tamaño de muestra va en un intervalo de
90 a 99%.
Cuando se utiliza un paquete estadístico para el cálculo de tamaño de muestra, solo

se debe introducir el porcentaje del nivel de confianza con el que queremos calcular:
sin embargo al utilizar las fórmulas de manera manual, debemos en vez de escribir
el porcentaje de nivel de confianza, anotar el valor de “Z” según el porcentaje de nivel
de confianza según los datos que a continuación se detallan:
90 % 1,65
91 % 1,695
92 % 1,751
93 % 1,812
94 % 1,881
95 % 1,96
96 % 2,054
97 % 2,170
98 % 2,326
99 % 2,576
b) Proporción
La proporción lleva como símbolo la letra “P”. Representa el porcentaje o proporción

de casos que se pretende encontrar en nuestra investigación a partir del porcentaje
o proporción de casos encontrados en otros estudios en poblaciones similares donde
queremos realizar nuestro estudio de investigación.
La revisión bibliográfica hecha en el “Marco Teórico” del protocolo de investigación,

nos brindará la información de resultados o proporciones encontradas en diferentes
latitudes del mundo. Ante la existencia de diferentes resultados por ejemplo si
queremos hacer un estudio de la prevalencia de diabetes en la ciudad de Sucre;
observamos en la literatura que en México en un estudio encontraron un 3% de
diabéticos, en Ecuador 2,5 % y en Tarija 1%; cuál de los 3 datos adoptamos como
valor “P” para la determinación de nuestro tamaño de muestra?; por supuesto de
Tarija ya que es la más cercana a la ciudad de Sucre. También se puede realizar un
estudio piloto previo y lograr una aproximación más real en la propia ciudad de Sucre.
Si no logramos conocer esta proporción o porcentaje en la población
predeterminamos la proporción o porcentaje como 50%.
c) Margen de error (Precisión absoluta)
79
El margen de error lleva como símbolo la letra “d”. Nos habremos dado cuenta que
el valor de proporción estudiado líneas arriba puede ser diferente de un lugar a otro,
e inclusive ser diferente en un mismo lugar en diferentes investigaciones, por tanto el
valor adoptado para la aplicación en nuestro cálculo de tamaño de muestra puede
ser diferente con relación al que encontremos en nuestra investigación futura; por
tanto tratando de amortiguar estas diferencias, así como algunas diferencias en la
lectura e interpretación de resultados en los equipos utilizados, o los posibles errores
humanos, el método estadístico prevé introducir el parámetro “margen de error” que
va entre 1 y 5%.
Cuanto menos sea nuestro margen de error, nuestro tamaño de muestra será mayor,
al contrario, cuanto mayor sea nuestro margen de error nuestro tamaño de muestra
será menor.
d) Valor de Q
El símbolo es el mismo, vale decir “Q”.
Es un valor que se obtiene de la diferencia entre 100 menos el valor de proporción o

“P” que adoptamos
Por ejemplo si para el estudio de diabetes adoptamos la proporción de 1%, entonces

decimos
Q = 100-P = 100 – 1 = 99
Q = 99
Este valor de Q, solo utilizamos cuando aplicamos la fórmula para obtención de

muestra de manera manual y no así con un paquete informático, ya que la propia
computadora calcula automáticamente.
e) Población o universo de estudio
Cuando se va a calcular un tamaño de muestra, ésta muestra sale de una población

de estudio a la que se delimitó previamente.
Esta población puede ser conocida (cuantificada o finita), o de lo contrario, puede ser
desconocida (no cuantificada o infinita).
En función de que ésta población sea infinita o finita, el cálculo de tamaño de muestra
difiere utilizando una fórmula diferente como vemos a continuación:
10.3 Cálculo de tamaño de muestra con población desconocida y conocida
10.3.1 Cálculo de tamaño de muestra con población desconocida y/o universo

infinito
80
Cuando no se conoce el número de población, se utiliza la siguiente fórmula:
Z2 (P * Q)
n=
d2
n = Tamaño de la muestra
Z2 = Nivel de confianza o seguridad buscada
P = Porcentaje o proporción de casos, que se asume existen en la población que nos
interesa estudiar por estudio previos, en el mismo lugar de investigación o en otro
similar. Si no se conoce se asume que existen 50%.
Q = Diferencia del porcentaje o proporción a estudiar. Es decir Q = 100 – P
d = Precisión deseada o margen de error estimado tolerable
Ejercicio:
En cierta población se desea estimar el % de mujeres que usan métodos anticonceptivos.

Que tamaño de muestra se requiere para asegurar con un nivel de confianza del 95 %,
que el error de estimación no sobrepase el 3 %. Estudios previos indican que este
porcentaje o proporción de mujeres que usan métodos anticonceptivos llegan a 25 %.
Z = 95 % = 1,96 1,962 (25 * 75) 3,8416 (1875) 7203

P = 25 % n= = = = 800
Q = 100 – 25 = 75 32 9 9
d =3
El tamaño de muestra es igual a 800 mujeres.
10.3.2 Cálculo de tamaño de muestra con población conocida y/o universo finito
La fórmula que se utiliza para determinar el tamaño de muestra con población conocida
es la siguiente:
n= NZ2 (P * Q)
d2(N-1) + Z2(P * Q)
n = Tamaño de la muestra
N = Población conocida (número de habitantes) del lugar donde se realizará la
investigación.
81
Z2 = Nivel de confianza o seguridad buscada

P = Porcentaje o proporción de casos, que se asume existen en la población que nos
interesa estudiar por estudio previos, en el mismo lugar de investigación o en otro
similar. Si no se conoce se asume que existen 50%.
Q = Diferencia del porcentaje o proporción a estudiar. Es decir Q = 100 – P
d = Precisión deseada o margen de error estimado tolerable
Ejercicio:
En la localidad de “Rio Hondo” de 4500 habitantes mayores de 35 años; se propone

conocer el valor de glicemia de una población mayor de 35 años; para determinar si
es necesario establecer un programa de educación alimentaria.
Existen antecedentes de esta medición en una localidad similar que da una proporción
o porcentaje de hiperglicemia del 14 %.
¿Cuántos sujetos se requieren estudiar, si deseamos tener un margen de error del 2

% y un nivel de confianza de 95 %?
N = 4500
Z = 1,96
P = 14
Q = 100-14 = 86
d=2
4500(1,96)2 (14 * 86) 4500(3,8416) (1204)

n= = =
22(4500-1) + (1,96)2(14 * 86) 4(4499) + (3,8416) (1204)
4500 *4625,29 20.813.805

= 17996 + 4625,29
= 22621,29
= 920
Vale decir que el tamaño de la muestra para este estudio es de 920 personas
A mayor nivel de confianza y menor margen de error, mayor tamaño de muestra.
82
Este mismo cálculo realizado manualmente utilizando los procedimientos indicados,

puede efectuarse haciendo uso informático del “Programa de Análisis Epidemiológico”
EPIDAT versión 3.0 que se incluye el instalador en el presente libro.
Para hacer el cálculo de tamaño de muestra haciendo uso de éste programa de análisis,
se presiona con el botón izquierdo del mouse con la “flecha” en “Métodos”
Inmediatamente se abre un diálogo de 3 ventanas: en la primera que aparece se coloca

la “flecha” sobre “muestreo”, apareciendo una segunda ventana donde la “flecha” se
83
coloca en “Cálculo de tamaño de muestra” y luego en la tercera ventana se presiona el

botón izquierdo del mouse sobre “Proporción”.
Muestreo Cálculo tamaño muestra
Proporción
Inmediatamente aparece otra ventana donde solicita introducir los datos para hacer el
cálculo de tamaño de muestra:
Se introduce cada uno de los datos solicitados, que en el ejemplo anterior tiene un tamaño
poblacional de 4500; una proporción esperada de 14 (el programa utiliza el sistema de
puntuación de punto para indicar una fracción, por tanto aparece 14.000 que quiere decir
84
14 enteros con 000 milésimas, que lo hace automáticamente cuando se introduce el

porcentaje 14); luego se introduce el Nivel de Confianza en términos de porcentaje, que
en nuestro ejemplo es de 95 (el programa añade automáticamente la fracción “.0”;
finalmente se debe introducir el margen de error que el programa utiliza el término
equivalente de “Precisión absoluta” que en nuestro ejemplo es de 2 % (automáticamente
el programa introduce la fracción “.000”).
En el recuadro de “Precisión absoluta” aparece para introducir un margen de error

mínimo y otro máximo, que sirve para calcular un tamaño de muestra con los mismos
parámetros pero con 2 diferentes márgenes de error que siempre van de 1 a 5%. La
ventana que dice “Incremento” simplemente indica automáticamente la diferencia entre
el margen de error mínimo y máximo.
La frase “Efecto de diseño” que aparece automáticamente no se toma en cuenta.
Como podemos observar; con los parámetros introducidos, que son los mismos, los
utilizados en forma manual; el cálculo de tamaño de muestra obtenido en pocos segundos
es también de 920 personas. Por lo tanto comprobamos que el Programa de Análisis
Epidemiológico, obtiene exactamente el mismo resultado, ahorrando mucho tiempo sin
opciones de errores de procedimiento.
Potencia estadística y tamaño muestral
La potencia estadística se refiere a la capacidad de detectar una asociación de interés

en el marco de un error de muestreo. Supongamos que hay una verdadera asociación de
cierta magnitud y grado, pero por culpa del azar nuestros estudios observarán la
asociación como más débil o más fuerte.
Para estar razonablemente seguros que nuestro estudio detectará la asociación, el

estudio tiene que ser suficientemente grande para que el error de muestreo sea
controlado.
85
En términos generales, los estudios grandes son potentes, los estudios pequeños son
débiles. El concepto de “sesgo de los estudios pequeños” ilustra la importancia de
comprender la potencia estadística cuando se interpretan investigaciones
epidemiológicas.
En la experiencia académica, para demostrar y hacer entender mejor al estudiante de

“Metodología de investigación” la relación entre el tamaño muestral y la potencia
estadística, haciendo uso del “Programa para análisis epidemiológico de datos tabulados
versión 3.0 “EPIDAT”, procedemos a realizar cálculos de tamaño de muestra con
diferentes parámetros: Nivel de confianza, y margen de error ó precisión absoluta, para
una misma población o universo y proporción esperada; en el supuesto de querer realizar
un estudio de investigación sobre el uso de servicios de emergencia durante la gestión
2011, en un barrio de la ciudad de Sucre; donde existe una población de 680 personas,
con el antecedente de que en otro barrio de la ciudad de Sucre se logró determinar que
el 10 % de la población hacía uso de éste servicio:
Cálculo 1 Cálculo 2
N = 680 Tamaño de N = 680 Tamaño de
Z = 90 Muestra Z = 99 Muestra
d=5 d=5
p = 10 n = 86 p = 10 n = 177
Cálculo 3 Cálculo 4
N = 680 Tamaño de N = 680 Tamaño de

Z = 90 Muestra Z = 99 Muestra
d=1 d=1
p = 10 n = 532 p = 10 n = 611
Con estas determinaciones de tamaño de muestra, podemos concluir diciendo que a

menor nivel de confianza (90%) y mayor margen de error (5%), como en el “cálculo 1”,
nuestro tamaño de muestra es de solo 86 personas (poco recomendable), ya que nuestra
investigación tendrá muy poca potencia estadística.
Sin embargo si aumentamos el nivel de confianza a 99 % y bajamos el margen de error

a solo 1% como en el “cálculo 4”, logramos la máxima potencia estadística, y como
podemos advertir el tamaño de muestra aumenta a 611 personas.
A mayor tamaño de muestra, mayor potencia estadística, a menor tamaño de muestra

menor potencia estadística; bajo este concepto si quisiéramos un nivel de confianza del
100% que sería lo ideal, tendríamos que realizar la investigación en el total de población.
86
B.3 Nociones básicas de

11 Distribución Normal
11.1 Introducción
En estadística y probabilidad se llama “distribución normal”, distribución de Gauss o

distribución gaussiana, a una de las distribuciones de probabilidad de variable continua
que con más frecuencia aparece en fenómenos reales.
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto

de un determinado parámetro. Esta curva se conoce como campana de Gauss.
A continuación observamos como ejemplo de distribución normal de triglicéridos en

alumnos de la Facultad de Medicina:
Distribución de triglicéridos en
alumnos de la Carrera de Medicina
120
100
Alumnos
80
60
40
0 75 100 150 200 250 300
Triglicéridos mg/dl
Un problema frecuente en el campo de la medicina, es poder saber si un individuo está

sano o enfermo, sobre la base de observaciones a pacientes sanos.
87
Por ejemplo: consideramos normal que un adulto tuviera una presión arterial sistólica de
130 mm de mercurio y anormal que tuviera una presión sistólica de 210 mm de mercurio.
Para establecer los límites entre lo normal y patológico es necesario conocer la

distribución de la variable en estudio en individuos normales.
11.2 Características de la distribución normal
El gráfico que se utiliza para representar una distribución de frecuencias es el histograma,

que unidos sus puntos superiores forma la campana.
El gráfico de la distribución normal semeja una campana simétrica. La media, la mediana

y la moda de la distribución tiene el mismo valor. La distribución queda completamente
definida por el promedio y la desviación estándar.
S S S X S S S
68,27 %
95,45 %
99,73 %
88
X – 1S y X + 1S = 68,27 %
X – 2S y X + 2S = 95,45 %
X – 3S y X + 3S = 99,73 %
Ejemplo: Tenemos una distribución normal de

población por edad, donde el promedio es de 42
años y la desviación estándar es de 5 años.
Sobre la base de esta información podemos
afirmar que:
a) Aproximadamente el 68 % de los individuos
tienen una edad entre 37 y 47 años
Es decir:
X–1S X + 1S
42 – 5 = 37 años 42+ 5 = 47 años
1S, 2S y 3S quiere decir sumar o restar (±) el valor de la desviación estándar

multiplicado por 1, 2 o 3.
11.3 Cálculo de áreas
Para calcular el área bajo la curva normal de determinado valor de la variable “x”
se han construido tablas de áreas de la distribución normal con las siguientes
características:
1. El área total bajo la curva normal es igual a 1 (que equivale al 100 %)
2. Por la simetría a partir de cero (media estandarizada) hacia la derecha como a

la izquierda es igual a 0,5 (ó 50% del área), haciendo entre ambos igual a 1 ó
100 %.
3. En la tabla la 1ª columna contiene al entero y y decimal, el segundo decimal se

encuentra en la parte superior (1ª fila)
89
4. Los valores de la 1ª columna y la 1ª fila representan los valores de Z, mientras

que los valores comprendidos en el área, representan las probabilidades.
90
CALCULO DE AREAS
Ejemplos de aplicación de la tabla de curva

normal:
Z = 0,9 = 0,1841 = 18,41 %
Z= 1,53 = 0,0630 = 6,3 %
Z = 2,99 = 0,0014 = 0,14 %
CALCULO DE AREAS
Para calcular el área bajo la curva normal a
partir de determinado valor de la variable “x”,
es necesario tranaformar la variable original en
que están dados los datos, de manera que su
promedio y su desviación estándar tengan
estos valores. Esta variable transformada se
llama variable normal estándar y se simboliza
por “Z” ó sea:
X-X
Z = -------------
S
91
CALCULO DE AREAS
X-X
Z = -------------
S
Donde:
Z = Nº de desviaciones estándar a partir de la media
X = Algún valor de interés
X = Media aritmética de la distribución normal
S = Desviación estándar de la distribución normal.
CALCULO DE AREAS
Ejemplo: Supongamos que frente a una determinación de
hematocrito en la sangre tengamos que decidir si este
valor es normal o no. Aceptamos que el hematocrito tiene
distribución normal con promedio de 48 % y desviación
estándar de 4 %. Supongamos que en un paciente se
encuentra un valor de 56 %. ¿Cuál es la probabilidad de
que esto ocurra estando sano?
X = 48 56 – 48 8
X-X
Z = ------- Z = ----------- = ----- = 2 Z = 2,00
S S=4
4 4
X = 56
Esto quiere decir que el hematocrito de 56 %
se encuentra a 2 desviaciones estándar del
promedio.
92
CALCULO DE AREAS
En la tabla de la distribución normal, el área
correspondiente al valor anotado en la intersección
de la fila correspondiente a 2,00 de la primera
columna y la columna correspondiente a 0,00 en la
primera fila es de 0,0228.
Esto significa que según el modelo de la
distribución normal, la probabilidad de encontrar
hematocritos iguales o superiores a 56 % es igual
a 0,0228; ó bien multiplicando este valor por 100 es
igual a 2,28 % lo que quiere decir que es probable
que haya un 2,28 % de individuos sanos con
valores iguales o superiores a 56 % de
hematocrito.
CALCULO DE AREAS
Así mismo la tabla permite calcular otras
probabilidades, como por ejemplo la de encontrar
valores en determinado intervalo de la variable “x”,
para lo cual habrá que tener presente que la
superficie total vale 1.
Pore ejemplo: Quisiéramos conocer la probabilidad
de encontrar valores de hematocrito entre 45% y
50%. Buscamos “Z” para ambos valores:
X = 48
X-X
S=4 Z = -----------
S
X = 45 y 50
93
CALCULO DE AREAS
45 - 48 -3 P1 = 0,2266
Z = --------- = ----- = - 0,75
4 4
50 - 48 2
Z = --------- = ----- = 0,50 P2 = 0,3085
4 4
Sumando las áreas extremas P1 y P2 y restándole a la superficie total “1”,
encontramos la probabilidad buscada:
P1 + P2 =
0,2266 + 0,3085 = 0,5351
1 – 0,5351 = 0,4649
De modo que la probabilidad de encontrar valores entre 45% y 50% de
hematocrito es de 0,4649 ó lo que es lo mismo, que el 46,49 % de los
individuos sanos tenga hematocrito entre 45 y 50 %.
94
B.4 Nociones básicas de probabilidad

12
12.1 Introducción
La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto

de resultados) al llevar a cabo un experimento aleatorio, del que se conocen todos
los resultados posibles, bajo condiciones suficientemente estables. La
probabilidad se usa extensamente en áreas como la estadística, la física, la
matemática, la ciencia y la filosofía para sacar conclusiones sobre la probabilidad
de sucesos potenciales y la mecánica subyacente de sistemas complejos.
La probabilidad de un acontecimiento es igual al cociente entre el número de

casos favorables y el número de casos igualmente posibles.
Ejemplo: Cada lanzamiento del dado, cada uno de las 6

números, tiene 1/6 de probabilidad de salir.
6 Posibles Resultados
1 2 3 4 5 6
1/6 + 1/6 + 1/6 + 1/6 + 1/6 + 1/6 =1
95
NO se conoce de antemano el
Ante un Fenómeno Aleatorio
resultado
¿ Se puede disponer de algún número que mida la posibilidad de

que ocurran cada uno de los sucesos?
Frecuencias y Ley de azar
Consideremos el Fenómeno Aleatorio de “Lanzar una moneda al aire”
0,5 + 0,5 = 1
50 % de probabilidad de lograr cara y 50 % de cruz
50 + 50 = 100 %
96
 Propiedades de la probabilidad
 La suma de las probabilidades de todos los sucesos

elementales de un fenómeno es igual a la unidad.
Ej. Consideremos el experimento de lanzar una
moneda al aire y observar el resultado. Los dos posibles
resultados son los dos Sucesos Elementales “Observar
cara” y “Observar cruz”. Si la moneda lanzada es
correcta (no está trucada), la probabilidad asociada a
cada uno de los dos sucesos elementales es 0.5. Así, la
suma de las probabilidades de los dos sucesos
elementales del fenómeno es:
1 = 0.5 (Prob. Cara) + 0.5 (Prob. Cruz)
1º Experimento
Nº Caras = 6 Frecuencia Relativa (Cara) = 0.6

=1
Nº Cruz = 4 Frecuencia Relativa (Cruz) = 0,4
2º Experimento
Nº Caras = 4 Frecuencia Relativa (Cara) = 0.4

=1
Nº Cruz = 6 Frecuencia Relativa (Cruz) = 0,6
97

Se ha observado que, conforme una moneda correcta se lanza un
número cada vez mayor de veces, la frecuencia relativa de cara se va
estabilizando alrededor de un número fijo (0.5)
Ilustración gráfica de la ley de azar
1
Frecuencia Relativa
Probabilidad
0,5 de Cara de la
moneda = 0.5
Probabilidad
0 de Cruz de la
1 2 5 10 20 50 100 200 500 1000 2000 5000 10000
moneda = 0.5
Nº lanzamientos
Ley de azar:
En una larga serie de pruebas, la frecuencia relativa de un suceso tiende a

estabilizarse alrededor de un número fijo llamado Probabilidad del suceso.
Propiedades de la probabilidad:
La probabilidad de un suceso A, P(A), SIEMPRE es un número comprendido

entre 0 y 1
Para todo suceso A, P(A) ≥ 0 y P(A) ≤ 1
La probabilidad de un suceso es igual a 1 menos la probabilidad del suceso

contrario.
Ej: Si la probabilidad de ser varón en una población es de 0.49, entonces la
probabilidad de no serlo (esto es, la de ser mujer) es 1-0.49 = 0.51
98
CONCEPTO DE PROBABILIDAD Y PROPIEDADES

(Revisando el concepto inicial)
Regla de Laplace
La probabilidad de un suceso o acontecimiento es

igual al cociente entre el número de casos
favorables al suceso y el número de casos posibles
del fenómeno:
N º casos favorables al suceso A h

P ( Suceso A)  P (A)=
N º casos posibles del fenómeno n
h
P (A)=
n
P(A) = Probabilidad de que ocurra un acontecimiento

h = Casos seguros que ocurra un acontecimiento.
Ejemplo: Dado ó moneda 1 probabilidad
n = Casos posibles o probables

Ejemplo: Dado 6 posibles ó moneda 2
99
Probabilidad contraria de un acontecimiento:

Es el cociente entre el número de casos desfavorables del
mismo y el número de casos igualmente posibles
d
P (A)=
n
P(A) = Probabilidad contraria que ocurra un acontecimiento

d = Casos seguros que no ocurra un acontecimiento.
Ejemplo: Dado 5 ó moneda 1 probabilidad
n = Casos posibles o probables

Ejemplo: Dado 6 posibles ó moneda 2
P(A) + P(A) = 1 h d
P (A)= P (A)=
n n
Ejemplos:
1. Al lanzar una moneda al aire, la probabilidad de
que salga cara es:
P(A) = 1/2 = 0,5 ó bien 50 % n=2

h=1
P(A) = 1/2 = 0,5 ó bien 50 % d=1
0,5 + 0,5 = 1
100
h d
P(A) + P(A) = 1 P (A)= P (A)=
n n
Ejemplos:
2. Cual es la probabilidad de obtener 5 al arrojar
un dado?:
1 probabilidad de sacar 5 sobre 6
P(A) = 1/6 = 0,17 ó bien 17 % n=6

h=1
P(A) = 5/6 = 0,83 ó bien 83 % d=5
0,17 + 0,83 = 1
h d
P(A) + P(A) = 1 P (A)=
n
P (A)=
n
Ejemplos:
3. En un grupo formado por 7 enfermos de hipertensión
arterial y 3 de diabetes, se eligen 2 personas al azar.
¿Cuál es la probabilidad de que salga enfermo de
diabetes?
n = 10 personas
h = 3 diabetes
d = 7 hipert.
P(A) = 3/10 = 0,30 ó bien 30 %
P(A) = 7/10 = 0,70 ó bien 70 %
0,30 + 0,70 = 1
101
h d
P(A) + P(A) = 1 P (A)= P (A)=
n n
Ejemplos:
4. En un grupo formado por 3 enfermos de tuberculosis y 9
personas sanas, se eligen 4 personas al azar.
¿Cuál es la probabilidad de que salga 1 enfermo de
tuberculosis?
n = 12 personas
h = 3 tubercul.
d = 9 sanos
P(A) = 3/12 = 0,25 ó bien 25 %
P(A) = 9/12 = 0,75 ó bien 75 %
0,25 + 0,75 = 1
102
B.5 Nociones básicas de correlación

13
13.1 Introducción
En el análisis de los estudios clínico-epidemiológicos surge muy frecuentemente la

necesidad de determinar la relación entre dos variables cuantitativas en un grupo de
sujetos. Los objetivos de dicho análisis suelen ser:
a) Determinar si las dos variables están correlacionadas, es decir si los valores de

una variable tienden a ser más altos o más bajos para valores más altos o más
bajos de la otra variable.
b) Poder predecir el valor de una variable dado un valor determinado de la otra

variable.
c) Valorar el nivel de concordancia entre los valores de las dos variables.
La correlación es el estudio de la asociación entre dos variables cuantitativas. Dicho

cálculo es el primer paso para determinar la relación entre las variables.
La cuantificación de la fuerza de la relación lineal entre dos variables cuantitativas, se

estudia por medio del cálculo del coeficiente de correlación de Pearson. Dicho coeficiente
oscila entre –1 y +1. Un valor de –1 indica una relación lineal o línea recta positiva
perfecta. Una correlación próxima a cero indica que no hay relación lineal entre las dos
variables.
El realizar la representación gráfica de los datos para demostrar la relación entre el valor
del coeficiente de correlación y la forma de la gráfica es fundamental ya que existen
relaciones no lineales.
13.2 Coeficiente de correlación de Pearson
El coeficiente de correlación de Pearson (r) puede calcularse en cualquier grupo de datos,

sin embargo la validez del test de hipótesis sobre la correlación entre las variables
requiere en sentido estricto: a) que las dos variables procedan de una muestra aleatoria
de individuos. b) que al menos una de las variables tenga una distribución normal en la
población de la cual la muestra procede. Para el cálculo válido de un intervalo de
confianza del coeficiente de correlación de r ambas variables deben tener una distribución
normal. Si los datos no tienen una distribución normal, una o ambas variables se pueden
transformar (transformación logarítmica) o si no se calcularía un coeficiente de
correlación no paramétrico (coeficiente de correlación de Spearman) que tiene el mismo
103
significado que el coeficiente de correlación de Pearson y se calcula utilizando el rango

de las observaciones.
El cálculo del coeficiente de correlación (r) entre peso y talla de 20 niños varones se
muestra en la tabla adjunta. La covarianza, que en este ejemplo es el producto de peso
(kg) por talla (cm), para que no tenga dimensión y sea un coeficiente, se divide por la
desviación típica de X (talla) y por la desviación típica de Y (peso) con lo que obtenemos
el coeficiente de correlación de Pearson que en este caso es de 0.885 e indica una
importante correlación entre las dos variables. Es evidente que el hecho de que la
correlación sea fuerte no implica causalidad. Si elevamos al cuadrado el coeficiente de
correlación obtendremos el coeficiente de determinación (r2=0.783) que nos indica que el
78.3% de la variabilidad en el peso se explica por la talla del niño. Por lo tanto existen
otras variables que modifican y explican la variabilidad del peso de estos niños. La
introducción de más variable con técnicas de análisis multivariado nos permitirá identificar
la importancia de que otras variables pueden tener sobre el peso.
Tabla 1. Cálculo del Coeficiente de correlación de Pearson entre

las variables talla y peso de 20 niños varones
Y X
Peso Talla
(Kg) (cm)
9 72 5.65 1.4 7.91
10 76 9.65 2.4 23.16
6 59 -7.35 -1.6 11.76
8 68 1.65 0.4 0.66
10 60 -6.35 2.4 -15.24
5 58 -8.35 -2.6 21.71
8 70 3.65 0.4 1.46
7 65 -1.35 -0.6 0.81
4 54 -12.35 -3.6 44.46
11 83 16.65 3.4 56.61
7 64 -2.35 -0.6 1.41
7 66 -0.35 -0.6 0.21
6 61 -5.35 -1.6 8.56
8 66 -0.35 0.4 -0.14
5 57 -9.35 -2.6 24.31
11 81 14.65 3.4 49.81
5 59 -7.35 -2.6 19.11
9 71 4.65 1.4 6.51
6 62 -4.35 -1.6 6.96
10 75 8.65 2.4 20.76
104
Sx = Desviación típica x = 8.087
Sy = Desviación típica y = 2.137
El coeficiente de correlación como previamente se indicó oscila entre –1 y +1

encontrándose en medio el valor 0 que indica que no existe asociación lineal entre
las dos variables a estudio. Un coeficiente de valor reducido no indica
necesariamente que no exista correlación ya que las variables pueden presentar
105
una relación no lineal como puede ser el peso del recién nacido y el tiempo de
gestación. En este caso el r infraestima la asociación al medirse linealmente. Los
métodos no paramétrico estarían mejor utilizados en este caso para mostrar si
las variables tienden a elevarse conjuntamente o a moverse en direcciones
diferentes.
Otro ejemplo de aplicación del coeficiente de correlación de Pearson (r):
Razón de mortalidad materna e Índice de Desarrollo

Humano
800
n=28; r= -0,628;p<0,01
700
Razón de Mortalidad Materna
600
500
400
300
200
100
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
-100
Indice de Desarrollo Humano
A mayor índice de Desarrollo Humano existe una tendencia de disminución de la Razón
de Mortalidad Materna
A través de la prueba estadística de asociación de Pearson (-0,628), se comprobó, para
la población en estudio, la existencia de una relación directa significativa al nivel 0,01
Coeficiente de correlación de Tau-b de Kendall -0,484, significativa al nivel 0,01
Coeficiente de correlación de Rho de Spearman -0,654, significativa al nivel 0,01
106
107
14 B.6 Chi Cuadrado – X2
Salvador Pita Fernández(1), Sonia Pértega Díaz(2)

(1) Médico de Familia. Centro de Salud de Cambre (A Coruña).
(2) Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario Juan Canalejo (A
Coruña).
En la investigación biomédica nos encontramos con frecuencia con datos o variables de

tipo cualitativo, mediante las cuales un grupo de individuos se clasifican en dos o más
categorías mutuamente excluyentes. Las proporciones son una forma habitual de
expresar frecuencias cuando la variable objeto de estudio tiene dos posibles respuestas,
como presentar o no un evento de interés (enfermedad, muerte, curación, etc.). Cuando
lo que se pretende es comparar dos o más grupos de sujetos con respecto a una variable
categórica, los resultados se suelen presentar a modo de tablas de doble entrada que
reciben el nombre de tablas de contingencia. Así, la situación más simple de comparación
entre dos variables cualitativas es aquella en la que ambas tienen sólo dos posibles
opciones de respuesta (es decir, variables dicotómicas). En esta situación la tabla de
contingencia se reduce a una tabla dos por dos como la que se muestra en la Tabla 1.
Supongamos que se quiere estudiar la posible asociación entre el hecho de que una
gestante fume durante el embarazo y que el niño presente bajo peso al nacer. Por lo
tanto, se trata de ver si la probabilidad de tener bajo peso es diferente en gestantes que
fumen o en gestantes que no fumen durante la gestación. Para responder a esta pregunta
se realiza un estudio de seguimiento sobre una cohorte de 2000 gestantes, a las que se
interroga sobre su hábito tabáquico durante la gestación y se determina además el peso
del recién nacido. Los resultados de este estudio se muestran en la Tabla 2.
108
En la Tabla 1, a, b, c y d son las frecuencias observadas del suceso en la realidad de

nuestro ejemplo de estudio (43, 207, 105 y 1647), siendo n (2000) el número total de
casos estudiados, y a+b, c+d, a+c y b+d los totales marginales. En el ejemplo, a+b=250
sería el número total de mujeres fumadoras durante el embarazo, c+d=1750 el número
total de mujeres no fumadoras, a+c=148 el número de niños con bajo peso al nacer y
b+d=1852 el número de niños con peso normal al nacimiento.
Ante una tabla de contingencia como la anterior pueden planteársenos distintas

cuestiones. En primer lugar, se querrá determinar si existe una relación estadísticamente
significativa entre las variables estudiadas. En segundo lugar, nos interesará cuantificar
dicha relación y estudiar su relevancia clínica.
Esta última cuestión podrá resolverse mediante las denominadas medidas de asociación
o de efecto (riesgo relativo (RR), odds ratio (OR), reducción absoluta del riesgo (RAR)),
que ya han sido abordadas en otros trabajos. Por otro lado, para responder a la primera
pregunta, la metodología de análisis de las tablas de contingencia dependerá de varios
aspectos como son: el número de categorías de las variables a comparar, del hecho de
que las categorías estén ordenadas o no, del número de grupos independientes de
sujetos que se estén considerando o de la pregunta a la que se desea responder.
Existen diferentes procedimientos estadísticos para el análisis de las tablas de

contingencia como la prueba χ 2 , la prueba exacta de fisher, la prueba de McNemar o la
prueba Q de Cochran, entre otras.
En este artículo se expondrá el cálculo e interpretación de la prueba χ 2 como método

estándar de análisis en el caso de grupos independientes.
La prueba χ 2 en el contraste de independencia de variables aleatorias cualitativas.
La prueba χ 2 permite determinar si dos variables cualitativas están o no asociadas. Si al

final del estudio concluimos que las variables no están relacionadas podremos decir con
un determinado nivel de confianza, previamente fijado, que ambas son independientes.
Para su cómputo es necesario calcular las frecuencias esperadas (aquellas que deberían
haberse observado si la hipótesis de independencia fuese cierta), y compararlas con las
frecuencias observadas en la realidad. De modo general, para una tabla r x k (r filas y k
columnas), se calcula el valor del estadístico χ 2 como sigue:
109
donde:
• ij O denota a las frecuencias observadas. Es el número de casos observados
clasificados en la fila i de la columna j.
• ij E denota a las frecuencias esperadas o teóricas. Es el número de casos esperados

correspondientes a cada fila y columna. Se puede definir como aquella frecuencia que
se observaría si ambas variables fuesen independientes.
Así, el estadístico χ 2 mide la diferencia entre el valor que debiera resultar si las dos
variables fuesen independientes y el que se ha observado en la realidad. Cuanto mayor
sea esa diferencia (y, por lo tanto, el valor del estadístico), mayor será la relación entre
ambas variables. El hecho de que las diferencias entre los valores observados y
esperados estén elevadas al cuadrado en convierte cualquier diferencia en positiva. El
test χ 2 es así un test no dirigido (test de planteamiento bilateral), que nos indica si existe
o no relación entre dos factores pero no en qué sentido se produce tal asociación.
Para obtener los valores esperados ij E, estos se calculan a través del producto de los
totales marginales dividido por el número total de casos (n). Para el caso más sencillo de
una tabla 2x2 como la Tabla 1, se tiene que:
Para los datos del ejemplo en la Tabla 2 los valores esperados se calcularían como sigue:
De modo que los valores observados y esperados para los datos del ejemplo planteado
se muestran en la Tabla 3.
110
El valor del estadístico χ 2 , para este ejemplo en concreto, vendría dado entonces
como:
A la vista de este resultado, lo que tenemos que hacer ahora es plantear un contraste de
hipótesis entre la hipótesis nula:
H0: No hay asociación entre las variables (en el ejemplo, el bajo peso del niño y el hecho
de fumar durante la gestación son independientes, no están asociados).
Y la hipótesis alternativa:
Ha: Sí hay asociación entre las variables, es decir, el bajo peso y el fumar durante la
gestación están asociados.
Bajo la hipótesis nula de independencia, se sabe que los valores del estadístico χ 2 se
distribuyen según una distribución conocida denominada ji-cuadrado, que depende de un
parámetro llamado .grados de libertad. (g.l.). Para el caso de una tabla de contingencia
de r filas y k columnas, los g.l. son igual al producto del número de filas menos 1 (r-1) por
el número de columnas menos 1 (k-1). Así, para el caso en el que se estudie la relación
entre dos variables dicotómicas (Tabla 2x2) los g.l. son 1.
De ser cierta la hipótesis nula, el valor obtenido debería estar dentro del rango de mayor
probabilidad según la distribución ji-cuadrado correspondiente. El valor-p que usualmente
reportan la mayoría de paquetes estadísticos no es más que la probabilidad de obtener,
según esa distribución, un dato más extremo que el que proporciona el test o,
equivalentemente, la probabilidad de obtener los datos observados si fuese cierta la
hipótesis de independencia. Si el valor-p es muy pequeño (usualmente se considera
p<0.05) es poco probable que se cumpla la hipótesis nula y se debería de rechazar.
En la Tabla 4, se determinan los grados de libertad (en la primera columna) y el valor de

α (en la primera fila). El número que determina su intersección es el valor crítico
111
correspondiente. De este modo, si el estadístico χ 2 que se obtiene toma un valor mayor

se dirá que la diferencia es significativa. Así, para una seguridad del 95% (α =0.05) el
valor teórico de una distribución ji-cuadrado con una grado de libertad es 3,84. Para
α =0.01 es de 6,63 y para α =0.005 es de 7,88. Como quiera que en el cálculo del χ 2 en
el ejemplo obtuvimos un valor de 40,04, que supera al valor para α =0.005, podremos
concluir que las dos variables no son independientes, sino que están asociadas
(p<0.005). Por lo tanto, a la vista de los resultados, rechazamos la hipótesis nula (H0) y
aceptamos la hipótesis alternativa (Ha) como probablemente cierta.
Para el caso de una Tabla 2x2, la expresión (1) del estadístico χ 2 puede simplificarse y
obtenerse como:
Cuando el tamaño muestral es reducido la utilización de la distribución ji-cuadrado para

aproximar las frecuencias puede introducir algún sesgo en los cálculos, de modo que el
valor del estadístico χ 2 tiende a ser mayor. En ocasiones se utiliza una corrección para
eliminar este sesgo que, para el caso de tablas 2x2 se conoce como la corrección de
Yates:
En el ejemplo previo el cálculo del estadístico χ 2 con la corrección de Yates nos daría
un valor de 2 Y χ =38,43 (p<0.0.1) en lugar de χ 2 =40,04. No existe consenso en la
literatura sobre la utilización o no de esta corrección conservadora de Yates, que con
muestras reducidas dificulta rechazar la hipótesis nula, si bien el efecto es prácticamente
imperceptible cuando se trabaja con muestras de mayor tamaño.
No obstante, conviene mencionar que la utilización de la corrección de Yates no exime

de ciertos requerimientos acerca del tamaño muestral necesario para la utilización del
estadístico χ 2 . Como norma general, se exigirá que el 80% de las celdas en una tabla
de contingencia deban tener valores esperados mayores de 5. Así, en una tabla 2x2 será
necesario que todas las celdas verifiquen esta condición, si bien en la práctica suele
permitirse que una de ellas muestre frecuencias esperadas ligeramente por debajo de
este valor. En aquellos casos en los que no se verifique este requisito existe un test,
propuesto por R.A. Fisher, que puede utilizarse como alternativa al test χ2 y que se
conoce como test exacto de Fisher. El procedimiento consiste en evaluar la probabilidad
asociada a todas las tablas 2x2 que se pueden formar con los mismos totales marginales
que los datos observados, bajo el supuesto de independencia. Los cálculos, aunque
112
elementales, resultan algo engorrosos, por lo que no se incluirán en este trabajo, siendo
múltiples las referencias que se pueden consultar a este respecto.
Para finalizar, recalcar que existen otros métodos estadísticos que nos permiten analizar
la relación entre variables cualitativas, y que vienen a complementar la información
obtenida por el estadístico χ 2 . Por una parte, el análisis de los residuos estandarizados
permitirá constatar la dirección en que se da la relación entre las variables estudiadas. A
su vez, existen también otras medidas de asociación, muchas de las cuales resultan
especialmente útiles cuando alguna de las variables se mide en una escala nominal u
ordinal, que permiten cuantificar el grado de relación que existe entre ambos factores.
113
114
B.7 Intervalo de Confianza

15
Cuando un investigador en Salud, realiza una investigación, tomando una muestra
del total de población, por ejemplo la media aritmética de la frecuencia cardiaca en
1000 personas; si obtiene un promedio de 70 latidos por minuto; al ser solo de una
parte de la misma, ese resultado no puede generalizar a toda la población, diciendo
“aquellas personas que tienen menos o más de 70 latidos por minuto, son personas
que tienen algún problema cardiaco”. Por lo tanto, para generalizar a toda la
población debe sacar un intervalo de confianza (60 a 80 latidos por minuto) que le
permita con una seguridad del 95 % (p>0.05), que en ese rango se encuentra la
frecuencia cardiaca de un 95 % de la población normal.
Población
p>0.05
Seguridad Muestra
Estimación Experimento/ Medición
Resultados
I.C. Intervalo de confianza
I. Concepto de Intervalo de Confianza (IC).
En el contexto de estimar un parámetro poblacional, un intervalo de confianza es

un rango de valores (calculado en una muestra) en el cual se encuentra el
verdadero valor del parámetro, con una probabilidad determinada.
El intervalo de confianza describe la variabilidad entre la medida obtenida en un

estudio (muestra) y la medida real de la población (el valor real). Corresponde a
un rango de valores, cuya distribución es normal y en el cual se encuentra, con
alta probabilidad, el valor real de una determinada variable. Esta «alta
115
probabilidad» se ha establecido por consenso en 95%. Así, un intervalo de

confianza de 95% nos indica que dentro del rango dado se encuentra el valor
real de un parámetro con 95% de certeza
La probabilidad de que el verdadero valor del parámetro se encuentre en el

intervalo construido se denomina nivel de confianza, y se denota 1- α. La
probabilidad de equivocarnos se llama nivel de significancia y se simboliza α.
Generalmente se construyen intervalos con confianza 1- α = 95% (o significancia
α = 5%). Menos frecuentes son los intervalos con α=10% ó α=1%.
II. Intervalo de confianza para un promedio o media:
Cuando se estudia un tamaño de muestra de una población y se obtiene una

media aritmética o promedio de los valores estudiados, solo es una medida de
tendencia central, que puede tener un margen de error al inferir ese dato a la
población íntegra de donde fue obtenida la muestra. Para lograr un rango de
valores en el que se encuentre el 95 % de la población, obtenemos un Intervalo
de Confianza (IC95).
Para lograr un IC95 necesitamos sacar previamente la media aritmética, la

desviación estándar y conocer el número de personas estudiadas.
Ejemplo:
Los siguientes datos son los valores de porcentaje de hematocritos obtenidos

para 30 estudiantes de segundo año de la Facultad de Medicina que tienen entre
18 y 20 años:
38 39 39 40 41 41 43 45 45 45
45 45 45 46 46 46 47 47 47 47
47 48 48 48 49 50 50 51 51 51
Habiéndose obtenido de estos datos los siguientes resultados:
Media aritmética de: X = 45,7

Varianza: S2 = 14
Desviación estándar de: S = 3,7
Número total: n = 30
Para construir un intervalo de confianza con un 95 % de confianza, para el

hematocrito promedio de la muestra de 30 estudiantes, utilizamos la siguiente
fórmula:
116
Fórmula: S Como Z para 95 % es S

IC95 = X ± Z x ---------- equivalente a 1,96 IC95 = X ± 1,96 x ----------
√n √n
Desagregando la fórmula tendríamos el siguiente planteamiento de Intervalo de
Confianza:
S S
IC95 = X - 1,96 x ---------- - IC95 = X + 1,96 x ----------
√n √n
Reemplazando los valores encontrados tenemos:
3,7 3,7
IC95 = 45,7 - 1,96 x ---------- - IC95 = 45,7 + 1,96 x ----------
√30 √30
3,7 3,7
IC95 = 45,7 - 1,96 x ---------- - IC95 = 45,7 + 1,96 x ----------
5,4 5,4
8 8
IC95 = 45,7 - 1,96 x 0,69 - IC95 = 45,7 + 1,96 x 0,69
IC95 = 45,7 - 1,35 - IC95 = 45,7 + 1,35
IC95 = 45,7 – 1,35 - IC95 = 45,7 + 1,35
IC95 = 44,35 - 47,05
117
Por lo tanto el intervalo de confianza para la media del estudio de hematocrito de

la población estudiada con un 95 % de confianza se encuentra entre 44,35 % y
47,05 ^
III. Intervalo de Confianza para una Proporción ( p ).
En este caso, interesa construir un intervalo de confianza para una proporción o

un porcentaje poblacional (por ejemplo, el porcentaje de personas obesas,
fumadoras, etc.)
Procediendo en forma análoga al caso del Intervalo de Confianza para un

promedio, podemos construir un intervalo de 95% de confianza para la proporción
^ símbolo “ p “
poblacional; dicha proporción lleva el
Fórmula:
IC95 = ^p ± 1,96 x√ ^p x (1 – ^p) / n
Por tanto en forma desagregada tenemos:
IC95 = ^p - 1,96 x √ ^p x (1 – ^p) / n - IC95 = ^p + 1,96 x √ ^p x (1 – ^p) / n
Ejemplo:
En un estudio de prevalencia de factores de riesgo en una cohorte de 825 mujeres

en edad fértil de la ciudad de Sucre, se encontró que el 26 % eran obesas. Un
Intervalo de 95 % de confianza (IC95) para la proporción de mujeres obesas en la
ciudad de Sucre está dada por:
Número total: n = 825
Porcentaje de obesas: %= 26 (Para sacar proporción en números relativos se

divide
entre 26/100 = 0,26)
^
Proporción de obesas: p = 0,26
IC95: Z = 1,96
IC95 = 0,26 - 1,96 x √ 0,26 x (1 – 0,26) / 825 - IC95 = 0,26 + 1,96 x√ 0,26 x (1 – 0,26) / 825
118
IC95 = 0,26 - 1,96 x √ 0,26 x (0,74) / 825 - IC95 = 0,26 + 1,96 x √ 0,26 x (0,74) / 825
IC95 = 0,26 - 1,96 x √ 0,19 / 825 - IC95 = 0,26 + 1,96 x √ 0,19 / 825
IC95 = 0,26 - 1,96 x √ 0,0002303 - IC95 = 0,26 + 1,96 x √ 0,0002303
IC95 = 0,26 - 1,96 x 0,0151756 - IC95 = 0,26 + 1,96 x 0,0151756
IC95 = 0,26 – 0,03 - IC95 = 0,26 + 0,03
IC95 = 0,23 - IC95 = 0,29

Si multiplicamos por 100 para conocer el porcentaje de obesas en edad fértil en
la población de estudio con un 95% de confianza, observamos que existen de 23
a 29 %.
IC95 = 23 % - 29 %
IV. Uso de Intervalos de Confianza para verificar Hipótesis.
Los intervalos de confianza permiten verificar hipótesis planteadas respecto a

parámetros poblacionales.
Por ejemplo, supongamos que se plantea la hipótesis de que el promedio de talla

de nacimiento del sexo femenino en la ciudad de Sucre es igual a la media
nacional de 52 centímetros.
Al tomar una muestra de 30 recién nacidos de las recién nacidas de la ciudad de

Sucre en estudio, se obtuvo:
= 50 centímetros
s=2
n = 30
119
Al construir un intervalo de 95% de confianza para la media poblacional, se

obtiene:
Como Z para 95 % es
Fórmula:
S equivalente a 1,96
IC95 = X ± Z x ---------- S
IC95 = X ± 1,96 x ----------
√n √n
S
IC95 = X - 1,96 x ---------- - S
IC95 = X + 1,96 x ----------
√n √n
2
IC95 = 50 - 1,96 x ---------- - 2
IC95 = 50 + 1,96 x ----------
√30 √30
2
IC95 = 50 - 1,96 x ---------- - 2
IC95 = 50 + 1,96 x ----------
5,48 5,48
IC95 = 50 – 0,72 - IC95 = 50 + 0,72
IC95 = 48,28 - 50,72
Por tanto, la talla de nacimiento en niñas de Sucre varía entre 48,28 y 50,72, con
una confianza de 95%.
Como el intervalo no incluye el valor = 52 centímetros planteado en la

hipótesis, entonces esta es rechazada con confianza 95% (o un valor p menor a
0,05).

02 Libro 2 - Bioestadística - Linares 2019

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

02 Libro 2 - Bioestadística - Linares 2019

Cargado por

Copyright:

Formatos disponibles

1

UNIVERSIDAD MAYOR, REAL Y PONTIFICIA DE SAN FRANCISCO

Dr. Gróver Linares Padilla Ph.D.

2 A.1 Medidas de frecuencia en salud 12

Un estudiante bachiller, que desea seguir sus estudios en la Universidad, y generalmente

Alguien podrá morir de infarto de miocardio, porque tenía un riesgo cardiovascular

Existen distintas medidas e indicadores de bienestar (social o económico) en salud y se

La medición del estado de salud requiere de procedimientos estandarizados

Todos, absolutamente todos (usted también), queremos ser excelentes profesionales.

Cuando se habla de bioestadística, se suele pensar en una relación de datos numéricos

¿Cuántos casos de Sida hay en Bolivia actualmente?, Se incrementará el número de

resultados satisfactorios?, ¿El personal con que se cuenta es el suficiente?, ¿Cuántos

Resumen de la epidemia del Sida en Bolivia

Número de personas 38.210 casos Perinatal 3%

1 de cada 262 habitantes en Bolivia Oruro 2%

El motivo por el que surge la bioestadística, es porque el mundo está lleno de

Una vez convencidos de la utilidad de la bioestadística, empecemos entonces a ver

Por mucho tiempo, la palabra estadística se refería a información numérica sobre

La Estadística es el conjunto de métodos necesarios para recoger, clasificar,

La Bioestadística es la ciencia que estudia los métodos y procedimientos de

La bioestadística contribuye al análisis y solución de la problemática de salud,

Indicadores: Son valores o expresiones estadísticas que intentan cuantificar en

1.2. Clasificación de la bioestadística

Conjunto de métodos que, apoyándose en el cálculo de

1.3 Medidas en bioestadística Descriptiva

Las medidas utilizadas en bioestadística descriptiva son las siguientes:

1. Medidas de frecuencia b) Proporciones

2. Medidas de posición a) Cuartiles

1.4 Medidas en bioestadística Inferencial

Las medidas utilizadas en bioestadística inferencial son las siguientes:

a) Universo finito a) Muestreo probabilístico

1. Determinación del tamaño de muestra b) Muestreo no probabilístico

4. Regresión lineal y correlación

5. Prueba de Chi cuadrado

1.5.1 ¿La calculadora programada con punto decimal o coma decimal?

Por ejemplo para representar 3 enteros con 256 milésimos

Para representar el año 2015

Unos escriben 2.015 y otros 2,015

debemos transformar mentalmente ese punto decimal en coma decimal cuando

Calculadora con punto decimal Calculadora con coma decimal

1.5.2 Notación científica:

Tiene tres partes:

• Una parte entera de una sola cifra

Ejemplo: 3,287 X 1012 = 3287 000 000 000

100 = 1 X 10 X 10 = 1 X 102 (en la notación científica)

5.7 X 106 = 5700000

Nota final: En la notación científica, la base numeral es siempre representada como un

Contamos el número de cifras que queremos dar y nos fijamos en la siguiente, si es 5 o

Dígito menor que 5: Si el siguiente decimal es menor que 5, el anterior no se modifica.

Dígito mayor que 5: Si el siguiente decimal es mayor o igual que 5, el anterior se

Si quieres practicar el redondeo con tu computadora, puedes visitar la siguiente página

A1. MEDIDAS DE FRECUENCIA EN SALUD

Números, Tasas, Razones,

La medición consiste en asignar un número o una calificación a alguna propiedad

Como se puede notar, la medición es un proceso instrumental sólo en apariencia, ya que

La frecuencia de cualquier suceso puede medirse de cinco formas:

Cuando en el denominador se trata de población general, para fines del cálculo de la

El numerador y el denominador deben guardar estricta correspondencia en tres

Las tasas por su naturaleza se clasifican en tres tipos:

a) Tasas brutas, generales o crudas: Cuando están referidas al total de población.

Las tasas por el fenómeno que miden pueden ser:

a) Tasas de natalidad: Miden los eventos relacionados con los nacimientos en la

Es un indicador matemático que establece la relación de dos partes de un todo entre

Resulta de la división del número de muertes maternas, dividido por el número de