Está en la página 1de 83

MANUAL DE BIOESTADÍSTICA

BÁSICA

PRIMERA PARTE:
BIOESTADÍSTICA I

CAC

0
MANUAL DE BIOESTADÍSTICA BÁSICA

CAPITULO 1 LOS DATOS Y LAS ESTADÍSTICAS

Índice
1. Introducción a la Bioestadística……………………………………………………..4

2. Tipos de variables…………..…………………………………………………….7

3. Distribución de frecuencias ………………………………………………..…..8


3.1. Descripción de variables cualitativas
3.2. Descripción de variables cuantitativas
3.2.1 Descripción de variables cuantitativas discretas
3.2.2 Descripción de variables cuantitativas continúas

4. Representaciones gráficas……………………………………………………13
4.1. Representaciones gráficas de variables cualitativas
4.2 Representaciones gráficas de variables cuantitativas
4.2.1 Representaciones gráficas de variables cuantitativas discretas
4.2.2. Representaciones gráficas de variables cuantitativas continúas

5. Medidas características: Medidas de posicon y medidas de


dispersion…………………………………………………………………………....18

5.1. Medidas de posoicion


5.2. Medidas de dispersion
5.3. Medias de forma
5.4. El diagrama de caja o Boxplot

CAPITULO 2 INDICADORES DEMOGRÁFICOS Y EPIDEMIOLÓGICOS

1. Intdroduccion……………………………………………………………………42
2. Tasa de natalidad, morbilidad, mortalidad………………………………….44
3. Tasa de incidencia, prevalencia…………………………………………...….47

1
CAPITULO 3 PROBABILIDAD: CONCEPTOS BASICOS

1. Introducción histórica ………………………………………...……………….47

2. Conceptos básicos………………………………………………………………48
2.1. Experimento aleatorio
2.2 Espacio muestral. Sucesos

3. Definiciones de probabilidad…………………………………………………52
3.1 Definición clásica o de Laplace

4 Probabilidad condicionada……… ……………………………………………52

5. Independencia de sucesos ……...……………………………………………54

6. Teoremas clásicos:…………..…………………………………………………54
6.1 Regla del producto
6.2 Ley de las probabilidades totales
6.3 Teorema de Bayes

CAPITULO 4. VARIABLES ALEATORIAS DISCRETAS Y DISTRIBUCIONES


DE PROBABILIDAD DISCRETAS

1. Introducción ……...………………………………………………………………58

2. Variable aleatoria.. ………………………………………………………………59


2.1. Variables aleatorias discretas

3. Medidas características de una variable aleatoria discreta……..……….61


3.1. Media o esperanza
3.2. Varianza

4. Principales modelos de distribuciones discretas…………………………62


4.1. Distribución de Bernoulli
4.2. Distribución binomial
4.3. Distribución de Poisson

2
CAPITULO 5. VARIABLES ALEATORIAS CONTINUAS Y DISTRIBBUCIONES
DE PROBABILIDAD CONTINUAS
Índice

1. Introducción………………………………………………………….…………...68

2. Variables aleatorias continuas……………………………………….……….68

3. Medidas características de una variable aleatoria continua….……..…..69


3.1. Media o esperanza
3.2. Varianza

4. Principales modelos de distribuciones continuas…………………………70


5.La distribucion de probabilidad normal………………………………………70
5.1. La distribución normal estándar N(0,1)
5.2. La distribución normal N(µ,σ2)
Literatura consultada………………………………………………………………………78.

3
Notas del autor

El objetivo inicial de este manual es servir de apoyo en el estudio de la materia


de Estadística en el Grado en Medicina, aunque pensamos que puede ser de
utilidad para cualquier estudiante o profesional de Ciencias de la Salud que
desee entender y aplicar la Estadística a un nivel básico. Por tanto, nuestra
intención no es profundizar en los aspectos más formales de la materia, ni
abarcar métodos avanzados que vayan más allá de los contenidos que se
imparten en unas 50 horas lectivas en este tipo de asignaturas. Tampoco
pretendemos hacer hincapié en cuestiones relativas al cálculo. En lugar de ello,
nos esforzaremos en facilitar la comprensión de los conceptos fundamentales,
delegando la ejecución de los diferentes algoritmos en un programa estadístico.
El estudio de la Estadística en Ciencias de la Salud, más conocida como
Bioestadística, está motivado por la enorme incertidumbre que presentan los
diferentes fenómenos a comprender, de ahí la necesidad de diseñar técnicas de
recogida y tratamiento de datos con la idea de extraer la mayor información
posible acerca de los mismos. Así, la Bioestadística podría entenderse como la
metodología a seguir para aprender de las observaciones con el propósito de
explicar los fenómenos biomédicos. La Bioestadística es uno de los campos
científicos que más se ha desarrollado en las últimas décadas.

Prof. C. A. Cornielle

4
Prof. C. A. Cornielle

CAPITULO 1. LOS DATOS Y LAS ESTADÍSTICAS

1. Introducción a la Bioestadística

La creciente atención que está recibiendo en la literatura médica especializada


pone de manifiesto la importancia de esta disciplina y el hecho, cada vez más
patente, de que los profesionales médicos han dado a la investigación en
Bioestadística un puesto dominante dentro de su formación.
La estadística permite analizar situaciones en las que los componentes
aleatorios contribuyen de forma importante en la variabilidad de los datos
obtenidos.
La variabilidad es uno de los aspectos más esenciales de nuestra vida.
La consiguiente incertidumbre que genera dicha variabilidad es importante y en
muchos campos, como el de la medicina, es fundamental contar con métodos
que nos permitan cuantificar dicha incertidumbre y minimizar su impacto en las
decisiones que tomemos.
Se podría definir la Bioestadística como la ciencia que maneja mediante
métodos estadísticos la incertidumbre en el campo de la medicina y la
salud. En medicina, los componentes aleatorios se deben, entre otros aspectos,
al desconocimiento o a la imposibilidad de medir algunos determinantes de los
estados de salud y enfermedad, así como a la variabilidad en las respuestas de
los pacientes.
La fuente más común de incertidumbre en la medicina es la variabilidad natural
de carácter biológico que existe entre individuos. Además, la variabilidad entre
laboratorios, observadores, instrumentación, etc. también son fuentes de
incertidumbre a tener en cuenta.
La Bioestadística es la ciencia que maneja mediante métodos estadísticos la
incertidumbre en el campo de la medicina y la salud.
Por supuesto la Bioestadística no sólo se centra en medir incertidumbres sino
que se preocupa también del control de su impacto. Por otra parte el profesional
de la medicina no solo se forma para atender al paciente, sino que tiene además
una responsabilidad y obligación social con la colectividad. Debe por lo tanto
conocer los problemas de salud que afectan a su comunidad, los recursos con
que cuenta y sus posibles soluciones, para lo cual necesita conocer la
Estadística de Salud Pública y aplicarla en el proceso de planificación, ejecución
y evaluación de acciones colectivas de salud.

5
Prof. C. A. Cornielle

El campo de la estadística tiene que ver con la recopilación, presentación,


análisis y uso de datos para tomar decisiones y resolver problemas. Cualquier
persona, tanto en su carrera profesional como en la vida cotidiana recibe
información en forma de datos a través de periódicos, de la televisión y de otros
medios.
Ejemplo 1: Un cardiólogo, que investiga un nuevo fármaco para rebajar el
colesterol, desea conocer el consumo de grasas en varones adultos mayores de
40 años. ¿Cómo debe proceder?
Población: Es el universo de individuos al cual se refiere el estudio que se
pretende realizar.
Muestra: Subconjunto de la población cuyos valores de la variable que se
pretende analizar son conocidos.
Variable: Rasgo o característica de los elementos de la población que se
pretende analizar.
Una muestra aleatoria es un subconjunto de casos o individuos de una población.
En el Ejemplo 1, la población objeto de estudio sería la formada por todos los
varones adultos mayores de 40 años. La variable de interés es el consumo de
grasas. El cardiólogo podría pensar en analizar a todos los individuos de la
población. Sin embargo, esto resulta inviable (y así ocurre en muchas otras
situaciones prácticas debido al coste, al tiempo que requiere,...) Entonces se
conformará con extraer una muestra. La muestra proporciona información sobre
el objeto de estudio. Lo habitual en nuestro contexto es que en el procedimiento
de extracción intervenga el azar. Por ejemplo, el cardiólogo seleccionaría al azar
a 100 varones adultos mayores de 40 años y estudiaría el consumo de grasas
de cada uno de ellos.
Ejemplo 2: Se quiere analizar el tiempo que dedican al estudio semanal los
alumnos del Grado en Medicina de esta Universidad. Para ello se pregunta a 50
alumnos de esta titulación.
Población: Todos los estudiantes del Grado en Medicina de esta Universidad.
Variable: Número de horas de estudio semanal.
Muestra: 50 alumnos encuestados.
Ejercicio 1: Se desea estimar el porcentaje de albúmina en el suero proteico de
personas sanas. Para ello se analizan muestras de 40 personas, entre 2 y 40
años de edad.
a) Cuál es la población objeto de estudio?
b) Cuál es la variable de interés?
c) Cuál es la muestra con la que se realiza el estudio?

6
Prof. C. A. Cornielle

Clasificamos las tareas vinculadas a la Estadística en tres grandes disciplinas:


Estadística Descriptiva. Se ocupa de recoger, clasificar y resumir la información
contenida en la muestra.
Cálculo de Probabilidades. Es una parte de la matemática teórica que estudia
las leyes que rigen los mecanismos aleatorios.
Inferencia Estadística. Pretende extraer conclusiones para la población a partir
del resultado observado en la muestra.
La Inferencia Estadística tiene un objetivo más ambicioso que el de la mera
descripción de la muestra
(Estadística Descriptiva). Dado que la muestra se obtiene mediante
procedimientos aleatorios, el Cálculo de Probabilidades es una herramienta
esencial de la Inferencia Estadística.
2. Variables y tipos de variables y Conceptos básicos más utilizados en
bioestadística

Variable cualitativa. Es aquella que expresa una característica que no es


posible medir ni cuantificar; sólo se puede calificar. Es decir, los posibles valores
que tome la variable (también llamados categorías) no son medibles dado que
no implican magnitud (no se expresan en unidades de medida como metros,
años o decibeles) ni es cuantificable (no podemos decir cuántas veces pasa
algo).

En ocasiones, una variable puede tener sólo dos categorías, por lo que se llaman
también dicotómicas. Un ejemplo de pregunta que representa la variable que se
va a indagar y sus posibles respuestas son: ¿tuvo fiebre antes de llegar al
hospital?: sí o no; ¿cómo está la presión arterial sistólica de este paciente?: baja,
normal o alta.

Debe tenerse en cuenta que, usualmente, a la hora de almacenar los datos para
su posterior análisis, a cada opción de respuesta se le puede asignar un código
numérico. Así, en las variables cualitativas, este número es un resumen de lo
que significa cada posible respuesta (o categoría) de la variable, pero no es una
cantidad. Por ejemplo, al codificar la variable sexo se puede asigna el valor 1
(uno) al encuestado “masculino” y 2 (dos) o 0 (cero) al “femenino”; no por esto la
variable sexo deja de ser cualitativa, ni mucho menos la categoría “1” será más
que la “0” o se podrán hacer operaciones con ellas. Sería muy ingenuo sacar el
promedio de los ceros y unos que codifican la variable sexo de una investigación.
Dependiendo del programa que va a ser utilizado para el análisis, generalmente
se prefiere codificar como cero (0) o dos (2) a la ausencia de enfermedad o de
exposición a algún factor específico; en cambio, el uno (1) usualmente indica
presencia de enfermedad o antecedente de exposición al factor de riesgo (por

7
ejemplo: no fumador: 0; fumador: 1). En cualquier situación, si usa una
codificación propia, debe tener claro lo que significa cada código para cada
variable.

Una variable que usualmente genera confusión es la que indica el estado clínico
de una enfermedad, la cual se clasifica como 0, 1, 2, 3 (o en sus números
romanos correspondientes); aunque es una numeración que implica un
gradiente, es arbitraria y representa diferentes niveles de avance no
cuantificables de la enfermedad en el individuo; una ampliación sobre estos se
puede ver en el apartado sobre variables ordinales.

Variable cuantitativa. Es aquella cuyos datos provienen de una característica


que permite ser cuantificada o medida (siempre que se mide algo se expresa en
unidades de medida); usualmente está definida por un valor numérico según los
valores reales de la variable. Por ejemplo, la edad es cuantitativa cuando se
aclara que el paciente tiene cinco, siete o cien años; o el número de matrimonios
que una persona ha tenido en su vida, los cuales son 0, 1, 2 o los que haya
decidido tener.

Variable discreta. Es una variable cuantitativa que sólo permite valores enteros,
sin que exista la posibilidad de intermedios entre dos enteros. Por ejemplo, la
variable número de hijos permite decir cero, uno, dos, tres u otro valor, pero
siempre es un entero. Es posible llegar a considerar a las variables discretas
también como variables cualitativas porque en determinado momento se tiene o
no la característica. Por ejemplo: el color de ojos puede ser azul, verde o café,
sin dar la posibilidad de valores intermedios.

Variable continua. Es una variable cuantitativa que puede tomar cualquier valor,
sea entero o fraccionario, entre los valores límites mínimo y máximo. Por
ejemplo: el peso: 64,3 kilogramos; la estatura: 173.5 centímetros; la temperatura
del paciente: 37.5 grados centígrados; el valor del colesterol HDL: 45.5 mg/dL.
Un detalle que permite identificar a las variables continuas es que el valor entre
cada unidad es el mismo (hay el mismo kilómetro de diferencia entre medir 45 y
46 km que entre 73.4 y 74.4 km).

Una recomendación importante es que, durante la recolección de datos de las


variables, particularmente las continuas o las discretas, el dato se capture tal
cual como se genera, crudo, sin agruparlo. Si es necesario formar categorías o
grupos, lo mejor es hacerlo durante la fase de análisis. Por ejemplo, en un trabajo
se decidió evaluar en mujeres con resultado indeterminado de la mamografía, si
había diferencias en el resultado de la biopsia (maligna o benigna) según la edad.
La recolección de la información fue realizada a partir de los datos obtenidos por
la historia clínica. En estas circunstancias, es mejor recolectar la información
sobre la edad a partir de la historia clínica o del interrogatorio directo a la
paciente, tal cual como se halla. Más adelante, durante el análisis de los datos,
se decidirá qué es mejor, si utilizar la información de la edad en forma continua
o en categorías (por ejemplo, ubicarla en el grupo de 35 años o menos). Es
posible que resulte que no hay diferencias importantes en las mujeres al agrupar
a priori la edad, pero, al recolectarse en forma cuantitativa pueden explorarse
otras formas de agrupar a las pacientes por edad (por ejemplo, menor o igual a
30 años y más de 30 años) o, simplemente, analizar la edad en forma continua,

8
algo que no se podría hacer si al momento de recolectar la edad fue incluida en
agrupaciones ya definidas. No hacerlo así, es desperdiciar una oportunidad de
análisis con un potencial de mayor valor y utilidad.

Variable nominal. Es una variable cualitativa en la que sus opciones de


respuesta no tienen un orden de importancia definido ni representan un
gradiente; es decir, ninguna posible respuesta es más relevante, buena o mala
que otra, aún si se expresan en números. Tal es el caso de la diabetes tipo 1 y
diabetes tipo 2, en las que el número no representa ni una cantidad ni algún tipo
de gradiente y pueden presentarse en cualquier orden ya que ninguno denota
mayor importancia; son tan solo caracteres alfanuméricos de igual significado
que cualquier otro. Ahora bien, a veces cuando se montan las bases de datos,
estas categorías se recodifican con números, que igualmente solo diferencian
una característica de otra pero sin que representen una cantidad o un orden; por
ejemplo: el sexo puede definirse como hombre (1) y mujer (0), o mujer (1) y
hombre (0).

Variable ordinal. En estas variables existe un orden implícito en los datos, a


manera de gradiente, aunque este orden no significa que las distancias entre las
diferentes categorías de la variable sean iguales. Un ejemplo es la clasificación
de los estadios clínicos de los tumores, que pueden ser clasificados como
estadio 0 (in situ), estadio I (invasor temprano), estadio II (invasor intermedio),
estadio III (invasor avanzado) y IV (metástasis a distancia). Esta variable indica
severidad clínica del tumor pero no significa que el estadio IV sea el doble de
avanzado que el estadio II, ni que la distancia (o aumento en severidad) que
existe entre estadio II y III sea la misma que entre estadio III y IV. Otro ejemplo
de una variable ordinal es la respuesta del paciente ante una terapia analgésica,
esto es, mejoría total, mejoría parcial, sigue igual o empeora.

Variable interválica. Son datos recolectados en forma cuantitativa pero donde


el valor de inflexión entre positivos y negativos (el llamado cero) de la escala es
arbitrario. El mejor ejemplo es la temperatura medida en grados centígrados,
donde 0º (cero grados centígrados) no implica ausencia de temperatura.

Variable de razón o proporcional. En éstas, los datos fueron recolectados en


forma continua pero el cero de la escala es real; no hay valores posibles bajo
ese punto. Por ejemplo: cero (0) gramos indica la ausencia de peso o al medir
temperatura en grados Kelvin, el cero es absoluto.

Variable dependiente. Es la variable principal que se está estudiando y de la


que se quiere saber algunas características tales como causas, factores
pronósticos, frecuencia, etc. Usualmente es aquella que está inmersa en el
objetivo general o en el título de una investigación. También puede ser llamada
variable de resultado, de salida, desenlace o, simplemente, enfermedad (u otro
evento) en estudio.

Variable independiente. Es aquella que puede explicar el porqué del


comportamiento de una variable dependiente. También puede llamarse
exposición, variable de explicación, factores de riesgo o factores protectores.
Esto se puede ilustrar con un ejemplo. Imaginemos un estudio cuyo objetivo es
determinar las causas de hipertensión arterial en la población de estrato 2 de

9
Bogotá, Colombia. Lo que se quiere saber (la variable dependiente) es
frecuencia de ausencia de hipertensión (HTA), así como entender cuáles
factores pueden explicar su ocurrencia, como pueden ser tabaquismo, consumo
de bebidas alcohólicas, estrés, dieta de esa población, entre otras (las variables
que explican el comportamiento de la dependiente, o sea, las variables
independientes). De otra manera:

HTA = tabaquismo + alcohol + edad + respuesta al estrés + obesidad + tipo de


dieta + ….

Ahora, imagínese otro estudio que se hace en forma casi simultánea en la misma
población y en el que se busca determinar las causas de otra enfermedad
cardiovascular, el infarto agudo del miocardio (IAM); en éste se recolectan como
variables independientes a la edad y los antecedentes de hipertensión, diabetes
y tabaquismo. Se podría generar una expresión similar a la anterior:

IAM = edad + HTA + diabetes + tabaquismo + tipo de dieta + alcohol + ….

Obsérvese que la HTA pasó de ser la variable dependiente en el primer estudio


a ser variable independiente o de explicación en el segundo. Puede observar
también que a pesar de que las variables dependientes (HTA e IAM) son
diferentes, algunas variables independientes son iguales; es decir, una variable
independiente puede explicar la aparición de más de una enfermedad. Esto es
común en la investigación clínica y epidemiológica.

Variable de confusión. Para entender mejor lo que es una variable de


confusión, imaginemos un estudio cualquiera en la que se evalúa la posible
relación entre un evento (I) de interés (como una enfermedad o el uso de un
servicio de salud) y una exposición (V) que se cree que es un posible factor de
riesgo (o protector). Es posible que exista una segunda exposición (C) que se
conoce que está asociada tanto con I como con V. Por lo tanto, encontrar una
asociación entre V e I puede ser malinterpretada si no se tiene en cuenta la
presencia de C, la cual confunde la verdadera relación que existe entre V e I. Por
eso a C se le llama variable de confusión. Un criterio adicional que es importante
para definir si una variable es o no un factor de confusión es que no puede
encontrarse en la vía causal entre I y V, es decir, no puede ser una lesión
precedente a la enfermedad (I).

Por ejemplo, en un estudio se encontró que a mayor número de hijos, mayor era
el riesgo de hipertensión arterial en las mujeres. Los investigadores no se
explicaban esta aparente relación, la cual no había sido informada previamente
en la literatura; sin embargo, fue desmentida cuando analizaron el papel que
juega la edad tanto en la probabilidad que una mujer tenga hijos como que sea
hipertensa.

Se sabe que a mayor edad hay mayor probabilidad de tener esta patología;
también es cierto que la probabilidad de tener hijos aumenta a mayor edad.
Cuando los investigadores analizaron la asociación entre el número de hijos y la
presencia de hipertensión arterial pero ajustando por la edad, se observó que el
aparente mayor riesgo dado por el número de hijos desaparecía. La edad cumple
entonces el papel de factor de confusión.

10
El ajuste o tratamiento de la confusión durante el análisis de los datos se puede
lograr por medio de dos métodos llamados estratificación y regresión;
igualmente, es posible preverla al planear una investigación y usar otras tres
estrategias metodológicas, el apareamiento (o emparejamiento), la
aleatorización y la restricción de la población 10. Una explicación más detallada
está por fuera del objetivo de este artículo.

La presentación de las variables en un proyecto de investigación

Las variables se definen, clasifican y presentan dentro de la sección “Materiales


y métodos” o “Metodología” de un proyecto de investigación o en sus
subsecuentes informes. En la tabla 1 se puede apreciar la aproximación
propuesta en este artículo. Brevemente, esta tabla contiene las siguientes
columnas: variable, unidad de medición, nombre dado en la base de datos, tipo
(clasificación de la variable), definición para el estudio, valores límites (en
cualitativas se incluirían los códigos asignados a cada respuesta) y, en forma
opcional, sobre todo para estudiantes que están dando sus primeros pasos
académicos por la investigación, un ejemplo de su interpretación.

Tabla 1. Ejemplo de definición de variables en un estudio realizado en menores


de 15 años para establecer causas de hipertensión arterial pediátrica.

Variable
Valores límites Ejemplo de
(unidad de Tipo de Variable Definición para el estudio
(códigos) Interpretación
medida)
Edad Cuantitativa, Edad en años 0 – 14 años La edad media
En la base: discreta, de cumplidos referida por la de las niñas del
Edad niño razón, persona cargo del niño a estudio fue de
independiente estudio 10 años
Azúcar en Cuantitativa, Cifra que muestra el nivel 40-600 mg/dL * La glicemia de
sangre (mg/dl) continua, de de glicemia en cada sujeto uno de los
razón, luego de 8 horas de ayuno sujetos de
independiente y observada en el informe investigación
de glicemia realizado por 1 Hipo: <70 fue de 140 mg/dl
En la base: el laboratorio clínico 2 Normo: 70-
glicemia contratado. 130
3 Hiper: >130

Sexo Cualitativa, Sexo del menor informado 0 Femenino El 50% de los


En la base: nominal, por la persona a cargo del participantes
masculino discreta, menor fueron de sexo
independiente masculino
1 Masculino

Presión arterial Cualitativa, Es la clasificación de la 1 Alta La HTA estuvo


En la base: hta nominal, HTA según lo referido por 2 Normal presente en el
discreta, la madre 3 Baja 20% de los
dependiente niños

* La división de este ejemplo es arbitraria y no pretende representar los que son


aceptados en la actualidad.

11
Análisis de los datos generados en las variables

El análisis de los datos usualmente inicia con la descripción de los resultados de


cada variable (llamado también análisis univariado); luego se pasa a hacer
cruces, por lo general, mostrando el comportamiento de cada variable
independiente según las categorías de la dependiente (análisis bivariado) y
finalmente, se procede a técnicas más sofisticadas como son los análisis
estratificado y multivariado. Abundar en estos tópicos va más allá del alcance de
este escrito, pero es necesario hacer algunas anotaciones relevantes con miras
a que el lector pueda abordar de una mejor manera estas temáticas en otros
documentos.

El análisis univariado es terreno de la llamada estadística descriptiva e incluye el


uso de proporciones y de medidas de 11 tendencia central y de dispersión.
Igualmente, su 12 presentación se hace por medio de tablas o gráficas. Por otro
lado, el objetivo básico del análisis bivariado es ver si hay diferencias
significativas en una variable según las categorías de una segunda. Usualmente
se trabaja con muestras, es decir, con una fracción que se espera sea
representativa de todas las unidades de observación de la población de donde
se toma la muestra. Entonces el objetivo del análisis bivariado no es solo ver las
diferencias en los resultados de los datos de la variable independiente según las
categorías de la dependiente, sino también establecer hasta qué punto las
diferencias que se observen es producto del azar que está implícito en un
proceso de muestreo adecuado.

Esta consideración incluye el concepto de error tipo I, que es aquel que se


comete cuando se aceptan como válidas para la población diferencias que se
aprecian en la muestra, cuando en la realidad, estas diferencias no son ciertas
sino que son producto del proceso de muestreo. De esta forma, las pruebas
estadísticas generan una probabilidad, que no es más que el riesgo de cometer
el error tipo I, y que es más conocido como el valor de p, o simplemente, p. Hay
que tener en cuenta que este concepto solo es aplicable en condiciones en
donde el proceso de muestreo es adecuado, porque en los casos en que
este 13 proceso es inadecuado (la palabra técnica es sesgado), las pruebas
estadísticas no tienen sentido alguno, ya que este fenómeno es un error
sistemático y no aleatorio. La prueba estadística más adecuada depende del tipo
de datos que se va a analizar, del diseño del estudio y la forma como se
seleccionaron las unidades de observación, y del cumplimiento de ciertas
premisas que deben tener los datos frente algunas pruebas, temas que van más
allá del alcance de este artículo.

12
3. Distribución de frecuencias

La primera forma de recoger y resumir la información contenida en la muestra es


efectuar un recuento del número de veces que se ha observado cada uno de los
distintos valores que puede tomar la variable.
A eso le llamamos frecuencia. Daremos definiciones precisas del concepto de
frecuencia en sus distintas formas de presentación a través de un ejemplo
práctico.
Ejemplo 3: En la última hora han acudido al servicio de urgencias de un hospital
ocho pacientes, cuyos datos de ingreso se encuentran resumidos en la siguiente
tabla. Clasifica las variables recogidas (sexo, peso, estatura, temperatura,
número de visitas previas al servicio de urgencias y dolor).
Sexo Peso (kg.) Estatura (m.) Temperatura ( oC) Visitas Dolor

Sxo Peso(kg) Estatura(m) Temperatura (C) Visitas Dolor


M 63 1.74 38.0 0 Leve
M 58 163 36.52 2 Intenso
H 84 1.86 37.20 0 Intenso
M 47 1.53 38.20 0 Moderado
M 70 1.75 37.11 1 Intenso
M 57 1.68 36.80 0 Leve
H 87 1.82 38.41 1 Leve
M 55 1.46 36.61 1 Intenso

En primer lugar, definimos el tamaño muestral, al que denotamos por n, como el


número de individuos o de observaciones en la muestra. En el Ejemplo 3, el
tamaño muestral es n = 8.

3.1 Descripción de variables cualitativas.


Supongamos que los distintos valores que puede tomar la variable son:
C1, c2, , , , cm.
Frecuencia absoluta: Se denota por fi y representa el número de veces que
ocurre el resultado ci .

13
Frecuencia relativa: Se denota por fr y representa la proporción de datos en cada
una de las clases,

fr= fi /∑fi
La frecuencia relativa es igual a la frecuencia absoluta dividida por el tamaño
muestral.
Frecuencia absoluta acumulada. Es el número de veces que se ha observado el
resultado con los valores anteriores. La denotamos por Fi, es una suma continua
de las frecuencias absolutas.
En la mayor parte de procedimientos estadísticos es necesario manejar
conjuntos de observaciones numéricas. Para representar de forma concisa los
cálculos, se ha desarrollado una notación matemática abreviada. Por ejemplo,
para designar la adición se usa la letra griega ∑ = sigma
Frecuencia relativa acumulada. Es la frecuencia absoluta acumulada dividida por
el tamaño muestral.
La denotamos por Fr, y es igual: Fr = Fi / ∑fi
Debemos observar que las frecuencias acumuladas sólo tienen sentido cuando
es posible establecer una relación de orden entre los valores de la variable, esto
es, cuando la variable es ordinal.
Las frecuencias se pueden escribir ordenadamente mediante una tabla de
frecuencias, que adopta la siguiente forma:
Xi fi fr Fi Fr
X1 f1 fr1 Fr1
X2 f2 fr2 Fr2
X3 f3 fr3 Fr3
. . . . .
. . . . .
Xn fn frn Fin Fr n

Propiedades:
Frecuencias absolutas 0 ≤ fi ≤ n
Frecuencias relativas 0≤ fr ≤ 1.00
Frecuencias absolutas acumuladas 0≤Fi ≤ fi
Frecuencias relativas acumuladas 0 ≤ Fr ≤ 1.00
∑fr =1.00

14
Claramente, la suma de las frecuencias absolutas es el número total de datos,
n; y la suma de las frecuencias relativas es 1.0 Observa que el último valor de la
distribución de frecuencias absolutas acumuladas coincide con el número de
observaciones. Análogamente, el último valor de la distribución de frecuencias
relativas acumuladas es uno. La distribución de frecuencias acumuladas permite
conocer la proporción de valores por debajo de cierto valor de la variable, o entre
dos valores especificados, o por encima de cierta cantidad.
Como ejemplo, vamos a construir la tabla de frecuencias para la variable Dolor
del Ejemplo 3. La variable Dolor es una variable cualitativa ordinal que presenta
tres modalidades: leve, moderado e intenso. Tendríamos así la tabla de
frecuencias:
Xi Xi fr Fi Fr
Leve 3 0.375 3 0.375
Moderado 1 0.125 4 0.5
Intenso 4 0.5 8 100
∑fi = 8 1.00
-Interpreta los resultados obtenidos y comprueba que se verifican las
propiedades de las frecuencias.
-Qué porcentaje de pacientes que acudieron al servicio de urgencias sufren dolor
intenso?
-Cuántos pacientes acudieron al servicio de urgencias con dolor leve o
moderado?
Ejercicio 2. Construye la tabla de frecuencias para el resto de variables
cualitativas que aparecen en el Ejemplo 3.

Muestra n Dureza
1 Agua blanda
2 Agua blanda
3 Agua dura
4 Agua muy dura
5 Agua muy dura
6 Agua extremadamente
dura
7
Agua blanda
8
Agua blanda
9
Agua dura
10
Agua muy dura

15
Ejercicio 3. Con el objetivo de estudiar la influencia de la dureza del agua en
ciertos trastornos gastrointestinales simples, un laboratorio determinó la dureza
del agua de 10 muestras obteniendo los siguientes resultados:
Construye la tabla de frecuencias relativas para la variable “Dureza del agua”

3.2 Descripción de variables cuantitativas.

3.2.1 Descripción de variables cuantitativas discretas.


Una variable cuantitativa discreta es una variable que toma un número finito o
infinito numerable de valores posibles. La forma de resumir los datos observados
de una variable cuantitativa discreta es similar a la forma de resumir datos de
una variable cualitativa. Veremos cómo construir la tabla de frecuencias de una
variable discreta a través de un ejemplo.
Considera ahora la variable Visitas del Ejemplo 3. Fíjate que la variable Visitas
es discreta ya que puede tomar los valores 0,1,2,... (un número infinito numerable
de valores). A continuación construimos la tabla de frecuencias:
Xi fi fr Fi Fr
Leve 3 0.375 3 0.375
Moderado 1 0.125 4 0.5
Intenso 4 0.5 8 1.00
∑fi = 8 1.00
Prof. C. A. Cornielle

Fíjate en la información que nos ofrece la tabla de frecuencias. Observamos por


ejemplo que el 87.5%de los pacientes registrados no habían acudido con
anterioridad en más de una ocasión al servicio de urgencias. También
observamos que sólo 1 paciente había acudido anteriormente en 2 ocasiones al
servicio de urgencias (lo que representa un 12.5% del total de pacientes
registrados).
Ejercicio 4: Consideremos una muestra de 200 familias en las que contamos el
número de hijos.
Supongamos que se han observado 50 familias sin hijos, 80 familias con un hijo,
40 familias con dos hijos, 20 familias con tres hijos y 10 familias con cuatro hijos.
Construye la tabla de frecuencias correspondiente.
3.2.2 Descripción de variables cuantitativas continúas.
Para construir tablas de frecuencias de variables cuantitativas continuas es
habitual agrupar los valores que puede tomar la variable en intervalos. De este

16
modo contamos el número de veces que la variable cae en cada intervalo. A
cada uno de estos intervalos le llamamos intervalo de clase y a su punto medio
marca de clase. Por tanto, para la definición de las frecuencias y la construcción
de la tabla de frecuencias sustituiremos los valores ci por los intervalos de clase
y las marcas de clase. Algunas consideraciones a tener en cuenta:
Número de intervalos a considerar: Para adoptar esta decisión tendremos en
cuenta:
1. Cuantos menos intervalos tomemos, menos información se recoge.
2. Cuantos más intervalos tomemos, más difícil es manejar las frecuencias.
Aunque no hay unanimidad al respecto, un criterio bastante extendido consiste
en tomar como número de intervalos el entero más próximo a √n.
Amplitud de cada intervalo: Lo más común es tomar todos los intervalos de igual
longitud.
Posición de los intervalos: Los intervalos deben situarse allí donde se encuentran
las observaciones de forma contigua. Es aconsejable que los restos de intervalos
en los extremos derecho e izquierdo del conjunto de observaciones sean
similares.
Si una variable cuantitativa discreta toma muchos valores distintos puede ser
conveniente una agrupación por intervalos como en el caso continuo.
A continuación veremos un ejemplo práctico de cómo se construyen los
intervalos y la tabla de frecuencias para variables cuantitativas continuas. En la
resolución de los ejemplos será útil ordenar la muestra de observaciones y
después calcular el recorrido o rango, que de mínimos como la diferencia entre
Prof. C. A. Cornielle

el dato más grande y el más pequeño de la muestra. El recorrido se usa para


obtener la amplitud de los intervalos. La ordenación facilita mucho también el
recuento de las frecuencias encada intervalo.
Considera la variable Peso del Ejemplo 3. En primer lugar vamos a ordenar los
datos de la muestra de menor a mayor para que sea más sencillo el recuento de
frecuencias.
Muestra ordenada: 47; 55; 57; 58; 63; 70; 84; 87.
Recorrido= 87- 47 = 40.

Número de intervalos = √8 = 2.82 = 3

17
Como 40/3 = 13.3, podemos tomar 3 intervalos de amplitud 14 y así conseguimos
contener toda la muestra y los extremos de los intervalos resultan manejables.
Intervalo de clase Marca de clase:
[Li - Li+1) xi ni Fi Fr
46 - 60 53 4 0.5 0.5
60 - 74 67 2 0.25 0.75
74 - 88 81 2 0.25 1.0

Observamos, por ejemplo, que hay 2 pacientes con peso comprendido en el


intervalo [74; 88) y que el 75% de los pacientes atendidos pesan menos de 74
kg.
Ejercicio 5: En un estudio sobre trastornos de sueño se analizó el
comportamiento de 10 varones cuyas edades se muestran a continuación:
52; 47; 51; 28; 64; 31; 22; 53; 29; 23

Calcula una tabla de frecuencias para la variable Edad organizando los datos en
tres intervalos [20,35), [35,50), [50,65).

4. Representaciones gráficas

La representación gráfica de la información contenida en una tabla estadística


es una manera de obtener una información visual clara y evidente de los valores
asignados a la variable estadística. Existen multitud de gráficos adecuados a
cada situación. Unos se emplean con variables cualitativas otros con variables
cuantitativas.

4.1 Representaciones gráficas de variables cualitativas

Diagrama de barras: Representaremos las frecuencias absolutas o relativas de


variables cualitativas mediante un diagrama de barras. Para ello, situamos las
modalidades de la variable en el eje de abscisas, respetando su orden si lo
hubiera, y dibujamos barras verticales sobre ellas. Las alturas de las barras
representan frecuencias absolutas, relativas o porcentajes.
En la Figura 1 se muestra el diagrama de barras de frecuencias absolutas para
la variable Dolor del Ejemplo 3

18
Diagrama de barras

Frecs. Absols.
5
4
3
2
1
0
Leve Moderado Intenso

Diagrama de sectores: Se obtiene dividiendo un círculo en tantos sectores como


modalidades tome la variable. La amplitud de cada sector debe ser proporcional
a la frecuencia del valor correspondiente.
En la Figura 2 se muestra el diagrama de sectores de la variable Dolor del
Ejemplo 3.

DOLOR

50% 37.5%

12.5%

Leve Moderado Intenso

Ejercicio 6:
Un laboratorio está desarrollando unas nuevas tiras de orina para detectar los
niveles de acetona. Se realizan 50 pruebas de acetona en pacientes y se obtiene
en 15 ocasiones el color naranja, 25 veces se obtiene el color amarillo y en 10
ocasiones resulta el color verde. Construye la tabla de frecuencias y representa
las gráficas adecuadas para la variable Color de reacción.

19
4.2 Representaciones gráficas de variables cuantitativas

4.2.1 Representaciones gráficas de variables cuantitativas discretas

Representaremos los datos de variables cuantitativas discretas mediante


diagramas de barras, al igual que hicimos con variables cualitativas. En la Figura
3 se muestra el diagrama de barras de frecuencias absolutas para la variable
Visitas del Ejemplo 3.
Figura 3: Diagrama de barras de frecuencias absolutas para la variable Dolor

4.2.2 Representaciones gráficas de variables cuantitativas continuas


Las frecuencias de una variable cuantitativa continua también se pueden
representar gráficamente. Sin embargo, el diagrama de barras no parece
adecuado para este caso, pues lo que debemos representar son frecuencias de
intervalos contiguos.
Histograma: Es un gráfico para la distribución de una variable cuantitativa
continua que representa frecuencias mediante áreas. El histograma se construye
colocando en el eje de abscisas los intervalos de clase, como trozos de la recta
real, y levantando sobre ellos rectángulos con área proporcional a la frecuencia.
Dibujamos en la Figura 4 el histograma correspondiente a la distribución de
frecuencias obtenida para la variable Peso del Ejemplo 3.
A diferencia del diagrama de barras, los rectángulos se dibujan contiguos.
El aspecto del histograma cambia variando el número de clases y el punto donde
empieza la primera clase.
Cuanto mayor es el área de una clase, mayor es su frecuencia.

20
El histograma ayuda a describir cómo es la distribución de la variable, si es
simétrica (con un eje de simetría), bimodal (con dos máximos),...etc.

Figura 4

Formalmente, la altura de los rectángulos de un histograma debería representar


la densidad de frecuencia, que es el cociente fi / (Li+1 - Li). Así, el área total
encerrada por el histograma sería igual a uno. Sin embargo, la mayoría de
programas informáticos de estadística representan el histograma mediante
rectángulos de altura igual a la frecuencia absoluta o relativa de cada intervalo
como se muestra en la Figura 4
El polígono de frecuencias. Otra forma de presentar una distribución de
frecuencias gráficamente es dibujar un polígono de frecuencias. Se puede hacer
de dos formas: primero, si se dispone ya de un histograma, simplemente
dibujando un punto en el punto medio de la parte superior de cada barra del
histograma y uniendo luego estos puntos con líneas rectas, segundo, sin el
histograma, el polígono se obtiene localizando las coordenadas: las ordenadas,
que son las frecuencias de clases, y las abscisas, que son los puntos medios.
Esto puntos se unen con segmentos de rectas.
Considerando el peso del ejemplo 3
Li - Li+1) xi ni
46 - 60 53 4
60 - 74 67 2
74 - 88 81 2

21
Figura 5

Poligono de frecuencia
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
40-46 46-60 60-74 74-78 78-84

Como se nota el polígono de frecuencias está formado por los puntos medios de
las clases vecinas, este tiende acerrarse.

5. Medidas características: Medidas de posición y de dispersión

El objetivo fundamental de la estadística es extraer conclusiones sobre una


población basándonos en la información obtenida en la muestra. Hasta ahora
hemos visto como resumir esa información mediante tablas de frecuencias y
representaciones gráficas que nos ayudan a visualizar la distribución de los
datos. Estudiaremos ahora como calcular medidas que nos den una descripción
muy resumida sobre alguna propiedad concreta del conjunto de datos.
Por medida entendemos, pues, un número que se calcula sobre la muestra y que
refleja cierta cualidad de la misma. El cálculo de estas medidas requiere efectuar
operaciones con los valores que toma la variable. Por este motivo, a partir de
ahora tratamos sólo con variables cuantitativas.

Las medidas de posición y de tendencia central se calculan tanto para muestra


como para población.

22
5.1 Medidas de posición

En esta sección estudiamos medidas que nos indican la posición que ocupa la
muestra. La posición central son el objetivo de la media, la mediana y la moda.
El estudio de posiciones no centrales se hará con los cuantiles.
Media aritmética para una muestra simple (sin agrupar): Sean X1; X2, , , Xn un
conjunto de n observaciones de la variable X. Se define la media aritmética
(o simplemente media) de estos valores como:
𝟏
𝑿 = 𝑵 ∑𝑿𝒊, Para una muestra (1)
𝟏
µ = 𝑵 ∑(𝑿𝒊𝒇𝒊) Para una poblacion (2)

Observamos que el peso medio es 65.125 kg. Fíjate que la unidad de medida de
la media es la misma que la de los datos originales.
Ejemplo 4: Calculamos el peso medio de los pacientes de urgencias del
Ejemplo 3.
X = 63+58+84+…+55 = 61.125 kg
Observamos que el peso medio es 65.125 kg. Fíjate que la unidad de medida de
la media es la misma que la de los datos originales.

Para una muestra agrupada la media aritmética se calcula con la siguiente


formula:

𝟏
𝑿 = 𝒏 ∑(𝑿𝒊𝒇𝒊) Para una muestra

23
Peso kg de 37 pacientes de un hospital

Peso kg x Pacientes fi Xi*fi


165 9 1485
195 7 1365
200 6 1200
210 4 480
225 3 675

Total 29 5205

𝟏
𝑿 = 𝒏 ∑(𝑿𝒊𝒇𝒊) = 5205 = 179.48 kg

29
Si los datos están clasificados se buscan las marcas de clase o puntos medios
de las clases.
En caso de que se trate de una población se procede igual, pero se utilizan todos
los datos y se usa la formula (2).
Propiedades:
1. min(xi) ≤x ≤ max(xi ) y tiene las mismas unidades que los datos originales.
2. Es el centro de gravedad de los datos:
3. Si yi = a + bxi y = a + bx.

Ejemplo 5. Se ha detectado un error en la báscula con la que se han pesado los


pacientes del Ejemplo 3. La báscula estaba mal equilibrada y añadía a todos los
pacientes 5 kg. a su peso real .Cuál es entonces el peso medio correcto de los
pacientes?
Si X representa el peso que hemos medido con error, Y = X - 5 representaría el
peso real de los pacientes. Para calcular el peso medio correcto no nos haría
falta calcular de nuevo todos los pesos, ya que por las propiedades de la media
(propiedad 3) sabemos que:
y = x = 5 = 60.125 kg.

24
Efectivamente, los pesos reales serían 58, 53, 79, 42, 65, 52, 82, 50. Por lo tanto
la media de los pesos sería:
y =58+53+79+…+50 = 60.125 kg
8
Mediana: Una vez ordenados los datos de menor a mayor, se define ne la
mediana como el valor de la variable que deja a su izquierda el mismo número
de valores que a su derecha. Si hay un número impar de datos, la mediana es el
valor central. Si hay un número par de datos, la mediana es la media de los dos
valores centrales.
La mediana para datos simples:
Ejemplo 6: Calculamos el peso mediano de los pacientes de urgencias del
Ejemplo 3.
En primer lugar ordenamos los datos de menor a mayor:
47; 55; 57; 58; 63; 70; 84; 87
Tenemos un número par de datos (n = 8) y por lo tanto la mediana será:

Me = 58 + 63 = 60:5 kg
2
Observa que la media y la mediana tendrán valores similares, salvo cuando haya
valores atípicos o cuando la distribución sea muy asimétrica. La mediana es la
medida de posición central más robusta es decir, más insensible a datos
anómalos).
La mediana para datos agrupados sin clasificar.
Si los datos están agrupados pero sin estar distribuidos en clases tanto para
muestras como población, primero identificamos el área de la mediana, luego
calculamos la mediana con la ayuda de la siguiente técnica:
-Identificamos donde recae la mitad de todos los valores N/2 = 28/2 = 14
pacientes.

25
Pe kg de 37 pacientes de un hospital

Peso kg x Pacientes fi Fi
165 9 9
Área de la mediana
195 7 16
200 5
210 4
225 3

Total 28

La mediana del peso de los pacientes Me= 195 kg


Partiendo de datos agrupados y clasificados la mediana en una distribución de
frecuencias se halla por interpolación.
El método de interpolación se basa en el supuesto de que los datos son
continuos y que los valores de la serie se distribuyen regularmente dentro de los
intervalos de clases. Para situar la mediana lo primero que hay que hacer es
encontrar la posición en la distribución que divida la serie en dos partes iguales.
Usando el pesos de los pacientes, localizaremos primero esta posición
calculando n/2 = 14/2 = 7.
Me = L Inf. + (n/2-F-1) i = 74 + _7-6 ) * 4 = 75.32 kg
fi 3
Kg xi Pac. Fi N/2 = 14/2=7
46 - 60 53 4 4
60 - 74 67 2 6 Área de la mediana
74 - 78 76 3 9
78 - 84 81 5 14
Me = L Inf. + (n/2-F-1) I = 74 + ( 7-6)2 = 74.67 Kg
Fi 3

26
Moda (Mo): Es el valor de la variable que se presenta con mayor frecuencia.
A diferencia de las otras medidas, la moda también se puede calcular para
variables cualitativas. Pero, al mismo tiempo, al estar tan vinculada a la
frecuencia, no se puede calcular para variables continuas sin agrupación por
intervalos de clase. Al intervalo con mayor frecuencia le llamamos clase modal.
Puede ocurrir que haya una única moda, en cuyo caso hablamos de distribución
de frecuencias unimodal. Si hay más de una moda, diremos que la distribución
es multimodal.

Ejemplo 7: Calculamos la moda de la variable a número de hijos de pacientes


con TBC: 6, 2, 1, 1, 2, 2, 4, 3, 0, 3, 4, 4, 0, 2.
La moda es 2 hijos.
Si los datos están agrupados, pero sin clasificar, se hace el siguiente
procedimiento:
Número de hijos de pacientes con TBC
No. de hijos Pacientes
0 8
1 6
2 4
3 5
4 3
6

Mo = 0 Hijos.

Cuando los datos están agrupados y clasificado, la moda se calcula por


interpolación con la ayuda de la siguiente fórmula:

Mo = Lim in.f + ( Δ1 ) i
Δ1+ Δ2

27
Donde

Lim. inf = límite inferior de la clase modal


Δ1 = diferencia entre la frecuencia de la clase modal y la frecuencia de la
premodal
Δ2 = diferencia entre la frecuencia de la clase modal y la frecuencia de la
posmodal
i = tamaño de la clase modal
Ejemplo 8.
En nuestro ejemplo la moda sería:

Número de hijos de pacientes con TBC


No. de hijos Pacientes(fi)
0-2 5
3-4 6 área modal
4-5 4
5-6 3
Total 18

Mo = 3 + (6-5) * 1 = 3.33 hijos


(6-5) + 6-4)

28
Una aplicación interesante de la moda es la comprobación de los cálculos. Si un
cálculo se repite un número de veces, el resultado aceptado es el que aparece
el mayor número de veces.

Aunque la moda es un concepto muy sencillo, de interpretación muy clara y útil,


su aplicación plantea muchos problemas difíciles. Primero, una distribución
puede revelar que dos o más valores se repiten igual número de vece, y en tal
caso no hay forma lógica de determinar qué valor debe escogerse como la moda.
En una distribución con datos discretos la moda es el valor que ocurre con mayor
frecuencia.
Segundo, al tratar una serie continua cuyos valores siguen unos a otros aun para
los datos discretos, puede que no encontremos un valor que aparezca más de
una vez, como el caso de las poblaciones de las grandes ciudades chinas.
Finalmente, la moda es un valor inestable. Tiende a cambiar si se modifica la
manera de redondear los datos.

Relación entre los promedios

Existen ciertas relaciones numéricas entre los promedios:


Para cualquier serie, excepto para aquella cuyas observaciones son de idéntico
valor, la media aritmética siempre es mayor que la media geométrica, la cual a
su vez es mayor que la media harmónica.
Para una distribución simétrica y unimodal la media = mediana = moda.
Para una distribución de asimetría positiva (asimetría hacia la derecha),

la X > Md > Mo.


Para una distribución de asimetría negativa (asimetría hacia la izquierda),

X < Md < Mo.


La gráfica 6 presenta la relación entre la media, mediana y moda.

29
La gráfica 6

En conclusión, en ocasiones una descripción completa de una distribución de


frecuencias requiere dos o más de estos promedios. El cálculo de dos o más
promedios crea cierta carga para el investigador y para el usuario de la
estadística. Pero, esto se justifica cuando se presenta una descripción más
completa de los datos y no la que se obtiene calculando una sola medida.
Cuantiles: Hemos visto que la mediana divide a los datos en dos partes iguales.
Pero también tiene interés estudiar otros parámetros, llamados cuantiles, que
dividen los datos de la distribución en partes iguales, es decir en intervalos que
comprenden el mismo número de valores. En general, sea p 2 (0; 1).
Se define el cuantil P como el número que deja a su izquierda una frecuencia
relativa p. Observa que la mediana es el cuantil 0.5. Existen distintos métodos
para calcular los cuantiles. Una posible forma de calcular el cuantil p consistiría
en ordenar la muestra y tomar como cuantil el menor dato de la muestra (primero
de la muestra ordenada) cuya frecuencia relativa acumulada es mayor que p.
Recuerda ordenar las observaciones de menor a mayor para calcular la mediana
y el resto de cuantiles.
Algunos órdenes de los cuantiles tienen nombres específicos. Así los cuartiles
son los cuantiles de orden (0.25, 0.5, 0.75) y se representan por Q1, Q2, Q3.
Los cuartiles dividen la distribución en cuatro partes. Los deciles son los cuantiles
de orden (0.1, 0.2,..., 0.9). Los percentiles son los cuantiles de orden j /100 donde
j =1,2,...,99.
Una medida de posición muy útil para describir una población, es la denominada
'percentil'. En forma intuitiva podemos decir que es un valor tal que supera un
determinado porcentaje de los miembros de la población. El percentil es una
medida no central usada en estadística que indica, una vez ordenados los datos
de menor a mayor, el valor de la variable por debajo del cual se encuentra un
porcentaje dado de observaciones en un grupo de observaciones.

30
Se representan con la letra P. Para el percentil i-ésimo, donde la i toma valores
del 1 al 99. El i % de la muestra son valores menores que él y el 100-i % restante
son mayores.
Aparecen citados en la literatura científica por primera vez por Francis Galton en
1885.
P25 = Q1.
P50 = Q2 = mediana.
P75 = Q3.
Cálculo del percentil
Fórmulas Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3, ..., Xn, se localiza mediante las
siguientes fórmulas:
Para los percentiles, cuando n es par:
A* n = _P_
100
Cuando n es impar:
P/100(n + 1)
Siendo P, el número del percentil.
Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil
con el percentil 50 y el tercer cuartil con el percentil 75.
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de
ubicación o clasificación de las personas cuando atienden características tales
como peso, estatura, etc.
Los percentiles son ciertos números que dividen la sucesión de datos ordenados
en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en
cien partes iguales el conjunto de datos ordenados. Los percentiles
(P1, P2,... P99), leídos primer percentil,..., percentil 99.
Datos Agrupados
P = Lim inf. + P/100(n) – Fa-1 * i
fi
P= 1, 2,3,... 99

31
Donde:
Lim inf = Límite real inferior de la clase del decil k
n = Número de datos
Fa-1 = Frecuencia acumulada de la clase que antecede a la clase del percentil
P.
fi = Frecuencia de la clase del percentil P.
i = Longitud del intervalo de la clase del percentil P.
Veamos un ejemplo para datos simples:
Ejemplo 9.
Se tiene el nivel de triglicéridos en sangre MG/ml par un grupo de 10 pacientes:
100 120 135 140 160 180 190 200 250 260
Determinar la medida de triglicéridos del 70% o menos de los pacientes.
P70 ≤ P(n) = 70/100(10) = 7 lugar
Hay que ordenar los datos.
P70 ≤190 MG/mL
Ejemplo 10.
En caso de que la variable sea impar:
Se tiene el nivel de triglicéridos en sangre MG/ml par un grupo de 11 pacientes:
100 120 135 140 160 180 190 200 250 260 280
Determinar la medida de triglicéridos del 70% o menos de los pacientes
P70 ≤ P(n+1) = 0.7 (11) = 8.47 se redondea a 9no. lugar
P70 ≤ 250 MG/mL

32
Ejemplo 11 : Ahora supongamos que estos datos están agrupados en una tabla
de frecuencias:
Triglicéridos No. de
en sangre pacientes
Fi
MG/mL
100 5 5
120 4 9
135 8 17
180 3
190 6
200 3
250 1
Total 30

Determinar la medida de triglicéridos del 40% o menos de los pacientes.


P40 = 0.4 (30) = 12 lugar
P40 ≤ 135 MG/mL
El 40% de los pacientes tiene los triglicéridos menor o igual a 135 MG/mL
Supongamos que los datos anteriores están agrupados y clasificados:
Ejemplo 12 :
Triglicéridos No. de
en sangre pacientes
Fi
MG/mL
100-20 9 9
120-135 4 13
135-180 8 21
180-190 5 25
190-200 3
200-250 6

Total 35

Determinar la medida de triglicéridos del 60% o menos de los pacientes.

33
Procedimiento

Cuando los datos están agrupados y ordenado esn clases se interpolan los datos
con la ayuda de la siguiente formula

PL = Lim inf. + P/100(n+1) – Fa-1 * i


fi

P(n+1)= 0.60*36 = 21.6 = 22 lugar

P40= 180 + ( 22 – 21 )*10 = 180+5 = 185 MG/mL


5
El 60% de los pacientes tiene los triglicéridos menores o igual a 185 MG/mL

Los cuartiles son los tres valores que dividen al conjunto de datos ordenados
en cuatro partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q 1, Q2, Q3. El segundo cuartil es
precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del
cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el
tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas
partes (75%) de los datos.
Para Datos no Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las
siguientes fórmulas:
- El primer cuartil:
Cuando n es par:
Q1= 1n
4
Cuando n es impar:

Q1 = 1(n + 1)
4

34
Para datos agrupados y clasificados:

3( n ) – F-a
Q3 = Lim inf + 4_____ *i
fi

Para el tercer cuartil

Cuando n es par:

Q3= 3(n )
4

Cuando n es impar:

Q3 = 3(n + 1)
4

Cuando n es impar:

Q3 = 3(n + 1)
4

Para Datos agrupados

3( n ) – F-1
Q3 = Lim inf + 4_____ *i
fi

Como los cuartiles adquieren su mayor importancia cuando contamos un número


grande de datos y tenemos en cuenta que en estos casos generalmente los
datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de
los cuartiles cuando se trata de datos agrupados es la siguiente:
k= 1,2,3

35
Donde:
Li inf = Límite real inferior de la clase del cuartil k
n = Número de datos
Fi = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fi = Frecuencia de la clase del cuartil k
i = Longitud del intervalo de la clase del cuartil k
Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene
lo siguiente:
El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los
datos; es decir, aquel valor de la variable que supera 25% de las observaciones
y es superado por el 75% de las observaciones.

Para datos simples muestrales sin agrupar:

Del ejemplo 13. Se tiene el nivel de triglicéridos en sangre MG/ml par un grupo
de 10 pacientes:

100 120 135 140 160 180 190 200 250 260

Calcular el cuartil 1.

Q1 = ¼ (n) lugar del cuartil ( ¼*10) = 2.5 = lugar 3

Q1 ≤ 135 MG/ml El 25% de los pacientes tienen un nivel de triglicéridos en


sangre de 135 MG/ml

Para datos agrupados NO clasificados


Ejemplo 14

Triglicéridos No. de
en sangre pacientes Fi
MG/mL
100 5 5
120 4 9
135 8
180 3
190 6
200 3
250 1
Total 30

36
Q1 = (1/4 n) = 1/4 ( 30) = 7.5 = 8 lugar

Q1 = 120 MG/ml El 25% de los pacientes tienen un nivel de triglicéridos en


sangre de 135 MG/ml.

Si los datos están agrupados y clasificados entonces interpolamos la medida


y se calcula con la ayuda de la siguiente formula

3( n +1 ) – F-1
Q3 = Lim inf + 4_____ *i
fi

Ejemplo15. Calcular el cuartil 3 de los siguientes datos

Triglicéridos No. de
en sangre pacientes Fi
MG/mL
100-20 9 9
120-135 4 13
135-180 8 21
180-190 5 25
190-200 6 32
200-250 7

Total 39

Q3= 3/4( n+1) = 3/4( 38) =28.5 = 29 lugar

3( 40 ) – 25
Q3 = 190 + 4_____ * 10 = 120+ 8.33 = 128.33 MG/ml
6

El 75% de los pacientes tiene un nivel de trigliceridos menor o igual a128.33


MG/ml

5.2 Medidas de dispersión

En el capítulo anterior describimos la distribución de frecuencias con promedios,


como valores significativos adoptados para representar la tendencia central de
una serie, es una medida muy útil y poderosa. Pero el uso de un solo valor para
describir una distribución oculta muchos hechos importantes. La toma de
decisiones con frecuencia exige la revelación de estas características. Por
consiguiente, debemos exponer ahora medidas estadísticas para resumir y
describir esas características ocultas.
No todas las observaciones en una serie son del mismo valor que el promedio
del que se deriva. A menudo, las cantidades incluidas en una distribución
siempre difieren del valor central, aunque el grado de desviación varía de una
serie a otra.

37
En muchos casos, las formas de la distribución difieren de una serie a otra. Unas
son simétricas; otras, no. Por lo tanto, para describir una distribución
necesitamos también una medida del grado de simetría o asimetría, del equilibrio
o la falta de equilibrio, en ambos lados del centro de la distribución.
La variación es, con mucho, la característica más importante de una distribución:
puede ser la base para la toma de decisiones o una medida para seguir
desarrollando la teoría y el método estadístico. Aunque la asimetría es una
importante característica para definir el modelo preciso de una distribución,
raramente se calcula en los negocios y la economía.
Las medidas de disperso o de variabilidad definición
Las medidas de variabilidad, también llamadas medidas de dispersión, son
medidas resumen de un conjunto de dataos, muestran la variabilidad de una
distribución, indicando por medio de un número, si las diferentes puntuaciones
de una variable están muy alejadas de la media. Cuanto mayor sea ese valor,
mayor será la variabilidad, cuanto menor sea, más homogénea será a la media.
Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Las medidas de dispersión se utilizan para describir la variabilidad o
esparcimiento de los datos de la muestra respecto a la posición central.

Para cuantificar la dispersión de los datos se distinguen los tipos de índices:


- Los que miden el grado en que las puntaciones se asemejan o diferencian
entre sí: Amplitud total o rango y amplitud semi-intercuartil.
- Los que la dispersión se mide con respeto al alguna medida de tendencia
central como la media aritmética: Varianza, desviación típica y coeficiente de
variación.

Las medidas de variabilidad más comunes son:

-El rango
-La desviación seimi-intercuatilica
-La variación estándar o típica la varianza
-El Coeficiente de variación

38
Rango.
El rango se suele definir como la diferencia entre los dos valores extremos que
toma la variable. Es la medida de dispersión más sencilla y también, por tanto,
la que proporciona menos información. Además, esta información puede ser
errónea, pues el hecho de que no influyan más de dos valores del total de la
serie puede provocar una deformación de la realidad.
Recorrido o rango: R = Xmax xi -- Xmin xi
Comparemos, por ejemplo, estas dos series:
El uso de esta medida de dispersión, será pues, bastante restringido.
Variación estándar o típica y varianza

Varianza: Si hemos empleado la media como medida de posición, parece


razonable tomar como medida de dispersión algún criterio de discrepancia de los
puntos respecto a la media. Según hemos visto, la simple diferencia de los
puntos y la media, al ponderarla, da cero. Por tanto, elevamos esas diferencias
al cuadrado para que no se cancelen los sumandos positivos con los negativos.
El resultado es la varianza, cuya definición se da a continuación.

Sean x1 ,x2, , , , xn un conjunto de n observaciones de la variable X. Se define


la varianza muestral como:

Una medida de variabilidad más lógica sería

S2= (X1-X)2 +(X2-X )2 +(X3-X)2 +……..+( Xn-X)2


n-1
Propiedades:

1. S2a+X = S2X. La varianza no se ve afectada por cambios de localización.

2. S2bX = b2.S2X La varianza se mide en el cuadrado de la escala de la variable

Que una medida de dispersión no se vea afectada por cambios de localización,


como ocurre con la varianza (propiedad 1), es una condición casi indispensable
para admitirla como tal medida de dispersión. La dispersión de un conjunto de
datos no se ve alterada por una mera traslación de los mismos.

39
La desviación típica
Para conocer con detalle un conjunto de datos, no basta con conocer las
medidas de tendencia central, sino que necesitamos conocer también la
desviación que presentan los datos en su distribución respecto de la media
aritmética de dicha distribución, con objeto de tener una visión de los mismos
más acorde con la realidad al momento de describirlos e interpretarlos para la
toma de decisiones. La variación estándar o típica es, con mucho, la estadística
más importante entre todas las medidas de variación. Mide la variación de los
datos en términos absolutos.
La desviación típica es una medida del grado de dispersión de los datos con
respecto al valor promedio. Dicho de otra manera, la desviación estándar es
simplemente el "promedio" o variación esperada con respecto a la media
aritmética.
Forma de calcular la variación estándar
La desviación estándar o típica matemáticamente se calcula extrayendo la raíz
cuadrada de la media aritmética de las desviaciones al cuadrado de los datos
con respecto a la media.
Dependiendo de si los datos son muestrales o poblacionales y de si los mismos
están agrupados o no, la fórmula para calcular la desviación estándar varía.
La desviación estándar de una muestra a partir de datos sin agrupar:
S es la variación estándar
n es el tamaño de la muestra

es la media aritmética de la muestra


Para obtener la desviación estándar muestral sin agrupar suponemos cinco
pasos sencillos:
Tomar la desviación de cada observación en relación a la media, ( X - ),
representada por d.
Elevar al cuadrado las desviaciones (X - )2 o d2.
Sumar las desviaciones, esta suma puede considerarse como la variación, y se
simboliza como ∑ (X - )2 o ∑d2

Obtiene la media de las de las desviaciones al cuadrado, ∑ (X - )2 / n


o ∑d2 / n. Este valor se llama varianza muestral y se representa por S 2. Prof.

40
Extraer la raíz cuadrada de la varianza, √∑d2 / n. El resultado así obtenido es
la desviación estándar muestral para datos simples, y se representa por el
símbolo S.
De esta manera la raíz cuadrada de la variancia, que a su vez, es la media la
media de las desviaciones al cuadrado con respecto a la media. Las fórmulas
para la desviación estándar y la varianza para muestras y población simple se
escriben como sigue:

La varianza para una muestra simple

La variación estándar o típica simple

La varianza para una población simple

La variación estándar para una muestra simple

Donde
N es el tamaño de la población y
μ es la media aritmética de la población
es la media aritmética de la muestra
n es el tamaño de la muestra
Para usar estas fórmulas, es necesario llevar x a un número suficiente de
lugares decimales con el objeto de obtener mayor precisión.

La desviación estándar de una muestra a partir de datos agrupados

41
A menudo, la desviación estándar se calcula junto a l media, y una forma carta
de calcular la media puede usarse para el cálculo de la desviación estándar. La
fórmula utilizada para el cálculo de la desviación estándar para datos agrupados
para una muestra es:

Para una población la variación estándar es:

Ejemplo 16. Calculamos la varianza del peso de los pacientes de urgencias


del Ejemplo 3. Recuerda que x = 65:125 kg.

Varianza y desviación típica para muestrales simples:

s2 = (63 – 65.125)2 + (58 – 65.125)2 + , , , + (55 – 65.125)2 = 201:55 kg2


7
S= √s 2

S= √s2 = √ 201.55 =14.20 kg

Ejemplo para datos agrupados muéstrales

Ejemplo 17. Se ha desarrollado una nueva vacuna contra la difteria para aplicarla
a niños. El nivel de protección estándar obtenido por antiguas vacunas es de 10
µg/ml un mes después de la inmunización. Se han obtenido estos datos del nivel
de protección de la nueva vacuna al transcurrir un mes:

Protección Cantidad
mg/ml de niños
11.5 8
12.5 6
13.5 5
14.5 4
Total 24

Calculemos el rango, la varianza y desviación típica para el nivel de protección


contenido en esta vacuna.

42
Fórmulas:
Recorrido o rango: R = Xmax xi -- Xmin xi

Procedimiento

Desviación

xi xi-x ( xi-x )2 ( xi- x )2 *fi

11.5 -1.4 1.96 15.68


12.5 0.13 0.09 0.54
13.5 1.31 1.72 8.6
14.5 2.31 5.34 21.36
Total 46.18

Recorrido o rango: R = Xmax xi -- Xmin xi = 14.5 - 11.5 = 3.0 mg/mm

X = 12.19 mg/mm

S2 = 46.18 = 1.92 (mg/mm)2


24

S = √1.92 = 1.38 mg/ml

Coeficiente de variación: Si queremos una medida de dispersión que no dependa


de la escala y que, por tanto, permita una comparación de las dispersiones
relativas de varias muestras, podemos utilizar el coeficiente de variación, que se
define así:

Para datos muéstrales simples:

CV = (s/x ) * 100

43
Para datos poblacionales simples

CV = (σ/µ ) * 100

Por supuesto, para que se pueda definir esta medida es preciso que la media no
sea cero. Es más, el coeficiente de variación sólo tiene sentido para variables
que sólo tomen valores positivos y que no sean susceptibles de cambios de
localización.

Calculamos el coeficiente de variación del ejemplo anterior:

CV = (s / x ) * 100 = 1.38 mm/ 12.9 mm

CV = 10.98%

Existe una baja dispersión

Ejercicio. Un estudio tiene como objetivo determinar la concentración de pH en


muestras de saliva humana. Para ello se recogieron datos de 10 personas
obteniéndose los siguientes resultados. 6:59 7:37 7:15 7:08 5:75 5:83 7:12 7:23
7:13 5:60

-Calcular la media, mediana, desviación típica, coeficiente de variación, cuartiles


y rango intercuartílico.

Ejercicio. La siguiente tabla muestra el diámetro biparietal de los fetos de 38


semanas de edad gestacional, medido por ecografía en un hospital

Diámetro Fetos
(Cent) fi
85 8
90 5
95 7
100 4
105 3
110 2

Total 29

-Calcular la media, mediana, desviación típica, coeficiente de variación, cuartiles


y rango intercuartílico

44
5.3 Medidas de forma

Las medidas de forma tratan de medir el grado de simetría y apuntamiento en


los datos.
Coeficiente de asimetría de Fisher: Se define como

∑ ( X – X )3
ASF = ____________
3
ns
La interpretación de este coeficiente es la siguiente: Si su valor es prácticamente
cero se dice que los datos son simétricos. Si toma valores significativamente
mayores que cero diremos que los datos son asimétricos a la derecha y si toma
valores significativamente menores que cero diremos que son asimétricos a la
izquierda.

Coeficiente de apuntamiento de Fisher: Mide el grado de concentración de una


variable respecto a su medida de centralización usual (media). Se define como:

∑ ( X – X )4
AF = ____________
4
ns
Puesto que en Estadística el modelo de distribución habitual de referencia es el
gaussiano o normal y este presenta teóricamente un coeficiente de apuntamiento
de 3, se suele tomar este valor como referencia. Así, si este coeficiente es menor
que 3 diremos que los datos presentan una forma platicurtica, si es mayor que 3
diremos que son leptocúrticos y si son aproximadamente 3 diremos que son
mesocúrticos.

Ejemplo 18. Con los datos del ejercicio 17 determinar la forma de la distribución.

Calculamos el coeficiente de asimetría:

Desviación

xi xi-x (xi-x)3

11.5 -1.4 -2.744


12.5 0.13 0.00212
13.5 1.31 2.248
14.5 2.31 12.33
Total - -- -- 11.84

∑ ( X – X )3
ASF = ____________ = 11.84 = 2.95 Los diámetros biparietales son de
3
ns 4 asimetrías positiva

45
5.4 El diagrama de caja o Boxplot

La información obtenida a partir de las medidas de centralización, dispersión y


forma se puede usar para realizar diagramas de caja (boxplots) que visualmente
nos dan información sobre cómo están distribuidos los datos. El diagrama de
caja consta de:
 una caja central que está delimitada por la posición de los cuartiles
Q1 y Q3.
 Dentro de esa caja se dibuja la línea que representa la mediana
(cuartil Q2).
 De los extremos de la caja salen unas líneas (denominadas bigotes) que
se extienden hasta los puntos LI = max min(xi ) ; Q1 -1.5RI , y
LS = min max (xi ); Q3 + 1:5RI que representarían el rango razonable
hasta el cual se pueden encontrar datos.
 Los datos que caen fuera de los bigotes se representan individualmente
mediante ” * “ (datos atípicos moderados) y “o” (datos atípicos
extremos).

La Figura 5 muestra los diagramas de caja para datos de Estatura agrupados


por Sexo. Fíjate que en ambos sexos hay datos atípicos moderados (personas
cuyas estaturas están fuera del rango “razonable” de valores determinado por el
conjunto de observaciones de cada sexo).
Figura 5: Diagramas de caja para la variable Estatura agrupada por Sexo.

Prof. C. A. Cornielle

46
CAPITULO 2 INDICADORES DEMOGRÁFICOS Y EPIDEMIOLÓGICOS

1. Intdroduccion

La epidemiologia es el estudio de la distribución y determinantes de


enfermedades en poblaciones humanas, según la definición del CDC (Centers
for Disease Control and Prevention). Siendo los determinantes cosas como
factores que precipitan la enfermedad, la polución atmosférica, estilo de vida y
nivel de colesterol.

Los indicadores epidemiológicos sirven, por ejemplo, para expresar la


relación entre el subconjunto de enfermos y el total de individuos de la población,
lo que equivale a un cálculo simplificado del riesgo. Por ejemplo, si la prevalencia
de la gripe en RD es de 200 casos por cada 100.000 habitantes podríamos decir
que las posibilidades de sufrirla son de un 0,2%.
Las autoridades sanitarias manejan una gran variedad de indicadores
epidemiológicos en salud pública. ¿Cuáles son los más habituales?

Indicadores epidemiológicos básicos


Casos:
Número de personas afectadas por una patología determinada. Un caso podría
ser pacientes hospitalizados o muertes. Este indicador puede ser:
Discreto (presente o ausente): por ejemplo, una persona tiene gripe o no la tiene,
no hay punto intermedio.
Continuo: para condiciones de salud que admiten una graduación. Por ejemplo,
presión arterial o colesterol.

47
2. Tasa de natalidad, morbilidad, mortalidad

La tasa de mortalidad es una medida del número de muertes (en general, o


debido a una causa específica) en alguna población, escalado al tamaño de esa
población, por unidad de tiempo. La tasa de mortalidad generalmente se expresa
en unidades de muertes por cada 1000 individuos por año.

Se calcula haciendo el cociente entre el número de defunciones ocurridas


durante un período determinado y la población media de ese período; por mil.

Existen varios tipos como la tasa de mortalidad materna, infantil, especifica por
edad, perinatal…

La tasa bruta de mortalidad es el indicador más utilizado en la medición de la


mortalidad. Se obtiene de la relación entre el número de defunciones ocurridas
en un período de tiempo determinado (generalmente un año) y una estimación
de la población expuesta al riesgo de morir en el mismo período.

La estimación de la población supone calcular el tiempo vivido por aquella


durante dicho período. Dadas las dificultades que presenta su cálculo, se estima
la población a mitad de periodo. Así:

dz = Dz ___ * 1000
N30VIZ

Donde: dz es la Tasa Bruta de Mortalidad(a mitad de periodo)

Dz son las Defunciones ocurridas en el año z

N 30-VI-z la población estimada al 30 de Junio del año z( primeros 6 mesesdel año)


La tasa multiplicada por mil, representa la frecuencia relativa con la que ocurren
las defunciones en una población durante un año.

Ejemplo 1 para tasa de mortalidad de todo el año.


TM es la relacion entre los fallecidos en ese año entre la cantidad total de la
poblacion en ese año.

d 1999 = 158500 __ * 1000 = 6.28


25232226

Así, se puede afirmar que en 1999, por cada Mil fallecieron un poco más de 6
personas.

Prof. C. A. Cornielle

48
Mortalidad infantil

La mortalidad que ocurre antes de cumplir un año de edad, se denomina


mortalidad infantil. Es evidente que, en el primer año de vida se presentan las
más altas tasas de mortalidad que en las edades siguientes. La esperanza de
vida al nacer, es menor que la esperanza de vida a la edad exacta 1, que sería
otro indicador de la intensidad de la mortalidad. Se considera a la mortalidad
infantil, como un foco de atención para todas las políticas de salud, así como un
indicador de las condiciones de salud y mortalidad de una población. Una de las
consideraciones más importantes, es saber diferenciar entre un nacido vivo y un
nacido muerto. Un “nacido vivo” es cuando al momento de nacer, manifiesta
algún signo de vida, como respiración, latidos, llanto, etc. Contrariamente un
“nacido muerto” es cuando la defunción ocurrió antes de la expulsión o extracción
del ser, producto de la concepción que ha alcanzado 28 semanas de gestación.
En segundo lugar, debe tenerse en cuenta que las defunciones ocurridas en un
año calendario corresponden a dos generaciones. Por ejemplo, los niños que
fallecieron en 1999, pudieron haber nacido ese mismo año o en el año anterior.
Por ello, en la medición de la mortalidad infantil, se requiere precisar e identificar
ambas generaciones para no distorsionar la estimación final de su nivel. Se
calcula como sigue:
TMI = Dz0 * 1000
Bz
Donde:
TMI es la Tasa de Mortalidad Infantil

Dz0 es el total de defunciones de menores de un año ocurridas en el año Z.

BZ es el número de nacidos vivos en el año Z

Se observa que los componentes para calcular la TMI, son diferentes a la tasa
de mortalidad por edad. En el denominador se registra el número de nacimientos
ocurridos en el año, cuyo equivalente es “personas con edad exacta 0 años“. En
tanto, las tasas de mortalidad por edad tienen como denominador la población
media de menores de un año, es decir, personas con edades cumplidas. En
consecuencia, estas dos medidas son de naturaleza diferente, por el
denominador que se utiliza en cada caso. También se puede afirmar que la tasa
de mortalidad infantil es menor que la tasa central de mortalidad de los menores
de un año, debido a que el número de nacimientos en un año es mayor que la
población media de cero años. Esto representa al total de sobrevivientes de los
nacimientos ocurridos en los 12 meses que empieza el 30 de junio del año
anterior.

Ejemplo 2

TMI = 25917 * 1000 = 42.5


609800
Es decir, en 1999, ocurrieron aproximadamente 43 defuncion

Prof. C. A. Cornielle

49
La Tasa de Mortalidad Materna

Representa el número de las defunciones de mujeres por complicaciones


durante el embarazo y el parto, que ocurre en un año determinado por cada
10000 mil nacimientos (excluyendo causas accidentales o incidentales).

TMM = DZM * 10000


BZ

Donde: TMI es la Tasa de Mortalidad Materna

DZM es el total de defunciones maternas en el año Z.

BZ es el número de nacidos vivos en el año Z.

Para determinar con precisión el riesgo de muerte debido a esta causa, se debe
aclarar que el denominador debería contener al número de embarazos que hubo
en el año considerado. En la práctica, es imposible obtener esta información, por
lo que se toma como aproximación, el número de embarazos que culmina con
un nacido vivo. Es decir, los nacimientos ocurridos en el año Z.

Morbilidad
Se entiende por morbilidad la cantidad de individuos considerados enfermos o
que son víctimas de una enfermedad en un espacio y tiempo determinado. La
morbilidad es un dato estadístico importante para comprender la evolución o
retroceso de alguna enfermedad, las razones de su surgimiento y las posibles
soluciones.
En el sentido de la epidemiología se puede ampliar al estudio y cuantificación de
la presencia y efectos de alguna enfermedad en una población.

Tasa de morbilidad
La frecuencia de la enfermedad en proporción a una población se especifique: el
período, el lugar y la hora por minuto.
Las tasas de morbilidad más frecuentemente usadas son las siguientes:
Prevalencia: Frecuencia de todos los casos (antiguos y nuevos) de una
enfermedad patológica en un momento dado del tiempo (prevalencia de punto)
o durante un período definido (prevalencia de período).

Incidencia: Es la rapidez con la que ocurre una enfermedad. También, la


frecuencia con que se agregan (desarrollan o descubren) nuevos casos de una
enfermedad/afección durante un período específico y en un área determinada.

Prof. C. A. Cornielle

50
2. Tasa de incidencia, prevalencia

Tasa de Incidencia, es el número de personas que contraen una enfermedad


durante un determinado período de tiempo, por cada 1000 personas.
Tasa de Incidencia = ( Nuevos casos / Poblacion total ) * 1000
Ejemplo 3. En una población de 1000 personas no enfermas, 28 se infectaron
con el VIH a lo largo de dos años de observación. La proporción de incidencia
es de 28 casos por cada 1000 personas; es decir, un 2,8 % a lo largo de un
periodo de dos años, o 14 casos por 1000 persona-años (índice de incidencia)
porque la proporción de incidencia (28 por cada 1000) se divide entre el número
de años .

Tasa de Prevalencia, es el número de personas que tienen una enfermedad


específica, en un determinado momento por cada 1000 personas.

Tasa prev = Número de casos existentes en el lugar X y momento en el tiempo * 1000


Número total de personas de la población en el mismo lugar y tiempo

Ejemplo 4.
En una población de 10000 personas, se informa de que 500 personas sufren
determinada enfermedad. ¿Cuál sería en ese caso la prevalencia de la
enfermedad en esa población?
Tasa prev. = 500 / 10000 = 0.005 * 1000 = 5 de cada mil habitantes
Es decir, el 5% sufren la determinada enfermedad.

51
CAPITULO 3. PROBABILIDAD: CONCEPTOS BASICOS

1. Introducción histórica

El objetivo de la Estadística es utilizar los datos para inferir sobre las


características de una población a la que no podemos acceder de manera
completa. En el tema anterior, hemos visto como realizar un análisis descriptivo
de una muestra de datos. La Probabilidad es la disciplina cientí_ca que
proporciona y estudia modelos para fenómenos aleatorios en los que interviene
el azar y sirve de soporte teórico para la Estadística.

Como primeros trabajos con cierto formalismo en Teoría de la Probabilidad cabe


destacar los realizadospor Cardano y Galilei (siglo XVI), aunque las bases de
esta teoría fueron desarrolladas por Pascal y Fermat en el siglo XVII. De ahí en
adelante grandes cientí_cos han contribuido al desarrollo de la

Probabilidad, como Bernouilli, Bayes, Euler, Gauss,... en los siglos XVIII y XIX.
Será a _nales del siglo XIX y principios del XX cuando la Probabilidad adquiera
una mayor formalización matemática,debida en gran medida a la llamada
Escuela de San Petesburgo en la que cabe destacar los estudiosde chebychev,
Markov y Liapunov.

La Teoría de laProbabilidad surgió de los estudios realizados sobre losjuegos de


azar, que se remontan miles de años atrás.

52
2. Conceptos básicos:

2.1. Experimento aleatorio


Llamamos experimento aleatorio al que satisface los siguientes requisitos:

 Todos sus posibles resultados son conocidos de antemano.

 El resultado particular de cada realización del experimento es


imprevisible.

 El experimento se puede repetir indefinidamente en condiciones idénticas.

Cuando de un experimento podemos averiguar de alguna forma cuál va a ser su


resultado antes de que se realice, decimos que el experimento es determinístico.
Así, podemos considerar que las horas de salida del Sol, o la pleamar o bajamar
son determinísticas, pues podemos leerlas en el periódico antes de que se
produzcan. Por el contrario, no podemos encontrar en ningún medio el número
premiado en la Lotería de Navidad antes del sorteo. Nosotros queremos estudiar
experimentos que no son determinísticos, pero no estamos interesados en todos
ellos.

Por ejemplo, no podremos estudiar un experimento del que, por no saber, ni


siquiera sabemos por anticipado los resultados que puede dar. No realizaremos
tareas de adivinación.

Por ello definiremos experimento aleatorio como aquel que verifique ciertas
condiciones que nos permitan un estudio riguroso del mismo.

Ejemplo 23: Ejemplos de experimentos aleatorios son:

E1 =Lanzar una moneda al aire,

E2 =Lanzar dos veces una moneda,

E3 =Lanzar dos monedas a la vez,

E4 =Medir la temperatura corporal de un paciente.

53
2.2 Espacio muestral. Sucesos. .

Espacio muestral: Es el conjunto formado por todos los resultados posibles del
experimento aleatorio.

Lo denotamos por S

Ejemplo 24: Si lanzamos una moneda, S =( C, E)

Suceso elemental: Es un suceso unitario. Está constituido por un solo resultado


del experimento aleatorio.
Ejemplo 25: Si lanzamos un dado, S = (1; 2; 3; 4; 5; 6) , los sucesos
elementales son:
A = El resultado es un = 1

B = El resultado es un = 2
...,
F = El resultado es un = 6.

Suceso: Cualquier subconjunto del espacio muestral.


Ejemplo 26: Si lanzamos un dado, s = (1; 2; 3; 4; 5; 6), podemos considerar
muchos sucesos:

A = El resultado es par= (2; 4; 6 )

B = El resultado es menor que 3= (1; 2) ,


...
Decimos que ha ocurrido un suceso cuando se ha obtenido alguno de los
resultados que lo forman.

El objetivo de la Teoría de la Probabilidad es estudiar con rigor los sucesos,


asignarles probabilidades y efectuar cálculos sobre dichas probabilidades.
Observamos que los sucesos no son otra cosa que conjuntos y por tanto, serán
tratados desde la Teoría de Conjuntos. Recordamos las operaciones básicas y
las dotamos de interpretación para el caso de sucesos.

Suceso seguro: Es el que siempre ocurre y, por tanto, es el espacio muestral, .

Suceso imposible: Es el que nunca ocurre y, por tanto, es el vacío, ø

Unión.: Ocurre A U B si ocurre al menos uno de los sucesos A o B.

54
Intersección: Ocurre A ∩ B si ocurren los dos sucesos A y B a la vez.

Complementario: Ocurre Ac si y sólo si no ocurre A.

Diferencia de sucesos: Ocurre A \ B si ocurre A, pero no ocurre B. Por tanto,


A ∩ B = A \ Bc .

Sucesos incompatibles: Dos sucesos A y Bc se dicen incompatibles si no pueden


ocurrir a la vez.

Dicho de otro modo, que ocurra A y B es imposible. Lo escribimos como


A ∩ B = ø.

Suceso contenido en otro: Diremos que A está contenido en B, y lo denotamos


por A ⊂ B, si siempre que ocurra A también sucede B.
Ejemplo 5: Estudiamos el experimento aleatorio consistente en el lanzamiento
de un dado, y consideramos los sucesos:

A = El resultado es par = (2; 4; 6)

B = El resultado es múltiplo de tres = (3; 6).

El suceso que salga par y múltiplo de tres se puede expresar como la


intersección

A U B = (2; 4; 6) \ (3; 6) = 6.

De la misma manera, el suceso que salga par o múltiplo de tres se puede


expresar como la unión A U B = (2; 4; 6) U (3; 6) = (2; 3; 4; 6).

Propiedades
Asociativa A U (B U C) = (A U B) U C A U (B ∩ C) = (A B) ∩ C
Conmutativa A UB = B U A A∩B=B∩A
Distributiv A U (B ∩ C) = (A U B) ∩ (A UC) A ∩ (B U C) = (A U B) U (A ∩ C)

Ejercicio 1: Lanzamos un dado y consideramos los sucesos

A = El resultado es par.

B = El resultado es mayor que 2.

Indica cuáles son los sucesos A U B, A U B. son los sucesos A y B


incompatibles?, son los sucesos A y Ac incompatibles?

55
3. Definiciones de probabilidad

El principal objetivo de un experimento aleatorio suele ser determinar con qué


probabilidad ocurre cada uno de los sucesos elementales. ¾Pero cómo
asignamos probabilidades a los sucesos?

3.1 Definición clásica o de Laplace

Nos encontramos ante un experimento, con su colección de sucesos, y nos


preguntamos cómo tenemos que actuar para asignarle a cada suceso un número
entre 0 y 1 que represente la probabilidad de que
el suceso ocurra.

Cuando el espacio muestral es finito, el problema se reduce a asignar


probabilidades a los sucesos elementales. Las probabilidades de los demás
sucesos se obtendrán sumando las de los sucesos ele mentales que lo
componen (suma finita).

Sin duda el caso más fácil es aquél en el que no tenemos razones para suponer
que unos sucesos sean más probables que otros.

Cuando, siendo el espacio muestral finito, todos los sucesos elementales tienen
la misma probabilidad, diremos que son equiprobables y podremos utilizar la
conocida Regla de Laplace

P(A) = casos favorables a A


casos posibles

Ejercicio 2: Lanzamos dos dados y sumamos sus puntuaciones. Cuál es la


probabilidad de obtener un 2? Cuál es la probabilidad de obtener un 7?

56
4. Probabilidad condicionada

El concepto de probabilidad condicionada es uno de los más importantes en


Teoría de la Probabilidad.
La probabilidad condicionada pone de maniFIesto el hecho de que las
probabilidades cambian cuando la información disponible cambia. Por ejemplo,
Cuál es la probabilidad de sacar un 1 al lanzar un dado? Y cuál es la probabilidad
de sacar un 1 al lanzar un dado si sabemos que el resultado ha sidoun número
impar?
Ejemplo 27: Si lanzamos un dado, la probabilidad de obtener un 1 es 1/6, pero
si disponemos de la información adicional de que el resultado obtenido ha sido
impar entonces reducimos los casos posibles de 6 a 3 (sólo puede ser un 1, un
3 o un 5), con lo cual la probabilidad de obtener un 1 (sabiendo que el resultado
ha sido impar) es 1/6 + 1/6 = 2/6 = 1/3.

Supongamos entonces que en el estudio de un experimento aleatorio nos


interesa conocer la probabilidad de que ocurra un cierto suceso A pero
dispongamos de información previa sobre el experimento: sabemos que el
suceso B ha ocurrido. Está claro que ahora la probabilidad de A ya no es la
misma que cuando no sabíamos nada sobre B.

La probabilidad del suceso A condicionada al suceso B se define:

P(A/B) = P(A ∩ B) , siendo P(B) ≠ 0


P(B)
También se deduce de manera inmediata que P(A ∩ B) = P(A) * P(B/A) = P(B) * P(A/B).

Ejemplo 28: Se ha realizado una encuesta en Santiago para determinar el


número de lectores de La Voz y de El Correo. Los resultados fueron que el 35%
de los encuestados lee La Voz, el 20% de los encuestados lee El Correo.
Además, analizando las respuestas se concluye que el 5% de los encuestados
lee ambos periódicos. Si se selecciona al azar un lector de El Correo, ¾cuál es
la probabilidad de que lea también La Voz?

57
En primer lugar, vamos a ponerle nombre a los sucesos. Denotamos primer
lugar, vamos a ponerle nombre a los sucesos. Denotamos
A= Es lector de La Voz.
B= Es lector de El Correo.
Fíjate en que la información que nos da el problema es:
P(A) = 0:35.
P(B) = 0:2.
P(A ∩ B) = 0:05.

Lo que nos preguntan es un probabilidad condicionada. Sabiendo que una


persona es lectora de El Correo, Cuál es la probabilidad de que también sea
lector de La Voz? Es decir, debemos calcular
P(A=B) = P(A ∩ B) = 0.05 = 0.25
P(B) 0.2

5. Independencia de sucesos

Dos sucesos A y B son independientes si P(A ∩ B) = P(A) * P(B)

Comentarios:

No debemos confundir sucesos independientes con sucesos incompatibles: los


sucesos incompatibles son los más dependientes que puede haber. Por ejemplo,
si en el lanzamiento de una moneda consideramos los sucesos incompatibles
'salir cara' y 'salirescudo”, el conocimiento de que ha salido cara nos da el
máximo de información sobre el otro suceso: ya que ha salido cara ; es imposible
que haya salido escudo.

Recuerda que los dos sucesos son incompatibles si A ∩ B = ø


Si los sucesos A y B son independientes, también lo son los sucesos A y Bc ; los
sucesos Ac y B; y los sucesos Ac y Bc.

Ejercicio 3: Se estima que entre la población de Estados Unidos, el 55% padece


de obesidad, el 20% es hipertensa, y el 60% es obesa o hipertensa.
Es independiente el que una persona sea obesa de que padezca hipertensión?

6. Teoremas clásicos

En esta sección veremos tres teoremas muy importantes, tanto a nivel teórico
como para la resolución de ejercicios. Los enunciaremos en su forma más
general, aunque después veremos por medio de ejemplos que su aplicación no
es complicada.

58
6.1 Regla del producto

Si tenemos los sucesos A1, A2;,,,,,,,An tales que P(A1∩ A2 ∩….∩ An) 6 = ø,
entonces se cumple
P(A1 ∩ A2 ∩….∩ An) = P(A1) * P(A2 /A1) *P(A3 / A1 ∩ A2) … P(An / A1 ∩ \A2∩….∩ An-1)

La regla del producto se utiliza en experimentos aleatorios que están formados


por etapas consecutivas (de la 1 a la n) y nos permite calcular la probabilidad de
que ocurra una concatenación (intersección) de sucesos a lo largo de las etapas
(A1 en la primera etapa y A2 en la segunda etapa y . . . y An en la etapa n).
Esta probabilidad queda expresada como el producto de la probabilidad inicial
P(A1) y las probabilidades en cada etapa condicionadas a las etapas anteriores,
conocidas como probabilidades de transición.

Ejemplo 29: Un grupo de investigadores de un laboratorio trata de desarrollar


una vacuna efectiva contra parásitos gastrointestinales. La vacuna en la que
trabajan en la actualidad es capaz de matar en la primera aplicación al 80% de
los parásitos gastrointestinales. Los parásitos supervivientes desarrollan
resistencia y en cada aplicación posterior de la vacuna el porcentaje de parásitos
muertos se reduce a la mitad del verificado en la aplicación inmediatamente
anterior : así en la segunda aplicación muere el 40% de los parásitos
supervivientes de la primera aplicación, en la tercera aplicación muere el 20 %,
etc.

a) Cuál es la probabilidad de que un parásito sobreviva a dos aplicaciones de la


vacuna?

b) Cuál es la probabilidad de que un parásito sobreviva a tres aplicaciones de la


vacuna?
Como siempre, en primer lugar vamos a vamos a ponerle nombre a los sucesos.

Denotamos:
A1= El parásito sobrevive a la primera aplicación de la vacuna.
A2= El parásito sobrevive a la segunda aplicación de la vacuna.
A3= El parásito sobrevive a la tercera aplicación de la vacuna,...

Fíjate en que la información que nos da el problema es:


P(A1) = 0.2.
P(A2/A1) = 0.6.
P(A3/ A1 ∩ A2) = 0.8.

Aplicando la regla de la cadena podemos contestar a las dos preguntas del


problema.

59
a) La probabilidad de que un parásito sobreviva a dos aplicaciones de la vacuna
será
P(A1 / A2) = P(A1) * P(A2 / A1) = 0.2 * 0.6 = 0.12.

b) La probabilidad de que un parásito sobreviva a tres aplicaciones de la vacuna


será
P(A1 ∩ A2 ∩ A3) = P(A1) * P(A2 /A1) * P(A3 / A1 ∩ A2) = 0.2 * 0.6 ∩ 0.8 = 0.096.

6.2 Ley de las probabilidades totales

El segundo teorema es la llamada ley de las probabilidades totales. Descompone


la probabilidad de un suceso en la segunda etapa en función de lo que ocurrió
en la etapa anterior. Previamente al enunciado de este teorema damos una
definición.

Sistema completo de sucesos. Es una partición del espacio muestral, esto es, es
una colección de sucesos A1, A2,,,,,,,An (subconjuntos del espacio muestral)
verificando A1 ∩ A2 ∩……. .… ∩ An = ø (son exhaustivos, cubren todo el espacio
muestral) y además son incompatibles dos a dos (si se verifica uno de ellos, no
puede a la vez ocurrir ninguno de los otros).

Ley de las probabilidades totales. Sea A1, A2,,,,,, An un sistema completo de


sucesos. Entonces se cumple que:
P(B) = P(A1) * P(B=A1) + P(A2) *P(B=A2) + …… + P(An) * P(B=An)

Ejemplo 30. Se sabe que una determinada enfermedad coronaria es padecida


por el 7% de los fumadores y por el 2.5% de los no fumadores. Si en una
población de 5.000 habitantes hay 600 fumadores, cuál es la probabilidad de que
una persona elegida al azar sufradicha enfermedad?
En este caso:
E = Sufre enfermedad coronaria.
A1 = Es fumador.
A2 = Es no fumador.

Fijate que A1;A2 un sistema completo de sucesos. La información que nos da


el problema
es:
P(E/A1) = 0.07.
P(E/A2) = 0.025.
P(A1) = 600 / 5000 = 0.12.
P(A2) = 4400/5000 = 0.88 (también se puede calcular como P(A2) = 1-P(A1)
ya que son sucesos complementarios).
Entonces, por la ley de probabilidades totales

P(E) = P(A1) * P(E=A1) + P(A2) * P(E=A2) = 0:12 * 0:07 + 0:88 0:025 = 0:0304

60
6.3. Teorema de Bayes

Por último, tratamos el teorema de Bayes. Consideremos un experimento que se


realiza en dos etapas: en la primera, tenemos un sistema completo de sucesos
A1, A2,,,,,,, An con probabilidades P(Ai ) que denominamos probabilidades a
priori. En una segunda etapa, ha ocurrido el suceso B y se conocen las
probabilidades condicionadas P(B/Ai ) de obtener en la segunda etapa el suceso
B cuando en la primera etapa se obtuvo el suceso Ai, i = 1,,,,n.

En estas condiciones el teorema de Bayes permite calcular las probabilidades


P(Ai / B), que son probabilidades condicionadas en sentido inverso. Reciben el
nombre de probabilidades a posteriori, pues se calculan después de haber
observado el suceso B.

Teorema de Bayes. En las condiciones anteriores,


P(Ai=B) = P(Ai ) * P(B/Ai )
P(B)

Además, aplicando en el denominador la ley de probabilidades totales:

P(Ai / B) = P(Ai ) * P(B=Ai )_____________________


P(A1)* P(B/A1) + P(A2) * P(B/A2) + ………. + P(An) * P(B/An)

Ejemplo 31: Volvamos al Ejemplo 9 y supongamos ahora que llega a nuestra


consulta una persona que sufre la enfermedad coronaria citada. ¾Cuál es la
probabilidad de que dicha persona sea fumadora?

En este caso nos están preguntando P(A1/E). Por el Teorema de Bayes,

P(A1/E) = P(A1)* P(E*A1) = 0.12 * 0.07 = 0.2763


P(E) 0.0304

61
CAPITULO 4. VARIABLES ALEATORIAS DISCRETAS Y DISTRIBUCIONES
DE PROBABILIDAD DISCRETAS

1. Introducción

En el tema de Estadística Descriptiva hemos estudiado variables,


entendiéndolas como mediciones que se efectúan sobre los individuos de una
muestra. Así, la Estadística Descriptiva nos permitía analizar los distintos valores
que tomaban las variables sobre una muestra ya observada. Se trataba, pues,
de un estudio posterior a la realización del experimento aleatorio.

En este tema trataremos las variables situándonos antes de la realización del


experimento aleatorio.

Por tanto, haremos uso de los conceptos del tema anterior (Probabilidad),
mientras que algunos desarrollos serán análogos a los del tema de Estadística
Descriptiva.

2. Variable aleatoria

De manera informal, una variable aleatoria es un valor numérico que


corresponde al resultado de un experimento aleatorio. Por ejemplo, una variable
X como resultado de lanzar una moneda al aire puede tomar el valor 1 si el
resultado es cara y 0 si es cruz. De este modo, escribiremos, por ejemplo,
P (X = 1) = 0:5: Otro ejemplo de variable aleatoria, Y; puede ser el resultado de
medir en oC la temperatura corporal de adultos varones sanos. Cuando se han
tomado muchísimas observaciones (infinitas), se puede llegar a la conclusión,
por ejemplo, que la probabilidad de que la temperatura corporal sea inferior a
36:8 oC es igual a 0:8, lo que escribimos con P (Y < 36:8) = 0:8:

Definición 1. Llamamos variable aleatoria a una aplicación del espacio muestral


asociado a un experimento aleatorio en R, que a cada resultado de dicho
experimento le asigna un número real, obtenido por la medición de cierta
característica.

Denotamos la variable aleatoria por una letra mayúscula. El conjunto imagen de


esa aplicación es el conjunto de valores que puede tomar la variable aleatoria,
que serán denotados por letras minúsculas.

Las variables aleatorias son equivalentes a las variables que analizábamos en el


tema de Estadística Descriptiva. La diferencia es que en el tema de Estadística
Descriptiva se trabajaba sobre una muestra de datos y ahora vamos a considerar
que disponemos de toda la población (lo cual es casi siempre imposible en la
práctica). Ahora vamos a suponer que podemos calcular las probabilidades de
todos los sucesos resultantes de un experimento aleatorio

De modo idéntico a lo dicho en el tema de Descriptiva, podemos clasificar las


variables aleatorias en discretas y continuas en función del conjunto de valores
que pueden tomar. Así, una variable aleatoria será discreta si dichos valores se

62
encuentran separados entre sí. Por tanto será representable por conjuntos
discretos. Una variable aleatoria será continua cuando el conjunto de valores que
puede tomar es un intervalo.

Al igual que en el tema de Estadística Descriptiva, las variables aleatorias se


pueden clasificar en discretas y continuas

2.1 Variables aleatorias discretas.

Una variable aleatoria es discreta cuando toma una cantidad numerable (que se
pueden contar) de valores. Por ejemplo, el número de caras al lanzar dos veces
una moneda o el número de pacientes con enfermedades articulares en centros
de salud.
Si X es una variable discreta, su distribución viene dada por los valores que
puede tomar y las probabilidades de que aparezcan. Si x1 < x2 < :: < xn son los
posibles valores de la variable X,

las diferentes probabilidades de que ocurran estos sucesos,


p1 = P (X = x1) ;
p2 = P (X = x2) ;
...
pn = P (X = xn) :
constituyen la distribución de X:

Definición 2. La función P (X = x) se denomina función de probabilidad o función


de masa.

La función de probabilidad se puede representar análogamente al diagrama de


barras.

Ejercicio 1: Se lanza dos veces una moneda equilibrada. Sea X la variable que
expresa el número de caras en los dos lanzamientos. Halla y representa la
función de probabilidad de X.

Ejercicio 2: Sea X la variable aleatoria que expresa número de pacientes con


enfermedades articulares en centros de salud con las siguientes probabilidades:

Xi 0 2 3 4 5 6 7

pi 0:230 0:322 0:177 0:067 0:024 0:015 0:01

Comprueba que se trata efectivamente de una función de probabilidad y


represéntala.

63
Definición 3. La función de distribución de una variable aleatoria se de_ne como:
F: R R

x0 F (x0) = P (X ≤ x0)

Calcularemos para variables aleatorias discretas su función de masa y su función


de distribución.
El diagrama de barras de frecuencias acumuladas para variables discretas del
tema 1 se puede reinterpretar en términos de probabilidades y da lugar a lo que
recibe el nombre de función de distribución, F (x) ; definida para cada punto x0
como la probabilidad de que la variable aleatoria tome un valor menor o igual
que x0;
F (x0) = P (X _ x0) :
La función de distribución es siempre no decreciente y verifica que,

F ( -∞) = 0

F (+∞1) = 1:

Suponiendo que la variable X toma los valores x1 < x2 < ……..< xn, los puntos
de salto de la función de distribución vienen determinados por:

F (x1) = P (X ≤ x1) = P (X = x1)

F (x2) = P (X ≤ x2) = P (X = x1) + P (X = x2)


...
F (xn) = P (X ≤ xn) = P (X = x1) + ::: + P (X = xn) = 1

Obsérva la función de distribución es igual a uno en el máximo de todos los


valores posibles.

Ejercicio 3: Calcular la función de distribución de la variable X en el Ejercicio 1.

Ejercicio 4: Calcular la función de distribución de la variable X en el Ejercicio 2.

Ejercicio 5: Calcula la probabilidad de que el número de caras sea al menos 1


en el Ejercicio 1.

Ejercicio 6: Calcula la probabilidad de que el número de pacientes con


enfermedades articulares sea menor o igual que 4 y la probabilidad de que haya
más de dos pacientes de este tipo en un centro de salud con la información del
Ejercicio 2.

64
3. Medidas características de una variable aleatoria discreta.

Los conceptos que permiten resumir una distribución de frecuencias utilizando


valores numéricos ueden utilizarse también para describir la distribución de
probabilidad de una variable aleatoria. Las de_niciones son análogas a las
introducidas en el tema 1.

3.1 Media o esperanza.

Se define la media poblacional o esperanza de una variable aleatoria discreta


como la media de sus posibles valores x1, x2,,,,,, xk ponderados por sus
respectivas probabilidades p1; p2,,,,,,,, pk, es decir,

µ = E(X) = x1p1 + x2p2 + ,,,,, + xkp =Σxp

Ejercicio 7: Calcula la media de pacientes con enfermedades articulares del


Ejercicio 2.
La interpretación de la media o esperanza es el valor esperado al realizar el
experimento con la variable aleatoria. Además, la media puede verse también
como el valor central de la distribución de probabilidad.

3.2 Varianza.

Se define la varianza poblacional de una variable aleatoria discreta con valores


x1; x2,,,,,,,,,, xk como la media ponderada de las desviaciones a la media al
cuadrado,

σ2 = Var(X) =Σ (x - µ )2pxi

Ejercicio 8: Calcula la varianza de pacientes con enfermedades articulares del


Ejercicio 2.

interpretación de la varianza es la misma que para un conjunto de datos: es un


valor no negativo que expresa la dispersión de la distribución alrededor de la
media. Además, se puede calcular la bbdesviación típica poblacional _ como la
raíz cuadrada de la varianza. Los valores pequeños de _ indican concentración
de la distribución alrededor de la esperanza y valores grandes corresponden a
distribuciones más dispersas.

65
4. Principales modelos de distribuciones discretas

Estudiaremos ahora distribuciones de variables aleatorias que han adquirido una


especial relevancia por ser adecuadas para modelizar una gran cantidad de
situaciones. Presentaremos modelos de variables discretas y caracterizaremos
estas distribuciones mediante la distribución de probabilidad.

Calcularemos también los momentos (media y varianza) y destacaremos las


propiedades de mayor utilidad.

4.1 Distribución de Bernoulli

En muchas ocasiones nos encontramos ante experimentos aleatorios con sólo


dos posibles resultados:

Éxito y fracaso (cara o cruz en el lanzamiento de una moneda, ganar o perder


un partido, aprobar o suspender un examen, una prueba diagnóstica da positivo
o negativo...). Se pueden modelizar estas situaciones mediante la variable
aleatoria

1 si Éxito
X=
0 si fracaso

Lo único que hay que conocer es la probabilidad de éxito, p, ya que los valores
de X son siempre los mismos y la probabilidad de fracaso es q = 1 - p.

Definición 4. Si denotamos por p a la probabilidad de éxito, entonces diremos


que la variable X tiene distribución de Bernoulli de parámetro p, y lo
denotamos X ∈ Bernoulli(p). La distribución de probabilidad de X ∈ Bernoulli(p)
viene dada por
X 0 1
P(X = xi ) 1 - p p
Por tanto, la probabilidad de éxito p determina plenamente la distribución de
Bernoulli.
La media y la varianza de una Bernoulli(p) son:
µ = np.
σ2 = np (1 - p).

66
4.2 Distribución binomial

Empezando con una prueba de Bernoulli con probabilidad de éxito p, vamos a


construir una nueva variable aleatoria al repetir n veces la prueba de Bernoulli.

Ejemplo 31: Supongamos que lanzamos un dado normal 5 veces y queremos


determinar la probabilidad de que exactamente en 3 de esos 5 lanzamientos
salga el 6.

Cada lanzamiento es independiente de los demás y podemos considerarlo como


un ensayo de Bernoulli, donde el éxito es sacar un 6 (p = 1=6). Lo que hacemos
es repetir el experimento 5 veces y queremos calcular la probabilidad de que el
número de éxitos sea igual a 3 (es decir, obtener 3 éxitos y 2 fracasos)

La distribución binomial sirve para modelizar situaciones en las que nos interesa
contar el número de éxitos en n repeticiones de una prueba de Bernoulli con
probabilidad de éxito p.

La variable aleatoria binomial X es el número de éxitos en n repeticiones de una


prueba de Bernoulli con probabilidd de exito p. Debe cumplirse
 Cada prueba individual puede ser un éxito o un fracaso.

 La probabilidad de éxito, p, es la misma en cada prueba.

 Las pruebas son independientes. El resultado de una prueba no tiene


influencia sobre los resultados siguientes.

Definición 5. La variable aleatoria X que representa el número de éxitos en n


intentos independientes, siendo la probabilidad de éxito en cada intento p,
diremos que tiene distribución binomial de parámetros n y p.Lo denotamos
X ∈ Binomial (n; p) o X ∈ Bin(n; p). La distribución binomial es discreta y toma
los valores 0; 1; 2; 3; : : : ; n con probabilidades

P(X = k) = ncx px qn-x


Si k ∈ (0, 1 2 3 … n)
donde el coeficiente binomial
ncx = n!
x! (n-x) ! representa el número de subconjuntos diferentes de k
elementos que se pueden definir a partir de un total de n elementos
(combinaciones de n elementos tomados de k en k).
La media y la varianza de una Bin(n; p) son:
µ = n p.
σ2 = n p ( 1- p).

67
Como ejemplo 32 , la Figura 2 muestra las funciones de masa de una variable
con distribución binomial de parámetros n = 5 y p = 1/6 y una variable con
distribución binomial de parámetros n = 60 y p = 1/6.

Figura 2: En la izquierda, función de masa de una Bin(5; 1/6). En la derecha,


función de masa de una
Bin(60; 1/6).

Figura 2: En la izquierda, función de masa de una Bin(5; 1/6). En la derecha,


función de masa de una
Bin(60; 1/6).
Figura 1. Figura 2.

Ejemplo 33. En una población hay un 40% de fumadores. La variable 𝑋 que mide el número
de fumadores en una muestra aleatoria con reemplazamiento de 3 personas sigue un modelo
de distribución binomial, la probabilidad de que ninguno sea fumador es:
𝑓 (0) = (3c0 ) 0.40 (1 − 0.4)3−0 = 0.63

4.3 Distribución de Poisson

En muchas circunstancias (llamadas a una centralita telefónica, átomos que


pueden emitir una radiación, . . . ) elnúmero de individuos susceptibles de dar
lugar a un éxito es muy grande. Para modelizar estas situaciones mediante una
distribución binomial tendremos problemas al escoger el parámetro n
(demasiado grande o incluso difícil de determinar) y al calcular la distribución de
probabilidad (la fórmula resulta inviable). Sin embargo, se ha observado que si
mantenemos constante la media E(X) = np y hacemos n ∞ la distribución de

68
probabilidad de la binomial tiende a una nueva distribución, que llamaremos de
Poisson de parámetro ʎ = np

Def inición 6. Una variable aleatoria X tiene distribución de Poisson de parámetro


ʎ, y lo denotamos X ∈ Poisson(ʎ ), si es discreta y

P(X = k) = e -ʎ ʎk
k Si k ∈ (0, 1, 2, 3 ,…, n)
La media y la varianza de la Poisson de parámetro ʎ son:
µ= ʎ
σ2 = ʎ

Como ejemplo, la Figura 3 muestra las funciones de masa de una variable con
distribución de Poisson de parámetro λ = 2 y una variable con distribución de
Poisson de parámetro λ = 15.

Figura 3 Figura 4

Figura 3: En la izquierda, función de masa de una Poisson(2). En la derecha,


función de masa de una Poisson(15).

En la práctica usaremos la distribución de Poisson como aproximación de la


distribución binomial cuando n sea grande y p pequeño, en base al límite que
hemos visto. Usaremos el siguiente criterio:

Si n > 50, p < 0:1 entonces la distribución binomial de parámetros n y p puede


ser aproximada por una Poisson de parámetro ʎ = np.

69
Ejemplo 34: La probabilidad de que una persona se desmaye en un concierto es
p = 0:005. Cuál es la probabilidad de que en un concierto al que asisten 3000
personas se desmayen 18?

variable X =Número de personas que se desmayan en el concierto sigue una


distribuci ón Bin(3000; 0:005). Queremos calcular

P(X = 18) = 3000c18 *0:00518 * 0:9952982

Estos valores están fuera de las tablas de la binomial y son difíciles de calcular,
por eso es preferible aproximar por una Poisson de parámetro
µ = np = 3000 * 0:005 = 15.

Entonces:
P(X = 18) = P(Poisson(15) x = 18) = e-15 1518 = 0:07061
18!

Ejercicio 35: Se sabe que la probabilidad de que un individuo reaccione


desfavorablemente tras la inyección de una vacuna es de 0.002. Determina la
probabilidad de que en un grupo de 2000 personas vacunadas haya como mucho
tres que reaccionen desfavorablemente.

Aunque la distribución de Poisson se ha obtenido como forma límite de una


distribución Binomial, tiene muchas aplicaciones sin conexión directa con las
distribuciones binomiales. Por ejemplo, la distribución de Poisson puede servir
como modelo del número de éxitos que ocurren durante un intervalo de tiempo
o en una región específica.

Defnimos el proceso de Poisson como un experimento aleatorio que consiste en


contar el número de ocurrencias de determinado suceso en un intervalo de
tiempo, verificando:

 El número medio de sucesos por unidad de tiempo es constante. A esa


constante la llamamos intensidad del proceso.

 Los números de ocurrencias en subintervalos disjuntos son


independientes.

En un proceso de Poisson, consideremos X = número de ocurrencias en un


subintervalo. Entonces X tiene distribución de Poisson, cuyo parámetro es
proporcional a la longitud del subintervalo

La distribución de Poisson sirve como aproximación de la distribución binomial


Bin(n; p) cuando n es grande y p pequeño y también es adecuada para modelizar

70
situaciones en las que nos interesa contar el número de ocurrencias de un
determinado suceso en un intervalo de tiempo

Ejemplo 36: El número de nacimientos en un hospital constituye un proceso de


Poisson con intensidad de 21 nacimientos por semana. Cuál es la probabilidad
de que se produzcan al menos tres nacimientos la próxima semana?

P(X ≤ 3) = 1 - P(X < 3) = 1 - [P(X = 0) + P(X = 1) + P(X = 2)]

= 1 – e-21 210 + e-21 211 + e-21 212


0! 1!+ 2!

71
CAPITULO 5. VARIABLES ALEATORIAS CONTINUAS Y DISTRIBBUCIONES
DE PROBABILIDAD CONTINUAS

1. Introducción
En el capítulo anterior hemos estudiado variables aleatorias discretas. Recuerda
que una variable aleatoria es un valor numérico que corresponde al resultado de
un experimento aleatorio. Podemos clasificar las variables aleatorias en
discretas y continuas en función del conjunto de valores que pueden tomar.
Estudiaremos en este tema variables aleatorias continuas y nos centraremos en
un modelo de distribución continua (la distribución normal) que ha adquirido una
especial relevancia por ser adecuada para modelizar una gran cantidad de
situaciones prácticas.

2. Variables aleatorias continuas


Una variable aleatoria es continua cuando puede tomar cualquier valor en un
intervalo. Por ejemplo, el peso de una persona o el contenido de paracetamol en
un lote de pastillas.
El estudio de las variables continuas es más sutil que el de las discretas.
Recordemos que la construcción del histograma es más delicada que el del
diagrama de barras ya que depende de la elección de las clases.
Se ha comprobado en la práctica que tomando más observaciones de una
variable continua y haciendo más finas las clases, el histograma tiende a
estabilizarse en una curva suave que describe la distribución de la variable . Esta
función, f(x); se llama función de densidad de la variable X. La función de
densidad constituye una idealización de los histogramas de frecuencia o un
modelo del cual suponemos que proceden las observaciones.

72
3. Medidas características de una variable aleatoria continua
Los conceptos que permiten resumir una distribución de frecuencias utilizando
valores numéricos pueden utilizarse también para describir la distribución de
probabilidad de una variable aleatoria.
3.1 Media o esperanza
Se define la media poblacional o esperanza de una variable aleatoria continua
como

µ = E(X) = Σ(Xi pxi) = npx


Ejemplo 37.
La interpretación de la media o esperanza es el valor esperado al realizar el
experimento con la variable aleatoria. Además, la media puede verse también
como el valor central de la distribución de probabilidad
3.2 Varianza
Se define la varianza de una variable aleatoria como
σ2= VarX = Σ pxi(X - X)2
Edjemplo 38
Probabilidades de vida de pacientes terminales de cancer
Nivel de cancer Pacientes xi Probabilidades de vida %
Nivel 1 3 25
Nivel 2 2 35
Nivel 3 1 40
Total 6 100%
Calcular el valor esperado o miedia y la varianza de pacientes con canser
terminal

µ = E(X) = Σ(Xi pxi) = npx = 1.85 pacientes


npxi
X-X (X – X)2 pxi(X – X)2
3*0.25= 0.75 1.15 1.3225 0.330625
2*0.35= 0.7 0.15 0.025 0.07875
1*0.40= 0.40 -0.85 0.7225 0.289
Total = 1.85 - - 0.698375

σ2= VarX = Σ pxi(X - X) 2 =0.6983


σ =0.83 pscientes

73
La interpretación de la varianza es la misma que para un conjunto de datos: es
un valor no negativo que expresa la dispersión de la distribución alrededor de la
media. Además, se puede calcular la desviación típica poblacional como la raíz
cuadrada de la varianza. Los valores pequeños de indican concentración de la
distribución alrededor de la esperanza y valores grandes corresponden a
distribuciones más dispersas.

4. Principales modelos de distribuciones continuas


5. La distribución normal
La distribución normal es la más importante y de mayor uso de todas las
distribuciones continuas de probabilidad. Por múltiples razones se viene
considerando la más idónea para modelizar una gran diversidad de mediciones
de la Medicina, Física, Química o Biología. La normal es una familia de variables
que depende de dos parámetros, la media y la varianza, fue reconocida por primera
vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich
Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva;
de ahí que también se le conozca, más comúnmente, como la "campana de Gauss".
Dado que todas están relacionadas entre si mediante una transformación muy
sencilla, empezaremos estudiando la denominada normal estándar para luego
denir la familia completa.
5.1 La distribución normal estándar N(0,1)
La distribución de una variable normal está completamente determinada por dos
parámetros, su media (µ) y su desviación estándar σ . Con esta notación, la densidad
de la normal viene dada por la ecuación llamada
Funcion de densidad de probabilidad normal :

, que determina la curva en forma de campana.

Curva de la Distribción Normal

-3σ -2σ -1σ µ 1σ 2σ 3σ


Prof. C. A. Cornielle

74
Esta gráfica muestra tres formas diferentes de medir el área bajo la curva normal. Sin
embargo, muy pocas de las aplicaciones que haremos de la distribución normal de
probabilidad implican intervalos de exactamente (más o menos) 1, 2 ó 3 desviaciones
estándar a partir de la media. Para estos casos existen tablas estadísticas que indican
porciones del área bajo la curva normal que están contenidas dentro de cualquier
número de desviaciones estándar (más o menos) a partir de la media.

Propiedades de la distribucion de probadilidad normal:

No importa cuáles sean los valores de µ y σ ; para un distribución de probabilidad


normal, el área total bajo la curva siempre es 1, de manera que podemos pensar en
áreas bajo la curva como si fueran probabilidades. Matemáticamente es verdad que:
*Aproximadamente el 68% de todos los valores de una población normalmente
distribuida se encuentra dentro de ± 1 desviación estándar de la media.

*Aproximadamente el 95.5% de todos los valores de una población normalmente


distribuida se encuentra dentro de ± 2 desviaciones estándar de la media.

*Aproximadamente el 99.7% de todos los valores de una población normalmente


distribuida se encuentra dentro de ± 3 desviaciones estándar de la media.

Afortunadamente también podemos utilizar una distribución de probabilidad normal


estándar para encontrar áreas bajo cualquier curva normal. Con esta tabla podemos
determinar el área o la probabilidad de que la variable aleatoria distribuida normalmente
esté dentro de ciertas distancias a partir de la media. Estas distancias están definidas
en términos de desviaciones estándar y se concoce como regla empirica.

Uso de la tabla de distribución norlam de probabilidad normal estándar

Para cualquier distribución normal de probabilidad, todos los intervalos que contienen el
mismo número de desviaciones estándar a partir de la media contendrán la misma
fracción del área total bajo la curva para cualquier distribución de probabilidad normal.
Esto hace que sea posible usar solamente una tabla (Apéndice Tabla 1) de la
distribución de probabilidad normal estándar.

El valor de z en la tabla es absoluto, es decir, z en la tabla no tiene signo; las areas que
se muestran en la tabla son las areas bajo la curva de probabilidad normal estandar
entre la media y los valores posiditivos de z, y como la distrilbucion es simetrica esta
area le corresponde a ambos lados de la curva.

75
Aarea bajo la curva noral

El estadistilco de la Disribucion Normal

En la que:
x = valor de la variable aleatoria que nos preocupa.
µ = media de la distribución de la variable aleatoria.
σ =desviación estándar de la distribución.
z = número de desviaciones estándar que hay desde x a la media de la distribución.
(eluso de z es solamente un cambio de escala de medición del eje horizontal).

Prof. C. A. Cornielle

Ejemplo:

76
La glucemia basal de los diabéticos atendidos en un centro sanitario puede
considerarse como una variable normalmente distribuida, con media 106 mg por 100
ml, y desviación típica 8 mg por 100 ml N(106; 8). Calcular:
a) La proporción de diabéticos con una glucemia basal inferior a 120 mg por 100 ml,
P(x<120)( recuerde que la variable continua es lo mismo menor que menor o igual).
b) La proporción de diabéticos con una glucemia basal comprendida entre 10 y 120 mg
por 100 ml.
c) La proporción de diabéticos con una glucemia basal mayor de 120 mg por 100 ml.
d) El nivel de glucemia basal tal que por debajo de él están el 25% de los diabéticos, es
decir, el primer cuartil.
f) La proporción de diabéticos con una glucemia basal menor de 100 mg por 100 ml.

a) El cálculo anterior no puede realizarse directamente, puesto que no se dispone de


tablas para los parámetros correspondientes a la variable X, pero tipificando 120 se
obtiene:

z = 120-106 = 1.75
8

El valor tipificado tiene la siguiente propiedad:


P(X≤ 120) = P(Z ≤1,75)

Z= +1.75

Donde P(X≤ 120) = P(Z ≤1,75) = 0.4599 +0.5 = 0.9599

La proporción de diabéticos con una glucemia basal menor de 120 mg por 100 ml es
0,9599. También se podría decir que la probabilidad de que un diabético seleccionado
al azar en esta población tenga una glucemia basal inferior a 120 mg por 100 ml es
0,9599.

Prof. C. A. Cornielle

77
b) La proporción de diabéticos con una glucemia basal comprendida entre 106 y 120
mg por 100 ml

P(104 ≤ X≤108) = PZ1 + Pz2

X1=103.5 X2=108.5

Z1 = 103.5-106 = -0.31 Pz1= 0.1217


8

Z2 = 108.5 - 106 = 0.31 Pz2= 0.1217


8

P(104 ≤ X≤108) = PZ1 + Pz2 = 0.1217 + 0.1217 = 0. 2434


La proporción de diabéticos con una glucemia basal comprendida entre 106 y 120 mg
por 100 ml es de 24.34%

78
c) La proporción de diabéticos con una glucemia basal mayor de 120 mg por 100 ml.

P(x>110) = 0.5 – P(Z2)

X2=10.5

P(Z2)? Z2 = 110.5-106 = 0.56 P(Z2)= 0.2123


8
P(x>110) = 0.5 – P(Z2) = 0.5 - 0.2123 =0.2877
La proporción de diabéticos con una glucemia basal mayor de 120 mg por 100 ml. Es
de 28.77.

d) El nivel de glucemia basal tal que por debajo de él están el 25% de los diabéticos, es
decir, el primer cuartil

El area 0.25 tiene un un Z aproximado de Z= + 0.67 y por órmula:

z = x-µ
σ
Sustituyendo en la fórmula

0.67 = x-106
8
X= z σ + µ

Por lo tanto X= 0.67*8 +106 mg por 100 ml.

79
c) La proporción de diabéticos con una glucemia basal mayor de 100 mg por 100 ml.

P(X>100) 0.5 – P(X1)

-z1
Z1 = 100-106 = -0.75 P(X1) = 0.2734
8

P(X>100) 0.5 – P(X1) = 0.5 -0.2738 = 0.2262


La proporción de diabéticos con una glucemia basal menor de 100 mg por 100 ml. Es
de 22.62%

Ejercicio. En una ciudad se estima que la temperatura máxima en el mes de junio sigue
una distribución normal, con media 23° y desviación típica 5°. Calcular el número de
días del mes en los que se espera alcanzar máximas entre 21° y 27°

80
81
Literatura consultada.

1. Fundamentos de Bioesatadistica, segunda edicion.

Marcello Pagano. Kimberly Gauvreau.

Thomson Learning

2. BIOESTADISTICA

Base para el analisis de las ciencias de la salud, cuarta edicion.

Daniel, Limusa EILEY.

3. Introduccion a la BIOESTADISTICA

Sokal/rohlf, agapea.com

4. Bioestadistica y Epimdemiologia, Segunda edicion.

R. f. Morton, J. R. Hebel. Intermaericana.

5. Bioestadistica , sexta edicion.

Stanton A. Glanz, MCGraw Hil

82

También podría gustarte