Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BÁSICA
PRIMERA PARTE:
BIOESTADÍSTICA I
CAC
0
MANUAL DE BIOESTADÍSTICA BÁSICA
Índice
1. Introducción a la Bioestadística……………………………………………………..4
2. Tipos de variables…………..…………………………………………………….7
4. Representaciones gráficas……………………………………………………13
4.1. Representaciones gráficas de variables cualitativas
4.2 Representaciones gráficas de variables cuantitativas
4.2.1 Representaciones gráficas de variables cuantitativas discretas
4.2.2. Representaciones gráficas de variables cuantitativas continúas
1. Intdroduccion……………………………………………………………………42
2. Tasa de natalidad, morbilidad, mortalidad………………………………….44
3. Tasa de incidencia, prevalencia…………………………………………...….47
1
CAPITULO 3 PROBABILIDAD: CONCEPTOS BASICOS
2. Conceptos básicos………………………………………………………………48
2.1. Experimento aleatorio
2.2 Espacio muestral. Sucesos
3. Definiciones de probabilidad…………………………………………………52
3.1 Definición clásica o de Laplace
6. Teoremas clásicos:…………..…………………………………………………54
6.1 Regla del producto
6.2 Ley de las probabilidades totales
6.3 Teorema de Bayes
1. Introducción ……...………………………………………………………………58
2
CAPITULO 5. VARIABLES ALEATORIAS CONTINUAS Y DISTRIBBUCIONES
DE PROBABILIDAD CONTINUAS
Índice
1. Introducción………………………………………………………….…………...68
3
Notas del autor
Prof. C. A. Cornielle
4
Prof. C. A. Cornielle
1. Introducción a la Bioestadística
5
Prof. C. A. Cornielle
6
Prof. C. A. Cornielle
En ocasiones, una variable puede tener sólo dos categorías, por lo que se llaman
también dicotómicas. Un ejemplo de pregunta que representa la variable que se
va a indagar y sus posibles respuestas son: ¿tuvo fiebre antes de llegar al
hospital?: sí o no; ¿cómo está la presión arterial sistólica de este paciente?: baja,
normal o alta.
Debe tenerse en cuenta que, usualmente, a la hora de almacenar los datos para
su posterior análisis, a cada opción de respuesta se le puede asignar un código
numérico. Así, en las variables cualitativas, este número es un resumen de lo
que significa cada posible respuesta (o categoría) de la variable, pero no es una
cantidad. Por ejemplo, al codificar la variable sexo se puede asigna el valor 1
(uno) al encuestado “masculino” y 2 (dos) o 0 (cero) al “femenino”; no por esto la
variable sexo deja de ser cualitativa, ni mucho menos la categoría “1” será más
que la “0” o se podrán hacer operaciones con ellas. Sería muy ingenuo sacar el
promedio de los ceros y unos que codifican la variable sexo de una investigación.
Dependiendo del programa que va a ser utilizado para el análisis, generalmente
se prefiere codificar como cero (0) o dos (2) a la ausencia de enfermedad o de
exposición a algún factor específico; en cambio, el uno (1) usualmente indica
presencia de enfermedad o antecedente de exposición al factor de riesgo (por
7
ejemplo: no fumador: 0; fumador: 1). En cualquier situación, si usa una
codificación propia, debe tener claro lo que significa cada código para cada
variable.
Una variable que usualmente genera confusión es la que indica el estado clínico
de una enfermedad, la cual se clasifica como 0, 1, 2, 3 (o en sus números
romanos correspondientes); aunque es una numeración que implica un
gradiente, es arbitraria y representa diferentes niveles de avance no
cuantificables de la enfermedad en el individuo; una ampliación sobre estos se
puede ver en el apartado sobre variables ordinales.
Variable discreta. Es una variable cuantitativa que sólo permite valores enteros,
sin que exista la posibilidad de intermedios entre dos enteros. Por ejemplo, la
variable número de hijos permite decir cero, uno, dos, tres u otro valor, pero
siempre es un entero. Es posible llegar a considerar a las variables discretas
también como variables cualitativas porque en determinado momento se tiene o
no la característica. Por ejemplo: el color de ojos puede ser azul, verde o café,
sin dar la posibilidad de valores intermedios.
Variable continua. Es una variable cuantitativa que puede tomar cualquier valor,
sea entero o fraccionario, entre los valores límites mínimo y máximo. Por
ejemplo: el peso: 64,3 kilogramos; la estatura: 173.5 centímetros; la temperatura
del paciente: 37.5 grados centígrados; el valor del colesterol HDL: 45.5 mg/dL.
Un detalle que permite identificar a las variables continuas es que el valor entre
cada unidad es el mismo (hay el mismo kilómetro de diferencia entre medir 45 y
46 km que entre 73.4 y 74.4 km).
8
algo que no se podría hacer si al momento de recolectar la edad fue incluida en
agrupaciones ya definidas. No hacerlo así, es desperdiciar una oportunidad de
análisis con un potencial de mayor valor y utilidad.
9
Bogotá, Colombia. Lo que se quiere saber (la variable dependiente) es
frecuencia de ausencia de hipertensión (HTA), así como entender cuáles
factores pueden explicar su ocurrencia, como pueden ser tabaquismo, consumo
de bebidas alcohólicas, estrés, dieta de esa población, entre otras (las variables
que explican el comportamiento de la dependiente, o sea, las variables
independientes). De otra manera:
Ahora, imagínese otro estudio que se hace en forma casi simultánea en la misma
población y en el que se busca determinar las causas de otra enfermedad
cardiovascular, el infarto agudo del miocardio (IAM); en éste se recolectan como
variables independientes a la edad y los antecedentes de hipertensión, diabetes
y tabaquismo. Se podría generar una expresión similar a la anterior:
Por ejemplo, en un estudio se encontró que a mayor número de hijos, mayor era
el riesgo de hipertensión arterial en las mujeres. Los investigadores no se
explicaban esta aparente relación, la cual no había sido informada previamente
en la literatura; sin embargo, fue desmentida cuando analizaron el papel que
juega la edad tanto en la probabilidad que una mujer tenga hijos como que sea
hipertensa.
Se sabe que a mayor edad hay mayor probabilidad de tener esta patología;
también es cierto que la probabilidad de tener hijos aumenta a mayor edad.
Cuando los investigadores analizaron la asociación entre el número de hijos y la
presencia de hipertensión arterial pero ajustando por la edad, se observó que el
aparente mayor riesgo dado por el número de hijos desaparecía. La edad cumple
entonces el papel de factor de confusión.
10
El ajuste o tratamiento de la confusión durante el análisis de los datos se puede
lograr por medio de dos métodos llamados estratificación y regresión;
igualmente, es posible preverla al planear una investigación y usar otras tres
estrategias metodológicas, el apareamiento (o emparejamiento), la
aleatorización y la restricción de la población 10. Una explicación más detallada
está por fuera del objetivo de este artículo.
Variable
Valores límites Ejemplo de
(unidad de Tipo de Variable Definición para el estudio
(códigos) Interpretación
medida)
Edad Cuantitativa, Edad en años 0 – 14 años La edad media
En la base: discreta, de cumplidos referida por la de las niñas del
Edad niño razón, persona cargo del niño a estudio fue de
independiente estudio 10 años
Azúcar en Cuantitativa, Cifra que muestra el nivel 40-600 mg/dL * La glicemia de
sangre (mg/dl) continua, de de glicemia en cada sujeto uno de los
razón, luego de 8 horas de ayuno sujetos de
independiente y observada en el informe investigación
de glicemia realizado por 1 Hipo: <70 fue de 140 mg/dl
En la base: el laboratorio clínico 2 Normo: 70-
glicemia contratado. 130
3 Hiper: >130
11
Análisis de los datos generados en las variables
12
3. Distribución de frecuencias
13
Frecuencia relativa: Se denota por fr y representa la proporción de datos en cada
una de las clases,
fr= fi /∑fi
La frecuencia relativa es igual a la frecuencia absoluta dividida por el tamaño
muestral.
Frecuencia absoluta acumulada. Es el número de veces que se ha observado el
resultado con los valores anteriores. La denotamos por Fi, es una suma continua
de las frecuencias absolutas.
En la mayor parte de procedimientos estadísticos es necesario manejar
conjuntos de observaciones numéricas. Para representar de forma concisa los
cálculos, se ha desarrollado una notación matemática abreviada. Por ejemplo,
para designar la adición se usa la letra griega ∑ = sigma
Frecuencia relativa acumulada. Es la frecuencia absoluta acumulada dividida por
el tamaño muestral.
La denotamos por Fr, y es igual: Fr = Fi / ∑fi
Debemos observar que las frecuencias acumuladas sólo tienen sentido cuando
es posible establecer una relación de orden entre los valores de la variable, esto
es, cuando la variable es ordinal.
Las frecuencias se pueden escribir ordenadamente mediante una tabla de
frecuencias, que adopta la siguiente forma:
Xi fi fr Fi Fr
X1 f1 fr1 Fr1
X2 f2 fr2 Fr2
X3 f3 fr3 Fr3
. . . . .
. . . . .
Xn fn frn Fin Fr n
Propiedades:
Frecuencias absolutas 0 ≤ fi ≤ n
Frecuencias relativas 0≤ fr ≤ 1.00
Frecuencias absolutas acumuladas 0≤Fi ≤ fi
Frecuencias relativas acumuladas 0 ≤ Fr ≤ 1.00
∑fr =1.00
14
Claramente, la suma de las frecuencias absolutas es el número total de datos,
n; y la suma de las frecuencias relativas es 1.0 Observa que el último valor de la
distribución de frecuencias absolutas acumuladas coincide con el número de
observaciones. Análogamente, el último valor de la distribución de frecuencias
relativas acumuladas es uno. La distribución de frecuencias acumuladas permite
conocer la proporción de valores por debajo de cierto valor de la variable, o entre
dos valores especificados, o por encima de cierta cantidad.
Como ejemplo, vamos a construir la tabla de frecuencias para la variable Dolor
del Ejemplo 3. La variable Dolor es una variable cualitativa ordinal que presenta
tres modalidades: leve, moderado e intenso. Tendríamos así la tabla de
frecuencias:
Xi Xi fr Fi Fr
Leve 3 0.375 3 0.375
Moderado 1 0.125 4 0.5
Intenso 4 0.5 8 100
∑fi = 8 1.00
-Interpreta los resultados obtenidos y comprueba que se verifican las
propiedades de las frecuencias.
-Qué porcentaje de pacientes que acudieron al servicio de urgencias sufren dolor
intenso?
-Cuántos pacientes acudieron al servicio de urgencias con dolor leve o
moderado?
Ejercicio 2. Construye la tabla de frecuencias para el resto de variables
cualitativas que aparecen en el Ejemplo 3.
Muestra n Dureza
1 Agua blanda
2 Agua blanda
3 Agua dura
4 Agua muy dura
5 Agua muy dura
6 Agua extremadamente
dura
7
Agua blanda
8
Agua blanda
9
Agua dura
10
Agua muy dura
15
Ejercicio 3. Con el objetivo de estudiar la influencia de la dureza del agua en
ciertos trastornos gastrointestinales simples, un laboratorio determinó la dureza
del agua de 10 muestras obteniendo los siguientes resultados:
Construye la tabla de frecuencias relativas para la variable “Dureza del agua”
16
modo contamos el número de veces que la variable cae en cada intervalo. A
cada uno de estos intervalos le llamamos intervalo de clase y a su punto medio
marca de clase. Por tanto, para la definición de las frecuencias y la construcción
de la tabla de frecuencias sustituiremos los valores ci por los intervalos de clase
y las marcas de clase. Algunas consideraciones a tener en cuenta:
Número de intervalos a considerar: Para adoptar esta decisión tendremos en
cuenta:
1. Cuantos menos intervalos tomemos, menos información se recoge.
2. Cuantos más intervalos tomemos, más difícil es manejar las frecuencias.
Aunque no hay unanimidad al respecto, un criterio bastante extendido consiste
en tomar como número de intervalos el entero más próximo a √n.
Amplitud de cada intervalo: Lo más común es tomar todos los intervalos de igual
longitud.
Posición de los intervalos: Los intervalos deben situarse allí donde se encuentran
las observaciones de forma contigua. Es aconsejable que los restos de intervalos
en los extremos derecho e izquierdo del conjunto de observaciones sean
similares.
Si una variable cuantitativa discreta toma muchos valores distintos puede ser
conveniente una agrupación por intervalos como en el caso continuo.
A continuación veremos un ejemplo práctico de cómo se construyen los
intervalos y la tabla de frecuencias para variables cuantitativas continuas. En la
resolución de los ejemplos será útil ordenar la muestra de observaciones y
después calcular el recorrido o rango, que de mínimos como la diferencia entre
Prof. C. A. Cornielle
17
Como 40/3 = 13.3, podemos tomar 3 intervalos de amplitud 14 y así conseguimos
contener toda la muestra y los extremos de los intervalos resultan manejables.
Intervalo de clase Marca de clase:
[Li - Li+1) xi ni Fi Fr
46 - 60 53 4 0.5 0.5
60 - 74 67 2 0.25 0.75
74 - 88 81 2 0.25 1.0
Calcula una tabla de frecuencias para la variable Edad organizando los datos en
tres intervalos [20,35), [35,50), [50,65).
4. Representaciones gráficas
18
Diagrama de barras
Frecs. Absols.
5
4
3
2
1
0
Leve Moderado Intenso
DOLOR
50% 37.5%
12.5%
Ejercicio 6:
Un laboratorio está desarrollando unas nuevas tiras de orina para detectar los
niveles de acetona. Se realizan 50 pruebas de acetona en pacientes y se obtiene
en 15 ocasiones el color naranja, 25 veces se obtiene el color amarillo y en 10
ocasiones resulta el color verde. Construye la tabla de frecuencias y representa
las gráficas adecuadas para la variable Color de reacción.
19
4.2 Representaciones gráficas de variables cuantitativas
20
El histograma ayuda a describir cómo es la distribución de la variable, si es
simétrica (con un eje de simetría), bimodal (con dos máximos),...etc.
Figura 4
21
Figura 5
Poligono de frecuencia
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
40-46 46-60 60-74 74-78 78-84
Como se nota el polígono de frecuencias está formado por los puntos medios de
las clases vecinas, este tiende acerrarse.
22
5.1 Medidas de posición
En esta sección estudiamos medidas que nos indican la posición que ocupa la
muestra. La posición central son el objetivo de la media, la mediana y la moda.
El estudio de posiciones no centrales se hará con los cuantiles.
Media aritmética para una muestra simple (sin agrupar): Sean X1; X2, , , Xn un
conjunto de n observaciones de la variable X. Se define la media aritmética
(o simplemente media) de estos valores como:
𝟏
𝑿 = 𝑵 ∑𝑿𝒊, Para una muestra (1)
𝟏
µ = 𝑵 ∑(𝑿𝒊𝒇𝒊) Para una poblacion (2)
Observamos que el peso medio es 65.125 kg. Fíjate que la unidad de medida de
la media es la misma que la de los datos originales.
Ejemplo 4: Calculamos el peso medio de los pacientes de urgencias del
Ejemplo 3.
X = 63+58+84+…+55 = 61.125 kg
Observamos que el peso medio es 65.125 kg. Fíjate que la unidad de medida de
la media es la misma que la de los datos originales.
𝟏
𝑿 = 𝒏 ∑(𝑿𝒊𝒇𝒊) Para una muestra
23
Peso kg de 37 pacientes de un hospital
Total 29 5205
𝟏
𝑿 = 𝒏 ∑(𝑿𝒊𝒇𝒊) = 5205 = 179.48 kg
29
Si los datos están clasificados se buscan las marcas de clase o puntos medios
de las clases.
En caso de que se trate de una población se procede igual, pero se utilizan todos
los datos y se usa la formula (2).
Propiedades:
1. min(xi) ≤x ≤ max(xi ) y tiene las mismas unidades que los datos originales.
2. Es el centro de gravedad de los datos:
3. Si yi = a + bxi y = a + bx.
24
Efectivamente, los pesos reales serían 58, 53, 79, 42, 65, 52, 82, 50. Por lo tanto
la media de los pesos sería:
y =58+53+79+…+50 = 60.125 kg
8
Mediana: Una vez ordenados los datos de menor a mayor, se define ne la
mediana como el valor de la variable que deja a su izquierda el mismo número
de valores que a su derecha. Si hay un número impar de datos, la mediana es el
valor central. Si hay un número par de datos, la mediana es la media de los dos
valores centrales.
La mediana para datos simples:
Ejemplo 6: Calculamos el peso mediano de los pacientes de urgencias del
Ejemplo 3.
En primer lugar ordenamos los datos de menor a mayor:
47; 55; 57; 58; 63; 70; 84; 87
Tenemos un número par de datos (n = 8) y por lo tanto la mediana será:
Me = 58 + 63 = 60:5 kg
2
Observa que la media y la mediana tendrán valores similares, salvo cuando haya
valores atípicos o cuando la distribución sea muy asimétrica. La mediana es la
medida de posición central más robusta es decir, más insensible a datos
anómalos).
La mediana para datos agrupados sin clasificar.
Si los datos están agrupados pero sin estar distribuidos en clases tanto para
muestras como población, primero identificamos el área de la mediana, luego
calculamos la mediana con la ayuda de la siguiente técnica:
-Identificamos donde recae la mitad de todos los valores N/2 = 28/2 = 14
pacientes.
25
Pe kg de 37 pacientes de un hospital
Peso kg x Pacientes fi Fi
165 9 9
Área de la mediana
195 7 16
200 5
210 4
225 3
Total 28
26
Moda (Mo): Es el valor de la variable que se presenta con mayor frecuencia.
A diferencia de las otras medidas, la moda también se puede calcular para
variables cualitativas. Pero, al mismo tiempo, al estar tan vinculada a la
frecuencia, no se puede calcular para variables continuas sin agrupación por
intervalos de clase. Al intervalo con mayor frecuencia le llamamos clase modal.
Puede ocurrir que haya una única moda, en cuyo caso hablamos de distribución
de frecuencias unimodal. Si hay más de una moda, diremos que la distribución
es multimodal.
Mo = 0 Hijos.
Mo = Lim in.f + ( Δ1 ) i
Δ1+ Δ2
27
Donde
28
Una aplicación interesante de la moda es la comprobación de los cálculos. Si un
cálculo se repite un número de veces, el resultado aceptado es el que aparece
el mayor número de veces.
29
La gráfica 6
30
Se representan con la letra P. Para el percentil i-ésimo, donde la i toma valores
del 1 al 99. El i % de la muestra son valores menores que él y el 100-i % restante
son mayores.
Aparecen citados en la literatura científica por primera vez por Francis Galton en
1885.
P25 = Q1.
P50 = Q2 = mediana.
P75 = Q3.
Cálculo del percentil
Fórmulas Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3, ..., Xn, se localiza mediante las
siguientes fórmulas:
Para los percentiles, cuando n es par:
A* n = _P_
100
Cuando n es impar:
P/100(n + 1)
Siendo P, el número del percentil.
Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil
con el percentil 50 y el tercer cuartil con el percentil 75.
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de
ubicación o clasificación de las personas cuando atienden características tales
como peso, estatura, etc.
Los percentiles son ciertos números que dividen la sucesión de datos ordenados
en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en
cien partes iguales el conjunto de datos ordenados. Los percentiles
(P1, P2,... P99), leídos primer percentil,..., percentil 99.
Datos Agrupados
P = Lim inf. + P/100(n) – Fa-1 * i
fi
P= 1, 2,3,... 99
31
Donde:
Lim inf = Límite real inferior de la clase del decil k
n = Número de datos
Fa-1 = Frecuencia acumulada de la clase que antecede a la clase del percentil
P.
fi = Frecuencia de la clase del percentil P.
i = Longitud del intervalo de la clase del percentil P.
Veamos un ejemplo para datos simples:
Ejemplo 9.
Se tiene el nivel de triglicéridos en sangre MG/ml par un grupo de 10 pacientes:
100 120 135 140 160 180 190 200 250 260
Determinar la medida de triglicéridos del 70% o menos de los pacientes.
P70 ≤ P(n) = 70/100(10) = 7 lugar
Hay que ordenar los datos.
P70 ≤190 MG/mL
Ejemplo 10.
En caso de que la variable sea impar:
Se tiene el nivel de triglicéridos en sangre MG/ml par un grupo de 11 pacientes:
100 120 135 140 160 180 190 200 250 260 280
Determinar la medida de triglicéridos del 70% o menos de los pacientes
P70 ≤ P(n+1) = 0.7 (11) = 8.47 se redondea a 9no. lugar
P70 ≤ 250 MG/mL
32
Ejemplo 11 : Ahora supongamos que estos datos están agrupados en una tabla
de frecuencias:
Triglicéridos No. de
en sangre pacientes
Fi
MG/mL
100 5 5
120 4 9
135 8 17
180 3
190 6
200 3
250 1
Total 30
Total 35
33
Procedimiento
Cuando los datos están agrupados y ordenado esn clases se interpolan los datos
con la ayuda de la siguiente formula
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados
en cuatro partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q 1, Q2, Q3. El segundo cuartil es
precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del
cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el
tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas
partes (75%) de los datos.
Para Datos no Agrupados
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las
siguientes fórmulas:
- El primer cuartil:
Cuando n es par:
Q1= 1n
4
Cuando n es impar:
Q1 = 1(n + 1)
4
34
Para datos agrupados y clasificados:
3( n ) – F-a
Q3 = Lim inf + 4_____ *i
fi
Cuando n es par:
Q3= 3(n )
4
Cuando n es impar:
Q3 = 3(n + 1)
4
Cuando n es impar:
Q3 = 3(n + 1)
4
3( n ) – F-1
Q3 = Lim inf + 4_____ *i
fi
35
Donde:
Li inf = Límite real inferior de la clase del cuartil k
n = Número de datos
Fi = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fi = Frecuencia de la clase del cuartil k
i = Longitud del intervalo de la clase del cuartil k
Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene
lo siguiente:
El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los
datos; es decir, aquel valor de la variable que supera 25% de las observaciones
y es superado por el 75% de las observaciones.
Del ejemplo 13. Se tiene el nivel de triglicéridos en sangre MG/ml par un grupo
de 10 pacientes:
100 120 135 140 160 180 190 200 250 260
Calcular el cuartil 1.
Triglicéridos No. de
en sangre pacientes Fi
MG/mL
100 5 5
120 4 9
135 8
180 3
190 6
200 3
250 1
Total 30
36
Q1 = (1/4 n) = 1/4 ( 30) = 7.5 = 8 lugar
3( n +1 ) – F-1
Q3 = Lim inf + 4_____ *i
fi
Triglicéridos No. de
en sangre pacientes Fi
MG/mL
100-20 9 9
120-135 4 13
135-180 8 21
180-190 5 25
190-200 6 32
200-250 7
Total 39
3( 40 ) – 25
Q3 = 190 + 4_____ * 10 = 120+ 8.33 = 128.33 MG/ml
6
37
En muchos casos, las formas de la distribución difieren de una serie a otra. Unas
son simétricas; otras, no. Por lo tanto, para describir una distribución
necesitamos también una medida del grado de simetría o asimetría, del equilibrio
o la falta de equilibrio, en ambos lados del centro de la distribución.
La variación es, con mucho, la característica más importante de una distribución:
puede ser la base para la toma de decisiones o una medida para seguir
desarrollando la teoría y el método estadístico. Aunque la asimetría es una
importante característica para definir el modelo preciso de una distribución,
raramente se calcula en los negocios y la economía.
Las medidas de disperso o de variabilidad definición
Las medidas de variabilidad, también llamadas medidas de dispersión, son
medidas resumen de un conjunto de dataos, muestran la variabilidad de una
distribución, indicando por medio de un número, si las diferentes puntuaciones
de una variable están muy alejadas de la media. Cuanto mayor sea ese valor,
mayor será la variabilidad, cuanto menor sea, más homogénea será a la media.
Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
Las medidas de dispersión se utilizan para describir la variabilidad o
esparcimiento de los datos de la muestra respecto a la posición central.
-El rango
-La desviación seimi-intercuatilica
-La variación estándar o típica la varianza
-El Coeficiente de variación
38
Rango.
El rango se suele definir como la diferencia entre los dos valores extremos que
toma la variable. Es la medida de dispersión más sencilla y también, por tanto,
la que proporciona menos información. Además, esta información puede ser
errónea, pues el hecho de que no influyan más de dos valores del total de la
serie puede provocar una deformación de la realidad.
Recorrido o rango: R = Xmax xi -- Xmin xi
Comparemos, por ejemplo, estas dos series:
El uso de esta medida de dispersión, será pues, bastante restringido.
Variación estándar o típica y varianza
39
La desviación típica
Para conocer con detalle un conjunto de datos, no basta con conocer las
medidas de tendencia central, sino que necesitamos conocer también la
desviación que presentan los datos en su distribución respecto de la media
aritmética de dicha distribución, con objeto de tener una visión de los mismos
más acorde con la realidad al momento de describirlos e interpretarlos para la
toma de decisiones. La variación estándar o típica es, con mucho, la estadística
más importante entre todas las medidas de variación. Mide la variación de los
datos en términos absolutos.
La desviación típica es una medida del grado de dispersión de los datos con
respecto al valor promedio. Dicho de otra manera, la desviación estándar es
simplemente el "promedio" o variación esperada con respecto a la media
aritmética.
Forma de calcular la variación estándar
La desviación estándar o típica matemáticamente se calcula extrayendo la raíz
cuadrada de la media aritmética de las desviaciones al cuadrado de los datos
con respecto a la media.
Dependiendo de si los datos son muestrales o poblacionales y de si los mismos
están agrupados o no, la fórmula para calcular la desviación estándar varía.
La desviación estándar de una muestra a partir de datos sin agrupar:
S es la variación estándar
n es el tamaño de la muestra
40
Extraer la raíz cuadrada de la varianza, √∑d2 / n. El resultado así obtenido es
la desviación estándar muestral para datos simples, y se representa por el
símbolo S.
De esta manera la raíz cuadrada de la variancia, que a su vez, es la media la
media de las desviaciones al cuadrado con respecto a la media. Las fórmulas
para la desviación estándar y la varianza para muestras y población simple se
escriben como sigue:
Donde
N es el tamaño de la población y
μ es la media aritmética de la población
es la media aritmética de la muestra
n es el tamaño de la muestra
Para usar estas fórmulas, es necesario llevar x a un número suficiente de
lugares decimales con el objeto de obtener mayor precisión.
41
A menudo, la desviación estándar se calcula junto a l media, y una forma carta
de calcular la media puede usarse para el cálculo de la desviación estándar. La
fórmula utilizada para el cálculo de la desviación estándar para datos agrupados
para una muestra es:
Ejemplo 17. Se ha desarrollado una nueva vacuna contra la difteria para aplicarla
a niños. El nivel de protección estándar obtenido por antiguas vacunas es de 10
µg/ml un mes después de la inmunización. Se han obtenido estos datos del nivel
de protección de la nueva vacuna al transcurrir un mes:
Protección Cantidad
mg/ml de niños
11.5 8
12.5 6
13.5 5
14.5 4
Total 24
42
Fórmulas:
Recorrido o rango: R = Xmax xi -- Xmin xi
Procedimiento
Desviación
X = 12.19 mg/mm
CV = (s/x ) * 100
43
Para datos poblacionales simples
CV = (σ/µ ) * 100
Por supuesto, para que se pueda definir esta medida es preciso que la media no
sea cero. Es más, el coeficiente de variación sólo tiene sentido para variables
que sólo tomen valores positivos y que no sean susceptibles de cambios de
localización.
CV = 10.98%
Diámetro Fetos
(Cent) fi
85 8
90 5
95 7
100 4
105 3
110 2
Total 29
44
5.3 Medidas de forma
∑ ( X – X )3
ASF = ____________
3
ns
La interpretación de este coeficiente es la siguiente: Si su valor es prácticamente
cero se dice que los datos son simétricos. Si toma valores significativamente
mayores que cero diremos que los datos son asimétricos a la derecha y si toma
valores significativamente menores que cero diremos que son asimétricos a la
izquierda.
∑ ( X – X )4
AF = ____________
4
ns
Puesto que en Estadística el modelo de distribución habitual de referencia es el
gaussiano o normal y este presenta teóricamente un coeficiente de apuntamiento
de 3, se suele tomar este valor como referencia. Así, si este coeficiente es menor
que 3 diremos que los datos presentan una forma platicurtica, si es mayor que 3
diremos que son leptocúrticos y si son aproximadamente 3 diremos que son
mesocúrticos.
Ejemplo 18. Con los datos del ejercicio 17 determinar la forma de la distribución.
Desviación
xi xi-x (xi-x)3
∑ ( X – X )3
ASF = ____________ = 11.84 = 2.95 Los diámetros biparietales son de
3
ns 4 asimetrías positiva
45
5.4 El diagrama de caja o Boxplot
Prof. C. A. Cornielle
46
CAPITULO 2 INDICADORES DEMOGRÁFICOS Y EPIDEMIOLÓGICOS
1. Intdroduccion
47
2. Tasa de natalidad, morbilidad, mortalidad
Existen varios tipos como la tasa de mortalidad materna, infantil, especifica por
edad, perinatal…
dz = Dz ___ * 1000
N30VIZ
Así, se puede afirmar que en 1999, por cada Mil fallecieron un poco más de 6
personas.
Prof. C. A. Cornielle
48
Mortalidad infantil
Se observa que los componentes para calcular la TMI, son diferentes a la tasa
de mortalidad por edad. En el denominador se registra el número de nacimientos
ocurridos en el año, cuyo equivalente es “personas con edad exacta 0 años“. En
tanto, las tasas de mortalidad por edad tienen como denominador la población
media de menores de un año, es decir, personas con edades cumplidas. En
consecuencia, estas dos medidas son de naturaleza diferente, por el
denominador que se utiliza en cada caso. También se puede afirmar que la tasa
de mortalidad infantil es menor que la tasa central de mortalidad de los menores
de un año, debido a que el número de nacimientos en un año es mayor que la
población media de cero años. Esto representa al total de sobrevivientes de los
nacimientos ocurridos en los 12 meses que empieza el 30 de junio del año
anterior.
Ejemplo 2
Prof. C. A. Cornielle
49
La Tasa de Mortalidad Materna
Para determinar con precisión el riesgo de muerte debido a esta causa, se debe
aclarar que el denominador debería contener al número de embarazos que hubo
en el año considerado. En la práctica, es imposible obtener esta información, por
lo que se toma como aproximación, el número de embarazos que culmina con
un nacido vivo. Es decir, los nacimientos ocurridos en el año Z.
Morbilidad
Se entiende por morbilidad la cantidad de individuos considerados enfermos o
que son víctimas de una enfermedad en un espacio y tiempo determinado. La
morbilidad es un dato estadístico importante para comprender la evolución o
retroceso de alguna enfermedad, las razones de su surgimiento y las posibles
soluciones.
En el sentido de la epidemiología se puede ampliar al estudio y cuantificación de
la presencia y efectos de alguna enfermedad en una población.
Tasa de morbilidad
La frecuencia de la enfermedad en proporción a una población se especifique: el
período, el lugar y la hora por minuto.
Las tasas de morbilidad más frecuentemente usadas son las siguientes:
Prevalencia: Frecuencia de todos los casos (antiguos y nuevos) de una
enfermedad patológica en un momento dado del tiempo (prevalencia de punto)
o durante un período definido (prevalencia de período).
Prof. C. A. Cornielle
50
2. Tasa de incidencia, prevalencia
Ejemplo 4.
En una población de 10000 personas, se informa de que 500 personas sufren
determinada enfermedad. ¿Cuál sería en ese caso la prevalencia de la
enfermedad en esa población?
Tasa prev. = 500 / 10000 = 0.005 * 1000 = 5 de cada mil habitantes
Es decir, el 5% sufren la determinada enfermedad.
51
CAPITULO 3. PROBABILIDAD: CONCEPTOS BASICOS
1. Introducción histórica
Probabilidad, como Bernouilli, Bayes, Euler, Gauss,... en los siglos XVIII y XIX.
Será a _nales del siglo XIX y principios del XX cuando la Probabilidad adquiera
una mayor formalización matemática,debida en gran medida a la llamada
Escuela de San Petesburgo en la que cabe destacar los estudiosde chebychev,
Markov y Liapunov.
52
2. Conceptos básicos:
Por ello definiremos experimento aleatorio como aquel que verifique ciertas
condiciones que nos permitan un estudio riguroso del mismo.
53
2.2 Espacio muestral. Sucesos. .
Espacio muestral: Es el conjunto formado por todos los resultados posibles del
experimento aleatorio.
Lo denotamos por S
B = El resultado es un = 2
...,
F = El resultado es un = 6.
54
Intersección: Ocurre A ∩ B si ocurren los dos sucesos A y B a la vez.
A U B = (2; 4; 6) \ (3; 6) = 6.
Propiedades
Asociativa A U (B U C) = (A U B) U C A U (B ∩ C) = (A B) ∩ C
Conmutativa A UB = B U A A∩B=B∩A
Distributiv A U (B ∩ C) = (A U B) ∩ (A UC) A ∩ (B U C) = (A U B) U (A ∩ C)
A = El resultado es par.
55
3. Definiciones de probabilidad
Sin duda el caso más fácil es aquél en el que no tenemos razones para suponer
que unos sucesos sean más probables que otros.
Cuando, siendo el espacio muestral finito, todos los sucesos elementales tienen
la misma probabilidad, diremos que son equiprobables y podremos utilizar la
conocida Regla de Laplace
56
4. Probabilidad condicionada
57
En primer lugar, vamos a ponerle nombre a los sucesos. Denotamos primer
lugar, vamos a ponerle nombre a los sucesos. Denotamos
A= Es lector de La Voz.
B= Es lector de El Correo.
Fíjate en que la información que nos da el problema es:
P(A) = 0:35.
P(B) = 0:2.
P(A ∩ B) = 0:05.
5. Independencia de sucesos
Comentarios:
6. Teoremas clásicos
En esta sección veremos tres teoremas muy importantes, tanto a nivel teórico
como para la resolución de ejercicios. Los enunciaremos en su forma más
general, aunque después veremos por medio de ejemplos que su aplicación no
es complicada.
58
6.1 Regla del producto
Si tenemos los sucesos A1, A2;,,,,,,,An tales que P(A1∩ A2 ∩….∩ An) 6 = ø,
entonces se cumple
P(A1 ∩ A2 ∩….∩ An) = P(A1) * P(A2 /A1) *P(A3 / A1 ∩ A2) … P(An / A1 ∩ \A2∩….∩ An-1)
Denotamos:
A1= El parásito sobrevive a la primera aplicación de la vacuna.
A2= El parásito sobrevive a la segunda aplicación de la vacuna.
A3= El parásito sobrevive a la tercera aplicación de la vacuna,...
59
a) La probabilidad de que un parásito sobreviva a dos aplicaciones de la vacuna
será
P(A1 / A2) = P(A1) * P(A2 / A1) = 0.2 * 0.6 = 0.12.
Sistema completo de sucesos. Es una partición del espacio muestral, esto es, es
una colección de sucesos A1, A2,,,,,,,An (subconjuntos del espacio muestral)
verificando A1 ∩ A2 ∩……. .… ∩ An = ø (son exhaustivos, cubren todo el espacio
muestral) y además son incompatibles dos a dos (si se verifica uno de ellos, no
puede a la vez ocurrir ninguno de los otros).
P(E) = P(A1) * P(E=A1) + P(A2) * P(E=A2) = 0:12 * 0:07 + 0:88 0:025 = 0:0304
60
6.3. Teorema de Bayes
61
CAPITULO 4. VARIABLES ALEATORIAS DISCRETAS Y DISTRIBUCIONES
DE PROBABILIDAD DISCRETAS
1. Introducción
Por tanto, haremos uso de los conceptos del tema anterior (Probabilidad),
mientras que algunos desarrollos serán análogos a los del tema de Estadística
Descriptiva.
2. Variable aleatoria
62
encuentran separados entre sí. Por tanto será representable por conjuntos
discretos. Una variable aleatoria será continua cuando el conjunto de valores que
puede tomar es un intervalo.
Una variable aleatoria es discreta cuando toma una cantidad numerable (que se
pueden contar) de valores. Por ejemplo, el número de caras al lanzar dos veces
una moneda o el número de pacientes con enfermedades articulares en centros
de salud.
Si X es una variable discreta, su distribución viene dada por los valores que
puede tomar y las probabilidades de que aparezcan. Si x1 < x2 < :: < xn son los
posibles valores de la variable X,
Ejercicio 1: Se lanza dos veces una moneda equilibrada. Sea X la variable que
expresa el número de caras en los dos lanzamientos. Halla y representa la
función de probabilidad de X.
Xi 0 2 3 4 5 6 7
63
Definición 3. La función de distribución de una variable aleatoria se de_ne como:
F: R R
x0 F (x0) = P (X ≤ x0)
F ( -∞) = 0
F (+∞1) = 1:
Suponiendo que la variable X toma los valores x1 < x2 < ……..< xn, los puntos
de salto de la función de distribución vienen determinados por:
64
3. Medidas características de una variable aleatoria discreta.
3.2 Varianza.
σ2 = Var(X) =Σ (x - µ )2pxi
65
4. Principales modelos de distribuciones discretas
1 si Éxito
X=
0 si fracaso
Lo único que hay que conocer es la probabilidad de éxito, p, ya que los valores
de X son siempre los mismos y la probabilidad de fracaso es q = 1 - p.
66
4.2 Distribución binomial
La distribución binomial sirve para modelizar situaciones en las que nos interesa
contar el número de éxitos en n repeticiones de una prueba de Bernoulli con
probabilidad de éxito p.
67
Como ejemplo 32 , la Figura 2 muestra las funciones de masa de una variable
con distribución binomial de parámetros n = 5 y p = 1/6 y una variable con
distribución binomial de parámetros n = 60 y p = 1/6.
Ejemplo 33. En una población hay un 40% de fumadores. La variable 𝑋 que mide el número
de fumadores en una muestra aleatoria con reemplazamiento de 3 personas sigue un modelo
de distribución binomial, la probabilidad de que ninguno sea fumador es:
𝑓 (0) = (3c0 ) 0.40 (1 − 0.4)3−0 = 0.63
68
probabilidad de la binomial tiende a una nueva distribución, que llamaremos de
Poisson de parámetro ʎ = np
P(X = k) = e -ʎ ʎk
k Si k ∈ (0, 1, 2, 3 ,…, n)
La media y la varianza de la Poisson de parámetro ʎ son:
µ= ʎ
σ2 = ʎ
Como ejemplo, la Figura 3 muestra las funciones de masa de una variable con
distribución de Poisson de parámetro λ = 2 y una variable con distribución de
Poisson de parámetro λ = 15.
Figura 3 Figura 4
69
Ejemplo 34: La probabilidad de que una persona se desmaye en un concierto es
p = 0:005. Cuál es la probabilidad de que en un concierto al que asisten 3000
personas se desmayen 18?
Estos valores están fuera de las tablas de la binomial y son difíciles de calcular,
por eso es preferible aproximar por una Poisson de parámetro
µ = np = 3000 * 0:005 = 15.
Entonces:
P(X = 18) = P(Poisson(15) x = 18) = e-15 1518 = 0:07061
18!
70
situaciones en las que nos interesa contar el número de ocurrencias de un
determinado suceso en un intervalo de tiempo
71
CAPITULO 5. VARIABLES ALEATORIAS CONTINUAS Y DISTRIBBUCIONES
DE PROBABILIDAD CONTINUAS
1. Introducción
En el capítulo anterior hemos estudiado variables aleatorias discretas. Recuerda
que una variable aleatoria es un valor numérico que corresponde al resultado de
un experimento aleatorio. Podemos clasificar las variables aleatorias en
discretas y continuas en función del conjunto de valores que pueden tomar.
Estudiaremos en este tema variables aleatorias continuas y nos centraremos en
un modelo de distribución continua (la distribución normal) que ha adquirido una
especial relevancia por ser adecuada para modelizar una gran cantidad de
situaciones prácticas.
72
3. Medidas características de una variable aleatoria continua
Los conceptos que permiten resumir una distribución de frecuencias utilizando
valores numéricos pueden utilizarse también para describir la distribución de
probabilidad de una variable aleatoria.
3.1 Media o esperanza
Se define la media poblacional o esperanza de una variable aleatoria continua
como
73
La interpretación de la varianza es la misma que para un conjunto de datos: es
un valor no negativo que expresa la dispersión de la distribución alrededor de la
media. Además, se puede calcular la desviación típica poblacional como la raíz
cuadrada de la varianza. Los valores pequeños de indican concentración de la
distribución alrededor de la esperanza y valores grandes corresponden a
distribuciones más dispersas.
74
Esta gráfica muestra tres formas diferentes de medir el área bajo la curva normal. Sin
embargo, muy pocas de las aplicaciones que haremos de la distribución normal de
probabilidad implican intervalos de exactamente (más o menos) 1, 2 ó 3 desviaciones
estándar a partir de la media. Para estos casos existen tablas estadísticas que indican
porciones del área bajo la curva normal que están contenidas dentro de cualquier
número de desviaciones estándar (más o menos) a partir de la media.
Para cualquier distribución normal de probabilidad, todos los intervalos que contienen el
mismo número de desviaciones estándar a partir de la media contendrán la misma
fracción del área total bajo la curva para cualquier distribución de probabilidad normal.
Esto hace que sea posible usar solamente una tabla (Apéndice Tabla 1) de la
distribución de probabilidad normal estándar.
El valor de z en la tabla es absoluto, es decir, z en la tabla no tiene signo; las areas que
se muestran en la tabla son las areas bajo la curva de probabilidad normal estandar
entre la media y los valores posiditivos de z, y como la distrilbucion es simetrica esta
area le corresponde a ambos lados de la curva.
75
Aarea bajo la curva noral
En la que:
x = valor de la variable aleatoria que nos preocupa.
µ = media de la distribución de la variable aleatoria.
σ =desviación estándar de la distribución.
z = número de desviaciones estándar que hay desde x a la media de la distribución.
(eluso de z es solamente un cambio de escala de medición del eje horizontal).
Prof. C. A. Cornielle
Ejemplo:
76
La glucemia basal de los diabéticos atendidos en un centro sanitario puede
considerarse como una variable normalmente distribuida, con media 106 mg por 100
ml, y desviación típica 8 mg por 100 ml N(106; 8). Calcular:
a) La proporción de diabéticos con una glucemia basal inferior a 120 mg por 100 ml,
P(x<120)( recuerde que la variable continua es lo mismo menor que menor o igual).
b) La proporción de diabéticos con una glucemia basal comprendida entre 10 y 120 mg
por 100 ml.
c) La proporción de diabéticos con una glucemia basal mayor de 120 mg por 100 ml.
d) El nivel de glucemia basal tal que por debajo de él están el 25% de los diabéticos, es
decir, el primer cuartil.
f) La proporción de diabéticos con una glucemia basal menor de 100 mg por 100 ml.
z = 120-106 = 1.75
8
Z= +1.75
La proporción de diabéticos con una glucemia basal menor de 120 mg por 100 ml es
0,9599. También se podría decir que la probabilidad de que un diabético seleccionado
al azar en esta población tenga una glucemia basal inferior a 120 mg por 100 ml es
0,9599.
Prof. C. A. Cornielle
77
b) La proporción de diabéticos con una glucemia basal comprendida entre 106 y 120
mg por 100 ml
X1=103.5 X2=108.5
78
c) La proporción de diabéticos con una glucemia basal mayor de 120 mg por 100 ml.
X2=10.5
d) El nivel de glucemia basal tal que por debajo de él están el 25% de los diabéticos, es
decir, el primer cuartil
z = x-µ
σ
Sustituyendo en la fórmula
0.67 = x-106
8
X= z σ + µ
79
c) La proporción de diabéticos con una glucemia basal mayor de 100 mg por 100 ml.
-z1
Z1 = 100-106 = -0.75 P(X1) = 0.2734
8
Ejercicio. En una ciudad se estima que la temperatura máxima en el mes de junio sigue
una distribución normal, con media 23° y desviación típica 5°. Calcular el número de
días del mes en los que se espera alcanzar máximas entre 21° y 27°
80
81
Literatura consultada.
Thomson Learning
2. BIOESTADISTICA
3. Introduccion a la BIOESTADISTICA
Sokal/rohlf, agapea.com
82