Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bioestadistica 5
Bioestadistica 5
6.2 Introducción
Como complemento al capítulo anterior en el que definimos todos los conceptos
relativos a variables aleatorias, describimos en éste las principales leyes de probabilidad
que encontramos en las aplicaciones del cálculo de probabilidades. Atendiendo a la
clasificación de las v.a. en discretas y continuas describiremos las principales leyes de
probabilidad de cada una de ellas, las cuales constituirán el soporte subyacente de la
inferencia estadística y a las que será necesario hacer referencia en el estudio de dicho
bloque. Iniciamos este capítulo con el estudio de las distribuciones para v.a. discretas.
Un ejemplo típico de este tipo de variables aleatorias consiste en lanzar una moneda al
aire y considerar la v.a.
Para una v.a. de Bernouilli, tenemos que su función de probabilidad es:
y su función de distribución:
Figura: Función de probabilidad de una variable
binomial cunado n es pequeño.
Figura: Función de probabilidad de una variable
binomial cuando n es grande.
6.4.4.1 Ejemplo
Un médico aplica un test a 10 alumnos de un colegio para detectar una enfermedad cuya
incidencia sobre una población de niños es del . La sensibilidad del test es del
Solución:
donde E, T+, y T- tienen el sentido que es obvio. Si queremos saber a cuantas personas el
test le dará un resultado positivo, tendremos que calcular , para lo que podemos
usar el teorema de la probabilidad total (estar enfermo y no estarlo forman una
colección exhaustiva y excluyente de sucesos):
Sea X1 la v.a. que contabiliza el número de resultados positivos. Es claro que llamando
Si queremos calcular a cuantas personas les dará el test un resultado positivo aunque en
Es importante observar este resultado. Antes de hacer los cálculos no era previsible que
si a una persona el test le da positivo, en realidad tiene una probabilidad
y
Por último vamos a calcular la probabilidad p3 de que el test de un resultado erróneo,
que es:
Como la probabilidad de que el test sea correcto para más de siete personas, es la de que
sea incorrecto para menos de 3, se tiene
. Por ejemplo
6.4.6.1 Observación
6.4.6.2 Observación
6.4.6.3 Ejemplo
Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el nacimiento
de una hija. Calcular el número esperado de hijos (entre varones y hembras) que tendrá
el matrimonio. Calcular la probabilidad de que la pareja acabe teniendo tres hijos o más.
Es claro que
Sabemos que el número esperado de hijos varones es , por tanto el
número esperado en total entre hijos varones y la niña es 2.
La probabilidad de que la pareja acabe teniendo tres o más hijos, es la de que tenga 2 o
más hijos varones (la niña está del tercer lugar en adelante), es decir,
6.4.6.4 Observación
=1mm
Es decir,
Su función característica es
Para tratar a un paciente de una afección de pulmón han de ser operados en operaciones
independientes sus 5 lóbulos pulmonares. La técnica a utilizar es tal que si todo va bien,
lo que ocurre con probabilidad de 7/11, el lóbulo queda definitivamente sano, pero si no
es así se deberá esperar el tiempo suficiente para intentarlo posteriormente de nuevo. Se
practicará la cirugía hasta que 4 de sus 5lóbulos funcionen correctamente. ¿Cuál es el
valor esperado de intervenciones que se espera que deba padecer el paciente? ¿Cuál es
la probabilidad de que se necesiten 10 intervenciones?
Solución: Este es un ejemplo claro de experimento aleatorio regido por una ley
binomial negativa, ya que se realizan intervenciones hasta que se obtengan 4 lóbulos
sanos, y éste es el criterio que se utiliza para detener el proceso. Identificando los
parámetros se tiene:
Y=X+r
Luego
En lugar de usar como dato D es posible que tengamos la proporción existente, p, entre
el número total de oros y el número de cartas de la baraja
de modo que podemos decir que
Este ejemplo sirve para representar el tipo de fenómenos que siguen una ley de
distribución hipergeométrica. Diremos en general que una v.a. X sigue una distribución
hipergeométrica de parámetros, N, n y p, lo que representamos del modo
, si su función de probabilidad es
6.4.10.1 Observación
Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir,
obteniéndose como la distribución límite de una sucesión de variable binomiales,
La función característica de es
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p=1/100.000. Calcular la
probabilidad de que en una ciudad con 500.000 habitantes haya más de 3 personas con
dicha enfermedad. Calcular el número esperado de habitantes que la padecen.
Figura: Función de densidad y de distribución de
La función característica es
Como esta distribución es muy simple, vamos a calcular sus momentos más usuales
directamente a partir de la definición, en lugar de usar la función característica:
6.8.4 Distribución exponencial
La distribución exponencial es el equivalente continuo de la distribución geométrica
discreta. Esta ley de distribución describe procesos en los que:
Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que,
el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra
en un instante tf, no depende del tiempo transcurrido anteriormente en el que no
ha pasado nada.
Figura: Función de distribución, F, de
, calculada como el área que deja por debajo de sí la
función de densidad.
6.8.4.1 Ejemplo
que transcurre hasta que el del material radiactivo se desintegra es el percentil 90,
t90, de la distribución exponencial, es decir
Figura: Como el número de átomos
(observaciones) es extremadamente alto en 10
gramos de materia, el histograma puede ser
aproximado de modo excelente por la función de
densidad exponencial, y el polígono de frecuencias
acumuladas por la función de distribución.
6.8.4.2 Ejemplo
En segundo lugar
o sea, en la duración que se espera que tenga el objeto, no influye en nada el tiempo que
en la actualidad lleva funcionando. Es por ello que se dice que ``la distribución
exponencial no tiene memoria".
Figura: Campana de Gauss o función de densidad
de una v.a. de distribución normal. El área contenida
entre la gráfica y el eje de abcisas vale 1.
Para el lector es un ejercicio interesante comprobar que ésta alcanza un único máximo
(moda) en , que es simétrica con respecto al mismo, y por tanto
Las consecuencias desde el punto de vista práctico son importantes, ya que eso impide
el que podamos escribir de modo sencillo la función de distribución de la normal, y nos
tenemos que limitar a decir que:
sin poder hacer uso de ninguna expresión que la simplifique. Afortunadamente esto no
impide que para un valor de xfijo, F(x) pueda ser calculado. De hecho puede ser
calculado con tanta precisión (decimales) como se quiera, pero para esto se necesita usar
técnicas de cálculo numérico y ordenadores. Para la utilización en problemas prácticos
de la función de distribución F, existen ciertas tablas donde se ofrecen (con varios
decimales de precisión) los valores F(x) para una serie limitada de valores xi dados.
Normalmente F se encuentra tabulada para una distribución Z, normal de media 0 y
varianza 1 que se denomina distribución normal tipificada:
Sean . Entonces
Este resultado puede ser utilizado del siguiente modo: Si , y nos interesa
calcular ,
1.
aproximado) ;
3.
Como
6.8.6.4 Ejemplo
Supongamos que cierto fenómeno pueda ser representado mediante una v.a.
Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos
mencionado anteriormente.
6.8.6.5 Proposición
Sea . Entonces
Demostración
es decir, esa integral es constante. Con lo cual, derivando la expresión anterior con
respecto a se obtiene el valor 0:
luego .
Luego
y calculamos
Como , por la proposición 5 deducimos que
Se puede demostrar (teorema central del límite) que una v.a. discreta con distribución
aunque en realidad esta no da resultados muy precisos a menos que realmente nsea un
valor muy grande o . Como ilustración obsérvense las figuras 6.10 y 6.11.
Figura: Comparación entre la función de densidad
de una v.a. continua con distribución
Figura: La misma comparación que en la figura
anterior, pero realizada con parámetros con los que
damos la aproximación normal de la binomial es
mejor.
6.8.6.7 Ejemplo
Durante cierta epidemia de gripe, enferma el de la población. En un aula con 200
estudiantes de Medicina, ¿cuál es la probabilidad de que al menos 40 padezcan la
enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe.
Dada la dificultad numérica para calcular esa cantidad, y como la distribución binomial
no está habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximación
normal, XN. Pero hay que prestar atención al hecho de que XN es una v.a. continua, y por
tanto la probabilidad de cualquier punto es cero. En particular,
6.8.6.8 Ejemplo
Según un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos
considerar que se distribuye según una ley gaussiana de valor esperado y
desviación típica . Dar un intervalo para el que tengamos asegurado que el
estar seguros de que el de los habitantes tengan sus alturas comprendidas en él hay
varias estrategias posibles:
1.
Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad,
0,5, de la masa de probabilidad. Este valor, x0,5, se definiría como:
donde
Por tanto podemos decir que la mitad de la población tiene una altura inferior a
. Este resultado era de esperar, ya que en la distribución es
simétrica y habrá una mitad de individuos con un peso inferior a la media y otro
con un peso superior (figura 6.12). Esto puede escribirse como:
El de la población tiene un peso comprendido en el intervalo
Figura: Intervalo donde tenemos asegurado que el
50% de la población tiene un peso comprendido en
él. Como se observa, no es un tamaño óptimo, en el
sentido de que el intervalo es demasiado grande
(longitud infinita a la izquierda).
2.
Análogamente podemos considerar el percentil 50, y tomar como intervalo
aquellos pesos que lo superan. Por las mismas razones que en el problema
anterior, podremos decir:
3.
Los anteriores intervalos, aún dando un resultado correcto, no son satisfactorios
en el sentido de que son muy grandes, y no tienen en cuenta la simetría de la
distribución normal para tomar un intervalo cuyo centro sea . Vamos a utilizar
entonces otra técnica que nos permita calcular el intervalo centrado en la media,
Figura: Intervalo donde tenemos asegurado que el
50% de la población tiene un peso comprendido en
él. En este caso el intervalo es más pequeño que el
por debajo al de las observaciones). Del mismo modo que antes estos
valores pueden ser buscados en una tabla de la distribución normal, tipificando
en primera instancia para destipificar después:
donde
Análogamente se calcularía
donde
De entre los tres intervalos que se han calculado el que tiene más interés es el último, ya
que es simétrico con respecto a la media, y es el más pequeño de todos los posibles (más
preciso). Este ejemplo es en realidad una introducción a unas técnicas de inferencia
estadística que trataremos posteriormente, conocidas con el nombre de ``estimación
confidencial'' o ``cálculo de intervalos de confianza''.
6.8.8 Distribución
, se tiene
6.8.8.1 Observación
6.8.8.2 Ejemplo
1.
Definimos el error acumulado en las mediciones de todos los pacientes como
Solución:
De este modo, el valor esperado para E1 es 0, es decir, que los errores ei van a tender a
compensarse entre unos pacientes y otros. Obsérvese que si no fuese conocido a
priori, podríamos utilizar E1, para obtener una aproximación de
Sin embargo, el resultado E1 no nos indica en qué medida hay mayor o menor
dispersión en los errores con respecto al 0. En cuanto a E2 podemos afirmar lo siguiente:
En este caso los errores no se compensan entre sí, y si no fuese conocido, podría ser
``estimado" de modo aproximado mediante
El siguiente resultado será de importancia más adelante. Nos afirma que la media de
distribuciones normales independientes es normal pero con menor varianza y relaciona
los grados de libertad de una v.a. con distribución , con los de un estadístico como la
varianza (página ):
6.8.8.3 Teorema (Cochran)
Figura: Función de densidad de una de Student
densidad de y .
Para un número alto de grados de libertad se puede aproximar la distribución de
Student por la normal, es decir,
Obsérvese que .
La forma más habitual en que nos encontraremos esta distribución será en el caso en
que tengamos n+m v.a. independientes
y así
y para ello, como en todas las distribuciones asociadas a la normal, disponemos de una
tabla (la número 6) donde encontrar aproximaciones a esas cantidades
6.10 Problemas
Ejercicio 6..1. Para estudiar la regulación hormonal de una línea metabólica se inyectan
ratas albinas con un fármaco que inhibe la síntesis de proteínas del organismo. En
general, 4 de cada 20 ratas mueren a causa del fármaco antes de que el experimento
haya concluido. Si se trata a 10 animales con el fármaco, ¿cuál es la probabilidad de que
al menos 8 lleguen vivas al final del experimento?
1.
Haya exactamente 10 muertes por cáncer de pulmón?
2.
15 o más personas mueran a causa de la enfermedad?
3.
10 o menos personas mueran a causa de la enfermedad?
Ejercicio 6..3. Dañando los cromosomas del óvulo o del espermatozoide, pueden
causarse mutaciones que conducen a abortos, defectos de nacimiento, u otras
deficiencias genéticas. La probabilidad de que tal mutación se produzca por radiación es
del 10%. De las siguientes 150 mutaciones causadas por cromosomas dañados, ¿cuántas
se esperaría que se debiesen a radiaciones? ¿Cuál es la probabilidad de que solamente
10 se debiesen a radiaciones?
Ejercicio 6..4. Entre los diabéticos, el nivel de glucosa en sangre X, en ayunas, puede
suponerse de distribución aproximadamente normal, con media 106 mg/100 ml y
desviación típica 8 mg/100 ml, es decir
1.
Hallar
2.
¿Qué porcentaje de diabéticos tienen niveles comprendidos entre 90 y 120 ?
3.
Hallar .
4.
Hallar .
5.
Hallar el punto x caracterizado por la propiedad de que el 25% de todos los
diabéticos tiene un nivel de glucosa en ayunas inferior o igual a x.
Ejercicio 6..5. Una prueba de laboratorio para detectar heroína en sangre tiene un 92%
de precisión. Si se analizan 72 muestras en un mes, ¿cuál es la probabilidad de que:
1.
60 o menos estén correctamente evaluadas?
2.
menos de 60 estén correctamente evaluadas?
3.
exactamente 60 estén correctamente evaluadas?
Ejercicio 6..6. El 10% de las personas tiene algún tipo de alergia. Se seleccionan
aleatoriamente 100 individuos y se les entrevista. Hallar la probabilidad de que, al
menos, 12 tengan algún tipo de alergia. Hallar la probabilidad de que, como máximo, 8
sean alérgicos a algo.
1.
¿Cuántas muertes debidas a esta causa se esperan?
2.
¿Cuál es la probabilidad de que haya, como máximo, 25 de estas muertes?
3.
¿Cuál es la probabilidad de que el número de muertes debidas a esta causa esté
entre 25 y 35, inclusive?
1.
Tomando una muestra de 8 individuos, calcular la probabilidad de que 3
individuos presenten la característica.
2.
Tomando una muestra de 80 personas, ¿cuál será la probabilidad de que
aparezcan más de 5 individuos con la característica?
Ejercicio 6..9. Se supone que en una cierta población humana el índice cefálico i,
(cociente entre el diámetro transversal y el longitudinal expresado en tanto por ciento),
se distribuye según una Normal. El 58% de los habitantes son dolicocéfalos (i 75), el
38% son mesocéfalos (75 < i 80) y el 4% son braquicéfalos (i > 80). Hállese la media
y la desviación típica del índice cefálico en esa población.
Ejercicio 6..10. Se supone que la glucemia basal en individuos sanos, Xs sigue una
distribución