Distribucion Binomial

DISTRIBUCION BINOMIAL
Mario Briones L.
MV, MSc
2005
Muchas poblaciones consisten sólo de dos tipos de elementos:
par-impar
aprueba-reprueba
vivo-muerto
preñada-seca
presente-ausente
positivo-negativo
hembra-macho
El investigador se interesa en la proporción,

porcentaje o número de individuos
en cada una de las dos clases.
Ejemplos:
 Porcentaje de caiquenes machos con
presecia de parásitos gastrointestinales
 Porcentaje de perros que presentan
displacia acetabular
 Porcentaje de peces que mueron por una
enfermedad
 Porcentaje de individuos que presenta un
gen determinado
p
q
p+q=1
Al muestrear, a cada observación que cae en la clase
de interés primario se le llama éxito.
En una muestra de tamaño n la probabilidad de obtener 0,
1, 2, 3..., n éxitos se calcula fácilmente a través
de la distribución llamada binomial o de Bernoulli
Si r miembros de una muestra de tamaño n
poseen un determinado atributo, el estimador
muestreal de la proporción de la población que
posee este atributo es
p= r/n.
RECUERDE QUE UNA VARIABLE ES UN ATRIBUTO QUE
PUEDE SER DIFERENTE ENTRE INDIVIDUOS
MEDIA Y DESVIACION ESTANDAR DE UNA
VARIABLE BINOMIAL
El propósito de recolectar este tipo de datos

es generalmente estimar la proporción de
unidades de la población que pertenecen
a una de las clases, generalmente la primera
de ellas (ej. Proporción o porcentaje de
individuos positivos a una enfermedad).
VARIABLE BINOMIAL
Para determinar la media y la desviación

supongamos que se construye una variable
que toma el valor 1 para cada unidad de la
población que pertenece a la clase A
y el valor 0 para cada unidad que pertenece
a la clase B.
VARIABLE BINOMIAL
 es la proporción en la población que

pertenece a la clase A
En un problema de dos clases, se representa

la proporción en la primera clase por p y
en la segunda por q
y q=1-p
VARIABLE BINOMIAL
En la población, X sigue una distribución de

probabilidad de
Valor de X Probabilidad, P(X) X - 
0 q -p
1 p 1 - p= q
La media poblacional es = PX= q(0) + p(1) = p

Para la varianza:2= PX2 - 2 = p - p2 =pq
La desviación estándar: = pq
VARIABLE BINOMIAL
p q s2 s
0 1 0 0.00
Relación entre 0.1 0.9 0.09 0.30
frecuencia y 0.2 0.8 0.16 0.40
0.3 0.7 0.21 0.46
desviación 0.4 0.6 0.24 0.49
estándar en 0.5 0.5 0.25 0.50
una distribución 0.6 0.4 0.24 0.49
0.7 0.3 0.21 0.46
binomial 0.8 0.2 0.16 0.40
0.9 0.1 0.09 0.30
1 0 0 0.00
VARIANZA Y DESVIACION ESTANDAR DE
UNA VARIABLE BINOMIAL
Estimación a partir de una muestra binomial
de tamaño n
Caso 1: para el número de éxitos, r:
= np 2 = npq  =  npq
Caso 2: para la proporción de éxitos, p= r/n:
= p 2= pq/n  =  pq/n

Ejemplo
De un total de 74 (n) ovejas en un rebaño, 34 son blancas y
40 son negras.
ESTIMADORES DE TENDENCIA CENTRAL PARA LA

PROPORCIÓN DE EXITOS
Proporción p= 34/74 = 0,4595
Proporción q= 40/74 = 0,5405
 Asumiendo que los éxitos son la presencia

de ovejas blancas
Ejemplo
ESTIMADORES DE DISPERSION PARA EL
NUMERO DE EXITOS
VARIANZA= npq = 74 x 0,4595 x 0,5405 = 18,38
DESVIACION ESTANDAR= 18,38 = 4,29
ESTIMADORES DE DISPERSION PARA LA

PROPORCION DE EXITOS
VARIANZA= pq/n = (0,4595 x 0,5405) / 74 = 0.00336
DESVIACION ESTANDAR= 0,00336 = 0,0579

LIMITES DE CONFIANZA PARA UNA
En muestras de gran tamaño el estimador binomial p tiene una

distribuciónaproximadamente normal distribuida alrededor de la
proporción poblacional p con desviación estándar  pq/n.
La probabilidad es aproximadamente 0.95 de que p caiga
entre los límites
p - 1.96 pq/n y p + 1.96 pq/n

Ejemplo
Supongamos que 200 individuos en una muestra de
1000 poseen un atributo, los límites de confianza
de 95% son:
0.2 1.96 (0.2)(0.8)/1000= 0.2  0.025

El intervalo de confianza para p se extiende desde
0.175 hasta 0.225
en porcentaje: desde 17.5% hasta 22.5%
para los límites de 99% se reemplaza 1.96 por 2.576

COMPARACION DE PROPORCIONES EN
MUESTRAS INDEPENDIENTES:
 Ej. Los datos provienen de un

estudio canadiense en gran escala
acerca de la relación entre el hábito
de fumar y la mortalidad. A partir de
un cuestionario inicial en 1956,
varones pensionados de guerra se
clasificaron de acuerdo a sus hábitos
de fumar.
MUESTRAS INDEPENDIENTES
 Consideraremos dos clases: a)no

fumadores y b) fumadores de pipa.
Se obtuvo luego un informe acerca
de la muerte de cualquiera de los
individuos en los siguientes seis
años. Por lo tanto los pensionados
fueron clasificados de acuerdo a su
estatus (vivo, muerto) al final del
período.
MUESTRAS INDEPENDIENTES
 Ya que la probabilidad de muerte

depende en gran medida de la edad,
la comparación hecha aquí se
circunscribe a personas que tenían
entre 60 a 64 años al inicio del
estudio. La siguiente es la Tabla de
Contingencia que agrupa los
individuos en las cuatro clases:
Muestra 1 Muestra 2
no fumadores fumadores Total
Muerto 117 54 171
Vivo 950 348 1298
Total n1=1067 n2= 402 1469
Proporción
muertos p1=0.1097 p2=0.1343 p=0.1164
Al observar la diferencia entre los porcentajes de
mortalidad de los grupos de fumadores y no
fumadores...
Es una diferencia real o surge de error de muestreo?
COMPROBACION DE HIPÓTESIS:
HIPOTESIS NULA:
Las proporciones de mortalidad,

117/1067 y 54/402 son estimadores de la
misma cantidad.
HIPOTESIS ALTERNA:
Las proporciones de mortalidad son diferentes

Ya que p1 y p2 se distribuyen de modo aproximadamente
normal, su diferencia, p1 - p2 también se distribuye
normalmente. La varianza de ésta diferencia es la suma de
las dos varianzas.
V(p1-p2)= s2p1 + s2p2= p1q1/n1 + p2q2/n2

bajo la hipótesis nula p1=p2= p
y el error estándar de la diferencia se distribuye

normalmente con media 0 y es igual a
EE= pq/n1 + pq/n2

la hipótesis nula no especifica el valor de p.
Como estimador podemos sugerir p= 0.1164
La desviación normal z es:
p1 - p2
z=
 pq (1/n1 +1/n2)
0.1097 - 0.1343 - 0.0246

z= = = - 1.311
(0.1164)(0.9936)(1/1067 + 1/402) 0.01877
REGLA DE DECISIÓN, DECISIÓN ESTADISTICA
Y CONCLUSIÓN
En la tabla de z, independientemente del signo,

1,311 es menor que el valor de z (1,96) que cubre
un área de 95% bajo la curva.
Por lo tanto, se acepta la hipótesis nula.
La diferencia observada en la proporción de

fumadores y no fumadores muertos al cabo del
periodo de observación, se debe al azar, por ej. Por
error de muestreo.
Puede considerarse que la proporción

es una sola: 0,1164.
PRUEBA DE X2 (CHI CUADRADO)
H0: no existe diferencias en la mortalidad de

personas fumadoras y no fumadoras,
en un periodo determinado de tiempo.
HA: la proporción de personas muertas es

mayor en el grupo de fumadores, en un
periodo de tiempo.
Tabla de contingencia de 2x2
Fumadores no fumadores Total
Observado Observado
Esperado
Muertos 117 54 171
124.2
Observado Observado
Vivos 950 348 1298
Total 1067 402 1469

Observado Observado
Esperado Esperado
Muertos 117 54 171
124.2 46.8
Observado Observado
Vivos 950 348 1298
Total 1067 402 1469

Observado Observado
Esperado Esperado
Muertos 117 54 171
124.2 46.8
Observado Observado
Esperado
Vivos 950 348 1298
942.8
Total 1067 402 1469

Observado Observado
Esperado Esperado
Muertos 117 54 171
124.2 46.8
Observado Observado
Esperado Esperado
Vivos 950 348 1298
942.8 355.2
Total 1067 402 1469

ESTADISTICO DE PRUEBA
X 
2  observado  esperado 2
esperado
Grados de libertad, en general= filas-1 x columnas-1

Tabla de Chi cuadrado
Probabilidad
grados de libertad 0.1 0.05 0.01 0.005 0.001
1 2.706 3.841 6.635 7.879 10.827
2 4.605 5.991 9.210 10.597 13.815
3 6.251 7.815 11.345 12.838 16.266
4 7.779 9.488 13.277 14.860 18.466
5 9.236 11.070 15.086 16.750 20.515
6 10.645 12.592 16.812 18.548 22.457
7 12.017 14.067 18.475 20.278 24.321
En el ejemplo:
Regla de decisión (Alfa= 0.05, gl= 1)= 3,84
Estadígrafo de prueba calculado:
X2= (117-124.2)2/124.2 + (54-46.8)2/46.8 + (950-942.8)2/942.8 + (348-355.2)2/355.2
=51.84/124.2 + 51.84/46.8 +51.84/942.8 + 51.84/355.2
=0.4174 + 1.1077 + 0.0550 + 0.1459
=1.726
En el ejemplo:
Conclusión:
Con los datos disponibles no es posible afirmar

que los fumadores de pipa tienen una menor
sobrevida que los no fumadores.
OTRO EJEMPLO:
En un estudio hecho para determinar si existe una

tendencia familiar en el cáncer de mamas,
se investigo la frecuencia de cáncer de mamas
encontrado en parientes de i) mujeres con cáncer
y ii) mujeres sin cáncer. Los datos tabulados a
continuación se refieren a las madres de los sujetos.
PRUEBA DE X2, TABLA DE CONTINGENCIA
Cáncer mamario en el sujeto

Si No Total
Cáncer mamario Si 7 (5) 3 (5) 10
en la madre No 193 (195) 197 (195) 390
Total 200 200 400

ESTADIGRAFO DE PRUEBA CALCULADO
X2= (7-5)2/5 + (3-5)2/5 + (193-195)2/195 + (197-195)2/195
= 4/5 + 4/5 + 4/195 + 4/195
= 0.8 + 0.8 + 0.0205 + 0.0205
= 1.641
Tamaño de muestra para
describir una variable binomial
 Al igual que en el caso de una
variable cuantitativa, el tamaño
apropiado para describir una
proporción depende de:
 La variabilidad de la característica.
 Del grado de error admisible para el
estimador.
 Al igual que en una variable cuantitativa,
el tamaño apropiado se deriva de la
magnitud deseada para el intervalo de
confianza, con una probabilidad
determinada, y se despeja n
 p 1.96 pq/n (Intervalo de confianza de 95%)

 El tamaño apropiado para un
intervalo de confianza determinado
es:
4 p q
n0  2
L
 donde L es el error admisible
 Para una población de gran tamaño
 Se debe tener una ´”aproximación”
a lo que son los valores de p y q en
la población, de modo de tener un
valor de pxq que es la varianza.
 Si la población disponible es
pequeña, entonces la fórmula se
corrige y se ajusta n0
n0
n
n0
1
N
Ejemplo:
 ¿Cuál será el tamaño mínimo de
muestra para describir el porcentaje
de perros de la raza ovejero alemán,
afectados por displasia de cadera en
Chile?
Pasos:
 1: Estimación previa del porcentaje
esperado.
 Antecedentes de literatura
 Estudios previos del mismo equipo de
investigación, etc.
 Supongamos que por los puntos
anteriores se puede establecer que el
porcentaje será de un 30%
Pasos
 2: Determinación de la magnitud del
error admisible
 Depende de los objetivos del estudio
 Ej. Error admisible, 5%
Pasos
 3: Cálculo del tamaño mínimo
4 p q
n0  2
L
n0= (4 x 0.3 x 0.7)/0.05
n0= 0.84/0.0025
n0= 336 perros
Pasos:
 4: Ajuste para población finita: suponiendo
que la población de perros Ovejero Alemán
en Chile es de 5000 ejemplares (N):
n0
n
n0
1
 n=336/(1+(336/5000)) N
 n=336/(1+0.0672)
 n=314.8 = 315 perros
n0
n
n0
1
N
 Debido a que la expresión en el
denominador de la fórmula para
ajuste del tamaño será más parecida
a 1 en la medida que el tamaño de
la población se hace más grande, el
mayor efecto en el ajuste se
produce cuando el tamaño de la
población disponible es pequeño.
Tamaño mínimo de la muestra
para comparar dos proporciones
 Se aplican los mismos principios que
en la comparación de dos
promedios. Es decir, el tamaño
depende de la diferencia buscada
entre los porcentajes y la
probabilidad de encontrar esa
diferencia en el experimento (poder
de la prueba)
Tamaño mínimo de la muestra
para comparar dos proporciones
 Para dos muestras independientes:
( Z  Z  ) ( p1q1  p2 q2 )
2
n
( p2  p1 ) 2
 Donde
 Z= desviación normal para el nivel de significancia
utilizado
 = 2(1-P´)
 Z= desviación normal correspondiente a la
probabilidad de dos colas de 
 Usar la mejor estimación de p 1q1+ p2q2
Ejemplo:
 Suponga que existe un antibiótico
estándar que proteje a alrededor del
50% de los animales experimentales
contra una infección. Se obtiene un
nuevo antibiótico que parece ser
superior.
Ejemplo:
 Al comparar el nuevo antibiótico con
el estándar los investigadores
desearía una probabilidad P´ de 0.9
de encontrar una diferencia, en una
prueba de una cola al nivel de
significancia de 0.05, si el nuevo
antibiótico proteje al 80% de los
animales en la población.
colas

Dos colas Una Cola
Poder 0.01 0.05 0.10 0.01 0.05 0.10
0.80 11.7 7.9 6.2 10.0 6.2 4.5
0.90 14.9 10.5 8.6 13.0 8.6 6.6
0.95 17.8 13.0 10.8 15.8 10.8 8.6
n=(8.6)[(0.5)(0.5)+(0.8)(0.2)]/0.32= 39.2
P1 q1 p2 q2 p2-p1
Observaciones
 Unos cuantos cálculos de este tipo
nos harán ver rápidamente la triste
realidad: se necesitan grandes
tamaños de muestra para detectar
diferencias pequeñas entre dos
porcentajes.
Ejemplo2:
 El tamaño de muestra fue crítico en
la planificación de la prueba de la
vacuna de Salk contra la
poliomielitis, ya que era muy
improbable poder repetir la prueba y
porque sería obviamente necesaria
una muestra de gran tamaño
Ejemplo 2:
 Un supuesto utilizado fue:
 Probabilidad de contraer polio en un niño no
vacunado= 0.0003 (0.03%)
 Efectividad estimada de la vacuna= 50%
(disminución de la probabilidad a 0.00015
(0.015%)
 P´= 0.9
 = 0.05
 ¿cuántos niños serían necesarios en cada
grupo de prueba, con dos colas en la Ha?
Resp.: 210.000 niños.

Distribucion Binomial

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Distribucion Binomial

Cargado por

Copyright:

Formatos disponibles

DISTRIBUCION BINOMIAL

Muchas poblaciones consisten sólo de dos tipos de elementos:

El investigador se interesa en la proporción,

El propósito de recolectar este tipo de datos

Para determinar la media y la desviación

 es la proporción en la población que

En un problema de dos clases, se representa

En la población, X sigue una distribución de

La media poblacional es = PX= q(0) + p(1) = p

Caso 1: para el número de éxitos, r:

Caso 2: para la proporción de éxitos, p= r/n:

= p 2= pq/n  =  pq/n

ESTIMADORES DE TENDENCIA CENTRAL PARA LA

Proporción p= 34/74 = 0,4595

Proporción q= 40/74 = 0,5405

 Asumiendo que los éxitos son la presencia

DESVIACION ESTANDAR= 18,38 = 4,29

ESTIMADORES DE DISPERSION PARA LA

DESVIACION ESTANDAR= 0,00336 = 0,0579

En muestras de gran tamaño el estimador binomial p tiene una

p - 1.96 pq/n y p + 1.96 pq/n

0.2 1.96 (0.2)(0.8)/1000= 0.2  0.025

en porcentaje: desde 17.5% hasta 22.5%

para los límites de 99% se reemplaza 1.96 por 2.576

 Ej. Los datos provienen de un

 Consideraremos dos clases: a)no

 Ya que la probabilidad de muerte

Muerto 117 54 171

Vivo 950 348 1298

Total n1=1067 n2= 402 1469

Las proporciones de mortalidad,

Las proporciones de mortalidad son diferentes

V(p1-p2)= s2p1 + s2p2= p1q1/n1 + p2q2/n2

y el error estándar de la diferencia se distribuye

EE= pq/n1 + pq/n2

La desviación normal z es:

0.1097 - 0.1343 - 0.0246

En la tabla de z, independientemente del signo,

Por lo tanto, se acepta la hipótesis nula.

La diferencia observada en la proporción de

Puede considerarse que la proporción

H0: no existe diferencias en la mortalidad de

HA: la proporción de personas muertas es

Vivos 950 348 1298

Total 1067 402 1469

Vivos 950 348 1298

Total 1067 402 1469

Total 1067 402 1469

Total 1067 402 1469

Grados de libertad, en general= filas-1 x columnas-1

Regla de decisión (Alfa= 0.05, gl= 1)= 3,84

Estadígrafo de prueba calculado:

X2= (117-124.2)2/124.2 + (54-46.8)2/46.8 + (950-942.8)2/942.8 + (348-355.2)2/355.2

=51.84/124.2 + 51.84/46.8 +51.84/942.8 + 51.84/355.2

=0.4174 + 1.1077 + 0.0550 + 0.1459

Con los datos disponibles no es posible afirmar

En un estudio hecho para determinar si existe una

Cáncer mamario en el sujeto

Total 200 200 400

X2= (7-5)2/5 + (3-5)2/5 + (193-195)2/195 + (197-195)2/195

= 4/5 + 4/5 + 4/195 + 4/195

= 0.8 + 0.8 + 0.0205 + 0.0205

 p 1.96 pq/n (Intervalo de confianza de 95%)

También podría gustarte