Está en la página 1de 105

5.

Distribuciones discretas
-¿Qué tal van las clases,
Bartolo? Me pregunta mi
barbero.
-Bien... Dando probabilidad
y estadística... Respondo.
-¡Ah! Probabilidad... Yo
suelo jugar a la lotería...
Dice mientras me pasa la
cuchilla.
-Cuando compro un número, tal y como yo lo veo, hay dos
posibilidades: ganar o perder. De modo que tengo un 50% de
probabilidad de ganar y un 50% de perder.
-¡Muy bien, Ricardo! Respondo, mientras pienso que no es bueno
contradecir a nadie que tenga una navaja en mi cuello... 1
Distribución de Bernoulli
Experimento de Bernoulli: solo son
posibles dos resultados: éxito o fracaso.
Podemos definir una variable aleatoria
discreta X tal que:
éxito  1
fracaso  0
Si la probabilidad de éxito es p y la de
fracaso 1 - p, podemos construir una
función de probabilidad:
Jacob Bernoulli
1 x
P( x)  p (1  p)
x
x  0,1
Un típico experimento de Bernoulli es el lanzamiento de
una moneda con probabilidad p para cara y (1-p) para cruz.
2
1 x
P( x)  p (1  p)
x
x  0, 1

Veremos, más adelante,


que la distribución
de Bernoulli es un caso
particular de la distribución
Binomial con n = 1.

Función de distribución:

1  p, para x  0
F ( x)  
 1, para x  1 3
Ejercicio: Calcular la esperanza y la varianza
de la distribución de Bernoulli.
1
E[ X ]     x P( X  x) 
x 0

0  P( X  0)  1 P( X  1)  p

1
Var ( X )  E[ X ]  ( E[ X ])   x P( X  x)  p
2 2 2 2

x 0

 0  P( X  0)  1  P( X  1)  p 
2 2 2

p  p  p (1  p )
2

4
Distribución geométrica
Consideremos el siguiente experimento:
Partimos de un experimento de Bernoulli donde la
probabilidad de que ocurra un suceso es
p (éxito) y la probabilidad de que no ocurra
q = 1- p (fracaso). Repetimos nuestro experimento
hasta conseguir el primer éxito. Definimos la variable
aleatoria X, como el número de fracasos hasta que
se obtiene el primer éxito. Entonces:

G( p)  P( X  x)  1  p  p,
x

x  0,1, 2, ...
5
p(x)
G( p)  P( X  x)  1  p  p,
x

x  0,1, 2, ...

x
Función de distribución:
n
F (n)   (1  p) x p 1  (1  p) n 1
1 x 0
E( X ) 
p
1 p The geometric distribution Y is a special
Var( X )  2 case of the negative binomial distribution,
p with r = 1. 6
The probability distribution of the The probability distribution of the
number X of Bernoulli trials needed to number Y = X − 1 of failures before
get one success, supported on the set the first success, supported on the set
{ 1, 2, 3, ...} { 0, 1, 2, 3, ... }

La probabilidad de que una muestra de aire contenga una


molécula rara es 0.01. Si se supone que las muestras son
independientes respecto a la presencia de la molécula.
Determine cuál es la probabilidad de que sea necesario
analizar 125 muestras antes de detectar una molécula
rara. fx(125;0.01)  (1  0.01)125 1 0.01  0.0029
Distribución binomial
La distribución binomial aparece cuando estamos
interesados en el número de veces que un suceso
A ocurre (éxitos) en n intentos independientes de
un experimento.

P. ej.: # de caras en n lanzamientos de una moneda.

Si A tiene probabilidad p (probabilidad de éxito) en un


intento, entonces 1-p es la probabilidad de que A no
ocurra (probabilidad de fracaso).

10
Experimento aleatorio: n = 3 lanzamientos de una moneda.
Probabilidad de éxito en cada lanzamiento (cara) = p.
Probabilidad de fracaso en cada lanzamiento (cruz) = 1- p = q.

3 p 2 (1  p)

3 p(1  p) 2

11
Supongamos que el experimento consta de n
intentos y definamos la variable aleatoria:

X = Número de veces que ocurre A.


En nuestro ejemplo: X = Número de veces que sale cara.

Entonces X puede tomar los valores 0, 1, 2, ... n.


Si consideramos uno de estos valores, digamos el
valor x , i.e. en x de los n intentos ocurre A y en n - x
no. Entonces la probabilidad de cada posible
x n-x n
ordenación es p q y existen  x  idénticas
  12
ordenaciones.
La función de probabilidad P(X = x) será
la distribución binomial:

n x n x n! n x
B(n, p)  p( x)    p (1  p)  p (1  p)
x

 x x!(n  x)!

Distribución binomial para n = 5 y


distintos valores de p, B(5, p)

13
The binomial distribution is
frequently used to model
the number of successes in
a sample of size n drawn
with replacement from a
population of size N. If the
sampling is carried out
without replacement, the
draws are not independent
and so the resulting
distribution is a
hypergeometric distribution,
not a binomial one.
However, for N much larger
than n, the binomial
distribution is a good
approximation, and widely
used.

14
Características de la distribución
binomial
Media
 = E(X) = n p P(X) n = 5 p = 0.1
.6
 = 5 · 0.1 = 0.5 .4
.2
 = 5 · 0.5 = 0.25 0 X
0 1 2 3 4 5

Desviación estándar
P(X) n = 5 p = 0.5
  np(1  p) .6
.4

  5  0.1 (1  0.1)  0.67 .2


0 X

  5  0.5  (1  0.5)  1.1 0 1 2 3 4 5


16
18
Tablero de Galton
o quincunx

Comprar un quincux:
http://www.qualitytng.com/.
Applets: Sir Francis Galton
http://www.jcu.edu/math/isep/Quincunx/Qui
ncunx.html (1822-1911) La vida y la obra de
Galton, así como el contexto histórico en que se
Quincunx desarrollaron, está muy bien explicado en el libro
de Stigler: "The History of Statistics" (cap. 8).
¿Cuál es la probabilidad de que en una familia de 4 hijos exactamente 2
sean niñas?
n x
p( x )    p (1  p ) n  x
 x
p  0.5; n  4; x  2
 4 2
p( 2)    0.5 (1-0.5) 4 - 2
 2
Si una décima parte de personas tiene cierto grupo sanguíneo, ¿cuál es la
probabilidad de que entre 100 personas escogidas al azar, exactamente 8
de ellas pertenezcan a este grupo sanguíneo? ¿Y si la pregunta es 8
como máximo?
n x 8
n x
p( x )    p (1  p ) n  x p( x  8)     p (1  p ) n  x
 x x 0  x 

p  0.1; n  100; x  8 8
100  x
   0.1  0.9100 x
100  8 x 0  x 
p(8)    0.1 (1-0.1)92
 8  20
Calcula la probabilidad de obtener al menos dos seises al
lanzar un dado cuatro veces.

 n  k nk
P(k )    p q (k  0,1,....n)
k 
p = 1/6, q = 5/6, n = 4

Al menos dos seises, implica que nos valen k = 2, 3, 4.


P(2) + P(3) + P (4)

 4  1   5   4  1   5   4  1 
2 2 3 4

               


 2  6   6   3  6   6   4  6 
1 171
 4 (6  25  4  5  1)   0.132
6 1296
21
Supongamos que la probabilidad de encontrar una estrella
de masa m* >10 M en un cúmulo estelar joven es del 4%.
¿Cuál es la probabilidad de que en una muestra escogida al
azar, entre 10 miembros del cúmulo encontremos 3 estrellas
con m* >10 M?

22
Chuck-a-luck: Elige un número entre 1 y 6. Lanzas 3 dados.
Si el número que has elegido sale en los 3 dados cobras
3 euros. Si sale en 2 cobras 2 euros. Si sale en un dado
cobras 1 euro. Y si no sale en ninguno, pagas 1 euro.
¿Es un juego justo?

 3  1   3  1 
3 0 2
5 5
        3      2
 3  6  6  2  6  6
 3  1   3  5 
1 2 3
5
      1      (1)  0.08
 1  6  6  0  6 

28
NACIMIENTO DE LA TEORIA DE PROBABILIDADES
Hay dos jugadores jugando a un juego, donde el primer
jugador gana con probabilidad p cada partida. El total de
lo apostado es ganado por el jugador que gana por
primera vez N partidas.

Supongamos que el primer jugador ha ganado k partidas


y el segundo j y se interrumpe el juego: ¿Cómo debe
dividirse el total entre ambos jugadores?

Debemos calcular la probabilidad de que el primer jugador Blaise Pascal


gane N - k juegos, antes de que el segundo gane N - j. 1623 - 1662

N  j 1
 N  k  n  N k
P    p (1  p ) n
n 0  N k 
De modo que el primer jugador debería llevarse un porcentaje P del
premio y el segundo (1-P).

29
Distribución multinomial
Podemos generalizar la distribución binomial cuando hay
más de dos acontecimientos posibles (A1, A2, A3 ...) con
probabilidades p1 , p2 , p3 ... constantes y tales que:

 pi  1
i

n!
p( x1 , x2 , x3...)  x1 x2 x3
p1 . p2 . p3 ....
x1! x2! x3!..
30
Un método de diagnóstico tiene 3 resultados posibles:
positivo (P), negativo (N) y dudoso (D). Se sabe que, en la
población, el 10% de los sujetos son positivos, el 70%
negativos y el resto dudosos. ¿Qué probabilidad hay de, en
una muestra de 5 individuos, obtener exactamente 1 positivo,
1 negativo y 3 dudosos ?

5!
p(1,3,1)  0.1  0.7  0.2  0.0112
1 1 3

1!.3!.1!

31
32
¿Cómo simular de manera sencilla en el ordenador
una variable aleatoria binomial X?

Sumando n variables aleatorias independientes


cuyos valores pueden ser 1 o 0, con probabilidad p
y 1-p respectivamente.

¿Y cómo simular una distribución geométrica de


parámetro p?

Una manera es generar una secuencia de números


aleatorios en [0, 1) con la función rnd, y paramos
cuando obtengamos un número que no exceda a p,
que es el equivalente al primer éxito.
El problema es que si p es pequeño, en promedio se
necesitan 1/p pasos de tiempo y se consume mucho
33
tiempo de cómputo.
Una forma alternativa con tiempo de cómputo
independiente del valor de p sería:

Sea q = 1- p y definamos la variable Y como el menor


entero que satisface:
1  q  rnd
Y

Entonces tenemos:

i 1
P(Y  i)  P(1  q  rnd  1  q )
i

i 1 i 1 i 1
q  q  q (1  q)  q p.
i

De modo que Y está distribuida geométricamente


con parámetro p.
34
Para generar Y, basta con que despejemos de:

1  q  rnd
Y

 Ln (1  rnd ) 
Y  int  
 Ln q 

35
Un acontecimiento ocurre, en la población, en el 10% de los
casos. ¿Qué tamaño de muestra debo tomar para tener una
probabilidad del 95% de obtener al menos un éxito ?

n
q 1
n
0.95   pq x 1
 p
x 1 q 1

0.9n  1
0.95  0.1   0.95  (0.9n  1)  0.95  0.9n  1
0.9  1
ln 0.05
 0.05  0.9  ln 0.05  n ln 0.9  n 
n
 28.4  29
ln 0.9

36
Distribución binomial negativa
Consideremos el siguiente experimento:
Partimos de un experimento de Bernoulli donde la probabilidad
de que ocurra un suceso es p (éxito) y la probabilidad de que
no ocurra q = 1- p (fracaso). Repetimos nuestro experimento
hasta conseguir el r-ésimo éxito. Definimos la variable
aleatoria X, como el número de fracasos x hasta que se
obtiene el r-ésimo éxito. Entonces: El último tiene que ser un éxito.

 x  r  1 r
BN (r , p)  P( X  x)    p 1  p  ,
x

 x 
x  0,1, 2, ...
Se denomina binomial negativa porque los coeficiente provienen de
la serie binomial negativa: p -x  (1-q) -x 37
Distribución binomial negativa
(de Pascal o de Pólya)

La distribución binomial negativa también se puede definir


como el número de pruebas x hasta la aparición de r éxitos.
Como el número de pruebas x, en este caso, contabiliza
tanto los éxitos como los fracasos se tendría según ésta
definición que:

 x  1 r
BN (r , p)  P( X  x)    p 1  p x r ,
 r  1
x  r, r  1, r  2, ...

E( X )  r / p
r (1  p)
Var ( X ) 
p2 38
Disponemos de una moneda trucada con probabilidad de cara
igual a p=0.25. La lanzamos hasta que obtenemos 2 caras.
La distribución del número de lanzamientos x será:

 x  1
BN (r  2, p  0.25)  P( X  x)   0.25 1  0.25 ,
2 x2

 2  1
x  2,3, 4, ...

P(x)

39
x
Una aeronave tiene 3 computadoras idénticas. Sólo una de
ellas se emplea para controlar la nave, las otras 2 son de
reserva, redundantes, por si falla la primera. Durante una
hora de operación la probabilidad de fallo es 0.0005.
– ¿Cuál es el tiempo promedio de fallo de las tres
computadoras?
– ¿Cuál es la probabilidad de que las 3 fallen durante
un vuelo de 5 horas?

a)
E ( x)  3/ 0.0005  6000h

b)
P( x  5)  P( X  3)  P ( X  4)  P ( X  5)
 3  4
0.0005    0.0005 (0.9995)    0.00053 (0.9995)  1.249 x109
3 3

 2  2
Elegir al azar con reemplazo
Elegir al azar con reemplazo significa que escogemos al azar
un elemento de un conjunto y lo regresamos para elegir de nuevo
al azar. Esto garantiza la independencia de las elecciones y nos
lleva a una distribución binomial.

Si una caja contiene N bolas de las cuales A son rojas, entonces


la probabilidad de escoger al azar una bola roja es: p = A/N.

Si repetimos el experimento sacando n bolas con reemplazo la


probabilidad de que x sean rojas es:
n x
 n  A 
x
 A
P( x)     1   ( x  0,1,....n)
 x  N   N
44
(Una distribución binomial)
Elegir al azar sin reemplazo
Elegir al azar sin reemplazo significa que no devolvemos
el elemento elegido al azar al conjunto. De modo que las
probabilidades de la siguiente elección dependen de las
anteriores.
Si repetimos el experimento anterior sacando n bolas sin
reemplazo, ¿cuál será ahora la probabilidad de que x sean
rojas?
N
Casos posibles   
n
Para calcular los casos favorables observa que:
N = A + (N – A). De las A bolas rojas tomaremos x y de
las N – A bolas no rojas tomaremos n – x. 45
Distribución hipergeométrica
 A
   diferentes formas de tomar x bolas rojas de A
 x
 N  A
   diferentes formas de tomar n  x bolas no rojas de N  A
 nx 
 A  N  A 
Casos favorables    
 x  n  x 

 A  N  A 
  
 x  n  x 
H (n, N , A)  P( x)  ( x  0,1, ..., n)
N
 
n 46
Queremos seleccionar al azar dos bolas de una caja que contiene
10 bolas, tres de las cuales son rojas. Encuentra la función de
probabilidad de la variable aleatoria : X = Número de bolas rojas
en cada elección (con y sin reemplazo).
Tenemos N = 10, A = 3, N - A = 7, n = 2
Escogemos con reemplazo:
2 x
 2  3 
x
7
p( x)       , p(0)  0.49, p(1)  0.42, p(2)  0.09
 x  10   10 
Escogemos sin reemplazo:

 3  7 
  
 x  2  x  21 3
p( x)  p(0)  p(1)   0.47 , p(2)   0.07
10  45 45
 
2 47
Se debe seleccionar 2 miembros de un comité, entre 5, para
que asistan a una convención. Suponga que el comité está
formado por 3 mujeres y 2 hombres. Determine la
probabilidad de seleccionar 2 mujeres al azar:

Tenemos N = 5, n = 2, A = 3 y x = 2:

 3  2 
 2  0 
f (2)     
3
 0.3
5 10
 2
 
Hipergeométrica Binomial
N = 24 n=5
X=8 p = 8/24 =1/3
n=5 Observa que si N,
x P(x) P(x) Error A, N-A son grandes
0 0.1028 0.1317 -0.0289 comparados con n
1 0.3426 0.3292 0.0133
2 0.3689 0.3292 0.0397
no hay gran
3 0.1581 0.1646 -0.0065 diferencia en qué
4 0.0264 0.0412 -0.0148
-0.0028
distribución
5 0.0013 0.0041
N = 240 n=5
empleemos.
X = 80 p = 80/240 =1/3 La distribución
n=5
binomial es una
x P(x) P(x) Error aproximación
0 0.1289 0.1317 -0.0028
1 0.3306 0.3292 0.0014
aceptable a la
2 0.3327 0.3292 0.0035 hipergeométrica
3 0.1642 0.1646 -0.0004 si n < 5% de N.
4 0.0398 0.0412 -0.0014 49
5 0.0038 0.0041 -0.0003
Distribución de Poisson
Cuando en una distribución binomial el número de intentos (n)
es grande y la probabilidad de éxito (p) es pequeña, la
distribución binomial converge a la distribución de Poisson:


e  x
p ( x)  , x  0,1,2,...   0 donde np = 
x!
Observa que si p es pequeña, el éxito es un “suceso raro”.
La distribución de Poisson, junto con la uniforme y la binomial,
son las distribuciones más utilizadas.

La distribución de Poisson expresa, a partir de una frecuencia de


ocurrencia media , la probabilidad que ocurra un determinado
número de eventos durante cierto periodo de tiempo. 51
Considera los siguientes experimentos:

• El número de clientes que llegan a la ventanilla de un banco a la hora.


• El número de pacientes que ingresan en un día por urgencias en un
hospital.
• El número de denuncias que se presentan diariamente en un juzgado.
• El número de coches que circulan por una rotonda a la hora.

Las v.a. definidas en los ejemplos anteriores comparten las siguientes


características:

• Todas ellas se refieren a contar el número de veces que un


determinado suceso ocurre en un periodo de tiempo determinado.
• La probabilidad de que dicho suceso ocurra es la misma a lo largo
del tiempo. (si la unidad de tiempo es un día, la probabilidad de que el
suceso en cuestión ocurra es la misma para hoy, para mañana, etc.)
• El número de sucesos que ocurren en una unidad de tiempo es
independiente del número de sucesos que ocurren durante
cualquier otra unidad.
Distribución de Poisson
Consideramos una v.a. X que cuenta el número de
veces que un determinado suceso ocurre en una
unidad (normalmente de tiempo o de espacio). Si
verifica:

1) La probabilidad de que el suceso estudiado se produzca en la


unidad es constante a lo largo del tiempo.
2) El número de veces que ocurre un suceso durante la unidad
considerada es independiente del número de veces que ocurre
dicho suceso en otra unidad.
3) Si se considera una unidad inferior (superior), la probabilidad de que
ocurra un determinado número de sucesos se reduce (aumenta)
proporcionalmente.

Entonces X es una v.a. que sigue una distribución de


Poisson.
Ejemplo: Sea X el número de clientes que han entrado
en una tienda de alimentación a lo largo de un mes.
Para poder suponer que X sigue una distribución de
Poisson tendríamos que verificar que:
1) La probabilidad de entrar en la tienda es la misma
a lo largo del periodo (suponemos entonces, que no han
abierto/cerrado otras tiendas de la competencia, etc). Esto es
equivalente a comprobar que el número medio de clientes en
un mes es más o menos constante.
2) Además tiene que ocurrir que el número de clientes
en un determinado mes, por ejemplo, octubre, sea
independiente del número de clientes que hubo en otro
mes, por ejemplo, septiembre. (En este caso sería suponer
que no hay clientela fija).
3) Supongamos que el número medio de clientes es
400 al mes. Entonces si X es Poisson se ha de cumplir que
el número medio de clientes a los dos meses es 800 y el
número medio de clientes a la semana es 100.
Características de la distribución de
Poisson e   x
p ( x)  , x  0,1,2,...   0
x!
Media P(X) = 0.5
  E (X )   .6
.4
.2
0 X
Desviación estándar 0 1 2 3 4 5

   P(X) = 6
.6
.4
Nota: el máximo de la distribución .2
se encuentra en x   0 X
0 2 4 6 8 10
55
La distribución de Poisson se obtiene como aproximación de
una distribución binomial con la misma media, para ‘n grande’
(n > 30) y ‘p pequeño’ (p < 0,1). Queda caracterizada por un
único parámetro μ (que es a su vez su media y varianza).

  np = 
La distribución de Poisson es asimétrica,
siendo en general más probables los
valores pequeños de la variable que los
mayores (normalmente se asocia a
procesos que ocurren muy pocas veces).
Sin embargo, si  crece, la distribución
tiende a la simetría.

Distribución de Poisson para varios valores de . 56


El número medio de aviones que usan una pista de aterrizaje en
un aeropuerto es 2 cada media hora. Suponiendo que siguen una
ley de Poisson, ¿cuál es la probabilidad de que el número de
llegadas sea 5 o mayor? ¿Cuál es la probabilidad de que en un
cuarto de hora aterrizen más de 4 aviones?

P(X  5) = 1 - [P(0) + P(1) + P(2) + P(3) + P(4)] =

1 - [e-2+2 ·e-2 +22 ·e-2/2 + 23 ·e-2/6 + 24 ·e-2/24] = .052.

Sea Y el número de aviones que aterrizan en esa pista cada


cuarto de hora. Entonces Y es una Poisson de parámetro 1:

Por tanto, P( Y > 4) = P(Y  5) = 1 - [P(Y=0) + P(Y=1) +


P(Y=2) + P(Y=3) + P(Y=4)] =1 - [e-1+1 ·e-1 +12 ·e-1/2 +
13 ·e-1/6 + 14 ·e-1/24] =...
Si la probabilidad de fabricar un televisor defectuoso es
p = 0.01, ¿cuál es la probabilidad de que en un lote de 100
televisores contenga más de 2 televisores defectuosos?
La distribución binomial nos daría el resultado exacto:
  99    99   1    99   1 
100 99 98 2
100 100 100
P( A )  
c
             
 0  100   1  100   100   2  100   100 
 0.9206  n  x n x
p( x)    p q ( x  0,1,....n)
 x

El suceso complementario Ac: No más de 2 televisores


defectuosos puede aproximarse con una distribución de
Poisson con  = np = 1, sumando p(0) + p(1) + p(2).
1 μ x μ
P( A )  e (1  1  12 )  0.9197
c p ( x) 
x!
e ( x  0,1,....)
58
59
Bombas sobre Londres en la II Guerra Mundial (Feller)
Supón que vivías en uno de los 100 bloques que aparecen en la gráfica
inferior. La probabilidad de que una bomba cayera en tu bloque era 1/100.
Como cayeron 400 bombas, podemos entender el número de impactos en tu
bloque como el número de éxitos en un experimento de Bernoulli con n = 400
y p = 1/100. Podemos usar una Poisson con λ = 400  1/100 = 4:
e 4 4 x
400 bombas p ( x) 
x! Observado

Predicho

60
10 x 10
Muertos por coz de caballo
La explicación de cómo se interpreta la frecuencia acumulada queda mucho más clara si se
tienen los datos desglosados por año y regimiento, tal como aparecen en la publicación original
de Bortkiewicz. La tabla de la parte superior contiene los muertos por regimiento y año. En el
regimiento G (primera fila) no murió nadie en el año 75, murieron 2 en el 76, otros 2 en el 77… En
total hay 144 casillas que tienen un cero (una rayita), 91 casillas que tienen un 1, 32 casillas que
tienen un 2…
Para tener el valor medio de muertos por casilla hay que ver que el total de muertos es:
1×91+2×32+3×11+4×2=196. Como hay 280 casillas, el número medio de muertos por casilla es
196/280=0,7. Con este valor medio y aplicando la fórmula de la distribución de Poisson se tiene
que:
-Probabilidad de 0 muertos = 0,4966
-Probabilidad de 1 muerto = 0,3476 ; etc.
Una vez se tienen las probabilidades, multiplicando por 280 se tienen los valores esperados.
Cuando escribí el libro busqué los datos originales pero no los encontré. Reproduje la tabla tal
como la vi en el texto de Bulmer, ahora veo que es muy parecida a la que aparece en el original
(parte central de la página). Hay algo que no entiendo (mi alemán = 0): lo que parece la columna
de valores esperados no coincide con los resultados que se obtienen. No sé si se está calculando
otra cosa o hay algún error de cálculo o de redondeo. El texto completo se puede descargar aquí.

Goles en la liga española


Cuando escribí esto la última temporada de la que se tenían los datos completos era la 2008-09.
El mejor resumen de resultados lo encontré en La Vanguardia del 1 de junio del 2009. También se
tiene una buena aproximación si en vez de goles por equipo se toma como variable los goles por
partido. Los datos y gráficos obtenidos, en formato Minitab, están aquí.

Pere Grima, «La certeza absoluta y otras ficciones» RBA 61


El perímetro torácico de los soldados

Las aportaciones de Quetelet y su estudio sobre el torax de los soldados están


en el libro de Ian Hacking: "La domesticación del azar", cap. 13. La cita que se
reproduce está en la página 164. [Arriba]

Ley de Stigler de los Epónimos

Stigler lo explica en el capítulo 14 de su libro: "Statisitcs on the Table". Hay una


lista de ejemplos en la wikipedia:
http://en.wikipedia.org/wiki/List_of_examples_of_Stigler%27s_law

Pere Grima, «La certeza absoluta y otras ficciones» RBA

62
Relación entre las distribuciones Poisson y Binomial
La distribución de Poisson es una aproximación de la
distribución Binomial cuando n es muy grande y p es pequeño
En estos casos, podremos usar tanto la distribución de Poisson
como la binomial para calcular estas probabilidades. ¿Cómo?
Veamos un ejemplo:
La probabilidad de que en una página de un libro haya una errata
es 0.02. ¿Cuál es la probabilidad que en libro de 200 páginas
haya 3 erratas?

Sea X = número de erratas en el libro.


Lo podemos interpretar como una binomial, entonces X es B(200,0.02).
Por tanto la prob. que nos piden:

 200 
P ( X  3)   0.023  0.98197  0.1973
3 
También podríamos calcularlo usando la distribución de Poisson.
Fíjate que E(X) = np = 200*0.02 = 4. En la distribución de
Poisson, el parámetro  representa la esperanza de la variable,
por tanto, para calcular la aproximación, consideramos X sigue
una distribución P(4), entonces:

P( X  3)  43 e 4 / 3! 0.1954

Por tanto, una distribución binomial se puede aproximar


por una distribución de Poisson (es decir, las prob.
calculadas a partir de una u otra fórmula son muy
parecidas) si n es grande (consideramos n grande si n es
mayor que 100) y p pequeño, de manera que

np < 10
Un proceso poissoniano es aquél compuesto de
eventos discretos que son independientes en el
espacio y/o en el tiempo.
Por ejemplo la llegada de fotones a un detector.

Usemos la distribución binomial para modelar el


proceso. Podemos dividir el intervalo de tiempo en el
que ocurre el proceso en n subintervalos
suficientemente pequeños, como para asegurarnos
que a lo sumo se produce un evento en cada
subintervalo. De modo que en cada subintervalo, o se
producen 0 o 1 ocurrencias.
A lo sumo llega un fotón en cada subintervalo o ninguno.

De modo que podemos entender el proceso como un


experimento de Bernoulli. Para determinar p,
podemos razonar de la siguiente manera: 66
En promedio se producirán λt ocurrencias en un intervalo
de tiempo t. Si este intervalo se divide en n subintervalos,
entonces esperaríamos en promedio (usando Bernoulli):
np ocurrencias. Así: λt = np, p = λt/n.

Sin pérdida de generalidad supongamos que t = 1 (p = λ/n) y


que X es la variable aleatoria X = número total de ocurrencias.
Sabemos que:
 
n

P( X  0)  B(n, p,0)  (1  p)  1  
n

 n
Observa que para n grande P(X = 0) es aproximadamente e-λ.
Además para n grande (y por tanto p muy pequeño):

B(n, p, k )   (k  1) p 
 
B(n, p, k  1) k (1  p) k 67

Tenemos entonces B(n, p,0)  e
la siguiente ecuación

iterada: B(n, p, k )  B(n, p, k  1)
k

Que nos proporciona:


P( X  1)  B(n, p,1)  e
2
P( X  2)  B(n, p,2)  e 
2
...
k
P( X  k )  e 
k! 68
La señal promedio recibida en un telescopio de una fuente
celeste es de 10 fotones por segundo. Calcular la probabilidad
de recibir 7 fotones en un segundo dado.

Una distribución de Poisson μ x μ


p ( x)  e ( x  0,1,....)
con μ = 10. x!

P(7) = 107 e−10 / 7! = 0.09, es decir 9%


Parece muy baja. Comparemos con el valor de máxima
probabilidad que ocurrirá para x = 10:
μ = 10 P(10) = 1010 x e−10 / 10! = 0.125, es decir 12.5%
Las probabilidades poissonianas para un número de eventos
dado, son siempre pequeñas, incluso en el máximo de la
distribución de probabilidad.
69
Si en promedio, entran 2 coches por minuto en un garaje, ¿cuál
es la probabilidad de que durante un minuto entren 4 o más
coches?

Si asumimos que un minuto puede dividirse en muchos


intervalos cortos de tiempo independientes y que la probabilidad
de que un coche entre en uno de esos intervalos es p – que para
un intervalo pequeño será también pequeño – podemos
aproximar la distribución a una Poisson con  = np = 2.

El suceso complementario “entran 3 coches o menos” tiene


probabilidad:
2 20
P( A )  p(0)  p(1)  p(2)  p(3)  e ( 
c
0!
21
1!  22
2!  )  0.857
23
3!

y la respuesta es 1 – 0.857 = 0.143 μ x μ


p ( x)  e ( x  0,1,....)
x! 70
El número de enfermos que solicitan atención de urgencia en un hospital
durante un periodo de 24 horas tiene una media de  = 43,2 pacientes.
Unas obras en las instalaciones mermarán las capacidades de atención
del servicio. Se sabe que colapsará si el número de enfermos excede de
50. ¿Cual es la probabilidad de que colapse el servicio de urgencias del
hospital?

Bajo las condiciones del modelo de Poisson, se trata de una


distribución P(43,2). La probabilidad solicitada es

Pr {X > 50} = 1 – Pr {X <= 50} = 1 - F(50) = 0.13.

El responsable del servicio deberá valorar si esta probabilidad es


lo suficientemente alta como para reforzar urgencias.
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p = 1/100.000.
Calcular la probabilidad de que en una ciudad con 500.000 habitantes haya más de
3 personas con dicha enfermedad. Calcular el número esperado de habitantes que
la padecen.
Consideremos la v.a. X que contabiliza el número de personas que padecen la
enfermedad. Claramente sigue un modelo binomial, pero que puede ser
aproximado por un modelo de Poisson, de modo que:

Así el número esperado de personas que padecen la enfermedad es

Existe una gran dispersión, y no sería extraño encontrar que en realidad hay
muchas más personas o menos que están enfermas. La probabilidad de que
haya más de tres personas enfermas es:
Benford's Law
The leading digit of a number
represents its non-zero leftmost digit.

299.959 0,0174


x   , x  m 10 , 1  m  10
n

d ( x)  m

2,99959 ·105 1,74 ·10-2


[2,99959] = 2 [1,74] = 1
Simon Newcomb
(1835-1909).
Note on the frequency of use of the
different digits in natural numbers.
Amer. J. Math. 4 (1881) 39-40.
Red bars: Leading digit histogram of a list of 201
physical constants in SI.
 d 1
P (d )  log  
 d 

Red bars: Leading digit histogram of a list of 201


physical constants in SI.
Grey bars: Benford’s law
Frank Benford Title 1 2 3 4 5 6 7 8 9 Sampls

Rivers, Area 31.0 16.4 10.7 11.3 7.2 8.6 5.5 4.2 5.1 335

Population 33.9 20.4 14.2 8.1 7.2 6.2 4.1 3.7 2.2 3259

Constants 41.3 14.4 4.8 8.6 10.6 5.8 1.0 2.9 10.6 104

Newspapers 30.0 18.0 12.0 10.0 8.0 6.0 6.0 5.0 5.0 100

Specific Heat 24.0 18.4 16.2 14.6 10.6 4.1 3.2 4.8 4.1 1389

Pressure 29.6 18.3 12.8 9.8 8.3 6.4 5.7 4.4 4.7 703

H.P. Lost 30.0 18.4 11.9 10.8 8.1 7.0 5.1 5.1 3.6 690

Mol. Wgt. 26.7 25.2 15.4 10.8 6.7 5.1 4.1 2.8 3.2 1800

Drainage 27.1 23.9 13.8 12.6 8.2 5.0 5.0 2.5 1.9 159
Atomic Wgt. 47.2 18.7 5.5 4.4 6.6 4.4 3.3 4.4 5.5 91

, 25.7 20.3 9.7 6.8 6.6 6.8 7.2 8.0 8.9 5000

Design 26.8 14.8 14.3 7.5 8.3 8.4 7.0 7.3 5.6 560

Reader's Digest 33.4 18.5 12.4 7.5 7.1 6.5 5.5 4.9 4.2 308
Cost Data 32.4 18.8 10.1 10.1 9.8 5.5 4.7 5.5 3.1 741

X-Ray Volts 27.9 17.5 14.4 9.0 8.1 7.4 5.1 5.8 4.8 707

Am. League 32.7 17.6 12.6 9.8 7.4 6.4 4.9 5.6 3.0 1458

Blackbody 31.0 17.3 14.1 8.7 6.6 7.0 5.2 4.7 5.4 1165
The law of Addresses 28.9 19.2 12.6 8.8 8.5 6.4 5.6 5.0 5.0 342

anomalous numbers. , 25.3 16.0 12.0 10.0 8.5 8.8 6.8 7.1 5.5 900

Proc. Am. Philos. Soc. Death Rate 27.0 18.6 15.7 9.4 6.7 6.5 7.2 4.8 4.1 418
78 (1938) 551-538. Average 30.6 18.5 12.4 9.4 8.0 6.4 5.1 4.9 4.7 1011

Probable Error
5.761.455 primes 50.847.534 primes

455.052.511 primes 4.118.054.813 primes

Red bars: Leading digit histogram of the prime number sequence


in the interval [1,N].
Benford Generalizado
L. Pietronero, E. Tossati, V. Tossati and
A. Vespignani.

Explaining the uneven distribution of


numbers in nature: the laws of Benford
and Zipf.

Physica A 293 (2001) 297-304.


 d 1
P (d )  log  
 d 

Scale
invariance

Red bars: Leading digit histogram of a list of 201


physical constants in SI.
Grey bars: Benford’s law
1
P( x) ~ x

10k ( d 1)  10 (d  1) 
k
 d 1
 x dx  log    log 
1

 d 
10k d k
 10 d 
Generalized Benford's Law (GBL)

P( x) ~ x
1
(d  1) 
k
10k ( d 1) (10 )

 1 1
x dN  d
10 dk
1

P(d ) 
10
1
1
1
(d  1) 1
d 1

  1; d  1, 2, ... ,9
lim P(d )  1 / 9
 0
5.761.455 primes 50.847.534 primes

455.052.511 primes 4.118.054.813 primes

Red bars: Leading digit histogram of the prime number sequence


in the interval [1,N]. Red bars: Generalized Benford's law.
1
 (N ) 
Ln N  a
a  1.1  0.1
Why do prime number
sequence exhibit this
unexpected pattern in the
leading digit distribution?
New Pattern Found in Prime Numbers
May 8th, 2009 By Lisa Zyga
Physorg.com

"Me esperaré a la película,


a ver si entiendo algo :)"
The Counting Prime Function
 ( x)  # of primes in the interval [ 2,x].

(25) = 9.
"For me, the smoothness with which this curve climbs
is one of the most astonishing facts in mathematics."

Don Zagier, "The first 50 million primes"


Mathematical Intelligencer, 0 (1977) 1-19
The logarithmic integral function Li(x)

x du
Li ( x)  
2 Ln u
"within the accuracy of our picture, the two coincide exactly."
Don Zagier, "The first 50 million primes"
Mathematical Intelligencer, 0 (1977) 1-19
Prime Number Theorem
Valee Poussin and Hadamard (1896)

x
 ( x) ~
ln x
 ( x)
lim 1
x  x / ln x
God may not
play dice with
the universe,
but something
strange is
going on with
the prime
numbers.

Paul Erdös
Modelo de Cràmer
Conditions for conformance to GBL
Conditions for conformance to GBL
Conditions for conformance to GBL
The primes counting function L(N)
N
L( N )  e ( N )  x  ( N )
dx
cte

e ( N ) 1 ( N )
L( N )  N
1 (N )
1
with  ( N ) 
Ln N  a
Minimum for a = 1
105

También podría gustarte