Está en la página 1de 17

2017

Curso de: INFERENCIA ESTADÍSTICA

UNIDAD 1: DISTRIBUCIONES DE PROBABILIDAD DISCRETAS Y


CONTINUAS

Autor: Sergio Samuel Nieves Vanegas

UNIVERSIDAD AUTÓNOMA DEL CARIBE | Barranquilla, Colombia |2017


Contenido Unidad 1

1. DISTRIBUCIONES DE PROBABILIDAD DISCRETAS Y CONTINUAS ...............................3


1.1. DISTRIBUCIONES BINOMIAL .........................................................................................5
1.2. DISTRIBUCIÓN DE POISSON ........................................................................................7
1.3. DISTRIBUCIÓN HIPERGEOMÉTRICA .......................................................................... 10
1.4. DISTRIBUCIÓN NORMAL ............................................................................................. 13
Unidad 1

1. DISTRIBUCIONES DE PROBABILIDAD DISCRETAS Y CONTINUAS

Los procesos de distribuciones de probabilidad corresponden a procesos de variables


aleatorias, las cuales se dividen en variables aleatorias discretas y continuas.

Las variables aleatorias discretas son aquellas que toman valores enteros y se pueden
enumerar o contar, como por ejemplo número de hijos, número de clientes, número de
acciones vendidas en la bolsa de valores de Colombia.

Las variables aleatorias continuas son aquellas que se pueden medir y admiten valores
decimales o fraccionarios, como por ejemplo, tiempo en que un empleado hace una
actividad, dinero, años de experiencia de un trabajador, entre otros.

Al trabajar con las distribuciones de probabilidad se establece la posibilidad de


determinar las probabilidades de fenómenos reales, muchos de los cuales pueden
expresarse como variables aleatorias discretas y continuas, las discretas generalmente
se codifican en dicotómicas, es decir que admiten solo dos valores, por ejemplo si se
analiza el comportamiento de los clientes de un banco, podrá clasificarse como morosos
y no morosos, o la calidad de un producto como defectuoso y no defectuoso, estas
variables siguen una distribución Binomial o de Bernoulli y de igual forma la distribución
Hipergeométrica se aplica para esta serie de eventos.

Así mismo las variables aleatorias discretas no solamente se refieren al caso dicotómico,
también se aplican para conocer fenómenos que ameriten el número de ocurrencia de
un evento en un tiempo dado, siendo la distribución probabilística de Posisson la ideal
para determinar dichas probabilidades, es así como fenómenos tales como el número de
clientes que ingresan a un al macen en un tiempo dado, el número de llamadas
telefónicas que ingresan a un call center en cierto tiempo, o el número de accidentes
laborales por día, etc

Finalmente las variables aleatorias continuas son fundamentales en todas estas serie de
fenómenos ya que no solo corresponde a un proceso discreto, puesto se desea
determinar probabilidades referentes a tiempo en hacer una actividad, ingresos o dinero
de ciertos empleados o inversiones, peso de ciertos productos, etc, todos estos casos
se resuelven empleando la distribución Normal, la cual es una de las distribuciones más
importante en estadística, ya que es uno de los supuestos fundamentales en el manejos
de datos.
1.1. DISTRIBUCIONES BINOMIAL

Es una distribución de probabilidad discreta que mide el número de éxitos en n ensayos


independientes de Bernoulli, con una probabilidad fija p de ocurrencia del éxito entre
dichos ensayos.
Está dada por la fórmula:
𝑛
𝑃(𝑥) = ( ) 𝑝 𝑥 𝑞 𝑛−𝑥
𝑥
Donde:
P: probabilidad de éxito
q: probabilidad de fracaso
n: muestra
X: casos favorables

Media o esperanza:
𝜇 = 𝐸(𝑥) = 𝑛 ∗ 𝑝

Varianza:

𝜎 2 = V(x) = 𝑛 ∗ 𝑝 ∗ 𝑞
Ejemplo.
El 20% de los clientes de un banco son morosos, si se selecciona una muestra de 10
clientes, determine la probabilidad de encontrar:
a. Dos clientes morosos
b. Dos clientes no morosos
c. Por lo menos dos clientes dos morosos
Solución:
Claramente es una distribución binomial, ya que es un experimento de Bernoulli, con
dos valores que son: clientes morosos y no morosos. Los datos son:
n: 10 clientes
20% clientes morosos
80% clientes no morosos

a. Dos clientes morosos

X= 2, p= 0.2 , q= 0.8 , n= 10
𝑛
𝑝(𝑥) = ( ) 𝑝 𝑥 𝑞 𝑛−𝑥
𝑥

𝑝(𝑥 = 2) = (10
2
)(0.2)2 (0.8)10−2 = 0.3019

𝑝(𝑥 = 2) = 30.19%

La probabilidad de encontrar dos clientes morosos en una muestra de 10


clientes, es del 30.19%.

b. Dos clientes no morosos

X= 2, p= 0.8, q= 0.2, n= 10
𝑛
𝑝(𝑥) = ( ) 𝑝 𝑥 𝑞 𝑛−𝑥
𝑥

𝑝(𝑥 = 2) = (10
2
)(0.8)2 (0.2)10−2 = 0.000073

𝑝(𝑥 = 2) = 0.00737%

La probabilidad de encontrar dos clientes no morosos en una muestra de 10


clientes, es del 0.00737%.

c. Por lo menos dos clientes dos morosos

X= 2, 3,4,5,6,7,8,9,10 p= 0.2 , q= 0.8 , n= 10

𝑝(𝑥 ≥ 2) = 1 − 𝑝(𝑥 < 2)

𝑝(𝑥 ≥ 2) = 1 − [𝑝(𝑥 = 0) + 𝑝(𝑥 = 1)]

=1- ⌈(10
0
)(0.2)0 (0.8)10−0 + (10
1
)(0.2)1 (0.8)10−1 ⌉
= 1- (0.3758) = 0.6242
𝑝(𝑥 ≥ 2) = 62.42%

La probabilidad de encontrar en una muestra de 10 clientes, por lo menos dos


clientes morosos es del 62.42%.

1.2. DISTRIBUCIÓN DE POISSON

Corresponde al número de ocurrencias de un evento en un tiempo dado.


Los ejemplos más frecuentes donde se aplica la distribución de Poisson son:
 Número de clientes que ingresan a un banco en un tiempo dado
 Número de llamadas telefónicas por minutos
 Número de defectos por centímetro cuadrado o centímetro lineal
 Número de quejas o reclamos por día
 Número de accidentes por hora

Está dada por la fórmula

𝜆𝑥 𝑒 −𝜆
𝑃(𝑥) =
𝑥!
Donde: 𝜆: 𝑀𝑒𝑑𝑖𝑎 𝑜 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜
𝜆 =𝑛∗𝑝
n: Muestra
P: Probabilidad de éxito
e=2,71828

𝑥: 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠

Media o Esperanza:
𝜇 = 𝐸(𝑥) = 𝜆 = 𝑛 ∗ 𝑝
Varianza
𝜎 2 = V(x)= 𝜆
Ejemplo:
El número de clientes que entran a un banco los días sábados es en promedio 40
clientes por hora, determine la probabilidad de que ingresen por lo menos dos clientes
en un período de:
a. 15 minutos
b. 5 minutos

Solución:

Para este caso se especifica la ocurrencia de un evento en un tiempo dado, para este
caso específico el número de clientes que ingresan a un banco en una hora, por lo
tanto la distribución a emplear es la distribución probabilística de Poisson.

Datos:

𝜆 = 40 𝑐𝑙𝑖𝑒𝑛𝑡𝑒 𝑝𝑜𝑟 ℎ𝑜𝑟𝑎


𝑥 ≥ 2, de dos clientes en adelante

a. En un período de 15 minutos, se debe recalcular lambda (𝜆), ya que


inicialmente está establecida para una hora, por lo que se hace una regla de
tres simple así.

40 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 → 60 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
𝜆 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 → 15 𝑚𝑖𝑛𝑢𝑡𝑜𝑠

40 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 ∗ 15 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
𝜆= = 10 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠
60 𝑚𝑖𝑛𝑢𝑡𝑜𝑠

Por lo tanto para un período de 15 minutos ingresaran en promedio 10 clientes, por lo


tanto al reemplazar en la fórmula tenemos que:
𝑝(𝑥 ≥ 2) = 1 − 𝑝(𝑥 < 2)

𝑝(𝑥 ≥ 2) = 1 − [𝑝(𝑥 = 0) + 𝑝(𝑥 = 1)]

100 ∗𝑒 −10 101 ∗𝑒 −10


= 1- [ + ]
0! 1!

𝑝(𝑥 ≥ 2) = 0.9995

𝑝(𝑥 ≥ 2) = 99.95%
La probabilidad de que ingresen por lo menos 10 clientes en un banco los días sábados
en un período de 15 minutos es del 99.95%

Por lo tanto se podrá afirmar que sí es viable que el banco haga apertura los días
sábados, ya que la probabilidad de que ingresen por lo menos dos clientes en dichos
períodos de tiempo es alta, y de esta forma aplicamos la distribución probabilística de
Poisson a problemas reales y del campo de los negocios

b. En un período de 5 minutos, se debe recalcular lambda (𝜆), ya que


inicialmente está establecida para una hora, por lo que se hace una regla de
tres simple así.

40 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 → 60 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
𝜆 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 → 5 𝑚𝑖𝑛𝑢𝑡𝑜𝑠

40 𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 ∗ 15 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
𝜆= = 3.33𝑐𝑙𝑖𝑒𝑛𝑡𝑒𝑠 ≅ 3 𝐶𝑙𝑖𝑒𝑛𝑡𝑒𝑠
60 𝑚𝑖𝑛𝑢𝑡𝑜𝑠

Por lo tanto para un período de 5 minutos ingresaran en promedio 3 clientes, por lo


tanto al reemplazar en la fórmula tenemos que:
𝑝(𝑥 ≥ 2) = 1 − 𝑝(𝑥 < 2)

𝑝(𝑥 ≥ 2) = 1 − [𝑝(𝑥 = 0) + 𝑝(𝑥 = 1)]

30 ∗𝑒 −3 31 ∗𝑒 −3
= 1- [ 0!
+ 1!
]

𝑝(𝑥 ≥ 2) = 0.8408

𝑝(𝑥 ≥ 2) = 84.08%

La probabilidad de que ingresen por lo menos 10 clientes en un banco los días sábados
en un período de 15 minutos es del 84.08%
1.3. DISTRIBUCIÓN HIPERGEOMÉTRICA

Es un proceso de muestreo de una población finita sin reposición


Está dada por:

(𝐴𝑥)(𝑁−𝐴
𝑛−𝑥
)
𝑃(𝑥) =
(𝑁𝑛)

Donde:
N: Población
n: Muestra
A: Éxitos en la población
x: Éxitos en la muestra

Media o Esperanza:
𝐴
𝜇 = 𝐸(𝑥) = = 𝑛 ∗ 𝑁

Varianza
𝑁−𝑛 𝑛∗𝐴 𝐴
𝜎 2 = V(x)= ( 𝑁−1) ( ) (1 − 𝑁)
𝑁

La distribución hipergeométrica se basa al igual que la distribución binomial en una


variable dicotómica, donde solo existen dos posibilidades, es decir éxito y fracaso, por lo
que muchas veces se confunde con esa distribución, por tanto se debe tener en cuenta
que la distribución hipergeométrica a diferencia de la binomial siempre debe tener
población (N) y muestra (n), para el cálculo de sus probabilidades, y la distribución
Binomial solo la muestra.

Ejemplo:

En la revisión de ciertos productos financieros se sabe que por cada 50 productos, en 43


no hay mora alguna. Si se selecciona una muestra de 12 productos, determine la
probabilidad de clasificar:

a. 10 productos sin mora


b. 2 productos con mora
c. Por lo menos 2 productos con mora
d. Como máximo 10 productos sin mora

Solución
Se destaca la variable dicotómica, ya que presenta valores de mora y no mora, pero al
sacar la información se tiene que existe una población y una muestra, por lo que se
tiene:
Datos:
N= 50
N= 12

a. X=10; N=50; n=12; A= 43 (productos sin mora de la población).


Reemplazando en la fórmula se tiene que:

(43)(50−43)
10 12−10
𝑃(𝑥 = 10) =
(50
12
)

(43 7
10)(2)
= (50
= 0.3316
12)

𝑃(𝑥 = 10) = 33.16%

La probabilidad de clasificar 10 productos como no morosos en una muestra de 12


productos es del 33.16%

b. X=2; N=50; n=12; A= 7(productos con mora de la población).


Reemplazando en la fórmula se tiene que:

(72)(50−7
12−2
)
𝑃(𝑥 = 2) =
(50
12
)

(72)(43
10)
= (50
= 0.3316
12)
𝑃(𝑥 = 2) = 33.16%

La probabilidad de clasificar 2 productos como morosos en una muestra de 12


productos es del 33.16%.

c. Por lo menos dos productos con mora

X= 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,12 N=50; n=12; A= 7(productos con mora


de la población). Reemplazando en la fórmula se tiene que:

𝑝(𝑥 ≥ 2) = 1 − 𝑝(𝑥 < 2)

𝑝(𝑥 ≥ 2) = 1 − [𝑝(𝑥 = 0) + 𝑝(𝑥 = 1)]

(70)(50−7
12−0) (71)(50−7
12−1)
=1 − [ (50
+ (50
]
12) 12)

(70)(43
12) (71)(43
11)
=1 − [ (50
+ (50
] = 0.5419
12) 12)

𝑝(𝑥 ≥ 2) = 54.19%

La probabilidad de clasificar por lo menos dos productos como morosos en una


muestra de 12 productos es del 54.19%.

d. Cómo máximo 10 productos sin mora

X= 1,2, 3, 4, 5, 6, 7, 8, 9,10 N=50; n=12; A= 43 (productos sin mora de la


población). Reemplazando en la fórmula se tiene que:

𝑝(𝑥 ≤ 10) = 1 − 𝑝(𝑥 > 10)

𝑝(𝑥 ≤ 10) = 1 − [𝑝(𝑥 = 11) + 𝑝(𝑥 = 12)]

(43 50−43
11)(12−11) (43 50−43
12)(12−12)
=1 − [ (50
+ (50
]
12) 12)

(43 7
11)(1) (43 7
12)(0)
=1 − [ (50
+ (50
] = 0.5419
12) 12)
𝑝(𝑥 ≥ 2) = 54.19%

La probabilidad de clasificar como máximo 10 productos sin mora en una muestra de


12 productos es del 54.19%.
Con base en estas probabilidades usted puede tomar decisiones acerca de los
productos que ofrece la entidad financiera, respecto al número de clientes, entre otros
aspectos importantes que se pueden generar a partir de estas distribuciones de
probabilidad.

Al observar las probabilidades de cada ítem llama la atención de que las probabilidades
son iguales en: a y b y también en c y d, ¿Por qué?

1.4. DISTRIBUCIÓN NORMAL


Esta es una de las distribuciones más importante en estadística y es fundamental en
todos los procesos de inferencia y estimación.
• La distribución normal fue estudiada por Gauss. Se trata de una variable
aleatoria continua (la variable puede tomar cualquier valor real). La función de
densidad tiene forma de campana.
• Dos parámetros determinan una distribución normal: la media y la desviación
típica. Cuanto mayor sea la desviación típica mayor es la dispersión de la
variable.
• La distribución normal es simétrica respecto de la media
La fórmula de la distribución normal es un poco complicada y se emplea para calcular
las probabilidades, las cuales se plasman en una tabla, llamada tabla de distribución
normal.
La variante estandarizada o tipificada de la distribución normal está dada por:
𝑥̅ − 𝜇
𝑧=
𝜎

Donde:
𝑧: 𝑈𝑛𝑖𝑑𝑎𝑑 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑎 𝑜 𝑡𝑖𝑝𝑖𝑓𝑖𝑐𝑎𝑑𝑎
𝑥:
̅ 𝑀𝑒𝑑𝑖𝑎 𝑜 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
𝜇: 𝑀𝑒𝑑𝑖𝑎 𝑜 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝜎: 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙
Media o Esperanza:
𝜇 = 𝐸(𝑥) = 0
Varianza
𝜎 2 = V(x)= 1
Para el cálculo de las probabilidades se tiene que:
𝑎−𝜇
a. 𝑝(> 𝑎) = 1 − Φ ( )
𝜎
𝑎−𝜇
b. 𝑝(< 𝑎) = Φ ( )
𝜎
𝑏−𝜇 𝑎−𝜇
c. 𝑝(𝑎 ≤ 𝑥 ≤ 𝑏) = Φ ( ) − Φ( )
𝜎 𝜎

Donde Φ es el área bajo la curva normal, la cual se encuentra en la tabla de


distribución normal.

Cálculo de un valor Z de la tabla de distribución normal.

Una vez se calcula el valor de la unidad estandarizada o tipificada z, solo debe tomarse
después de la coma dos valores significativos así:
Z= 1.582829

Como se muestra solo se tiene en cuenta 1.58, seguidamente se busca este valor en la
tabla de distribución normal, debe tener presente que estos valores pueden ser
positivos y negativos, para ubicarnos correctamente en la tabla.
Los primeros dos números deben ser ubicados en la primera columna, para este caso
en la que dice normal, por lo tanto hay que ubicar el 1.5

Seguidamente el tercer número es decir el 8, debe ubicarse en la columna donde está


0.08, de esta forma:
Finalmente donde se corten esos dos valores sombreados, el 1.5 y el 0.08, este será el
valor que se está buscando y el valor hallado será el área bajo la curva normal, cuando
z=1.58, por lo tanto en la tabla es:

Cuando Z=1.58, entonces Φ(1.58) = 0.94295, estos valores calculados en la tabla de


distribución normal son siempre positivos, ya que son áreas, y nunca pueden ser
negativos, cosa que si sucede con el valor z, el cual puede ser positivo o negativo.

Ejemplo:
El salario medio de los trabajadores de cierta empresa es de $1500000, con una
desviación de $150000, determine la probabilidad de que los ingresos sean:
a. Mayor a $1500000
b. Menor a $1000000
c. Entre $1200000 y $1400000
Solución:
Las características de la distribución normal, permiten clasificarla inmediatamente, ya
que al ser una variable aleatoria continua, debe hacer referencia a una medición y no a
un conteo

Datos:
𝜇 = 1500000
𝜎 = 150000

1500000−1000000
a. 𝑝(𝑥 > 1500000)= 1 − Φ ( )
150000

= 1 − Φ(3.33)

= 1- 0.99957 = 0.00043
𝑝(𝑥 > 1500000) = 0.043%

La probabilidad de que los ingresos son mayores de 1500000 es del 0.043%

1000000−1000000
b. 𝑝(𝑥)= 1 − Φ ( )
150000

= Φ(0)

= 0.5000
𝑝(𝑥 < 1000000) = 50%

La probabilidad de que los ingresos son menores de 1000000 es del 50%

1200000−1000000 1400000−1000000
c. 𝑝(1200000 ≤ 𝑥 ≤ 1800000) = Φ ( )− Φ( )
150000 150000

= Φ(1.33) − Φ(2.66)
= 0.90824 -0.99609 = 0.0878

𝑝(1200000 ≤ 𝑥 ≤ 1800000) = 8.78%

La probabilidad de que los ingresos se encuentren entren 1200000 y 1800000 es del


8.78%