Informatica Ud 1.3

TEMA 3
VARIABLES ALEATORIAS DISCRETAS

Variable aleatoria
Una variable aleatoria es una descripción numérica del resultado de un

experimento.
Ejemplo: Resultado de lanzar un dado {1, 2,…, 6}.
El resultado de la función que define depende de un número al que se denomina

probabilidad. Por eso el espacio de probabilidad se representa como (Ω, P).
Una variable aleatoria X es una función que asocia a cada suceso del espacio muestral
Ω de un experimento aleatorio un valor numérico real:
X :
w  X (w)
Llamar variable a una función resulta algo confuso, por ello hay que insistir en que es
una función.
Función de probabilidad
Una vez definida una variable aleatoria X, podemos definir una función de
probabilidad asociada a X, de la siguiente forma:
p :   [0,1]
x  p(x)  P( X  x) (se lee “probabilidad de que la variable X valga x”).
La función de probabilidad debe cumplir:
(i) p(x)  0 x  
(ii)  p(x)  1 (la probabilidad suma de todos los posibles valores que puede tomar la
x variable aleatoria es 1, esto es, la certeza).
Tipos de variable aleatoria
Variable aleatoria discreta

Experimento Variable aleatoria Valores posibles V.A
Lanzar un dado Valor resultante 1, 2,…, 6
Lanzar una moneda Figura observada Cara (1), Cruz (0)
Número de visitantes a un museo Cantidad de visitantes 0, 1, 2, 3,…….
El número de valores que puede adoptar la variable es numerable
Variable aleatoria continua
Experimento Variable aleatoria Valores posibles V.A

Tiempo desde su
Tiempo de vida de una bombilla X0
fabricación hasta su fallo
Porcentaje de créditos
Tasa de morosidad de una entidad 0  X  100
no devueltos en plazo
Cantidad de agua
Medición del consumo de agua X0
consumida en un mes
El número de valores que puede adoptar la variable no es numerable
Ejemplo de variable aleatoria
Sea el experimento “lanzar dos dados”.

Definamos el espacio muestral Ω como: Ω = {(1,1), (1,2) … (1,6), … (6,5), (6,6)}
Definamos la variable aleatoria discreta X como:
con S = {2, 3, …, 12} la suma de puntos.
Una posible función de probabilidad es:
f :   [0, 1]
f (2)  P(X  2 )  P((1 ,1))  1 / 36 Distribución de probabilidad
f (3)  P(X  3)  P((1 ,2)  (2 ,1))  2 / 36 (en realidad es el único dato relevante relativo
a una variable aleatoria)
f (4)  P(X  4 )  P((1 ,3)  (3 ,1)  (2,2))  3 / 36
...
“Protocolo”:
1. Identificar los casos posibles. Contarlos.
2. Contar el número de veces que se da cada uno de los sucesos (o el suceso buscado, si fuera
el caso).
3. Calcular la probabilidad como: Valor pto. 2/Valor pto. 1
Distribución de probabilidad
Distribución de probabilidad: forma en que se reparte la probabilidad entre los

posibles valores que puedan obtenerse en el experimento.
En el ejemplo anterior:
f :   [0, 1]
f (2)  P(X  2 )  P((1 ,1))  1 / 36
f (3)  P(X  3)  P((1 ,2)  (2 ,1))  2 / 36
f (4)  P(X  4 )  P((1 ,3)  (3 ,1)  (2,2))  3 / 36
...
6/36
P 5/36 5/36
4/36 4/36
3/36 3/36
2/36 2/36
1/36 1/36
2 3 4 5 6 7 8 9 10 11 12 X
Observa que P cumple las dos condiciones: es siempre positiva y está normalizada.
Lo ideal sería conocer la relación existente entre X y P(X) → Función de densidad.

Función de distribución
Dada una variable aleatoria discreta X se llama función de distribución a la

función F definida como:
F :  [0,1]
x  F ( x)  P( X  x) Relación existente entre X y P(X)
En nuestro ejemplo de los dos dados:

6/36
P 5/36 5/36
F(5) = P(X  5) = P(x = 2 ó x = 3 ó x = 4 ó x = 5) 4/36 4/36
3/36 3/36
2/36 2/36
F(5) = 1/36 + 2/36 +3/36 + 4/36 = 10/36 1/36 1/36
2 3 4 5 6 7 8 9 10 11 12 X
Función de distribución de la variable X:

F
1,0
F(x) toma para la y la suma de las probabilidades
hasta el valor considerado de x (probabilidad
acumulada). 0,5
Al ser discreta: rayas horizontales entre un valor

de x y el siguiente. 0,028
2 3 4 5 6 7 8 9 10 11 12 x
Función de distribución
Como vemos, es la función que asocia a cada valor de

una variable, la probabilidad acumulada de los valores
inferiores o iguales.
La función de distribución sirve para contrastar lo anómalo (o no) de una observación

concreta.
Veámoslo mejor con un ejemplo (aunque sea de una variable continua):

• Sé que una persona de 2,10 m es “anómala” porque la función de distribución en 2,10 es muy alta
(prácticamente todo los valores de x quedan por debajo).
• Sé que una persona adulta que mida menos de 1,40 m es “anómala” porque la función de
distribución es muy baja para 1,40 m (prácticamente todo los valores de x quedan por encima).
• Sé que una persona que mida 1,70 m no posee una altura nada extraña pues su función de
distribución es aproximadamente 0,5.
Si, lo anterior, dado que se habla de la estatura de un individuo, podría conocerse de manera intuitiva (a
través la mera experiencia —sin necesidad por tanto de consultar ninguna función de distribución), no
sucedería lo mismo si el fenómeno a estudiar fuera el nivel de concentración de CO2 en la atmósfera,
cuyos niveles “normales” (ahora sí) desconocemos a priori. He ahí su utilidad primera.
Esperanza matemática (de una vble. discreta)
Esperanza matemática (media aritmética): Promedio de los valores posibles

ponderados según sus respectivas probabilidades (el valor que resulta más
probable “pesa” más).
  EX    x i  P( X  x i )   x i  p(x i )
n n
i 1 i 1
¿Es éste valor (la media) representativo de nuestra distribución? Dependerá, en

cualquier caso es bastante bueno y fácil de interpretar.
Puede entenderse como el “centro de masas” de la distribución de probabilidades.
En el ejemplo anterior (dados):

12 1 2 6 1
  E ( X )   i  P(i) 2   3   ...  7   ...  12   7
i 2 36 36 36 36
Según la teoría de la probabilidad, este será el valor al que se tenderá si lanzamos muchas veces los dados.
Esperanza de una función de variable aleatoria (discreta)
Sea la función de variable aleatoria X: Y = g(X)

La esperanza matemática de g(X) valdrá:
EY    g(x)  P( X  x i )
n
i 1
Nótese que no requiere conocer la distribución de probabilidad de la función Y

(basta con la de X).
Propiedades de la esperanza matemática:
Sea la función lineal de variable aleatoria X: Y = aX + b

Se cumple que:
EY   EaX  b  a  EX b
Dicho en otras palabras: si aplicamos una traslación (b) y/o factor de escala (a) a los
valores de X, la esperanza matemática (media) se obtiene aplicando idéntica
traslación o escala a la original → La esperanza matemática es un operador lineal.
Entropía de Shannon
A partir del hecho de que la información aportada por una unidad lingüística es la inversa de
la probabilidad de aparición de esta unidad en el discurso, Shannon definió como parte de la
teoría de la comunicación, el concepto de entropía, una medida de la incertidumbre asociada
a una variable aleatoria, la cual está en cierto modo relacionada con la cantidad de
ordenaciones posibles. Dada una variable aleatoria, cuanto mayor sea el número de posibles
ordenaciones, mayor será su incertidumbre.
Entropía  Grado de desorden  “peculiaridad” de las combinaciones  Indicador de en qué

medida resulta impredecible el resultado de un experimento.
Los símbolos con menor probabilidad son los que aportan más información. Por ejemplo, si en una frase se
eliminan los artículos (“el”, “la”, “los”, etc.), que son palabras bastante frecuentes (alta probabilidad = poco aporte de
información), el texto seguramente se comprenderá. Sin embargo, si eliminamos las palabras menos frecuentes la
comprensión resultará más difícil.
Ejemplo: Si en la frase “El corredor español terminó la carrera en cuarto lugar” se perdiera una palabra, no
recibiríamos la misma cantidad de información si pudiéramos leer:
1. “El corredor X terminó la carrera en cuarto lugar” que si pudiéramos leer:
2. “X corredor español terminó la carrera en cuarto lugar” o “El corredor español terminó la carrera X cuarto lugar”.
Ofrece menos información “El” o “la” (palabras altamente probables) que las palabras, menos frecuentes, “español”.
¿Cómo se define? Como la esperanza matemática del logaritmo del inverso de la probabili-
dad, es decir, de log p(x).
 1 
H( X )  E log2    x p(x)  log p(x) Base 2 porque en informática se trabaja en
 P ( X )  X () binario (combinaciones de dos símbolos: 1 y 0)
Varianza de una variable aleatoria (discreta)
Momento de orden m de una variable X: Valor esperado de la función Xm

Varianza de X, 2 = momento de orden 2 de la función g(x) = (xE{X})
g(x) representa la desviación de cada valor observado con respecto del valor medio.
 X  E(X  E { X }) 2   (x i  )2  P( X  x i )
2
i
X2 mide la dispersión del conjunto de valores con respecto a su media
(al cuadrado para trabajar con medidas de dispersión exclusivamente positivas)
Para trabajar con las mismas unidades que la variable observada, X, se suele calcular la
raíz cuadrada de la varianza, desviación típica de X:  X   x
2
Una propiedad de la varianza:

 X  E { X 2 }  (E { X }) 2
2
Varianza de una variable aleatoria (discreta)
En el ejemplo anterior (dados):
12 1 2 1
 X   P(i)  (i  7)2   (2  7)2   (3  7)2  ...   (12  7)2  5,83
2
i 2 36 36 36
 X   X  5,83  2,41
2
Por ejemplo, según la teoría de la probabilidad, si lanzamos muchas veces dos dados, y suponiendo una
distribución normal (lo cual NO sucede en realidad en este ejemplo), el 68% de la veces nos apartaremos del
valor más probable o esperado (7) en una cantidad que tenderá a ser 2,41.
MODELOS DE DISTRIBUCIONES
DISCRETAS
Introducción
Cada fenómeno de la naturaleza está sometido a determinadas condiciones que

son las que definen cada suceso y que, casi siempre, son muy complejas.
Para poder estudiar cada uno de esos fenómenos y realizar predicciones

mínimamente fiables, que no se limiten a basarse en nuestras creencias
(probabilidad subjetiva), es necesario definir un modelo teórico que describa la
forma en que varían los resultados observados.
Se trata de elaborar una lista de los resultados (X) junto con la probabilidad que se
asocia a cada uno de ellos p(X) → Función de distribución.
Entenderemos el fenómeno a estudiar como un experimento de variable aleatoria.
Debe tenerse presente que, como modelos que son, no dejan de ser
simplificaciones de la realidad y, por tanto, se aproximarán bastante a ella pero sin
definirla de manera cierta.
Veamos los modelos de probabilidad más habituales...

Distribución de Bernoulli
Útil para experimentos con sólo dos posibles resultados (SI/NO, ÉXITO/FRACASO,
1/0, etc.).
En consecuencia sólo habrá dos probabilidades: P(X = 1) = p y P(X = 0) = 1p
Ejemplo: lanzamiento de una moneda con probabilidad p para cara y (1-p) para cruz.
1  p, para x  0
Función de distribución: F ( x)  
 p, para x  1
1
Media: E { X }     x  P( X  x) 0  P(X  0)  1  P(X  1)  p
x 0
 X  EX 2  EX    x 2  P(X  x)  p2  02  P( X  0)  12  P(X  1)  p2  p  p2  p(1  p)

1
Varianza: 2 2
x 0
El valor máximo de la varianza será 1/4.
Entropía: H( X )  p  log2 p  (1  p)  log2 (1  p)

Distribución de Bernoulli
Ejemplo de distribución de Bernoulli.

A Tras analizar 2000 accidentes de tráfico con impacto frontal en los que el conductor
no tenía puesto el cinturón de seguridad, se observa que 300 individuos quedaron
con secuelas.
La interpretación frecuentista de probabilidad nos permite aproximar la
probabilidad de tener secuelas mediante 300/2000 = 0,15 = 15%
X = “tener secuelas tras accidente sin cinturón” (es una variable de Bernoulli)
X = 1 tiene probabilidad p ≈ 0,15
X = 0 tiene probabilidad q ≈ 0,85
B Tras analizar 2000 accidentes de tráfico con impacto frontal en los que el conductor sí
llevaba puesto el cinturón de seguridad, se observa que 10 individuos quedaron con
secuelas.
La interpretación frecuentista de probabilidad nos permite aproximar la probabilidad
de quedar con secuelas por 10/2000 = 0,005 = 0,5%
X = “tener secuelas tras accidente usando cinturón” (es una variable de Bernoulli)
X = 1 tiene probabilidad p ≈ 0,005
X = 0 tiene probabilidad q ≈ 0,995
Distribución binomial
En este caso, el experimento consiste en una sucesión de n pruebas o experimentos

idénticos de tipo Bernoulli (con dos posibles resultados). La probabilidad en cada
experimento será p de éxito y 1p de fracaso.
Los intentos o ensayos son independientes.
La distribución binomial aparece cuando estamos interesados en el número de veces

que ocurre un suceso A (éxitos) en n intentos independientes de un experimento.
Ejemplo: número de caras en n lanzamientos de una moneda con probabilidad p para cara y
(1-p) para cruz.
En este ejemplo, la variable X puede tomar los valores 0, 1, 2, ... n.
Nótese que son n+1 (es posible que no salga ninguna cara).
Si consideramos uno de estos valores, el k (esto es, que en k de los n intentos sale cara y en nk
n
cruz), la probabilidad de cada posible ordenación es pk·qnk , existiendo   idénticas ordenaciones.
k
Intentos: 1 2 3 4 5 6 7 8
Resultados: E F F E E F E E E=Éxito; F=Fracaso
La distribución de probabilidad P(X = k) (k caras) será, por tanto:

 n n!
P( X  k)    p k (1  p)nk  p k (1  p)nk
k k!(n  k)!
Para la determinación de la media y la varianza en la distribución binomial se utiliza

el mismo método (función generadora de momentos), obteniéndose:
Media: E{ X}    n  p
Varianza: 2  n  p  (1  p)
Ejercicio:
Supongamos que la probabilidad de encontrar un usuario de Linux es del 4%. ¿Cuál es la
probabilidad de que en una muestra de 10 personas escogida al azar encontremos 3 usuarios
de Linux?
n
p( X  3)     p k  (1  p)nk
k
p  0.04 ; n  10 ; k 3
 10 
P( X  3)     (0.04)3  (1  0.04)103  0.006
3
Y… ¿cuál es la probabilidad de que encontremos como mucho 2 usuarios de Linux?
Queremos decir que sería un “éxito” encontrar 0, 1 ó 2 usuarios de Linux
 10  
P( X  0)     (0.04)0  (1  0.04)100  0.665 
0 
 10  
P( X  1)     (0.04)1  (1  0.04)101  0.277  P(X  2)  P(X  0)  P(X  1)  P(X  2)  0.994
1 
 10  
P( X  2)     (0.04)2  (1  0.04)102  0.052 
2 
Distribución geométrica
Consideremos el siguiente experimento:

Repetimos un experimento de Bernoulli donde la probabilidad de que ocurra un
suceso (éxito) es p y la probabilidad de que no ocurra (fracaso) es q = 1p hasta
conseguir el primer éxito.
Definimos la variable aleatoria X, como el número de fracasos hasta que se
obtiene el primer éxito. Si el éxito se produce en el k-ésimo experimento, se
habrá obtenido una sucesión de k1 fracasos, seguidos de un éxito. De este
modo, se puede expresar:
P(X  k)  1  p  p ; k  1,2 , ...

k 1
Se supone que el experimento
se realiza al menos una vez.
Ejemplo: Lanzar una moneda hasta obtener la primera cara. Se obtendrá una sucesión de
k1 cruces (fracasos), seguidas de una cara (éxito).
Función de distribución:
n
F (n)   (1  p)k1  p 1  (1  p)n
k 1
Para la determinación de la media y la varianza en la distribución geométrica se

utiliza el mismo método (función generadora de momentos), obteniéndose:
1
Media: E{ X}   
p
1 p
Varianza: 2 
p2
Una conocida propiedad de la distribución geométrica es que carece de

“memoria”. Cuando lanzamos una moneda con la intención de obtener cara, ésta
no se “acuerda” de cuántos fracasos han tenido lugar hasta el momento, por tanto
en cada lanzamiento es como si se empezara de nuevo.
La distribución de probabilidad “pendiente” o futura no depende de cuántos

fracasos se hayan acumulado hasta ése momento; lo mismo da que se lleven 10,
1000 o los que sean. No sirve de nada que nos digan que se llevan realizados 10
lanzamientos sin “éxito” (cara), ello no hace más probable que se esté cerca de
obtener un éxito (una cara).
Ejemplo. Se sabe que una máquina produce un 3% de piezas defectuosas.

Supongamos que se va a inspeccionar piezas hasta encontrar la primera pieza
defectuosa. ¿Cuál es la probabilidad de que se necesiten inspeccionar 4 o menos
piezas para encontrar la primera pieza defectuosa?
Sea X el número de inspecciones necesarias.

Luego X  G(0,03)
k
P( X  4)   (1  p)k1  p  (0.9711  0.03)  (0.9721  0.03)  (0.9731  0.03)  (0.9741  0.03)  0.115
k 1
Si consideráramos 10 inspecciones, la probabilidad aumentaría hasta 0,262 (26,2%).

Para 99 inspecciones, la probabilidad aumentaría sería ya de 0,951 (95%).
Por otro lado, si en 100 piezas se encuentran 3 defectuosas, por una simple regla de
tres, bastarían 100/3 (33,3) inspecciones para localizar una pieza defectuosa.
Tema2_DistrGeometrica.nb
Distribución de Poisson
Cuando en una distribución binomial el número de pruebas (n) es grande (>30) y la

probabilidad de éxito (p) es pequeña (<0.1), entonces la distribución binomial
converge a la distribución de Poisson:
e   k
P( X  k )  , x  0 ,1 ,2 , ...   0
k!
 representa la frecuencia del suceso modelado (en un intervalo de
tiempo o una región específica) y tiende a n·p.
Útil cuando analizamos fenómenos “raros” (poco probables). Por eso a veces se la
denomina “ley de los sucesos raros”.
Ejemplo: accidentes, defectos de fabricación, etc.
Media: E{ X}    n  p
Varianza: 2  
Nota: el máximo de la distribución se encuentra en x  

Distribución de Poisson
Ejercicio:
Si la probabilidad de fabricar un televisor defectuoso es p = 0.01, ¿cuál es la
probabilidad de que un lote de 100 televisores contenga más de 2 televisores
defectuosos?
Podríamos calcular la probabilidad complementaria P(X  2) exacta a través de la distribución
binomial, obteniendo:
 n
P(X  2)  1  P(X  2)  1  P(X  0)  P(X  1)  P(X  2)  Recuérdese: p( X  k)    pk q nk
k
Ac
 100 99 100  100 99 99  1   100 99 98  1 2 
 1                 
 0  100   1  100   100   2  100   100  
 1  0.9206 0,0794
El suceso complementario Ac: No más de 2 televisores defectuosos puede aproximarse con una
distribución de Poisson con  = np = 1, sumando P(0) + P(1) + P(2).
k 
P( X  k )  e (k  0,1,....)
k!
 1
P(Ac )  P( X  2)  P( X  0)  P( X  1)  P( X  2)  e 1   1  1    0.9197
 2

Informatica Ud 1.3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Informatica Ud 1.3

Cargado por

Copyright:

Formatos disponibles

TEMA 3

VARIABLES ALEATORIAS DISCRETAS

Una variable aleatoria es una descripción numérica del resultado de un

El resultado de la función que define depende de un número al que se denomina

La función de probabilidad debe cumplir:

Variable aleatoria discreta

Lanzar un dado Valor resultante 1, 2,…, 6

Lanzar una moneda Figura observada Cara (1), Cruz (0)

Número de visitantes a un museo Cantidad de visitantes 0, 1, 2, 3,…….

El número de valores que puede adoptar la variable es numerable

Variable aleatoria continua

Experimento Variable aleatoria Valores posibles V.A

Sea el experimento “lanzar dos dados”.

Una posible función de probabilidad es:

Distribución de probabilidad: forma en que se reparte la probabilidad entre los

Lo ideal sería conocer la relación existente entre X y P(X) → Función de densidad.

Dada una variable aleatoria discreta X se llama función de distribución a la

En nuestro ejemplo de los dos dados:

Función de distribución de la variable X:

Al ser discreta: rayas horizontales entre un valor

Como vemos, es la función que asocia a cada valor de

La función de distribución sirve para contrastar lo anómalo (o no) de una observación

Veámoslo mejor con un ejemplo (aunque sea de una variable continua):

Esperanza matemática (media aritmética): Promedio de los valores posibles

¿Es éste valor (la media) representativo de nuestra distribución? Dependerá, en

En el ejemplo anterior (dados):

Sea la función de variable aleatoria X: Y = g(X)

Nótese que no requiere conocer la distribución de probabilidad de la función Y

Propiedades de la esperanza matemática:

Sea la función lineal de variable aleatoria X: Y = aX + b

EY   EaX  b  a  EX b

Entropía  Grado de desorden  “peculiaridad” de las combinaciones  Indicador de en qué

Momento de orden m de una variable X: Valor esperado de la función Xm

Una propiedad de la varianza:

En el ejemplo anterior (dados):

Cada fenómeno de la naturaleza está sometido a determinadas condiciones que

Para poder estudiar cada uno de esos fenómenos y realizar predicciones

Entenderemos el fenómeno a estudiar como un experimento de variable aleatoria.

Veamos los modelos de probabilidad más habituales...

 X  EX 2  EX    x 2  P(X  x)  p2  02  P( X  0)  12  P(X  1)  p2  p  p2  p(1  p)

El valor máximo de la varianza será 1/4.

Entropía: H( X )  p  log2 p  (1  p)  log2 (1  p)

Ejemplo de distribución de Bernoulli.

En este caso, el experimento consiste en una sucesión de n pruebas o experimentos

La distribución binomial aparece cuando estamos interesados en el número de veces

La distribución de probabilidad P(X = k) (k caras) será, por tanto:

Para la determinación de la media y la varianza en la distribución binomial se utiliza

Consideremos el siguiente experimento:

P(X  k)  1  p  p ; k  1,2 , ...

Para la determinación de la media y la varianza en la distribución geométrica se

Una conocida propiedad de la distribución geométrica es que carece de

La distribución de probabilidad “pendiente” o futura no depende de cuántos

Ejemplo. Se sabe que una máquina produce un 3% de piezas defectuosas.

Sea X el número de inspecciones necesarias.

Si consideráramos 10 inspecciones, la probabilidad aumentaría hasta 0,262 (26,2%).

Cuando en una distribución binomial el número de pruebas (n) es grande (>30) y la

Nota: el máximo de la distribución se encuentra en x  

También podría gustarte