Está en la página 1de 25

TEMA 3

VARIABLES ALEATORIAS DISCRETAS


Variable aleatoria

Una variable aleatoria es una descripción numérica del resultado de un


experimento.
Ejemplo: Resultado de lanzar un dado {1, 2,…, 6}.

El resultado de la función que define depende de un número al que se denomina


probabilidad. Por eso el espacio de probabilidad se representa como (Ω, P).

Una variable aleatoria X es una función que asocia a cada suceso del espacio muestral
Ω de un experimento aleatorio un valor numérico real:

X :
w  X (w)

Llamar variable a una función resulta algo confuso, por ello hay que insistir en que es
una función.
Función de probabilidad

Una vez definida una variable aleatoria X, podemos definir una función de
probabilidad asociada a X, de la siguiente forma:

p :   [0,1]
x  p(x)  P( X  x) (se lee “probabilidad de que la variable X valga x”).

La función de probabilidad debe cumplir:

(i) p(x)  0 x  
(ii)  p(x)  1 (la probabilidad suma de todos los posibles valores que puede tomar la
x variable aleatoria es 1, esto es, la certeza).
Tipos de variable aleatoria

Variable aleatoria discreta


Experimento Variable aleatoria Valores posibles V.A

Lanzar un dado Valor resultante 1, 2,…, 6

Lanzar una moneda Figura observada Cara (1), Cruz (0)

Número de visitantes a un museo Cantidad de visitantes 0, 1, 2, 3,…….

El número de valores que puede adoptar la variable es numerable

Variable aleatoria continua

Experimento Variable aleatoria Valores posibles V.A


Tiempo desde su
Tiempo de vida de una bombilla X0
fabricación hasta su fallo
Porcentaje de créditos
Tasa de morosidad de una entidad 0  X  100
no devueltos en plazo
Cantidad de agua
Medición del consumo de agua X0
consumida en un mes
El número de valores que puede adoptar la variable no es numerable
Ejemplo de variable aleatoria

Sea el experimento “lanzar dos dados”.


Definamos el espacio muestral Ω como: Ω = {(1,1), (1,2) … (1,6), … (6,5), (6,6)}
Definamos la variable aleatoria discreta X como:
con S = {2, 3, …, 12} la suma de puntos.

Una posible función de probabilidad es:

f :   [0, 1]
f (2)  P(X  2 )  P((1 ,1))  1 / 36 Distribución de probabilidad
f (3)  P(X  3)  P((1 ,2)  (2 ,1))  2 / 36 (en realidad es el único dato relevante relativo
a una variable aleatoria)
f (4)  P(X  4 )  P((1 ,3)  (3 ,1)  (2,2))  3 / 36
...

“Protocolo”:
1. Identificar los casos posibles. Contarlos.
2. Contar el número de veces que se da cada uno de los sucesos (o el suceso buscado, si fuera
el caso).
3. Calcular la probabilidad como: Valor pto. 2/Valor pto. 1
Distribución de probabilidad

Distribución de probabilidad: forma en que se reparte la probabilidad entre los


posibles valores que puedan obtenerse en el experimento.
En el ejemplo anterior:

f :   [0, 1]
f (2)  P(X  2 )  P((1 ,1))  1 / 36
f (3)  P(X  3)  P((1 ,2)  (2 ,1))  2 / 36
f (4)  P(X  4 )  P((1 ,3)  (3 ,1)  (2,2))  3 / 36
...

6/36
P 5/36 5/36
4/36 4/36
3/36 3/36
2/36 2/36
1/36 1/36

2 3 4 5 6 7 8 9 10 11 12 X

Observa que P cumple las dos condiciones: es siempre positiva y está normalizada.

Lo ideal sería conocer la relación existente entre X y P(X) → Función de densidad.


Función de distribución

Dada una variable aleatoria discreta X se llama función de distribución a la


función F definida como:

F :  [0,1]
x  F ( x)  P( X  x) Relación existente entre X y P(X)

En nuestro ejemplo de los dos dados:


6/36
P 5/36 5/36
F(5) = P(X  5) = P(x = 2 ó x = 3 ó x = 4 ó x = 5) 4/36 4/36
3/36 3/36
2/36 2/36
F(5) = 1/36 + 2/36 +3/36 + 4/36 = 10/36 1/36 1/36

2 3 4 5 6 7 8 9 10 11 12 X

Función de distribución de la variable X:


F
1,0
F(x) toma para la y la suma de las probabilidades
hasta el valor considerado de x (probabilidad
acumulada). 0,5

Al ser discreta: rayas horizontales entre un valor


de x y el siguiente. 0,028
2 3 4 5 6 7 8 9 10 11 12 x
Función de distribución

Como vemos, es la función que asocia a cada valor de


una variable, la probabilidad acumulada de los valores
inferiores o iguales.

La función de distribución sirve para contrastar lo anómalo (o no) de una observación


concreta.

Veámoslo mejor con un ejemplo (aunque sea de una variable continua):


• Sé que una persona de 2,10 m es “anómala” porque la función de distribución en 2,10 es muy alta
(prácticamente todo los valores de x quedan por debajo).
• Sé que una persona adulta que mida menos de 1,40 m es “anómala” porque la función de
distribución es muy baja para 1,40 m (prácticamente todo los valores de x quedan por encima).
• Sé que una persona que mida 1,70 m no posee una altura nada extraña pues su función de
distribución es aproximadamente 0,5.

Si, lo anterior, dado que se habla de la estatura de un individuo, podría conocerse de manera intuitiva (a
través la mera experiencia —sin necesidad por tanto de consultar ninguna función de distribución), no
sucedería lo mismo si el fenómeno a estudiar fuera el nivel de concentración de CO2 en la atmósfera,
cuyos niveles “normales” (ahora sí) desconocemos a priori. He ahí su utilidad primera.
Esperanza matemática (de una vble. discreta)

Esperanza matemática (media aritmética): Promedio de los valores posibles


ponderados según sus respectivas probabilidades (el valor que resulta más
probable “pesa” más).

  EX    x i  P( X  x i )   x i  p(x i )
n n

i 1 i 1

¿Es éste valor (la media) representativo de nuestra distribución? Dependerá, en


cualquier caso es bastante bueno y fácil de interpretar.
Puede entenderse como el “centro de masas” de la distribución de probabilidades.

En el ejemplo anterior (dados):


12 1 2 6 1
  E ( X )   i  P(i) 2   3   ...  7   ...  12   7
i 2 36 36 36 36

Según la teoría de la probabilidad, este será el valor al que se tenderá si lanzamos muchas veces los dados.
Esperanza de una función de variable aleatoria (discreta)

Sea la función de variable aleatoria X: Y = g(X)


La esperanza matemática de g(X) valdrá:

EY    g(x)  P( X  x i )
n

i 1

Nótese que no requiere conocer la distribución de probabilidad de la función Y


(basta con la de X).

Propiedades de la esperanza matemática:

Sea la función lineal de variable aleatoria X: Y = aX + b


Se cumple que:

EY   EaX  b  a  EX b

Dicho en otras palabras: si aplicamos una traslación (b) y/o factor de escala (a) a los
valores de X, la esperanza matemática (media) se obtiene aplicando idéntica
traslación o escala a la original → La esperanza matemática es un operador lineal.
Entropía de Shannon

A partir del hecho de que la información aportada por una unidad lingüística es la inversa de
la probabilidad de aparición de esta unidad en el discurso, Shannon definió como parte de la
teoría de la comunicación, el concepto de entropía, una medida de la incertidumbre asociada
a una variable aleatoria, la cual está en cierto modo relacionada con la cantidad de
ordenaciones posibles. Dada una variable aleatoria, cuanto mayor sea el número de posibles
ordenaciones, mayor será su incertidumbre.

Entropía  Grado de desorden  “peculiaridad” de las combinaciones  Indicador de en qué


medida resulta impredecible el resultado de un experimento.

Los símbolos con menor probabilidad son los que aportan más información. Por ejemplo, si en una frase se
eliminan los artículos (“el”, “la”, “los”, etc.), que son palabras bastante frecuentes (alta probabilidad = poco aporte de
información), el texto seguramente se comprenderá. Sin embargo, si eliminamos las palabras menos frecuentes la
comprensión resultará más difícil.

Ejemplo: Si en la frase “El corredor español terminó la carrera en cuarto lugar” se perdiera una palabra, no
recibiríamos la misma cantidad de información si pudiéramos leer:
1. “El corredor X terminó la carrera en cuarto lugar” que si pudiéramos leer:
2. “X corredor español terminó la carrera en cuarto lugar” o “El corredor español terminó la carrera X cuarto lugar”.
Ofrece menos información “El” o “la” (palabras altamente probables) que las palabras, menos frecuentes, “español”.

¿Cómo se define? Como la esperanza matemática del logaritmo del inverso de la probabili-
dad, es decir, de log p(x).
 1 
H( X )  E log2    x p(x)  log p(x) Base 2 porque en informática se trabaja en
 P ( X )  X () binario (combinaciones de dos símbolos: 1 y 0)
Varianza de una variable aleatoria (discreta)

Momento de orden m de una variable X: Valor esperado de la función Xm


Varianza de X, 2 = momento de orden 2 de la función g(x) = (xE{X})
g(x) representa la desviación de cada valor observado con respecto del valor medio.

 X  E(X  E { X }) 2   (x i  )2  P( X  x i )
2

i
X2 mide la dispersión del conjunto de valores con respecto a su media
(al cuadrado para trabajar con medidas de dispersión exclusivamente positivas)

Para trabajar con las mismas unidades que la variable observada, X, se suele calcular la
raíz cuadrada de la varianza, desviación típica de X:  X   x
2

Una propiedad de la varianza:


 X  E { X 2 }  (E { X }) 2
2
Varianza de una variable aleatoria (discreta)

En el ejemplo anterior (dados):

12 1 2 1
 X   P(i)  (i  7)2   (2  7)2   (3  7)2  ...   (12  7)2  5,83
2

i 2 36 36 36

 X   X  5,83  2,41
2

Por ejemplo, según la teoría de la probabilidad, si lanzamos muchas veces dos dados, y suponiendo una
distribución normal (lo cual NO sucede en realidad en este ejemplo), el 68% de la veces nos apartaremos del
valor más probable o esperado (7) en una cantidad que tenderá a ser 2,41.
MODELOS DE DISTRIBUCIONES
DISCRETAS
Introducción

Cada fenómeno de la naturaleza está sometido a determinadas condiciones que


son las que definen cada suceso y que, casi siempre, son muy complejas.

Para poder estudiar cada uno de esos fenómenos y realizar predicciones


mínimamente fiables, que no se limiten a basarse en nuestras creencias
(probabilidad subjetiva), es necesario definir un modelo teórico que describa la
forma en que varían los resultados observados.
Se trata de elaborar una lista de los resultados (X) junto con la probabilidad que se
asocia a cada uno de ellos p(X) → Función de distribución.

Entenderemos el fenómeno a estudiar como un experimento de variable aleatoria.

Debe tenerse presente que, como modelos que son, no dejan de ser
simplificaciones de la realidad y, por tanto, se aproximarán bastante a ella pero sin
definirla de manera cierta.

Veamos los modelos de probabilidad más habituales...


Distribución de Bernoulli

Útil para experimentos con sólo dos posibles resultados (SI/NO, ÉXITO/FRACASO,
1/0, etc.).
En consecuencia sólo habrá dos probabilidades: P(X = 1) = p y P(X = 0) = 1p
Ejemplo: lanzamiento de una moneda con probabilidad p para cara y (1-p) para cruz.

1  p, para x  0
Función de distribución: F ( x)  
 p, para x  1
1
Media: E { X }     x  P( X  x) 0  P(X  0)  1  P(X  1)  p
x 0

 X  EX 2  EX    x 2  P(X  x)  p2  02  P( X  0)  12  P(X  1)  p2  p  p2  p(1  p)


1
Varianza: 2 2

x 0

El valor máximo de la varianza será 1/4.

Entropía: H( X )  p  log2 p  (1  p)  log2 (1  p)


Distribución de Bernoulli

Ejemplo de distribución de Bernoulli.


A Tras analizar 2000 accidentes de tráfico con impacto frontal en los que el conductor
no tenía puesto el cinturón de seguridad, se observa que 300 individuos quedaron
con secuelas.
La interpretación frecuentista de probabilidad nos permite aproximar la
probabilidad de tener secuelas mediante 300/2000 = 0,15 = 15%
X = “tener secuelas tras accidente sin cinturón” (es una variable de Bernoulli)
X = 1 tiene probabilidad p ≈ 0,15
X = 0 tiene probabilidad q ≈ 0,85

B Tras analizar 2000 accidentes de tráfico con impacto frontal en los que el conductor sí
llevaba puesto el cinturón de seguridad, se observa que 10 individuos quedaron con
secuelas.
La interpretación frecuentista de probabilidad nos permite aproximar la probabilidad
de quedar con secuelas por 10/2000 = 0,005 = 0,5%
X = “tener secuelas tras accidente usando cinturón” (es una variable de Bernoulli)
X = 1 tiene probabilidad p ≈ 0,005
X = 0 tiene probabilidad q ≈ 0,995
Distribución binomial

En este caso, el experimento consiste en una sucesión de n pruebas o experimentos


idénticos de tipo Bernoulli (con dos posibles resultados). La probabilidad en cada
experimento será p de éxito y 1p de fracaso.
Los intentos o ensayos son independientes.

La distribución binomial aparece cuando estamos interesados en el número de veces


que ocurre un suceso A (éxitos) en n intentos independientes de un experimento.
Ejemplo: número de caras en n lanzamientos de una moneda con probabilidad p para cara y
(1-p) para cruz.
En este ejemplo, la variable X puede tomar los valores 0, 1, 2, ... n.
Nótese que son n+1 (es posible que no salga ninguna cara).
Si consideramos uno de estos valores, el k (esto es, que en k de los n intentos sale cara y en nk
n
cruz), la probabilidad de cada posible ordenación es pk·qnk , existiendo   idénticas ordenaciones.
k
Intentos: 1 2 3 4 5 6 7 8
Resultados: E F F E E F E E E=Éxito; F=Fracaso

La distribución de probabilidad P(X = k) (k caras) será, por tanto:


 n n!
P( X  k)    p k (1  p)nk  p k (1  p)nk
k k!(n  k)!
Distribución binomial

Para la determinación de la media y la varianza en la distribución binomial se utiliza


el mismo método (función generadora de momentos), obteniéndose:

Media: E{ X}    n  p
Varianza: 2  n  p  (1  p)
Distribución binomial
Ejercicio:
Supongamos que la probabilidad de encontrar un usuario de Linux es del 4%. ¿Cuál es la
probabilidad de que en una muestra de 10 personas escogida al azar encontremos 3 usuarios
de Linux?
n
p( X  3)     p k  (1  p)nk
k
p  0.04 ; n  10 ; k 3

 10 
P( X  3)     (0.04)3  (1  0.04)103  0.006
3
Y… ¿cuál es la probabilidad de que encontremos como mucho 2 usuarios de Linux?
Queremos decir que sería un “éxito” encontrar 0, 1 ó 2 usuarios de Linux

 10  
P( X  0)     (0.04)0  (1  0.04)100  0.665 
0 
 10  
P( X  1)     (0.04)1  (1  0.04)101  0.277  P(X  2)  P(X  0)  P(X  1)  P(X  2)  0.994
1 
 10  
P( X  2)     (0.04)2  (1  0.04)102  0.052 
2 
Distribución geométrica

Consideremos el siguiente experimento:


Repetimos un experimento de Bernoulli donde la probabilidad de que ocurra un
suceso (éxito) es p y la probabilidad de que no ocurra (fracaso) es q = 1p hasta
conseguir el primer éxito.
Definimos la variable aleatoria X, como el número de fracasos hasta que se
obtiene el primer éxito. Si el éxito se produce en el k-ésimo experimento, se
habrá obtenido una sucesión de k1 fracasos, seguidos de un éxito. De este
modo, se puede expresar:

P(X  k)  1  p  p ; k  1,2 , ...


k 1
Se supone que el experimento
se realiza al menos una vez.

Ejemplo: Lanzar una moneda hasta obtener la primera cara. Se obtendrá una sucesión de
k1 cruces (fracasos), seguidas de una cara (éxito).

Función de distribución:
n
F (n)   (1  p)k1  p 1  (1  p)n
k 1
Distribución geométrica

Para la determinación de la media y la varianza en la distribución geométrica se


utiliza el mismo método (función generadora de momentos), obteniéndose:

1
Media: E{ X}   
p
1 p
Varianza: 2 
p2

Una conocida propiedad de la distribución geométrica es que carece de


“memoria”. Cuando lanzamos una moneda con la intención de obtener cara, ésta
no se “acuerda” de cuántos fracasos han tenido lugar hasta el momento, por tanto
en cada lanzamiento es como si se empezara de nuevo.

La distribución de probabilidad “pendiente” o futura no depende de cuántos


fracasos se hayan acumulado hasta ése momento; lo mismo da que se lleven 10,
1000 o los que sean. No sirve de nada que nos digan que se llevan realizados 10
lanzamientos sin “éxito” (cara), ello no hace más probable que se esté cerca de
obtener un éxito (una cara).
Distribución geométrica

Ejemplo. Se sabe que una máquina produce un 3% de piezas defectuosas.


Supongamos que se va a inspeccionar piezas hasta encontrar la primera pieza
defectuosa. ¿Cuál es la probabilidad de que se necesiten inspeccionar 4 o menos
piezas para encontrar la primera pieza defectuosa?

Sea X el número de inspecciones necesarias.


Luego X  G(0,03)
k
P( X  4)   (1  p)k1  p  (0.9711  0.03)  (0.9721  0.03)  (0.9731  0.03)  (0.9741  0.03)  0.115
k 1

Si consideráramos 10 inspecciones, la probabilidad aumentaría hasta 0,262 (26,2%).


Si consideráramos 20 inspecciones, la probabilidad aumentaría hasta 0,456 (45,6%).
Si consideráramos 30 inspecciones, la probabilidad aumentaría hasta 0,599 (59,9%).
Para 99 inspecciones, la probabilidad aumentaría sería ya de 0,951 (95%).

Por otro lado, si en 100 piezas se encuentran 3 defectuosas, por una simple regla de
tres, bastarían 100/3 (33,3) inspecciones para localizar una pieza defectuosa.

Tema2_DistrGeometrica.nb
Distribución de Poisson

Cuando en una distribución binomial el número de pruebas (n) es grande (>30) y la


probabilidad de éxito (p) es pequeña (<0.1), entonces la distribución binomial
converge a la distribución de Poisson:
e   k
P( X  k )  , x  0 ,1 ,2 , ...   0
k!
 representa la frecuencia del suceso modelado (en un intervalo de
tiempo o una región específica) y tiende a n·p.
Útil cuando analizamos fenómenos “raros” (poco probables). Por eso a veces se la
denomina “ley de los sucesos raros”.
Ejemplo: accidentes, defectos de fabricación, etc.

Media: E{ X}    n  p
Varianza: 2  

Nota: el máximo de la distribución se encuentra en x  


Distribución de Poisson

Ejercicio:
Si la probabilidad de fabricar un televisor defectuoso es p = 0.01, ¿cuál es la
probabilidad de que un lote de 100 televisores contenga más de 2 televisores
defectuosos?
Podríamos calcular la probabilidad complementaria P(X  2) exacta a través de la distribución
binomial, obteniendo:
 n
P(X  2)  1  P(X  2)  1  P(X  0)  P(X  1)  P(X  2)  Recuérdese: p( X  k)    pk q nk
k
Ac
 100 99 100  100 99 99  1   100 99 98  1 2 
 1                 
 0  100   1  100   100   2  100   100  
 1  0.9206 0,0794

El suceso complementario Ac: No más de 2 televisores defectuosos puede aproximarse con una
distribución de Poisson con  = np = 1, sumando P(0) + P(1) + P(2).

k 
P( X  k )  e (k  0,1,....)
k!
 1
P(Ac )  P( X  2)  P( X  0)  P( X  1)  P( X  2)  e 1   1  1    0.9197
 2

También podría gustarte