Está en la página 1de 9

Probabilidad y Estadística

B Macías, F Ciencias 2011-1


ACORDEÓN 1 (MUY beta)

I.1 Nociones Básicas

Definición frecuentista de probabilidad: la probabilidad de un evento es la


proporción de veces que sucede en el largo plazo respecto al total de
experimentos / observaciones.

Ejemplos:
la probabilidad de que llueva es del 15%
la probabilidad de que el auto arranque a -20 C es 0.38

Luego veremos que es posible probar (ley grandes números) que en el muy largo
plazo (aún por definir) la probabilidad calculada converge a su probabilidad
real)

Nótese que para los frecuentistas la probabilidad de un evento es un número


real, al que aproximamos usando técnicas diseñadas para eso.

Antes de proceder al cálculo de probabilidades es necesario iniciar con una


conceptualización del fenómeno a estudiar. Lo primero que notamos es que el
cálculo de la probabilidad de que un evento E resulte de tal o cual manera debe
de contrastarse con la probabilidad de que E ocurra de otra. P. ej., al lanzar
una moneda al aire la probabilidad de que una moneda caiga "águila" (siendo un
poco informales con la notación):

P(E=águila)

es complementaria a la probabilidad de que caiga "sol" (el único otro caso


posible), y si la moneda está bien balanceada, tendremos además la intuición de
que:

P(E=águila) = P(E=sol)

Otro ejemplo sería calcular la probabilidad de que el clima en un cierto dia sea
despejado:

P(E'=despejado)

que dependera de las probabilidades de todos los otros casos bajo consideración
(medio nublado, nublado, etc).

Para comenzar requerimos por tanto definir un espacio de muestra Ω conteniendo


todos los posibles resultados de la observación o experimento bajo estudio:

Ω = { despejado, medio nublado, nublado, lluvioso }

Parecería que podemos entonces concebir la probabilidad P como una función que
tiene como dominio . Esto es demasiado limitado, porque además de los cálculos
anteriores, me gustaría poder escribir combinaciones de circunstancias, como:

P(E'=despejado o medio nublado)


P(E'=no sea despejado)
...

La solución consiste en tomar como dominio de P el conjunto A de subconjuntos de


Ω:

A = { 0, {despejado}, {medio nublado}, {nublado}, {lluvioso},


{despejado, medio nublado}, {despejado, nublado}, ...,
{despejado, medio nublado, nublado},...
{despejado, medio nublado, nublado, lluvioso} }

De este modo podemos escribir "la probabilidad de que el día esté nublado","la
probabilidad de que el día esté nublado o lluvioso", y "la probabilidad de que
el día no esté nublado" respectivamente como:

P({nublado})
P({nublado,lluvioso})
P({nublado}C) = P({despejado,medio nublado,lluvioso})

(en el tercer caso el universo respecto al que se complementa es Ω).

Def. Un espacio de muestra Ω es un conjunto de puntos que define los posibles


resultados de un experimento.

Def. Dado el conjunto A de subconjuntos de Ω, un evento es cualquier A en A.

(Para definiciones más precisas, ver p. ej. Hoel pp. 7-8).

Ejemplo. Sea:

Ω = { despejado, medio nublado, lluvioso }

A puede ser:

A = {
{despejado},
{medio nublado},
{lluvioso},
{medio nublado, lluvioso}
}

y un evento puede ser:

{ medio nublado, lluvioso },

o sea, no despejado.

Nota. Tanto el conjunto vacío 0 como Ω están en A y son por lo tanto eventos.

Definimos ahora la probabilidad de un evento como una función que entrega un


número que indica qué tan probable es que el evento suceda. Por convención, la
probabilidad de un evento imposible (el vacío) es cero y la probabilidad de que
ocurra cualquier resultado en el espacio de muestra Ω es uno. Las propiedades de
esta función de probabilidad se introducen a través de los siguientes tres
axiomas:

Def. Dado A un conjunto de subconjuntos sobre Ω, la función P:A --> R es una


medida de probabilidad si:

1. P(Ω)=1
2. P(A)>=0 para toda A en A
3. Para A0, A1, ... ajenos, P(A0+A1 ...)= Σ P(Ai)

(Usaremos "+" para denotar la unión de conjuntos, "*" para la intersección, el


superíndice c en "Ac" para el complemento).

De los axiomas anteriores se siguen algunos lemas inmediatamente.

Lema.
P(0) = 0
P(Ac) = 1-P(A)
P(B) = P(A*B)+P(Ac*B) para cualquier A, B
P(Σi Ai) = 1-P(Πi Ai)
Si A C B, P(A)<=P(B)
P(A)<=1

Ejercicio. Demostrar.

Ejercicio. Demostrar:

P(A+B) = P(A)+P(B)-P(A*B)
P(A+B+C) = P(A)+P(B)+P(C)-P(A*B)-P(A*C)-P(B*C)+P(A*B*C)

Ejercicio. Generalizar.

Def. Una tripleta (Ω,A,P) define un espacio de probabilidad.


I.II Probabilidad Condicional, Bayes

Probabilidad Condicional

Def. La probabilidad condicional de un evento A dado otro evento B se define


como:

P(A|B) = P(A*B)/P(B)

Justificación: usar la interpretación de probabilidad como frecuencia relativa.

De la definición anterior se deriva uno de los teoremas más importantes en


Probabilidad, y de gran aplicación en muchas áreas de la Computación. Supongamos
que Ω está dividido en una partición {A1,...An}:

A1 + A2 +... + An = Ω, con Ai*Aj=0 para todas i,j,i!=j

Para cualquier B,

P(B) = Σk P(B*Ak)

(la unión de A's es Ω), y:

P(B*Ak) = P(Ak)*P(B|Ak)

por la definición de condicionalidad. De aquí se sigue el famoso:

Teorema de Bayes

P(Ai|B) = P(B|Ai)*P(Ai)/P(B)

ó:

P(Ai|B) = P(Ai)*P(B|Ai)/Σk P(Ak)*P(B|Ak)

Ejemplo (H. Sahai, 1992). Un paciente que no fuma sufre insuficiencia


respiratoria (E). Se sabe que:

E1: condición normal, P(E|E1) = .002, con P(E1)=.991


E2: cáncer de pulmón, P(E|E2) = .9, con P(E2) = .001
E3: sarcoidosis, P(E|E3) = .95, con P(E3) = .008

(Nota: E1, E2, E3 definen una partición de Ω; Σ P(Ei) = 1).


P(E) = P(E|E1)*P(E1)+P(E|E2)*P(E2)+P(E|E3)*P(E3)
= .002*.991+.9*.001+.95*.008
= 0.010482

¿Cuál es el diagnóstico más probable?

P(E1|E) = .1991
P(E2|E) = .859
P(E3|E) = .7251

R: sarcoidosis

Nota: si lo único que se desea es la Ei que maximiza P(Ei|E), el cálculo de P(E)


es innecesario).

Ejercicio. Calcular el espacio de probabilidad. Ya dimos una partición de Ω.


Otra más "completa" es:
Ω = { E1*E, E2*E, E3*E, E1*-E, E2*-E, E3*-E }

Podemos calcular:

P(E1*E) = P(E|E1)*P(E1) = .002*.991 = 0.001982


P(E2*E) = P(E|E2)*P(E2) = .9 * .001 = 0.0009
P(E3*E) = P(E|E3)*P(E3) = .95 * .008 = 0.0076

P(E1*-E) = P(-E|E1)*P(E1) = (1-P(E|E1))*P(E1) = 0.989018


P(E2*-E) ... = .0001
P(E3*-E) ... = .0004

La suma total debe de dar 1. Veamos:

Σ P(Ei*E)+P(Ei*-E)= Σ P(E|Ei)P(Ei)+(1-P(E|Ei))P(Ei)
= Σ P(Ei)
= 1

Ejemplo (falsos positivos). Se administra una prueba a un paciente para ver si


tiene una enfermedad E que tiene el 0.1% de la población. Dicha prueba:

P(Positiva|E) = .99
P(Positiva|-E) = .05

Calcular P(-E|Positiva)

P(-E|Positiva) = P(Positiva|-E)*P(-E)/
(P(Positiva|-E)*P(-E)+P(Positiva|E)*P(E))
= .05 * .999 / ( 0.04995 + .99 * .001 )
= .9805

O sea, aunque la prueba sea muy buena, dado que la incidencia de la enfermedad
es muy baja la inmensa mayoría de los pacientes que dan positivo no tienen la
enfermedad.

Def. Dos eventos A y B son independientes si:

P(A*B) = P(A)*P(B)

Que dos eventos sean independientes significa básicamente que la probabilidad de


que ocurra uno no está relacionada con la del otro. Otra manera de poner esto
es:

Lema. Dos eventos A y B son independientes ssi:

P(A|B) = P(A).

Ejercicio. Comprobar que ambas nociones son equivalentes.

La noción puede extenderse.

Def. Los eventos:

A = {Ai, A2, ... An}

son mutuamente independientes (n>=3) ssi::

1. P(A1*A2*...An) = P(A1)*P(A2)*...P(An)

2. Toda subcolección de eventos {Aj1,Aj2,...Ajk} de A con 2<=k<n, son mutuamente


independientes.
I.III Variables Aleatorias

Sigue una de las definiciones centrales de la probabilidad: la noción de


variable aleatoria. La idea detrás es simplemente tener una función que etiquete
con un número real cada uno de los eventos, para poder así referirnos a los
eventos no directamente, sino a "aquellos que tengan tal o cual etiqueta".

Def. Una variable aleatoria discreta en (Ω,A,P) es una funcion X:

X: Ω -> {x1,x2,...}

sobre un espacio de muestra discreto Ω tal que {x1,x2,...} es un conjunto finito


de reales y el conjunto:

{ω ε Ω | X(ω)=xi}

define un evento para toda xi.

Notas

1. Normalmente X es una función total sobre Ω (está definida para cada punto en
Ω).

2. No es necesario restringir el rango a un conjunto finito; nuestros ejemplos


por ahora estarán sin embargo limitados a esta restricción por lo que una
definición más general es innecesaria.

3. El apelativo de "variable aleatoria" es desafortunado, porque estamos en


realidad definiendo una función y no una variable, y una que además no es
aleatoria. Si el nombre causa confusión, se sugiere cambiarlo en la mente por
otro más adecuado como el de "función de etiquetado"

Notacion: P({ω ε Ω | X(ω)=xi}) se abrevia como P(X=xi).

Ejemplo. Modelemos un experimento en el que un apostador tira al aire tres


monedas, de modo que por cada "águila" que caiga gana un peso y por cada "sol"
pierde uno. El espacio de muestra es inmediato:

Ω = { AAA, AAS, ASA, ASS, SAA, SAS, SSA, SSS }

De aquí definimos una función X que mapee cada punto en Ω a la ganancia final
del jugador:

ω = AAA AAS ASA ASS SAA SAS SSA SSS


X(ω) = 3 1 1 -1 1 -1 -1 -3

Nótese que X funciona exactamente como una función que etiqueta cada punto en el
espacio de muestra de manera que ahora puedo referirme a los eventos en los que
se gana 3 pesos, aquellos en los que pierde 1, etc:

P(X=3)
P(X=-1)
...

La función X está definida para capturar la información que es relevante para el


jugador (¿cuánto se gana o pierde?); podríamos desde luego definirla de otra
manera, pero perderíamos la información necesaria al momento de evaluar las
probabilidades. Esto se ve en el siguiente ejercicio.

Ejercicio. Evaluar P(X=xi) para cada xi en {3,1,-1,3} suponiendo monedas bien


balanceadas y que el resultado de lanzar cada moneda es independiente de los
demás.

Ejemplo (constante). Para Ω arbitraria, puedo definir una variable aleatoria


constante X tal que X(ω)=c para toda ω ε Ω. De este modo,

P(X=c) = P({ω ε Ω|X(ω)=c}) = P(Ω) = 1

y:

P(X=c') = P({ω ε Ω|X(ω)=c'}) = P(0) = 0 para c'!=c


I.IV Funciones de Densidad Discretas

Def. Una función de densidad discreta es la función f respecto a una variable


aleatoria discreta X definida por:

f(x) = P(X=x)

para alguna medida de probabilidad P.

Ejemplo (densidad binomial). Regresemos al ejemplo del jugador y las tres


monedas. bajo las suposiciones indicadas se puede ver fácilmente que:

P(X=3) = 1/8
P(X=1) = 3(1/8)
P(X=-1) = 3(1/8)
P(X=-3) = 1/8
P(X=k) = 0 cuando k no esté en {3,1,-1,-3}

Estas ecuaciones definen exactamente la función de densidad asociada. Este


ejemplo conforma además un patrón muy común en problemas probabilísticos. Veamos
cómo generalizarlo.

Digamos que tenemos un modelo experimental muy sencillo, en el que un


experimento solo puede tener dos resultados: "éxito" (denotado por 1) con
probabilidad p, y "fracaso" (0) con probabilidad (1-p). Al realizar n
experimentos independientes entre sí de este tipo defino implícitamente el
espacio de muestra:

Ω = { 000...00, 000...01, 000...10, ..., 111...10, 111...11 }

compuesto por 2n cadenas binarias, cada una de n dígitos binarios. La pregunta


ahora es: ¿cuál es la probabilidad de obtener exactamente k éxitos en estos n
experimentos? Si X es la variable aleatoria asociada al número de éxitos en cada
ω,

P(X=k)= (# cadenas en Ω con k unos) *


P(en una cadena haya k unos y (n-k) ceros)

Como se vió (ayudantía), el primer factor es el llamado coeficiente binomial


C(k,n)=n!/k!(n-k)!; el segundo factor es (cada experimento es independiente de
los demás):

P(A1...An) = Π P(Ai)

donde k de estas Ai son éxitos, y el resto fracasos. Se sigue:

P(A1...An) = Πk P(Ai=1) Πn-k P(Ai=0)


= pk(1-p)n-k

Por tanto, la densidad asociada a este problema, conocida como la densidad


binomial, es:

f(k) = C(k,n) pk(1-p)n-k para k=0,...,n


f(k) = 0 para cualquier otro valor de k

Notación: Son equivalentes:

f es una función de densidad


f es una distribución

Cuando una variable aleatoria X tiene una densidad con un nombre específico,
también se dice que X tiene una distribución del mismo tipo:
X tiene una densidad binomial
X tiene una distribución binomial

También podría gustarte