Está en la página 1de 23

Clculo o medicin de la Probabilidad

La probabilidad mide la mayor o menor posibilidad de que se d un determinado resultado (suceso o evento) cuando se realiza un experimento aleatorio. Para calcular la probabilidad de un evento se toma en cuenta todos los casos posibles de ocurrencia del mismo; es decir, de cuntas formas puede ocurrir determinada situacin. Los casos favorables de ocurrencia de un evento sern los que cumplan con la condicin que estamos buscando. La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento, entre 0% y 100%): El valor cero corresponde al suceso imposible; ejemplo: lanzamos un dado al aire y la probabilidad de que salga el nmero 7 es cero. El valor uno corresponde al suceso seguro, ejemplo: lanzamos un dado al aire y la probabilidad de que salga cualquier nmero del 1 al 6 es igual a uno (100%). El resto de sucesos tendr probabilidades entre cero y uno: que ser tanto mayor cuanto ms probable sea que dicho suceso tenga lugar. Mtodos de medicin de Probabilidad Uno de los mtodos ms utilizados es aplicando la Regla de Laplace: define la probabilidad de un suceso como el cociente entre casos favorables y casos posibles.

Ejemplos: a) Probabilidad de que al lanzar un dado salga el nmero 2: el caso favorable (f) es tan slo uno (que salga el dos), mientras que los casos posibles (n) son seis (puede salir cualquier nmero del uno al seis). Por lo tanto:

(o lo que es lo mismo, 16,6%)

b) Probabilidad de que al lanzar un dado salga un nmero par: en este caso los casos favorables (f) son tres (que salga el dos, el cuatro o el seis), mientras que los casos posibles (n) siguen siendo seis. Por lo tanto:

(o lo que es lo mismo, 50%) c) Probabilidad de que al lanzar un dado salga un nmero menor que 5: en este caso tenemos cuatro casos favorables (f) (que salga el uno, el dos, el tres o el cuatro), frente a los seis casos posibles. Por lo tanto: (o lo que es lo mismo, 66,6%) d) Probabilidad de ganarse el premio mayor de una lotera en la que juegan 100.000 nmerosnos: tan slo un caso favorable (f), el nmero que jugamos, frente a los 100.000 casos posibles (n). Por lo tanto:

(o lo que es lo mismo, 0,001%)

d) Probabilidad al lanzar una moneda, con un guila en una cara y un sol en la otra. Hay dos casos posibles (n) de ocurrencia (o cae guila o cae sol) y slo un caso favorable (f) de que pueda caer guila (pues slo hay un guila en la moneda). Por lo tanto:

(o, lo que es lo mismo, 50 %) Existe una probabilidad del 50% de obtener un guila al tirar una moneda. e) Probabilidad de elegir tal o cual fruta. Si en una canasta hay 20 peras y 10 manzanas. Qu fruta es ms probable que saque al azar de la canasta? Para este ejemplo tenemos que 30 es el total de frutas en la canasta; es decir los casos posibles (n). Para calcular la probabilidad de sacar una manzana los casos favorables (f) son 10 puesto que existen slo 10 manzanas. Por lo tanto:

(o, lo que es lo mismo, 33,3 %)

(o, lo que es lo mismo, 66,7 %) Fjate bien que 33,3% + 66,7% es igual al 100% porque siempre que saquemos algo de la canasta es seguro que ser una fruta. Condiciones importantes Para poder aplicar la Regla de Laplace el experimento aleatorio tiene que cumplir dos requisitos: a) El nmero de resultados posibles (sucesoso eventos) tiene que ser finito. Si hubiera infinitos resultados, al aplicar la regla "casos favorables dividido por casos posibles" el cociente siempre sera cero. b) Todos los sucesos o eventos tienen que tener la misma probabilidad. Si al lanzar un dado, algunas caras tuvieran mayor probabilidad de salir que otras, no podramos aplicar esta regla. A la regla de Laplace tambin se le denomina "probabilidad a priori", ya que para aplicarla hay que conocer antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen las mismas probabilidades. Cuando se realiza un experimento aleatorio un nmero muy elevado de veces, las probabilidades de los diversos posibles sucesos empiezan a converger hacia valores determinados, que son sus respectivas probabilidades. Ejemplo: si lanzo una vez una moneda al aire y sale "cara", quiere decir que el suceso "cara" ha aparecido el 100% de las veces y el suceso "cruz" el 0%. Si lanzo diez veces la moneda al aire, es posible que el suceso "cara" salga 7 veces y el suceso "cruz" las 3 restantes. En este caso, la probabilidad del suceso "cara" ya no sera del 100%, sino que se habra reducido al 70%. Si repito este experimento un nmero elevado de veces, lo normal es que las probabilidades de los sucesos "cara" y "cruz" se vayan aproximando al 50% cada una. Este 50% ser la probabilidad de estos sucesos segn el modelo frecuentista

Gaus Al iniciar el anlisis estadstico de una serie de datos, y despus de la etapa de deteccin y correccin de errores, un primer paso consiste en describir la distribucin de las variables estudiadas y, en particular, de los datos numricos. Adems de las medidas descriptivas correspondientes, el comportamiento de estas variables puede explorarse grficamente de un modo muy simple. Una de las distribuciones tericas mejor estudiadas en los textos de bioestadstica y ms utilizada en la prctica es la distribucin normal, tambin llamada distribucin gaussiana2, 3, 4, 5. Su

importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenmenos naturales y cotidianos siguen, aproximadamente, esta distribucin. Caracteres morfolgicos (como la talla o el peso), o psicolgicos (como el cociente intelectual) son ejemplos de variables de las que frecuentemente se asume que siguen una distribucin normal. No obstante, y aunque algunos autores6, 7 han sealado que el comportamiento de muchos parmetros en el campo de la salud puede ser descrito mediante una distribucin normal, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento. El uso extendido de la distribucin normal en las aplicaciones estadsticas puede explicarse, adems, por otras razones. Muchos de los procedimientos estadsticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas tcnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hiptesis puede obviarse cuando se dispone de un nmero suficiente de datos, resulta recomendable contrastar siempre si se puede asumir o no una distribucin normal. La simple exploracin visual de los datos puede sugerir la forma de su distribucin. No obstante, existen otras medidas, grficos de normalidad y contrastes de hiptesis que pueden ayudarnos a decidir, de un modo ms riguroso, si la muestra de la que se dispone procede o no de una distribucin normal. Cuando los datos no sean normales, podremos o bien transformarlos8 o emplear otros mtodos estadsticos que no exijan este tipo de restricciones (los llamados mtodos no paramtricos). La distribucin normal posee ciertas propiedades importantes que conviene destacar: Tiene una nica moda, que coincide con su media y su mediana. La curva normal es asinttica al eje de abscisas. Por ello, cualquier valor entre y es tericamente posible. El rea total bajo la curva es, por tanto, igual a 1. Es simtrica con respecto a su media . Segn esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor. La distancia entre la lnea trazada en la media y el punto de inflexin de la curva es igual a una desviacin tpica . Cuanto mayor sea , ms aplanada ser la curva de la densidad. El rea bajo la curva comprendido entre los valores situados aproximadamente a dos desviaciones estndar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el intervalo . La forma de la campana de Gauss depende de los parmetros . La media indica la posicin de la campana, de modo que para diferentes valores de la grfica es desplazada a lo largo del eje horizontal. Por otra parte, la desviacin estndar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de , ms se dispersarn los datos en torno a la media y la curva ser ms plana. Un valor pequeo de este parmetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribucin. Como se deduce de este ltimo apartado, no existe una nica distribucin normal, sino una familia de distribuciones con una forma comn, diferenciadas por los valores de su media y su varianza. De entre todas ellas, la ms utilizada es la distribucin normal estndar, que corresponde a una distribucin de media 0 y varianza 1.

6.8.6 Distribucin normal o gaussiana La distribucin gaussiana, recibe tambin el nombre de distribucin normal, ya que una gran 6.3 mayora de las v.a continuas de la naturaleza siguen esta distribucin. Se dice que una v.a. X sigue una distribucin normal de parmetros modo
6.4

, lo que representamos del

si su funcin de densidad es:

6.8.6.1 Observacin

Estos dos parmetros y coinciden adems con la media (esperanza) y la varianza 6.5 respectivamente de la distribucin como se demostrar ms adelante :

La forma de la funcin de densidad es la llamada campana de Gauss.

Figura: Campana de Gauss o funcin de densidad de una v.a. de distribucin normal. El rea contenida entre la grfica y el eje de abcisas vale 1.

Para el lector es un ejercicio interesante comprobar que sta alcanza un nico mximo (moda) en , que es simtrica con respecto al mismo, y por coinciden la media, la mediana y la

tanto , con lo cual en moda, y por ltimo,calcular sus puntos de inflexin.

El soporte de la distribucin es todo , de modo que la mayor parte de la masa de probabilidad (rea comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva se extienden asintticamente a los ejes, de modo que cualquier valor ``muy alejado" de la media es posible (aunque poco probable).

La forma de la campana de Gauss depende de los parmetros

indica la posicin de la campana (parmetro de centralizacin);

Figura: Distribuciones gaussianas con diferentes medias e igual dispersin.

(o equivalentemente, ) ser el parmetro de dispersin. Cuanto menor sea, mayor cantidad de masa de probabilidad habr concentrada alrededor de la media (grafo de f muy apuntado cerca de ) y cuanto mayor sea ``ms aplastado" ser.

Figura: Distribuciones gaussianas con igual media pero varianza diferente.

La funcin caracterstica de la distribucin normal, se comprueba ms adelante que es

Como consecuencia, la distribucin normal es reproductiva con respecto a los parmetros , ya que

,y

6.8.6.2 Observacin Como se ha mencionado anteriormente, la ley de probabilidad gaussiana la encontramos en la mayora de los fenmenos que observamos en la naturaleza, por ello gran parte de lo que resta del curso lo vamos a dedicar a su estudio y a el de las distribuciones asociadas a ella. Sin embargo, a pesar de su utilidad, hay que apuntar un hecho negativo para esta ley de probabilidad: La funcin no posee primitiva
6.6

conocida .

6.7

Las consecuencias desde el punto de vista prctico son importantes, ya que eso impide el que podamos escribir de modo sencillo la funcin de distribucin de la normal, y nos tenemos que limitar a decir que:

sin poder hacer uso de ninguna expresin que la simplifique. Afortunadamente esto no impide que para un valor de xfijo, F(x) pueda ser calculado. De hecho puede ser calculado con tanta precisin (decimales) como se quiera, pero para esto se necesita usar tcnicas de clculo numrico y ordenadores. Para la utilizacin en problemas prcticos de la funcin de distribucin F, existen ciertas tablas donde se ofrecen (con varios decimales de precisin) los valores F(x) para una serie limitada de valores xi dados. Normalmente F se encuentra tabulada para una distribucin Z, normal de media 0 y varianza 1 que se denomina distribucin normal tipificada:

En el caso de que tengamos una distribucin diferente siguiente cambio:

, se obtiene Z haciendo el

De manera general se tiene : 6.8.6.3 Proposicin (Cambio de origen y escala)

6.8

Sean

. Entonces

Este resultado puede ser utilizado del siguiente modo: Si calcular 1. ,

, y nos interesa

Hacemos el cambio 2.

y calculamos

Usamos la tabla 3, relativa a la distribucin aproximado) 3. Como ;

para obtener (de modo

tenemos que el valor obtenido en la tabla, FZ(z) es la probabilidad buscada. 6.8.6.4 Ejemplo

Supongamos que cierto fenmeno pueda ser representado mediante una v.a. queremos calcular la probabilidad de que Xtome un valor entre 39 y 48, es decir,

,y

Comenzamos haciendo el cambio de variable

de modo que

Vamos ahora a demostrar algunas de las propiedades de la ley gaussiana que hemos mencionado anteriormente. 6.8.6.5 Proposicin

Sea

. Entonces

Demostracin Por ser la normal una ley de probabilidad se tiene que

es decir, esa integral es constante. Con lo cual, derivando la expresin anterior con respecto a se obtiene el valor 0:

luego

Para demostrar la igualdad entre la vez derivando con respecto a :

, basta con aplicar la misma tcnica, pero esta

Luego

Para demostrar el resultado relativo a la funcin caracterstica, consideramos en primer lugar la v.a. tipificada de X,

y calculamos

Como

, por la proposicin 5 deducimos que

6.8.6.6 Aproximacin a la normal de la ley binomial Se puede demostrar (teorema central del lmite) que una v.a. discreta con distribucin binomial, se puede aproximar mediante una distribucin normal si n es suficientemente grande y p no est ni muy prximo a 0 ni a 1. Como el valor esperado y la varianza de X son respectivamente que es: y , la aproximacin consiste en decir

. El convenio que se suele utilizar para poder realizar esta aproximacin

aunque en realidad esta no da resultados muy precisos a menos que realmente nsea un valor muy grande o . Como ilustracin obsrvense las figuras 6.10 y 6.11.

Figura: Comparacin entre la funcin de densidad de una v.a. continua con distribucin y el diagrama de barras de

una v.a. discreta de distribucin para casos en que la aproximacin normal de la binomial es vlida. Es peor esta aproximacin cuando p est prximo a los bordes del intervalo [0,1].

Figura: La misma comparacin que en la figura anterior, pero realizada con parmetros con los que damos la aproximacin normal de la binomial es mejor.

6.8.6.7 Ejemplo

Durante cierta epidemia de gripe, enferma el de la poblacin. En un aula con 200 estudiantes de Medicina, cul es la probabilidad de que al menos 40 padezcan la enfermedad? Calcular la probabilidad de que haya 60 estudiantes con gripe. Solucin: La v.a. que contabiliza el nmero de alumnos que padece la gripe es

cuya media es y su varianza es . Realizar los clculos con la ley binomial es muy engorroso, ya que intervienen nmeros combinatorios de gran tamao, y potencias muy elevadas. Por ello utilizamos la aproximacin normal de X, teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable:

As aproximando la v.a. discreta binomial X, mediante la v.a. continua normal XN tenemos:

Tambin es necesario calcular

. Esta probabilidad se calcula exactamente como:

Dada la dificultad numrica para calcular esa cantidad, y como la distribucin binomial no est habitualmente tabulada hasta valores tan altos, vamos a utilizar su aproximacin normal, XN. Pero hay que prestar atencin al hecho de que XN es una v.a. continua, y por tanto la probabilidad de cualquier punto es cero. En particular,

lo que ha de ser interpretado como un error de aproximacin. Hay mtodos ms aproximados para calcular la probabilidad buscada. Por ejemplo, podemos aproximar por el valor de la funcin de densidad de XN en ese punto (es en el nico sentido en que se puede entender la funcin de densidad de la normal como una aproximacin de una probabilidad). As:

Por ltimo, otra posibilidad es considerar un intervalo de longitud 1centrado en el valor 60 del que deseamos hallar su probabilidad y hacer:

6.8.6.8 Ejemplo Segn un estudio, la altura de los varones de cierta ciudad es una v.a. X, que podemos considerar que se distribuye segn una ley gaussiana de valor esperado tpica . Dar un intervalo para el que tengamos asegurado que el habitantes de la ciudad estn comprendidos en l. y desviacin de los

Solucin: Tenemos que seguros de que el estrategias posibles: 1.

. Si buscamos un intervalo donde estar

de los habitantes tengan sus alturas comprendidas en l hay varias

Podemos tomar el percentil 50, ya que este valor deja por debajo suya a la mitad, 0,5, de la masa de probabilidad. Este valor, x0,5, se definira como:

donde

El valor z0,5 lo podemos buscar en la tabla 3 (distribucin

) y se obtiene

Por tanto podemos decir que la mitad de la poblacin tiene una altura inferior a . Este resultado era de esperar, ya que en la distribucin es simtrica y habr una mitad de individuos con un peso inferior a la media y otro con un peso superior (figura 6.12). Esto puede escribirse como:

El

de la poblacin tiene un peso comprendido en el intervalo

Figura: Intervalo donde tenemos asegurado que el 50% de la poblacin tiene un peso comprendido en l. Como se observa, no es un tamao ptimo, en el sentido de que el intervalo es demasiado grande (longitud infinita a la izquierda).

2. Anlogamente podemos considerar el percentil 50, y tomar como intervalo aquellos pesos que lo superan. Por las mismas razones que en el problema anterior, podremos decir:

El 3.

de la poblacin tiene un peso comprendido en el intervalo

Los anteriores intervalos, an dando un resultado correcto, no son satisfactorios en el sentido de que son muy grandes, y no tienen en cuenta la simetra de la distribucin normal para tomar un intervalo cuyo centro sea . Vamos a utilizar entonces otra tcnica que nos permita calcular el intervalo centrado en la media, y que adems ser el ms pequeo posible que contenga al de la poblacin.

Para ello observamos que la mayor parte de probabilidad est concentrada siempre alrededor de la media en las leyes gaussianas. Entonces podemos tomar un intervalo que contenga un un de probabilidad del lado izquierdo ms prximo a la media, y

del derecho (figura 6.13).

Figura: Intervalo donde tenemos asegurado que el 50% de la poblacin tiene un peso comprendido en l. En este caso el intervalo es ms pequeo que el anterior y est

centrado en

Esto se puede describir como el intervalo

donde x0,25 es el valor que deja por debajo de s al

de la masa de probabilidad

y x0,75 el que lo deja por encima (o lo que es lo mismo, el que deja por debajo al de las observaciones). Del mismo modo que antes estos valores pueden ser buscados en una tabla de la distribucin normal, tipificando en primera instancia para destipificar despus:

donde

En una tabla encontramos el valor z0,75, y se destipifica:

Anlogamente se calculara

donde

Por la simetra de la distribucin normal con respecto al origen, tenemos que z0,25= z0,75.Luego

En conclusin:

El

de la poblacin tiene un peso comprendido en el intervalo [168,25,181,75].

De entre los tres intervalos que se han calculado el que tiene ms inters es el ltimo, ya que es simtrico con respecto a la media, y es el ms pequeo de todos los posibles (ms preciso). Este ejemplo es en realidad una introduccin a unas tcnicas de inferencia estadstica que trataremos posteriormente, conocidas con el nombre de ``estimacin confidencial'' o ``clculo de intervalos de confianza''.

Calculo cifras significativas Se denominan cifras significativas a todos aquellos dgitos de un nmero que se conocen con seguridad (o de los que existe una cierta certeza). En la medida expresada como 4,563 m si conocemos con seguridad hasta la 4 cifra. Nos da idea de que el instrumento con que se ha medido esta longitud puede apreciar hasta los milmetros. Esta medida tiene cuatro cifras significativas. Las cifras significativas son los dgitos de un nmero que consideramos no nulos. Norma Ejemplo Son significativos todos los dgitos distintos de cero. 8723 tiene cuatro cifras significativas Los ceros situados entre dos cifras significativas son significativos. 105 tiene tres cifras significativas Los ceros a la izquierda de la primera cifra significativa no lo son. 0,005 tiene una cifra significativa Para nmeros mayores que 1, los ceros a la derecha de la coma son significativos. 8,00 tiene tres cifras significativas Para nmeros sin coma decimal, los ceros posteriores a la ltima cifra distinta de cero pueden o no considerarse significativos. As, para el nmero 70 podramos considerar una o dos cifras significativas. Esta ambigedad se evita utilizando la notacin cientfica. 7 102 tiene una cifra significativa 7,0 102 tiene dos cifras significativas