Está en la página 1de 31

5.

DISTRIBUCIONES DE PROBABILIDAD CONTINUAS Y MUESTRALES

5.1. Distribuciones de Probabilidad de una variable aleatoria continua


Toda distribucin de probabilidad es generada por una variable aleatoria x, la que
puede ser de dos tipos:
Variable aleatoria discreta (x). Se le denomina variable porque puede tomar diferentes
valores:
Aleatoria, porque el valor tomado es totalmente al azar y
Discreta porque solo puede tomar valores enteros y un nmero finito de ellos.
Ejemplos:
x Variable que nos define el nmero de burbujas por envase de vidrio que son
generadas en un proceso dado.
x0, 1, 2, 3, 4, 5, etc, etc. burbujas por envase
xVariable que nos define el nmero de productos defectuosos en un lote de 25
productos.
x0, 1, 2, 3,....,25 productos defectuosos en el lote
xVariable que nos define el nmero de alumnos aprobados en la materia de
probabilidad en un grupo de 40 alumnos.
x0, 1, 2, 3, 4, 5,....,40 alumnos aprobados en probabilidad
Con los ejemplos anteriores nos damos cuenta claramente que los valores de la
variable x siempre sern enteros, nunca fraccionarios.
Variable aleatoria continua (x). Se le denomina variable porque puede tomar diferentes
valores, aleatoria, porque los valores que toma son totalmente al azar y continua porque
puede tomar tanto valores enteros como fraccionarios y un nmero infinito de ellos.
Ejemplos:
xVariable que nos define el dimetro de un engrane en pulgadas
x5.0, 4.99, 4.98, 5.0, 5.01, 5.0, 4.96
xVariable que nos define la longitud de un cable o circuito utilizado en un arns de
auto
x20.5 cm, 20.1, 20.0, 19.8, 20,6, 20.0, 20.0
xVariable que nos define la concentracin en gramos de plata de algunas muestras de
mineral
x14.8gramos, 12.0, 10.0, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8
Como se observa en los ejemplos anteriores, una variable continua puede tomar
cualquier valor, entero o fraccionario, una forma de distinguir cuando se trata de una
variable continua es que esta variable nos permite medirla o evaluarla, mientras que una
variable discreta no es medible, es una variable de tipo atributo, cuando se inspecciona

un producto este puede ser defectuoso o no, blanco o negro, cumple con las
especificaciones o no cumple, etc, etc.
Las variables descritas anteriormente nos generan una distribucin de probabilidad, las
que pueden ser.
1) 1) Distribucin de probabilidad discreta.
2) 2) Distribucin de probabilidad continua
5.2 MEDIA VARIA ZA DE U A VARIABLE ALEATORIA CO TI UA

La Distribucin Normal
La distribucin normal fue reconocida por primera vez por el francs
Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich
Gauss (1777-1855) elabor desarrollos ms profundos y formul la
ecuacin de la curva; de ah que tambin se la conozca, ms
comnmente, como la "campana de Gauss". La distribucin de una
variable normal est completamente determinada por dos
parmetros, su media y su desviacin estndar, denotadas
generalmente por y . Con esta notacin, la densidad de la
normal viene dada por la ecuacin:

Ecuacin 1:

que determina la curva en forma de campana que tan bien


conocemos (Figura 2). As, se dice que una caracterstica
sigue una
distribucin normal de media y varianza
, y se denota como
, si su funcin de densidad viene dada por la Ecuacin 1.
Al igual que ocurra con un histograma, en el que el rea de cada
rectngulo es proporcional al nmero de datos en el rango de valores
correspondiente si, tal y como se muestra en la Figura 2, en el eje
horizontal se levantan perpendiculares en dos puntos a y b, el rea
bajo la curva delimitada por esas lneas indica la probabilidad de que
la variable de inters, X, tome un valor cualquiera en ese intervalo.
Puesto que la curva alcanza su mayor altura en torno a la media,
mientras que sus "ramas" se extienden asintticamente hacia los
ejes, cuando una variable siga una distribucin normal, ser mucho
ms probable observar un dato cercano al valor medio que uno que
se encuentre muy alejado de ste.
Propiedades de la distribucin normal:

La distribucin normal posee ciertas propiedades importantes que


conviene destacar:
i.
ii.

iii.

iv.

v.

vi.

Tiene una nica moda, que coincide con su media y su


mediana.
La curva normal es asinttica al eje de abscisas. Por
ello, cualquier valor entre
y
es tericamente
posible. El rea total bajo la curva es, por tanto, igual a
1.
Es simtrica con respecto a su media . Segn esto,
para este tipo de variables existe una probabilidad de un
50% de observar un dato mayor que la media, y un 50%
de observar un dato menor.
La distancia entre la lnea trazada en la media y el punto
de inflexin de la curva es igual a una desviacin tpica (
). Cuanto mayor sea , ms aplanada ser la curva
de la densidad.
El rea bajo la curva comprendido entre los valores
situados aproximadamente a dos desviaciones estndar
de la media es igual a 0.95. En concreto, existe un 95%
de posibilidades de observar un valor comprendido en el
intervalo
.
La forma de la campana de Gauss depende de los
parmetros y (Figura 3). La media indica la posicin
de la campana, de modo que para diferentes valores de
la grfica es desplazada a lo largo del eje horizontal.
Por otra parte, la desviacin estndar determina el grado
de apuntamiento de la curva. Cuanto mayor sea el valor
de , ms se dispersarn los datos en torno a la media
y la curva ser ms plana. Un valor pequeo de este
parmetro indica, por tanto, una gran probabilidad de
obtener datos cercanos al valor medio de la distribucin.

Como se deduce de este ltimo apartado, no existe una nica


distribucin normal, sino una familia de distribuciones con una forma
comn, diferenciadas por los valores de su media y su varianza. De
entre todas ellas, la ms utilizada es la distribucin normal
estndar, que corresponde a una distribucin de media 0 y varianza
1. As, la expresin que define su densidad se puede obtener de la
Ecuacin 1, resultando:

Es importante conocer que, a partir de cualquier variable X que siga


una distribucin

, se puede obtener otra caracterstica Z con

una distribucin normal estndar, sin ms que efectuar la


transformacin:
Ecuacin 2:
Esta propiedad resulta especialmente interesante en la prctica, ya
que para una distribucin
existen tablas publicadas (Tabla 1) a
partir de las que se puede obtener de modo sencillo la probabilidad
de observar un dato menor o igual a un cierto valor z, y que
permitirn resolver preguntas de probabilidad acerca del
comportamiento de variables de las que se sabe o se asume que
siguen una distribucin aproximadamente normal.
Consideremos, por ejemplo, el siguiente problema: supongamos que
se sabe que el peso de los sujetos de una determinada poblacin
sigue una distribucin aproximadamente normal, con una media de
80 Kg y una desviacin estndar de 10 Kg. Podremos saber cul es
la probabilidad de que una persona, elegida al azar, tenga un peso
superior a 100 Kg?
Denotando por X a la variable que representa el peso de los
individuos en esa poblacin, sta sigue una distribucin
. Si
su distribucin fuese la de una normal estndar podramos utilizar la
Tabla 1 para calcular la probabilidad que nos interesa. Como ste no
es el caso, resultar entonces til transformar esta caracterstica
segn la Ecuacin 2, y obtener la variable:

para poder utilizar dicha tabla. As, la probabilidad que se desea


calcular ser:

Como el rea total bajo la curva es igual a 1, se puede deducir que:

Esta ltima probabilidad puede ser fcilmente obtenida a partir de la


Tabla 1, resultando ser
. Por lo tanto, la probabilidad
buscada de que una persona elegida aleatoriamente de esa poblacin
tenga un peso mayor de 100 Kg , es de 10.9772=0.0228, es decir,
aproximadamente de un 2.3%.

De modo anlogo, podemos obtener la probabilidad de que el peso de


un sujeto est entre 60 y 100 Kg:

De la Figura 2, tomando a=-2 y b=2, podemos deducir que:

Por el ejemplo previo, se sabe que


. Para la segunda
probabilidad, sin embargo, encontramos el problema de que las
tablas estndar no proporcionan el valor de
para valores
negativos de la variable. Sin embargo, haciendo uso de la simetra
de la distribucin normal, se tiene que:

Finalmente, la probabilidad buscada de que una persona elegida al


azar tenga un peso entre 60 y 100 Kg., es de 0.97720.0228=0.9544, es decir, aproximadamente de un 95%. Resulta
interesante comprobar que se obtendra la misma conclusin
recurriendo a la propiedad (iii) de la distribucin normal.
No obstante, es fcil observar que este tipo de situaciones no
corresponde a lo que habitualmente nos encontramos en la prctica.
Generalmente no se dispone de informacin acerca de la distribucin
terica de la poblacin, sino que ms bien el problema se plantea a la
inversa: a partir de una muestra extrada al azar de la poblacin que
se desea estudiar, se realizan una serie de mediciones y se desea
extrapolar los resultados obtenidos a la poblacin de origen. En un
ejemplo similar al anterior, supongamos que se dispone del peso de
n=100 individuos de esa misma poblacin, obtenindose una media
muestral de
Kg, y una desviacin estndar muestral
Kg,
querramos extraer alguna conclusin acerca del valor medio real de
ese peso en la poblacin original. La solucin a este tipo de
cuestiones se basa en un resultado elemental de la teora estadstica,
el llamado teorema central del lmite. Dicho axioma viene a decirnos
que las medias de muestras aleatorias de cualquier variable siguen
ellas mismas una distribucin normal con igual media que la de la
poblacin y desviacin estndar la de la poblacin dividida por
.
En nuestro caso, podremos entonces considerar la media muestral
, con lo cual, a partir de la propiedad (iii) se conoce
que aproximadamente un 95% de los posibles valores de
caeran

dentro del intervalo


. Puesto que los valores de
y son desconocidos, podramos pensar en aproximarlos por sus
anlogos muestrales, resultando
. Estaremos, por lo tanto, un 95% seguros de que el peso medio
real en la poblacin de origen oscila entre 75.6 Kg y 80.3 Kg.
Aunque la teora

estadstica subyacente es mucho ms compleja, en lneas generales


ste es el modo de construir un intervalo de confianza para la media
de una poblacin.
5.3. DISTRIBUCI DE PROBABILIDAD T-STUDE T
El resultado ofrecido en el teorema anterior nos proporciona la base del
desarrollo de procedimientos para hacer inferencias con respecto a la media de una
poblacin normal con una varianza 2 . En este caso el teorema 7.1 nos dice que

n Y / tiene una distribucin normal estndar. Cuando se desconoce se le

puede estimar mediante S =

S 2 y la expresin


Y
n
S

nos dar como base para el desarrollo de mtodos de inferencias con respecto a .

Demostraremos que la distribucin de probabilidad de

n(Y ) / S esta dada

por una funcin de densidad de probabilidad conocida como distribucin t de Student


con n 1 grados de libertad . La definicin general de una variable aleatoria que posee
una distribucin t de Student ( 0 simplemente distribucin t), es la siguiente:

DEFINICION: Sea Z una variable aleatoria normal estndar y sea


aleatoria ji - cuadrada con grados de libertad.
Entonces si Z y 2

son independientes,

2 una variable

T=

2 /

se dice que tiene una distribucin t con grados de libertad.

Si Y1, Y2, ..., Yn es una muestra aleatoria de una poblacin normal con media y
varianza 2, se puede aplicar el teorema 7.1 para demostrar que Z =
tiene

una

distribucin

normal

estndar.

El

teorema

7.3


n Y /

nos

dice

que

= (n 1)S / tiene una distribucin con v = n 1 grados de libertad y que Z y


2

2 son independientes (ya que Yy 2 los son). Por lo tanto, por la definicin 7.2

T=

2 /v

n Y /

Y
= n
S
(n 1)S 2 / 2 (n 1)

tiene una distribucin t con (n-1) grados de libertad.

La ecuacin para la funcin de densidad t no se presentara aqu, pero se dan


algunas indicaciones para su obtencin en los ejercicios del final del capitulo. Como la
funcin de densidad normal estndar, la funcin de densidad t es simtrica con
respecto a cero, adems, para v > 1, E( T ) =0 y para v > 2, V ( T ) = v / ( v - 2 ). As
vemos que una variable aleatoria con una distribucin t tiene el mismo valor
esperado que una variable normal estndar. Sin embargo, una variable aleatoria
normal estndar siempre tiene una varianza de 1, mientras que la varianza de una
variable aleatoria con una distribucin t siempre es mayor que 1.

En al figura 7.2 se muestran las grficas de una funcin de densidad normal


estndar y de una funcin de densidad t. Ntese que ambas funciones de densidad
son simtricas con respecto al origen, pero que la densidad t tiene mas masa
probabilstica en las colas.
Normal

7.2

estndar

Una comparacin entre las funciones


de densidad normal estndar y t

valores de tales que P ( T > t ) = para =0.100,0.050,0.025,0.010 y 0.005


se dan en la tabla 5 del apndice III . Por ejemplo si una variable aleatoria tiene una
distribucin t con 21 grados de libertad (g.1.), t 0.100 se encuentra al buscar en el
rengln encabezado por 21g.1. y en la columna con t 0.100 . aplicando la tabla 5, vemos
que t 0.100 = 1.323. Por lo tanto, para 21g.1. la probabilidad de que una variable
aleatoria con distribucin t sea mayor que 1.323 es 0.100.

5.4. DISTRIBUCI DE PROBABILIDAD TIPO GAMMA


Los tiempos que tardan en revisar un motor de un automvil avin tienen una
distribucin de frecuencias sesgadas. Las poblaciones asociadas a estas variables
aleatorias frecuentemente tienen distribuciones que se pueden modelar
adecuadamente por la funcin de densidad tipo gamma.

Funcin de densidad de probabilidad para una variable aleatoria tipo gamma:

, > 0;0 y
f ( y) =

y 1 e y /
( )
0

En donde:

( ) = y 1e
0

dy

La cantidad de la de la funcin alfa se conoce como la funcin gamma. La


integracin directa nos da que la funcin uno igual a uno. La integracin por partes nos
da que la funcin de alfa menos uno alfa menos uno por la funcin alfa menos uno

para cualquier intervalo de alfa mayor o igual a uno y que la funcin de n sea igual a n
menos uno factorial, para un nmero entero n.

En el caso especial cuando alfa es un nmero entero, se puede expresar la


funcin de distribucin de una variable aleatoria tipo gamma como una suma de
ciertas variables aleatorias de Poisson.

Si alfa no es un nmero entero, es imposible encontrar la antiderivada del


integrando de la expresin:

0 < c < d <


donde

y 1 e y /
dy
( )

Y por lo tanto es importante obtener las reas bajo la funcin de densidad tipo
gamma mediante integracin directa.

Hay dos casos especiales de las variables aleatorias tipo gamma que merece
consideracin particular:

Una variable aleatoria tipo gamma que tiene una funcin de densidad con
parmetros alfa igual a v entre dos y beta igual a dos se denomina variable aleatoria ji
- cuadrada.
Ji - cuadrada se presenta con frecuencia en la teora de la estadstica. El parmetro v
se denomina nmero de grados de libertad asociado a la variable aleatoria ji cuadrada.

La funcin de densidad gamma para el caso especial v = 1 se denomina


funcin de densidad exponencial.

> 0;0 y <


f ( y) =

y /

0
En cualquier punto.

La funcin de densidad exponencial muchas veces es til en los modelos de


duracin de componentes elctricos.

Un fusible es un ejemplo de un componente para el cual este supuesto suele


cumplirse.

5.5. DISTRIBUCI DE PROBABILIDAD TIPO BETA


La distribucin de probabilidad beta es una funcin de densidad con dos
parmetros definida en el intervalo cerrado 0 <= y <= 1. Se utiliza frecuentemente
como modelo para fracciones, tal como la proporcin de impurezas en un producto
qumico o la fraccin de tiempo que una maquina est en reparacin.

Funcin de densidad probabilidad:

, > 0;0 y 1
y 1 (1 y ) 1
f ( y) = {
B( , )

En cualquier otro punto donde

B ( , ) = y 1 (1 y ) 1 dy =

( ) ( )
( + )

Ntese que la definicin de (y) sobre el intervalo 0<= y <= 1 restringe su aplicacin. Si
c<= y <= d, y = (y- c) / (d- c) definir una nueva variable en el intervalo 0<= y <= 1. As
la funcin de densidad beta se puede aplicar a una variable aleatoria definida en el
intervalo c<= y <= d mediante una traslacin y una medicin en la escala.

La funcin de distribucin acumulativa para la variable aleatoria beta se llama


comnmente funcin beta y esta dada por

F ( y) =

t 1 (1 t ) 1
dt = I y ( , )
B( , )

Para valores enteros de alfa y beta, Iy (alfa, beta) est relacionada con la
funcin de probabilidad binomial. Cuando y = p, se puede demostrar que

F ( p) =

n
y 1 (1 y ) 1
dy = p y (1 p) n y
B( , )
y =

En donde 0< p < 1 y n igual a alfa ms beta menos uno.


5.6. DISTRIBUCIN DE PROBABILIDAD TIPO C2 Y F
Supngase que deseamos comparar las varianzas de dos poblaciones
normales basados en la informacin contenida en muestras aleatorias independiente
de las dos poblaciones. Supngase que una muestra aleatoria contiene n1 variables
aleatorias distribuidas normalmente con una varianza comn 12 y que la otra muestra
aleatoria contiene n2 variables aleatorias distribuidas normalmente con una varianza
comn 12 y que la otra muestra aleatoria contiene n2 variables aleatorias distribuidas
normalmente con una varianza comn 12 . Si calculamos S12 de las observaciones
en la muestra 1, entonces S12 es una estimacin de 12 . De manera similar, S 22
calculada a partir de las observaciones de la segunda muestra es una estimacin para

22 . As intuitivamente podramos pensar en utilizar S12 / S 22 para hacer inferencias


con respecto a las magnitudes relativas de 12 y 22 . Si dividimos cada S i2 por i2 ,
entonces la razn siguiente

S12 / 12 22 S12

=
S 22 / 22 12 S 22

tiene una distribucin F con (n1 1)(n2 1) grados de libertad. La definicin general de
una distribucin F es como sigue:

DEFINICION

Sean 12 y 22 variables aleatorias ji - cuadrada con v1 y v2 grados

de libertad. Respectivamente. Entonces si 12 y 22 son independientes,

F=

12 / v1
22 / v2

se dice que tiene una distribucin F con v1 grados de libertad del numerador y v2
grados de libertad del denominador.

La funcin de densidad para variables aleatorias con la distribucin F es un


miembro de la familia de las distribuciones beta . Omitimos la formula para la densidad
de una variable aleatoria con la distribucin F , pero el mtodo para obtenerla se
indica en los ejercicios al final del capitulo.

DISTRIBUCION DE PROBABILIDAD I CUADRADA

Considerando nuevamente las


distribuciones normales, sabemos que

muestras

aleatorias

independientes

de

12 = (n1 1)S12 / 12 y 22 = (n2 1)S 22 / 22

tienen distribuciones 2 independientes con

v1 = (n1 1) yv2 = (n2 1)

grados de libertad, respectivamente.

As la definicin 7.3 implica que

F=

12 / v1 (n1 1)S12 / 12 (n1 1) S12 / 12


=
=
22 / v2 (n2 1)S 22 / 22 (n2 1) S 22 / 22

tiene una distribucin F con

(n1 1)

grados de libertad del numerador y (n 2 1)

grados de libertad del denominador.

En al figura 7.3 se muestra la grfica de una tpica funcin de densidad F . Los


valoras de F tales que P(F > F ) = se dan en la tabla 7 del apndice III, para los
valores de = 0.100, 0.050, 0.025, 0.010 y 0.005. En la tabla 7 del apndice III, los
encabezados de las columnas corresponden a los grados de libertad del numerador,
en tanto que los grados de libertad del denominador se encuentran como los
encabezados principales de los renglones.

Frente a los grados de libertad del denominador (los encabezados de los


renglones), se encuentran los valores de = 0.100, 0.050, 0.025, 0.010 y 0.005. Por
ejemplo, si la variable F estudiada tiene 5 grados de libertad del numerador y 7
grados de libertad del denominador, F 0.100= 2.88, F 0.050= 3.97, F 0.025 = 5.29, F 0.010
= 7.46 y F 0.005 =9.52. luego la probabilidad de que una variable aleatoria con una
distribucin F con 5 grados de libertad del numerador y 7 grados de libertad del

denominador exceda de 7.46 es 0.01 . Lo correspondiente se afirma para los dems


casos.

FIGURA 7.3

f (u )

Una tpica funcin de densidad

De probabilidad F

u
F

5.7. DISTRIBUCIN DE PROBABILIDAD WIEBULL

Devuelve la probabilidad de una variable aleatoria siguiendo una distribucin de


Weibull. Esta distribucin se aplica en los anlisis de fiabilidad, para establecer, por
ejemplo, el periodo de vida de un componente hasta que presenta una falla.

La ecuacin para la funcin de distribucin acumulada de Weibull es:

F (x, , ) = 1 e ( x )

La funcin de densidad de probabilidad es:

f ( x, , ) =

1 ( x )
x e
.

Cuando = 1 la distribucin de Weibull devuelve la distribucin exponencial


con:

5.8. TEOREMA DE COMBINACIN LINEAL DE VARIABLES ALEATORIAS


Y TEOREMA DEL LIMITE CENTRAL.

En ingeniera y ciencias se realizan muchos experimentos cuyo fin es


desarrollar un modelo matemtico que explique la relacin entre dos o ms
variables. El objetivo es ser capaz de
predecir el valor de una de las variables, y, dados valores especficos de las
otras variables.
Las estimaciones de los parmetros del modelo son funciones lineales de los valores y
de la muestra observada.

Teorema de combinaciones lineales de variables aleatorias independientes

Sean y1, y2, ..., yn un conjunto de variables aleatorias normalmente distribuidas con
medias
. , n). Si

E ( yi ) = i

y varianza

V ( yi ) = i2

y Cov ( yi , y j ) = 0

para ( i = 1, 2, .

l = a1 y1 + a2 y2 + . . . . . + an yn
a , ......, an
en donde a1 , 2
son constantes. Entonces, la distribucin de muestreo de
una combinacin lineal de las variables aleatorias normales tiene una funcin de
densidad normal con media y varianza:

= E ( l ) = a11 + a2 2 + . . . . . . + an n

l2 = V ( l ) = a12 12 + a 22 22 + . . . . . . + a n2 n2

Para que esto sea vlido las Yi son independientes


Suponga que selecciona muestras aleatorias independientes de dos poblaciones
normales, n1 observaciones de la poblacin 1 y n2 observaciones de la poblacin 2. Si
( 1 , 12 ) y ( 2 , 22 ) ,
las medias y varianzas de las poblaciones 1 y 2 son
respectivamente, y si y1 y y2 son las medias de muestra correspondientes, obtenga la
distribucin de la diferencia ( y1 y2 )

Solucin:

1. 1. Paso
Puesto que y1 y y2 son funciones lineales de variables aleatorias distribuidas
normalmente, por el teorema de combinaciones lineales tendrn una distribucin
normal. Las medias y varianzas de las medias de muestra son:
E (Yi ) = i

V (Yi ) =

i2
ni

(i = 1, 2 )

2. 2. Paso
La funcin lineal es l = y1 y2

3. 3. Paso
( l ) tendr una distribucin normal con

E (l ) = l = E ( y1 ) E ( y2 ) = 1 2
V (l ) = l2 = (1) 2 V ( y1 ) + (1) 2 V ( y2 ) + 2 (1)(1) Cov ( y1 , y2 )

4. 4. Paso
Como las muestras se seleccionaron de forma independiente,
independientes y Cov ( y1 , y2 ) = 0 . Por tanto,
V (l ) =

12
n1

y1 y y2 son

22
n2

5. 5. Paso
Conclusin:

y1 y2

( 1 2 ,

12
n1

22
n2

El Teorema Central del Lmite dice que si tenemos un grupo numeroso de


variables independientes y todas ellas siguen el mismo modelo de distribucin
(cualquiera que ste sea), la suma de ellas se distribuye segn una distribucin
normal.
Ejemplo : la variable "tirar una moneda al aire" sigue la distribucin de Bernouilli.
Si lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una
independiente entre si) se distribuye segn una distribucin normal.
Este teorema se aplica tanto a suma de variables discretas como de variables
continuas.
Los parmetros de la distribucin normal son:
Media : n * (media de la variable individual multiplicada por el nmero de
variables independientes)
Varianza : n * 2 (varianza de la variable individual multiplicada por el nmero de
variables individuales)
Veamos ahora un ejemplo:
Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale
cruz el valor 0. Cada lanzamiento es una variable independiente que se distribuye
segn el modelo de Bernouilli, con media 0,5 y varianza 0,25. Calcular la
probabilidad de que en estos 100 lanzamientos salgan ms de 60 caras.

La variable suma de estas 100 variables independientes se distribuye, por tanto,


segn una distribucin normal.
Media = 100 * 0,5 = 50
Varianza = 100 * 0,25 = 25
Para ver la probabilidad de que salgan ms de 60 caras calculamos la variable
normal tipificada equivalente:

(*) 5 es la raiz cuadrada de 25, o sea la desviacin tpica de esta distribucin

Por lo tanto:
P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228
Es decir, la probabilidad de que al tirar 100 veces la moneda salgan ms de 60
caras es tan slo del 2,28%.

5.9 Muestreo : Introduccin al muestreo y tipos de muestreo


Introduccin
En este documento ofrecemos un resumen sobre el concepto de muestreo, y los tipos de
muestreo existentes. Adems, se dispone de una hoja para el clculo de tamaos muestrales
en auditoras de Historias Clnicas en Excel. No pretendemos, ni mucho menos, ser
exhaustivos. Simplemente ofrecemos una pequea herramienta que pueda servir de apoyo en
la evaluacin de los distintos indicadores de calidad.

Concepto de muestreo
El muestreo es una herramienta de la investigacin cientfica. Su funcin bsica es determinar
que parte de una realidad en estudio (poblacin o universo) debe examinarse con la finalidad
de hacer inferencias sobre dicha poblacin. El error que se comete debido al hecho de que se
obtienen conclusiones sobre cierta realidad a partir de la observacin de slo una parte de ella,
se denomina error de muestreo. Obtener una muestra adecuada significa lograr una versin
simplificada de la poblacin, que reproduzca de algn modo sus rasgos bsicos.

Terminologa
Poblacin objeto: conjunto de individuos de los que se quiere obtener una informacin.
Unidades de muestreo: nmero de elementos de la poblacin, no solapados, que se van a
estudiar. Todo miembro de la poblacin pertenecer a una y slo una unidad de muestreo.
Unidades de anlisis: objeto o individuo del que hay que obtener la informacin.
Marco muestral: lista de unidades o elementos de muestreo.

Muestra: conjunto de unidades o elementos de anlisis sacados del marco.

Muestreo probabilstico
El mtodo otorga una probabilidad conocida de integrar la muestra a cada elemento de la
poblacin, y dicha probabilidad no es nula para ningn elemento.
Los mtodos de muestreo no probabilisticos no garantizan la representatividad de la muestra y
por lo tanto no permiten realizar estimaciones inferenciales sobre la poblacin.
(En algunas circunstancias los mtodos estadsticos y epidemiolgicos permiten resolver los
problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo
los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la
poblacin.)
Entre los mtodos de muestreo probabilsticos ms utilizados en investigacin encontramos:
Muestreo aleatorio simple
Muestreo estratificado
Muestreo sistemtico
Muestreo polietpico o por conglomerados

CARACTERISTICAS

Aleatorio
simple

Sistemtico

Se selecciona una muestra de tamao n de una


poblacin de N unidades, cada elemento tiene
una probabilidad de inclusin igual y conocida de
n/N.

Conseguir un listado de los N elementos de la


poblacin
Determinar tamao muestral n.
Definir un intervalo k=N/n.
Elegir un nmero aleatorio, r, entre 1 y k
(r=arranque aleatorio).
Seleccionar los elementos de la lista.

VENTAJAS

Sencillo y de fcil comprensin.


Clculo rpido de medias y varianzas.

INCONVENIENTES

Requiere que se posea de


antemano un listado completo de
toda la poblacin.

Se basa en la teora estadstica, y por


tanto existen paquetes informticos
para analizar los datos

Cuando se trabaja con muestras


pequeas es posible que no
represente a la poblacin
adecuadamente.

Fcil de aplicar.

Si la constante de muestreo est


asociada con el fenmeno de
inters, las estimaciones obtenidas
a partir de la muestra pueden
contener sesgo de seleccin

No siempre es necesario tener un


listado de toda la poblacin.
Cuando la poblacin est ordenada
siguiendo una tendencia conocida,
asegura una cobertura de unidades de
todos los tipos.

Estratificado

En ciertas ocasiones resultar conveniente


estratificar la muestra segn ciertas variables de
inters. Para ello debemos conocer la
composicin estratificada de la poblacin objetivo
a muestrear. Una vez calculado el tamao
muestral apropiado, este se reparte de manera
proporcional entre los distintos estratos definidos
en la poblacin usando una simple regla de tres.

Conglomerados

Tiende a asegurar que la muestra


represente adecuadamente a la
poblacin en funcin de unas variables
seleccionadas.

Se ha de conocer la distribucin en
la poblacin de las variables
utilizadas para la estratificacin.

Se obtienen estimaciones ms precisa


Su objetivo es conseguir una muestra lo
mas semejante posible a la poblacin
en lo que a la o las variables
estratificadoras se refiere.

Se realizan varias fases de muestreo


sucesivas (polietpico)

Es muy eficiente cuando la poblacin es


muy grande y dispersa.

La necesidad de listados de las unidades de


una etapa se limita a aquellas unidades de
muestreo seleccionadas en la etapa anterior.

No es preciso tener un listado de toda la


poblacin, slo de las unidades
primarias de muestreo.

El error estndar es mayor que en


el muestreo aleatorio simple o
estratificado.
El clculo del error estndar es
complejo.

Ventajas e inconvenientes de los distintos tipos de muestreo probabilstico

Clculo del tamao muestral


Cada estudio tiene un tamao muestral idneo, que permite comprobar lo que se pretende con
la seguridad y precisin fijadas por el investigador.
De que depende el tamao muestral ?
Variabilidad del parmetro a estimar: Datos previos, estudios piloto o usar 50% como peor
estimacin
Precisin: Amplitud del intervalo de confianza. Si se estima prevalencia su formato ser %
Nivel de confianza (1-): habitualmente 95% o 99%. Probabilidad complementaria al error
admitido

Si aumentamos el tamao muestral n , podremos mejorar la calidad de la estimacin bien


aumentando la precisin (disminuye amplitud del intervalo) o bien aumentando la seguridad
(disminuye el error admitido)

Clculo del tamao muestral en una auditora de Historias Clnicas


Se trata de una situacin especial, en la que se va a determinar la presencia o ausencia de un
determinado documento, por ejemplo (variable dicotmica). En este caso, hay que determinar
la proporcin esperada de la variable de inters, la precisin deseada, y el nivel de confianza.
Podemos aplicar las siguientes frmulas para el clculo del tamao muestral (si el muestreo es
aleatorio).
Si conocemos el tamao de la poblacin usaremos el mtodo para poblaciones finitas. Si por el
contrario el tamao de la poblacin es desconocido o infinito usaremos la otra alternativa. Hay
que tener en cuenta que una poblacin infinita puede corresponder a una finita (conocida) en la
que se ha definido un muestreo con reemplazamiento (el mismo individuo puede salir
muestreado varias veces)

Tamao de la poblacin infinito o desconocido

Tamao de la poblacin finito

Tamao muestral

Tamao de la poblacin, nmero total de historias.

Valor correspondiente a la distribucin de Gauss 1,96 para =0,05 y 2,58 para =0,01.

Prevalencia esperada del parmetro a evaluar. En caso de desconocerse,


aplicar la opcin ms desfavorable (p=0,5), que hace mayor el tamao muestral.

1-p (Si p=30%, q=70%)

Error que se prev cometer. Por ejemplo, para un error del 10%, introduciremos en la frmula
el valor 0,1. As, con un error del 10%, si el parmetro estimado resulta del 80%, tendramos
una seguridad del 95% (para =0,05) de que el parmetro real se sita entre el 70% y el 90%.
Vemos, por tanto, que la amplitud total del intervalo es el doble del error que introducimos en
la frmula.

5.10 Teorema de limite central

El Teorema Central del Lmite dice que si tenemos un grupo numeroso de


variables independientes y todas ellas siguen el mismo modelo de distribucin
(cualquiera que ste sea), la suma de ellas se distribuye segn una distribucin
normal.
Ejemplo : la variable "tirar una moneda al aire" sigue la distribucin de Bernouilli.
Si lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una
independiente entre si) se distribuye segn una distribucin normal.
Este teorema se aplica tanto a suma de variables discretas como de variables
continuas.
Los parmetros de la distribucin normal son:
Media : n * (media de la variable individual multiplicada por el nmero de
variables independientes)

Varianza : n * 2 (varianza de la variable individual multiplicada por el nmero de


variables individuales
5.11. Distribucin central de la media
TEOREMA CENTRAL DEL LIMITE (DISTRIBUCIN DE LA MEDIA

Importancia: El teorema central del lmite (TCL) nos permite usar la distribucin
normal como la distribucin de las medias de muestras grandes, sin interesar cual
sea la distribucin original de las variables aleatorias.
Teorema. Sea X1, X2,...,Xn una muestra aleatoria de tamao n de variables
independientes e idnticamente distribuidas tomadas de una poblacin infinita, con
media y varianza

, entonces la distribucin lmite de

es la distribucin normal estndar (0,1), cuando n , (independiente de la


distribucin de X1, X2,...,Xn).
Otra forma de presentar el TCL es la siguiente:
Si X1, X2,...,Xn es una muestra aleatoria de tamao n de variables independientes e
idnticamente distribuidas tomadas de una poblacin infinita, con media y
varianza

, y si

es la media muestral, entonces su distribucin muestral tiende

a una distribucin normal con media y varianza

/n cuando n.

Ejemplo grfico
Con el fin de ilustrar grficamente el TCL presentaremos la distribucin de la media
muestral obtenida al lanzar dos dados, en comparacin con la distribucin individual
de cada dado.
Si X representa el resultado obtenido al lanzar un dado, entonces su funcin de
probabilidad est dada por:

con la anterior representacin grfica.


Consideremos ahora el lanzamiento de dos dados. Sean X1 y X2 los respectivos
resultados. Sea la media respectiva. La tabla siguiente presenta su respectiva
distribucin de probabilidad (la cual haba sido analizada previamente al estudiar el
concepto de variable aleatoria, y considerar la suma de los dos dados).

Su representacin grfica se presenta en la figura siguiente.

Como se puede observar, el cambio en la forma de la distribucin es bastante


notable, al pasar de una distribucin completamente plana (uniforme discreta) a
una distribucin que, aunque no es normal, si tiende a

parecerse ms a una distribucin normal que a su distribucin original. Si


continuamos promediando ms variables, la distribucin resultante se aproximar
an ms a una distribucin. La siguiente grfica presenta los resultados al
promediar cuatro lanzamientos de la moneda.
Observacin importante:
Debe tenerse en cuenta que si n entonces la varianza de

(=

/n) tiende a

. Lo que el TCL dice es que cuando el


cero, lo cual implica a su vez que
tamao muestral es grande, la media de una muestra aleatoria tiende a seguir la
distribucin normal. Cundo n es lo suficientemente grande?. En general depende
de la distribucin original de la variable aleatoria X; sin embargo, para variables
continuas y n 30, la aproximacin normal se aplica, no importa cual sea la
distribucin original. Para n< 30 la aproximacin es vlida segn la forma de la
distribucin original.
Si la distribucin original es continua y uniforme (por ejemplo el caso de los
nmeros aleatorios que van de cero a uno), para que el promedio tienda hacia una
distribucin normal, se requieren muestras de por lo menos 10 observaciones (esto
se determinado mediante pruebas de bondad de ajuste).

5.12. Distribucin muestral de diferencia de medias


Cada muestra de tamao n que podemos extraer de una poblacin proporciona una
media. Si consideramos cada una de estas medias como valores de una variable aleatoria
podemos estudiar su distribucin que llamaremos distribucin muestral de medias.

Si tenemos una poblacin normal (m,s) y extraemos de ella muestras de


tamao n, la distribucin muestral de medias sigue tambin una distribucin
normal

Si la poblacin no sigue una distribucin normal pero n>30, aplicando el


llamado Teorema central del lmite la distribucin muestral de medias se
aproxima tambin a la normal anterior.

En muchos campos de la investigacin cientfica a menudo deseamos comparar las


medias de dos variables aleatorias, tales como el efecto de dos condiciones, tratamientos
o mtodos de produccin.
Supngase que ahora se tiene 2 poblaciones, la primera con media 1 y varianza 1 ,
segunda con media y varianza el estadstico x1 representa la media de una muestra
2

aleatoria de tamao n1 seleccionada de la primera poblacin, y que el estadstico x2


representa la media de una muestra aleatoria seleccionada de una segunda poblacin,
independiente de la muestra de la primera poblacin. Qu puede decirse acerca de la
distribucin muestral de la diferencia x1 - x2 para muestras repetidas de tamaos

n1 y n2 ? De acuerdo al teorema del limite central, las variables x1 y x 2 son


aproximadamente distribuidos en forma normal con medias 1 y 2 y variancias

12
n1

22
n2

respectivamente. Esta aproximacin mejora conforme n1 y n2 se

incrementan.
Con lo anterior podemos concluir:

Si se sacan al azar muestras independientes de tamao n1 y n2 de dos poblaciones


2
2
continuas, con medias 1 y 2 y varianzas 1 y 2 , respectivamente, entonces la
distribucin muestral de la diferencia de medias x1 x 2 est distribuida

aproximadamente en forma normal con media y varianzas:

x2

= 1 2

x2

x2

12
n1

22
n2

De aqu que,

Z=

( X 1 X 2 ) ( 1 2 )

12
n1

22
n2

es aproximadamente una variable normal estndar.

5.13. Distribucin muestral de la proporcin


En numerosas ocasiones se plantea estimar una proporcin o porcentaje. En estos
casos la variable aleatoria toma solamente dos valores diferentes (xito o fracaso),
es decir sigue una distribucin binomial y cuando la extensin de la poblacin es
grande la distribucin binomial B(n,p) se aproxima a la normal

Para muestras de tamao n>30, la distribucin muestral de proporciones


sigue una distribucin normal

donde p es la proporcin de uno de los valores que presenta la variable estadstica


en la poblacin y q=1-p.

5.14.- Distribucin normal de la diferencia de las proporciones


DISTRIBUCIN DE LA DIFERENCIA ENTRE PROPORCIONES.
Sea

una muestra aleatoria (n1) tomada de un proceso de Bernoulli

una muestra aleatoria (n2) tomada de un


con parmetro 1. Sea
proceso de Bernoulli con parmetro 2. Estamos interesado en conocer la
distribucin de la diferencia de proporciones muestrales P1 - P2.

Sabemos que

1 y una varianza

se distribuye normalmente con una valor esperado


cuando n1 es grande. De forma similar

se distribuye normalmente con una valor esperado


varianza

2 y una

cuando n2 es grande.

Tenemos que:

Como tanto P1 como P2 se distribuyen normalmente,


normalmente, entonces su diferencia
tambin se distribuyen normalmente con los parmetros arriba mencionados. Es
decir,

tambin la variable aleatoria Z definida como

tiene una distribucin normal cuando n1 y n2 son grandes.


Si se desea verificar si las dos distribuciones son iguales, se tendra entonces que
analizar si 1 = 2 , es decir, 1 - 2 = 0.

5.15. Distribucin muestral de la varianza


S2

P(S2=s2)

.42

.5

.48

.1

Distribucin muestral de la Varianza


con media (S2 ) y varianza Var(S2 )

P( S 2 = s 2 )
P ( S 2 = 0) = P (1,1)

+ P (2,2) + P (3,3)

= 0.5 * 0.5 + 0.4 * 0.4 + 0.1* 0.1 = 0.42


P ( S 2 = 0.5) = P (1,2) + P (2,1) + P (2,3) + P (3,2)

= 0.5 * 0.4 + 0.4 * 0.5 + 0.4 * 0.1 + 0.1* 0.4 = 0.48


P(S2 = 2) = P (1,3) + P (3,1)
= 0.5 * 0.1 + 0.1* 0.5 = 0.10
Obtener la MEDIA de la Distribucin Muestral de la Varianza

( S 2 ) = s 2 =
0 * 0.42 + 0.5 * 0.48 + 2 * 0.10 = 0.44

x2 = Var ( x) = 0.44
E ( S 2 ) = s 2 = 0.44
La media de la distribucin muestral de la varianza es igual a la varianza
poblacional
La media de la distribucin muestral de la varianza es igual a la varianza
poblacional

S2 = Var ( S 2 ) = (0 0.44)2 * 0.42 + (0.5 0.44)2 * 0.48 + (2 0.44)2 * 0.10 = 0.32


2

Var ( S 2 ) =

4
n

3 n
4
n( n 1)

5.16. DISTRIBUCIN DE LA MUESTRAL


VARIANZAS

DE LA RELACIN DE

INTERVALOS DE CONFIANZA PARA LA RELACIN DE VARIANZAS DE DOS


DISTRIBUCIONES NORMALES
Se tienen dos poblaciones normales e independientes con varianzas desconocidas
1 y 2, respectivamente. De este par de poblaciones se tienen disponibles dos
muestras .aleatorias de tamaos n1 y n2, respectivamente; sean S1 y S2 las
varianzas muestrales respectivas. Para hallar el intervalo de confianza del 100(1)% para el cociente de dos varianzas sabemos que la siguiente relacin tiene una
distribucin muestral F con n1-1 y n2-1 grados de libertad:

Entonces, para construir el intervalo de confianza para la relacin de dos varianzas,


nos basamos en la siguiente probabilidad:

Si invertimos el trmino central de la desigualdad anterior, obtenemos lo siguiente:

Usando el hecho de que


obtenemos el siguiente
intervalo de confianza para la relacin de dos varianzas.
Teorema. Si
son las varianzas de muestras aleatorias independientes
tomadas de poblaciones normales, entonces un intervalo de confianza 100(1-)%

para el cociente de dos varianzas est dado por:

Bibliografa

PROBABILIDAD Y ESTADSTICA SPIEGEL, MURRAY


http://bochica.udea.edu.co/~bcalderon/4_relvarianzasnormale
s.html
Cannavos G. Probabilidad y Estadstica Aplicacin y mtodos. Ed. en
espaol Mc
GRAW- HILL/INTERAMERICANA DE MEXICO.1995.

http://www.eumed.net/libros/2006a/rmss/a8.htm
Devore, J.L. (2000). Probabilidad y Estadstica para Ingeniera y Ciencias, Quinta
Edicin, Thomson Learning.
Mendenhall, W. (1998). Estadstica para Administradores, Segunda Edicin,
Grupo Editorial Iberoamrica.
Montgomery, D.C. y Runger G.C. (1996). Probabilidad y Estadstica Aplicadas a
la Ingeniera, Primera Edicin, Mc Graw Hill.
Sheaffer, R. L. y McClave, J.T. (1990). Probabilidad y Estadstica para Ingeniera,
Primera Edicin, Grupo Editorial Iberoamrica.
Spiegel, M.R. (1970). Estadstica, Primera Edicin, Serie Schaum, Mc Graw Hill.
Walpole, R. E., Myers, R.H., y Myers, S.L. (1998). Probabilidad y Estadstica para
Ingenieros, Sexta Edicin, Prentice Hall.
Weimer, R.C. (1996). Estadstica, Segunda Edicin, CECSA.

ACTIVIDADES complementarios adicionales


1.- La renta media de los habitantes de un pas se distribuye uniformemente entre 4,0 millones ptas. y
10,0 millones ptas. Calcular la probabilidad de que al seleccionar al azar a 100 personas la suma de sus
rentas supere los 725 millones ptas.
Cada renta personal es una variable independiente que se ditribuye segn una funcin uniforme. Por ello,
a la suma de las rentas de 100 personas se le puede aplicar el Teorema Central del Lmite.
2.- Una mquina vendedora de refrescos est programada para que la cantidad de refrescos
que sirve sea una variable aleatoria con una media de 200 mililitros y una desviacin
estndar de 15 mililitros. Cul es la probabilidad de que la cantidad media de refresco
servido en una muestra aleatoria de 36 refrescos sea por lo menos 204 mililitros?. Realice
los clculos usando la desigualdad de Chebyshev y el TCL

También podría gustarte