Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ACTIVIDAD 1
Un agricultor dedicado al cultivo de olivos para producción de aceite, se ha fijado como
objetivo conseguir un sistema productivo que le permita el máximo beneficio en el
mínimo plazo de recuperación del capital.
El agricultor tiene 730 ha plantadas de olivos a una densidad de 312 árboles por ha. Se
sabe que cada árbol puede llegar a producir entre 20 y 50 kg de fruta aproximadamente
y que para obtener un litro de aceite hacen falta entre 4 a 6 kg de aceitunas.
Al agricultor, cada año le interesa estimar la producción media de kg de aceituna que
cosechará para de esta forma poder estimar su producción de aceite.
Si observamos el agricultor tiene 227.760 árboles y para estimar la cosecha se aplican
ciertas fórmulas que implican medir cada árbol, sin embargo medir cada olivo tiene un
costo no muy bajo ya que se requiere de expertos en la materia pero, ¿Es realmente
importante medir la totalidad de los olivos para estimar su producción?
Como mencionamos anteriormente, la estadística ofrece métodos alternativos para
realizar dichas estimaciones, con un ahorro significativo en los costos del estudio y con
un alto grado de confianza. A fin de comprender dicha teoría vamos a considerar una
población teórica de sólo ocho olivos y realizaremos un muestreo aleatorio simple de
sólo 4 árboles.
2
Cuando seleccionamos una muestra mediante un muestreo aleatorio simple, sin
8
reemplazo dicha muestra es una de entre las = 70 muestras posibles, ya que si la
4
realizamos con reemplazo tenemos 84 = 4.096 muestras posibles.
Suponga que nuestra población censada de 8 árboles arrojo los siguientes valores en
kilogramos de aceituna:
A partir de los datos tenemos que la cantidad total de kg de aceitunas es de 302 kg, µ =
37.75 kg, σ 2 = 51.375 σ = 7.17199414.
Hacer un censo implica conocer los valores reales de los parámetros. Supongamos ahora
que no es posible estudiar la población total y que para representar los parámetros
trabajaremos con una muestra de tamaño 4.
A continuación se muestran las 70 muestras posibles, sin reemplazo, de tamaño 4
seleccionada aleatoriamente de la población de tamaño 8 junto al promedio de cada
muestra.
x1 x2 x3 x4 promedio x1 x2 x3 x4 promedio
36 30 39 46 37.75 36 30 41 25 33
36 30 39 41 36.5 36 30 41 37 36
36 30 39 48 38.25 36 30 48 25 34.75
36 30 39 25 32.5 36 30 48 37 37.75
36 30 39 37 35.5 36 30 25 37 32
36 30 46 41 38.25 36 39 46 41 40.5
36 30 46 48 40 36 39 46 48 42.25
36 30 46 25 34.25 36 39 46 25 36.5
36 30 46 37 37.25 36 39 46 37 39.5
36 30 41 48 38.75 36 39 41 48 41
36 39 41 25 35.25 36 46 25 37 36
36 39 41 37 38.25 36 41 48 25 37.5
36 39 48 25 37 36 41 48 37 40.5
36 39 48 37 40 36 41 25 37 34.75
36 39 25 37 34.25 36 48 25 37 36.5
36 46 41 48 42.75 30 39 46 41 39
36 46 41 25 37 30 39 46 48 40.75
36 46 41 37 40 30 39 46 25 35
36 46 48 25 38.75 30 39 46 37 38
36 46 48 37 41.75 30 39 41 48 39.5
3
x1 x2 x3 x4 promedio x1 x2 x3 x4 promedio
30 39 41 25 33.75 30 46 25 37 34.5
30 39 41 37 36.75 30 41 48 25 36
30 39 48 25 35.5 30 41 48 37 39
30 39 48 37 38.5 30 41 25 37 33.25
30 39 25 37 32.75 30 48 25 37 35
30 46 41 48 41.25 39 46 41 48 43.5
30 46 41 25 35.5 39 46 41 25 37.75
30 46 41 37 38.5 39 46 41 37 40.75
30 46 48 25 37.25 39 46 48 25 39.5
30 46 48 37 40.25 39 46 48 37 42.5
39 46 25 37 36.75 46 41 48 25 40
39 41 48 25 38.25 46 41 48 37 43
39 41 48 37 41.25 46 41 25 37 37.25
39 41 25 37 35.5 46 48 25 37 39
39 48 25 37 37.25 41 48 25 37 37.75
Distribución de frecuencias de
la variable promedio muestral, Distribución del promedio muestral
muestras sin reemplazo. 0.27
Clase LI LS ni fi
1 32.00 33.64 5 0.07
frecuencia relativa
0.20
2 33.64 35.29 9 0.13
3 35.29 36.93 12 0.17 0.13
4
Recordemos que las medidas estadísticas de la población de ocho árboles son:
µ = 37.75 kg, σ = 7.17199414 σ 2 = 51.375
Distribución de frecuencias de la
Variable promedio muestral, muestras
Con reemplazo
Clase LI LS FA FR
1 25.00 26.77 5 1.2E-03 Distribución del promedio muestral
2 26.77 28.54 18 4.4E-03 0.20
3 28.54 30.31 73 0.02
4 30.31 32.08 186 0.05 0.15
frecuencia relativa
5
1 1
cual en relación a la varianza de la población de ocho árboles es = = 0.25 más
n 4
σ2
pequeña, es decir σ X2 =
n
ACTIVIDAD 2
Ahora simularemos la selección de muestras obtenidas desde una Distribución Normal
con media 120 y desviación estándar 50, considerando muestras de tamaño 10, 20, 30 y
40 . Para cada una de ellas obtendremos 1000 muestras a fin de estudiar la distribución
muestral del estadístico muestral X .
Caso 1: Distribución del promedio muestral basado en 1000 muestras de tamaño 10.
Nota: La media de la muestra debería ser 120, la no coincidencia se basa en que estamos
tomando sólo 1000 muestras en una población infinita.
Caso 2: Distribución del promedio muestral basado en 1000 muestras de tamaño 20.
0.21
6
Nota: La media de la muestra debería ser 120, la no coincidencia se basa en que estamos
tomando sólo 1000 muestras en una población infinita.
Clase LI LS ni fi
Distribuciòn del promedio muestral
1 86.46 93.74 2 2.0E-03
0.36
2 93.74 101.02 15 0.02
3 101.02 108.29 77 0.08
frecuencia relativa
0.27
4 108.29 115.57 204 0.20
5 115.57 122.85 339 0.34 0.18
Nota: La media de la muestra debería ser 120, la no coincidencia se basa en que estamos
tomando sólo 1000 muestras en una población infinita.
Clase LI LS ni fi
1 94.48 100.21 5 0.01 Distribución del promedio muestral
0.30
2 100.21 105.95 33 0.03
3 105.95 111.68 98 0.10
frecuencia relativa
0.23
4 111.68 117.42 248 0.25
5 117.42 123.15 288 0.29 0.15
Nota: La media de la muestra debería ser 120, la no coincidencia se basa en que estamos
tomando sólo 1000 muestras en una población infinita.
Si observamos los histogramas para cada caso, estos se ven bastante simétricos, la
media y mediana son muy similares. Además, es poco frecuente encontrar valores de
medias muestrales muy alejadas del valor central, la mayor concentración de dichas
medidas está en tres o cuatro intervalos centrales.
7
ACTIVIDAD 3
Por último, simularemos la selección de muestras obtenidas desde una Distribución
Binomial con parámetros m = 25 y p = 0.3. Consideraremos cuatro casos de 1000
muestras de tamaño 10, 20, 30 y 40 cada una. Para cada una de las 1000 muestras
obtendremos su media a fin de estudiar la distribución muestral de este estadístico.
Caso 1: Distribución del promedio muestral basado en 1000 muestras de tamaño 10.
0.25
Clase LI LS FA FR
1 5.30 5.77 10 0.01
frecuencia relativa
0.19
2 5.77 6.23 42 0.04
3 6.23 6.70 131 0.13
0.12
4 6.70 7.17 167 0.17
5 7.17 7.63 236 0.24
0.06
6 7.63 8.10 227 0.23
7 8.10 8.57 116 0.12
0.00
8 8.57 9.03 49 0.05 4.8 5.3 5.9 6.4 6.9 7.4 7.9 8.4 8.9 9.5 10.0
9 9.03 9.50 22 0.02 n = 10
Caso 2: Distribución del promedio muestral basado en 1000 muestras de tamaño 20.
8
Caso 3: Distribución del promedio muestral basado en 1000 muestras de tamaño 30.
frecuencia relativa
0.25
4 7.12 7.43 248 0.25
5 7.43 7.74 314 0.3 1 0.16
6 7.74 8.04 169 0.17
7 8.04 8.35 78 0.08 0.08
Caso 4: Distribución del promedio muestral basado en 1000 muestras de tamaño 40.
Clase LI LS ni fi 0.30
EJERCICIO 1
En el laboratorio de computación simular la selección de muestras de tamaño 10, 20, 30
y 40 obtenidas desde una Distribución Exponencial con media 0.125. Para cada una
de ellas obtener 1000 muestras y estudiar la distribución muestral del estadístico
promedio muestral.
9
ACTIVIDAD 4
Con el fin de estimar el tiempo del trayecto desde la casa a la universidad, se realiza un
estudio para analizar el número de detenciones que hace un conductor en los semáforos,
ya sea en un viaje de ida o vuelta, encontrando, mediante la elaboración de
distribuciones de probabilidades para variables aleatorias discretas acotadas lo
siguiente:
x 0 1 2
P(X = x) 0.2 0.5 0.3
0, 2 x = 0
P( X i = x) = 0,5 x = 1 i = 1, 2
0,3 x = 2
0.6
0.5
0.4
0.3
0.2
0.1
0
0 1 2
10
c. Defina la variable aleatoria T = X1 + X2. Obtenga la distribución de probabilidad
de T.
Distribución de Probabilidad de T
Muestras Probabilidad Suma T P(T = t)
(0,0) p(0,0) = p(0) p(0) 0 0.04
(1,0) (0,1) 2p(0)p(1) 1 0.2
(0,2) (2,0) (1,1) 2p(0)p(2) +p(1)p(1) 2 0.37
(1,2) (2,1) 2 p(1) p(2) 3 0.3
(2,2) p(2)p(2) 4 0.09
1
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 1 2 3 4
Para la varianza de T
E(T2) = 02×0.04 + 12×0.2 + 22×0.37 + 32×0.3 + 42×0.09 = 5.82
V(T) = E(T2) - (E(T))2 = 5.82 – 2.22 = 0.98
11
g. Del apartado (d) obtener la distribución de muestreo de las medias muestrales
X + X2
X= 1
2
La distribución de muestreo del promedio es
Muestras Probabilidad X (
P X =x )
(0,0) p(0,0) = p(0) p(0) 0 0.04
(1,0) (0,1) 2p(0)p(1) 0.5 0.2
(0,2) (2,0) (1,1) 2p(0)p(2) +p(1)p(1) 1 0.37
(1,2) (2,1) 2 p(1) p(2) 1.5 0.3
(2,2) p(2)p(2) 2 0.09
1
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 0.5 1 1.5 2
Ahora calcule la media y desviación estándar de las medias muestrales. Compárela con
(c).
E( X ) = 0×0.04 + 0.5×0.2 + 1×0.37 + 1.5×0.3 + 2×0.09 = 1.1
12
i. Indique tres hechos importantes obtenidos en la resolución del problema.
1. E(X) = E( X ) = µ
σ2 V (X )
( )
2. V X = σ X2 =
n
=
n
3. La distribución de la media muestral X tiene forma aproximadamente
simétrica.
Observe que:
E( S2 ) =0× 0.38 + 0.5× 0.50 + 2× 0.12 = 0.49 = ߪ ଶ
E(S4 ) = 02× 0.38 + 0.52× 0.50 + 22× 0.12 = 0.605
V(S2 ) = 0.605 – 0.49×0.49 = 0.3649
Las actividades 1, 2 y 3 son de aplicación algebraica del teorema central del límite y la
representación gráfica de la distribución muestral de la media de una variable aleatoria
de distribución conocida. Si bien el tamaño de la muestra es pequeño, el objetivo es
trabajar los cálculos con lápiz y papel y observar la convergencia rápida para esta
distribución particular.
EJERCICIO 2
La siguiente actividad tiene por objetivo estudiar algebraicamente y gráficamente el
comportamiento de la distribución de la suma de variables aleatorias a medida que se
van agregando variables.
Una empresa produce celulares con cierto tipo de defecto, identificados como 0, 1 y 2.
Suponiendo que en una partida hay 20 celulares sin defecto, 30 con un defecto y 50 con
dos defectos, se saca un celular al azar y se anota su valor, digamos X 1 . La distribución
0,2 x = 0
de X 1 será P( X 1 = x ) = 0,3 x = 1
0,5 x = 2
13
b. Suponga que después de que el segundo celular ha sido también devuelto a la
partida, se escoge un tercer celular y se anota su valor X 3 . Determine la
distribución de probabilidad de la v.a. S3 =X1 + X2+X3.
c. Realice el experimento de obtener un cuarto celular siendo devuelto el tercero a
la partida. Obtenga la distribución de probabilidades de la suma de los cuatro
celulares extraídos.
d. En un gráfico dibuje las distribuciones de S1 , S2 , S3 y S4 (Utilice Excel y/o lápiz
y papel). ¿Qué puede comentar sobre la forma de la distribución de los
resultados de esta ilustración numérica?
En un gráfico con lápiz y papel, junto con las cuatro primeras sumas, trace en
línea discontinua como sería la distribución de S5.
e. Si en vez de la suma de variables aleatorias, se analiza la media muestral, X1 ;
X 2 =(X1 + X2)/2 ; X 3 =(X1 + X2+X3)/3 , etc. Fundamente si la distribución de la
suma y el promedio serán similares. Realice algunos comentarios.
f. En el laboratorio de computación mediante los programas R y Excel analice el
comportamiento de convergencia de las variables aleatorias; obteniendo la
distribución de probabilidades de la suma de variables aleatorias discretas y del
promedio, como se representa a continuación.
14
Supóngase que una población de cinco empleados de producción tiene índices de
eficiencia de 97, 103, 96, 99 y 105. Considere además que se selecciona una muestra de
dos índices de la población. La media de todos los índices (la media de la población) es
igual a 100. Cada diferencia x - µ es el error que habría al evaluar la media poblacional
con base en la media muestral, y estos errores de muestreo se deben al azar. La cantidad
de estos errores será diferente de una muestra a la siguiente.
Muestra Media Error de muestreo
97, 105 101 1.0
103, 96 99.5 -0.5
a. Para un tamaño de muestra dado, el valor medio de todas las medias muestrales
posibles seleccionadas de la población, es exactamente igual a la media
poblacional, lo que reflejamos como E X = µ .
b. Existe menos variación en la distribución muestral de medias que en la
distribución de la población lo que reflejamos como σ X = σ para
n
poblaciones infinitas o cuando el muestreo se ha realizado con reemplazo y
N − n σ
σX = cuando al población es finita de tamaño N y el muestreo se
N −1 n
ha realizado sin reemplazo.
c. El error estándar de la media mide la variación en la distribución muestral de la
media muestral.
c1) Si se conoce la desviación estándar poblacional, el error estándar es
σX =σ n
c2) Si no se conoce la desviación estándar poblacional, el error estándar es
estimado mediante σ X = S n
Aunque en la práctica se puede ver sólo una muestra aleatoria en particular, en teoría
puede surgir cualquiera de las muestras. El uso de la distribución de muestreo de la
media muestral es importante porque la mayoría de las decisiones en las empresas y
negocios se toman basándose en los resultados de una muestra. Damos dos ejemplos.
15
En cada una de estas situaciones se tiene una población de la que se tiene alguna
información. Se toma una muestra de la población y se desea determinar si el error
muestral –la diferencia entre el parámetro poblacional y el estadístico muestral- se debe
a la casualidad. Luego, se puede calcular la probabilidad de que una media muestral se
encuentre dentro de cierto intervalo.
EJERCICIO 3. Una empresa quiere estar segura de que su detergente para ropa contiene,
en realidad, 100 onzas (oz) de líquido como se indica en la etiqueta. Reportes anteriores
del proceso de llenado indican que la cantidad media por envase es 100 oz y que la
desviación estándar es 2 oz. El técnico de calidad, en su revisión de las 10 de la mañana,
al revisar 40 envases, encontró que la cantidad media de líquido era 99.8 oz. ¿Debe el
técnico detener la operación de llenado o es un error muestral razonable?
EJERCICIO 4. Una empresa se dedica a dar información a las empresas que se anuncian
en televisión. Investigaciones anteriores indican que un adulto ve en promedio 6.0 horas
(h) de televisión por día con una desviación estándar de 1.5 h. ¿Sería razonable que en
una muestra de 50 adultos, seleccionada aleatoriamente, se encontrara que en promedio
ven 6.5 h de televisión por día?
Teorema central del límite. Obtenga una muestra aleatoria simple de tamaño n de
cualquier población de media µ y desviación típica finita σ. Cuando n es grande, la
distribución de la media muestral X se aproxima mucho a la distribución normal
σ2
N (µ , ) con media µ y desviación estándar σX = σ para poblaciones infinitas o
n n
N − n σ
cuando el muestreo se ha realizado con reemplazo y σ X = cuando al
N −1 n
población es finita de tamaño N y el muestreo se ha realizado sin reemplazo
ACTIVIDAD 5
Un sistema está formado por 100 componentes cada una de las cuales tiene una
confiabilidad igual a 0,95. (Es decir, la probabilidad de que la componente funcione
correctamente durante un tiempo específico es igual a 0,95). Si esas componentes
funcionan independientemente una de otra, y si el sistema completo funciona
correctamente cuando al menos funcionan 80 componentes, ¿Cuál es la confiabilidad
del sistema?
¿Qué elementos destacarían en esta actividad y cómo la desarrollarías?
16
En primer lugar podemos definir la variable aleatoria “número de componentes que
funcionan correctamente en el sistema” con distribución binomial de parámetros n=100
ensayos y probabilidad de que funcione una componente cualquiera p=0,95. Luego,
escribimos en lenguaje simbólico P(80 ≤ S n ≤ 100 ) e intentamos de calcular la
probabilidad.
Hacemos notar que el valor es demasiado grande para las tablas que tenemos. De esta
manera estamos introduciendo la idea de aproximación mediante las preguntas: ¿Son
muchos términos en la suma?, ¿Los términos son difíciles de calcular?, ¿Podríamos usar
otra distribución de probabilidades para aproximar el cálculo de la probabilidad pedida?
Solución aproximada:
Para calcular P (80 ≤ S n ≤ 100) primero obtenemos la esperanza y varianza de la
variable de interés.
E(Sn)=E(∑Xi)= ∑E(Xi) = n×p = 100×0,95 = 95 ;
Var(Sn)=Var(∑Xi)= ∑Var(Xi) = n×p×(1-p) = 100×0,95×0,05 = 4,75.
Nota:
La solución del problema está basada en la histórica ocurrida hacia 1713.
Al aumentar el valor de n en la distribución binomial B ( n , p ) cuya expresión
n
matemática es P ( X = x ) = p x (1 − p )
n−x
para valores x = 0,1,2,3,...,n, los términos
x
crecen muy rápidamente, por lo que el cálculo de las probabilidades de los valores de la
variable en las distribuciones exactas es demasiado laborioso. Este problema llevó a
distintos matemáticos a tratar de encontrar valores aproximados de estas probabilidades
para valores de n grandes y a estudiar las condiciones en que estas aproximaciones
podrían utilizarse. Abraham de Moivre (1667-1754) sugirió el uso de la función exp(-x2)
como límite de la distribución, pero no la relacionó con la distribución normal
(1 2π ) e− X / 2 .
2
17
Teorema de Laplace-De Moivre. Consideremos una variable aleatoria X con
distribución binomial B ( n, p ) . Para valores grandes de n, X sigue una distribución
aproximadamente normal N ( µ ,σ 2 ) de media µ = n p y desviación estándar σ = npq ;
es decir, la misma media y desviación estándar que la binomial. Luego, la variable
x − np
Z= sigue una distribución normal N (0,1). El resultado anterior fue introducido
npq
por Laplace.
18
Definamos S1 = ∑ X i : número de chips defectuosos obtenidas en una muestra de 60
chips. Los parámetros de interés son n = 60 y p = ½. Mediante el teorema
aproximamos S1 ~& N (30 , 15) . Las probabilidades estimadas son:
P (5 ≤ S1 ≤ 15) ≈ P ( Z ≤ −3,87 ) − P ( Z ≤ −6,45) = 0
P( 25 ≤ S1 ≤ 35) ≈ P( Z ≤ 1,29) − P( Z ≤ −1,29) = 0,901475 − 0,09853 = 0,80295
P(50 ≤ S1 ≤ 60) ≈ P( Z ≤ 7,75) − P( Z ≤ 5,16) = 0 = P( S1 ≤ 1) = P( S1 ≤ 2)
Nota: Obtener los valores exactos de la distribución Binomial, de las probabilidades
anteriores. ¿Te parece que la aproximación mejora al crecer n?
P( B = 0) ≈ P( N ≤ 0,5)
P( B = x ) ≈ P( x − 0,5 ≤ N ≤ x + 0,5) , x = 1,2,3,..., n − 1
P( B = n ) ≈ P( N ≥ n − 0,5)
b + ( h / 2)
P ( X ≤ b) ≈ ∫ f ( x )dx = F(b + h / 2 )
−∞
19
EJERCICIO 3. En el caso de la aproximación de Laplace-DeMoivre podemos utilizar un
software estadístico para representar gráficamente la distribución B (n,p) para distintos
valores de sus parámetros n y p. La figura siguiente muestra valores para p = 0,3 con n
= 4, 8, 24 y para p = 0,1 con n = 4, 8 y 50. ¿Qué observa de las gráficas para los
distintos valores de los parámetros? Realice simulaciones con los programas R, Excel y
Geogebra.
ACTIVIDAD 7
En terreno arenoso se plantaron 50 arbolitos de cierto tipo y otros 50 en otra área con
terreno arcilloso. Sea X = número de árboles plantados en terreno arenoso que
sobreviven 1 año e Y = número de árboles plantados en terreno arcilloso que sobreviven
1 año. Si la probabilidad de que un árbol plantado en terreno arenoso sobreviva 1 año es
0,7 y la probabilidad de que sobreviva 1 año en terreno arcillos es 0,6, calcule una
aproximación a P(-5≤X-Y≤5).
50
Primero definimos las v.a. S1 = ∑ X i (número de árboles en terreno arenoso que
i =1
50
sobreviven 1 año), y S2 = ∑ Xi (número de árboles que sobreviven 1 año en terreno
i =1
arcilloso). S1 y S2 son definidas con distribución binomial de esperanzas 35 y 30 y
varianzas 10,5 y 12 respectivamente, obtenidas mediante las propiedades de la media y
varianza de la suma de v.a. Ambas v.a. son aproximadas por la distribución normal; por
tanto su diferencia es también de distribución normal, de parámetros S1-S2 ~& N(5, 22,5).
( S1 − S 2 ) − 5
Estandarizando, llegamos a la distribución Z = ~& N (0,1) .
22,5
Podemos deducir que E(S1-S2)=E (S1)-(S2)=35-30=5 y
Var(S1-S2)=Var (S1)+Var(S2)=10,5+12=22,5. Calculamos la probabilidad con ayuda de
tablas y efectuando cálculo algebraico llegamos a la expresión
−5−5 5 − 5
P ( S1 − S 2 ≤ 5) ≈ P ≤Z≤ = FZ (0) − FZ (−2,11) =0,5-0,0174=0,4826.
22,5 22,5
ACTIVIDAD 8. Las compañías eléctricas podan los árboles que crecen cerca de sus líneas
para evitar cortes eléctricos debidos a la caída de árboles durante las tormentas. La
aplicación de un producto químico para retrasar el crecimiento de los árboles es más
barato que podar los árboles, pero estos productos matan algunos de los árboles.
20
Suponga que un producto químico de este tipo matará el 20% de los arces. La compañía
eléctrica prueba este producto con una muestra aleatoria de 250 arces.
a. ¿Cuál es la media y la desviación estándar del número de árboles que mueren en la
muestra?
b. ¿Cuál es la probabilidad de que mueran más de 60 árboles (el 24% de la muestra)?
A continuación, se enuncia una nueva versión del teorema central del límite:
ACTIVIDAD 10. Los tiempos que tarda un cajero en procesar el pedido de cada persona
son variables aleatorias independientes con distribución exponencial y una media de 1,5
minutos. ¿Cuál es la probabilidad aproximada de que se puedan procesar los pedidos de
100 personas en menos de 2 horas?
21
σ 2 9 / 4 X − 1,5
X ~& N µ = 1,5 , = ⇒ ~& N (0,1) .
n 100 3 / 20
1,2 − 1,5
Así, la probabilidad pedida sería P Z < = P( Z < −2) = 0,02275 .
3 / 20
Responda lo siguiente: Suponga que los tiempos que tarda un cajero en procesar el
pedido de cada persona son variables aleatorias independientes de población
desconocida, con una media de 1,5 minutos y una desviación estándar de 1 minuto.
¿Cuál es la probabilidad aproximada de que se puedan procesar los pedidos de 100
personas en menos de 2 horas?
n
Ahora estudiaremos la distribución muestral tanto como para S n = ∑ X i como para X
i =1
cuando la muestra aleatoria es seleccionada de una población distribuida Normal,
para ello asumimos que tanto µ como σ 2 son conocidas.
Es bueno recordar que cuando estudiamos alguna característica de interés, desde el
punto de vista estadístico la asumimos como variable aleatoria y la denotamos por la
letra X y cada valor de su recorrido es una medida sobre algún objeto y lo denotamos
por xi.
Ahora suponga que X es variable aleatoria costos de mantención de una flota de buses,
de esta forma x1 será el costo de mantención de un bus 1, x2 el costo de mantención de
n
un bus 2, y así sucesivamente, xn el costo del n-ésimo bus, de esta forma S n = ∑ X i
i =1
n
Sn ∑X i
normal con media µ y varianza σ 2 , y sea S n = ∑ X i y X = = i =1
el total y la
i =1 n n
media de la muestra aleatoria respectivamente. Entonces se cumple:
i) Sn ~ N ( nµ ; nσ 2 )
ii) (
X ~ N µ; σ
2
n )
S n − nµ
Observe que la estandarización para Sn es dada por Z = y para X su
nσ 2
X −µ
estandarización es Z =
σ
n
22
Demostración: Se realizará sólo para X , quedando como ejercicio para Sn.
Sabemos que toda función de probabilidad tiene una única función generadora de
momento por lo tanto conocida la función generadora de momentos podremos conocer
la función de probabilidad de la variable aleatoria:
1
Sabemos que si X ~ N ( µ ; σ )
µ t + t 2σ 2
2
entonces MX = e 2
, es decir cada vez que
1 2 2
encontremos una exponencial elevado al formato diremos que la variable µt + t σ
2
aleatoria sigue una distribución normal, identificando la media como acompañante de la
variable t y la varianza como acompañante de 12 t 2 .
Ahora
t t t
x1 x2 xn t t t
M x (t ) = E ( e ) = E ( e
xt n
) ⋅ E (e n
) ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ E (e n
) = M x1 ( ) ⋅ M x 2 ( ) ⋅ ⋅ ⋅ ⋅ ⋅ ⋅M xn ( )
n n n
n
µ t +σ 2 t
2 2
n σ 2 t2
= M xi ( )
t = e µt + n 2 , la cual es una exponencial elevado al
= e n n 2
n
formato µ t + 2 t σ , luego como t está acompañada por µ y 12 t 2 está acompañada por σ
1 2 2 2
n
vemos que la f.g.m. desarrollada corresponde a una distribución normal, donde
σ2 σ2
E (X ) = µ y V (X ) = , así X ~ N (µ , )
n n
ACTIVIDAD 11. La prueba WAIS (wechsler adult intelligence scale) es una prueba de
inteligencia para adultos. La distribución de los resultados de la prueba WAIS para
personas mayores de 16 años tiene distribución normal con media 100 y desviación
estándar 15.
Nota: (algo acerca de la prueba WAIS). Puntajes de más de 115 se considera
inteligencia brillante. Más de 130 comienza la clasificación de superdotación intelectual
con sus grados de moderada a profunda para los que alcanzan más de 175. Personas con
puntajes bajo 60 se consideran con inteligencia muy baja.
Solución:
Lo primero que definimos es la variable aleatoria a considerar como también su
distribución.
Sea X v.a puntaje de la prueba de inteligencia WAIS para personas > de 16 años.
23
X ~ N (100; 225)
105 − 100
a) P( X ≥ 105) = 1 − P ( Z < ) = 1- Fz (0,33) = 0.3707
15
[ ]
b) E X =100 y V X = 3,75 [ ]
c) Esta pregunta nos obliga a definir una nueva variable aleatoria
X v.a puntaje medio de la prueba de inteligencia WAIS para personas > de 16 años
en muestra de tamaño 60.
X ~ N (100; 3.75) donde 3.75 = 225 = σ
2
= σ X2
60 n
105 − 100
P( X ≥ 105) = 1 − P( Z < ) = 1- Fz (2,58) = 0.00494
1.9365
d) Sabemos por regla empírica que aproximadamente un 95,4% de todos los datos
deben estar a dos desviaciones estándar de la verdadera media, usando la
tabla normal estándar es de 0.9545, es decir P ( −2 ≤ Z ≤ 2 ) = 0.9545 , o
X − 100
P −2 ≤
1.9365
( )
≤ 2 = 0.9545 con esto P 96.13 ≤ X ≤ 103.87 = 0.9545 .
Esto nos indica que valores de medias muestrales mayores o iguales a 96.13 y
menores o iguales a 103.87 se encontraran a dos desviaciones estándar de la
media verdadera. Otra forma de ver esto, la verdadera media puede encontrarse
entre 96.13 y 103.87 con una probabilidad de 0.9545
24
Donde σ X es el error estándar de estimación de la media, σ X = σ
n
z0 es un valor tal que P ( − z0 ≤ Z ≤ z0 ) = 1 − α , esquemáticamente
= 1− σ
Nota: El intervalo definido nos muestra que P X − z0 σ ≤ µ ≤ X + z0 σ
n n
o que P − z0 σ ≤ X − µ ≤ z0 σ = 1 − σ , es decir, la media de la muestra difiere
n n
de la verdadera media en a lo más z0 σ unidades con una confianza del
n
100(1 − σ )% .
z0 σ define el error máximo que admitimos en que X difiere de µ con una
n
confianza del 100(1 − σ )%
Si llamamos d a este error máximo, observe que z0 σ = d define una ecuación que
n
nos indica que conocido tres de sus valores podemos determinar el cuarto, así
zσ
2
z0 σ =d d n
z0 = Para determinar nivel de confianza
n σ
d n
σ = Para determinar la desviación estándar
z0
108
106
104
102
100
98
96
94
92
90
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99
Media 100.5 104.6 98.7 100.5 100.2 98.5 102.7 97.5 102.1 100.8 100.2 99.1 102.1 99.2 100.8 103.5 100.4 99.4 104.1 101.7
L inf. 96.7 100.8 94.9 96.7 96.4 94.7 98.9 93.7 98.3 97 96.4 95.3 98.3 95.4 97 99.7 96.6 95.6 100.3 97.9
L sup. 104.3 108.4 102.5 104.3 104 102.3 106.5 101.3 105.9 104.6 104 102.9 105.9 103 104.6 107.3 104.2 103.2 107.9 105.5
Contiene 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1
25
Media 97.6 100 100.9 98.9 99 101.1 99.9 99.4 101.8 97.9 100.5 99.5 95.6 101.4 100.6 97.5 102.3 99.6 99.5 100.2
L inf. 93.8 96.2 97.1 95.1 95.2 97.3 96.1 95.6 98 94.1 96.7 95.7 91.8 97.6 96.8 93.7 98.5 95.8 95.7 96.4
L sup. 101.4 103.8 104.7 102.7 102.8 104.9 103.7 103.2 105.6 101.7 104.3 103.3 99.4 105.2 104.4 101.3 106.1 103.4 103.3 104
Contiene 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1
Media 98.4 98.4 99.9 100.7 99.1 101.7 101.1 102 98.1 100.4 98.6 99.4 98.7 98.3 97.5 99.7 97.8 98.9 98.7 97.5
L inf. 94.6 94.6 96.1 96.9 95.3 97.9 97.3 98.2 94.3 96.6 94.8 95.6 94.9 94.5 93.7 95.9 94 95.1 94.9 93.7
L sup. 102.2 102.2 103.7 104.5 102.9 105.5 104.9 105.8 101.9 104.2 102.4 103.2 102.5 102.1 101.3 103.5 101.6 102.7 102.5 101.3
Contiene 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Media 100.1 99.7 100.2 101 99.4 97.1 95.9 99.7 97.9 103.3 97.5 100.3 99.8 96.8 101.3 102.1 102 97.8 99.1 98.6
L inf. 96.3 95.9 96.4 97.2 95.6 93.3 92.1 95.9 94.1 99.5 93.7 96.5 96 93 97.5 98.3 98.2 94 95.3 94.8
L sup. 103.9 103.5 104 104.8 103.2 100.9 99.7 103.5 101.7 107.1 101.3 104.1 103.6 100.6 105.1 105.9 105.8 101.6 102.9 102.4
Contiene 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1
Media 96.7 99.3 97.5 103.6 100.1 99.3 99.2 97.1 102.6 103.9 97.9 101.5 102.8 99.2 101.4 99.7 100.8 101.1 96.5 102.5
L inf. 92.9 95.5 93.7 99.8 96.3 95.5 95.4 93.3 98.8 100.1 94.1 97.7 99 95.4 97.6 95.9 97 97.3 92.7 98.7
L sup. 100.5 103.1 101.3 107.4 103.9 103.1 103 100.9 106.4 107.7 101.7 105.3 106.6 103 105.2 103.5 104.6 104.9 100.3 106.3
Contiene 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1
Para esta simulación encontramos que el 95% de los intervalos contienen a la verdadera
media, indicado como 1 en la fila Contiene de las tablas.
Como ejercicio, compruebe Ud. algunos resultados dados en la tabla
0.020
Densidad
Densidad
0.013
0.007
0.000
En este gráfico podemos ver en forma clara como se traslapan poblaciones con distintas
medias, para una misma varianza, lo que nos indica que tenemos un riesgo de clasificar
a un individuo en una población equivocada.
105 − 100
(
P X > 105 / µ = 100 = P Z >
1,9365
)
= P ( Z > 2.58 ) = 0.00494
26
Esto nos indica que es poco probable que una muestra aleatoria de tamaño con media
mayor a 105 pueda ser clasificada en una población con media 100, es decir la muestra
debería venir de una población con media mayor a 100.
Si observamos la tabla de los 100 intervalos simulados, la muestra que contiene el valor
promedio más alejado de 100 es 104.6 y
104.6 − 100
( )
P X > 104.6 / µ = 100 = P Z >
1,9365
= P ( Z > 2.38 ) = 0.008656 es decir la
Bueno, ¿qué probabilidad será aceptable para considerar que la muestra ha sido
seleccionada de una población con media mayor que 100?.
La literatura habla de valores no más de 0.1, en muchos casos no más de 0.05 indicarán
que la muestra viene de poblaciones con media distinta de la que fue extraída, es decir
probabilidades más de 0.05 o más de 0.1, dependiendo del valor considerado por Ud.
para estos análisis, indicarán que la muestra ha sido seleccionada de la población con
media correcta. Esta probabilidad establecida se llama nivel de significación y se
denota con α y la región establecida por el criterio, región critica o región de
rechazo, denotada por RC.
x − 100
( )
Para α =0.05, P X > x0 / µ = 100 = P Z > 0
1,9365
= 0.05 , de la tabla Normal
x0 − 100
1,9365
{ }
= 1.64 ⇒ x0 = 103.2 , luego, RC = ( x1 ,L x60 ) // X > 103.2
Es decir, si Ud. selecciona una muestra aleatoria de tamaño 60 y arroja una media
muestral mayor a 103.2 podrá concluir que la muestra ha sido seleccionada de una
población con media mayor a 100.
Repita el ejercicio para la hipótesis H0 : µ = 100 v/s H1 : µ < 100
27
ACTIVIDAD 12. Un promotor inmobiliario quien intenta construir un centro comercial
desea estimar en el área el ingreso promedio por familia como indicador de las ventas
esperadas. Una muestra de n = 100 familias da una media X = US$35.500. Se asume
que la desviación estándar poblacional es σ = US$7.200. Un intervalo del 95% de
confianza para estimar el ingreso medio poblacional por familia está dada por µ :
(34.088 , 36.911)
ACTIVIDAD 13. Carlos Daniel acaba de registrar las declaraciones de impuestos de sus
clientes. Desea estimar la cantidad promedio que deben al Servicio de Renta Interna. De
los 50 clientes que seleccionó en su muestra, la cantidad promedio que se adecuaba era
de US$652.68. Ya que la desviación estándar de todos sus clientes es desconocida,
Carlos debe estimar σ con la desviación estándar de la muestra de S = US$217.43.
Verifique que Carlos puede tener un 99% de confianza en que la cantidad promedio que
deben todos sus clientes al SRI está entre US$573.35 y US$732.01.
¿Qué pasaría a este intervalo si Carlos estuviera dispuesto a aceptar un nivel de
confianza del 95%?
Se obtendría un resultado entre US$592.41 y US$712.96.
Los resultados son tanto buenos como malos:
28
Las buenas noticias son que el intervalo del 95% es más estrecho y ofrece mayor
precisión. Un intervalo amplio no es tan útil. Entre más estrecho sea un intervalo, más
significativo es.
Las malas noticias son que Carlos ahora está el 95% seguro de que el intervalo contiene
en realidad µ. Aunque el intervalo es más preciso (más estrecho), la probabilidad de que
contenga µ se ha reducido del 99 al 95%. Carlos tuvo que abandonar algo de confianza
y ganar más precisión.
Su estandarización es la siguiente: Z=
(x − x )− (µ − µ ) ~
1 2 1 2
N(0,1)
σ 12
σ 22
n + n
1 2
( )
P x1 − x2 < 8,2 = P z <
8,2 − 10
2,8
= φ ( −1,08) = 0.1401
Otra aplicación sería comparar las medias correspondientes a dos poblaciones mediante
estimadores de funciones de parámetros de dos o más distribuciones. Por ejemplo,
obtener un intervalo de confianza para la diferencia µ1 − µ 2 entre los valores medios de
dos distribuciones diferentes que se desean comparar. En este caso, al igual que en los
casos anteriores, debemos recurrir a un estadístico que naturalmente resulta ser X 1 − X 2
29
. Consideremos dos muestras aleatorias independientes de tamaños n1 y n2 ,
provenientes de dos poblaciones normales con varianzas σ 12 y σ 22 conocidas.
σ2 σ2
En tal situación la distribución del estadístico es X 1 − X 2 ~ N µ1 − µ 2 , 1 + 2
n1 n2
Por lo que un Intervalo de Confianza correspondiente es:
σ12 σ 22
µ1 − µ 2 : ( X1 − X 2 ) ± Z(1 - α/2) ⋅ +
n1 n2
Recordemos que para v.a. independientes Z i con distribución normal N(0,1), la v.a.
k 2
∑ Zi tiene distribución Chi-Cuadrado con k grados de libertad.
i =1
Anotamos X ~ X k2 Además, E (X ) = k y V ( X ) = 2k .
Por ejemplo, Para X ~ X se tiene E ( X ) = 15 ; V ( X ) = 30 y P ( X > 25) = 0.05 . La
2
15
siguiente figura muestra la distribución Chi-Cuadrado para k = 2, 4 y 6 grados de
libertad.
Considere X 1 , X 2 ,......., X n una muestra aleatoria extraída de una población normal con
Xi − µ
media µ y varianza σ 2 . La variable aleatoria Z i = tiene distribución normal
σ
N(0,1), y entonces ∑
n (xi − µ )2 ~ X n2
i =1 σ2
Teorema 2. Sea X 1 , X 2 ,......., X n una muestra aleatoria extraída de una población normal
X ~ N ( µ,σ 2 ) y denotemos Y =
(n − 1)S 2 . Entonces, la variable aleatoria Y tiene
σ 2
30
n n
Demostración. Escribamos la descomposición: ∑(Xi − µ ) 2 = ∑ ( X i − X ) 2 + n ( X − µ ) 2 Dividamos
i =1 i =1
n n
∑(Xi − µ) 2
∑(Xi − X) 2
n( X − µ )2
cada término de la igualdad por σ 2 , i =1
= i =1
+ La expresión
σ2 σ2 σ2
n( X − µ )2
corresponde al cuadrado de una variable normal estándar con una distribución χ12 .
σ 2
n
− µ )2
Por otra parte, W =
∑( Xi
i =1
sigue una distribución χ n2 . Así, W =
(n − 1)S 2 + n ( X − µ ) 2 Si
σ2 σ σ 2 2
E (e ) = E e σ
tw
e tz donde W y Z tienen distribuciones chi-cuadrado con n y 1 grados de
(n −1)S 2
t 1 1
E e σ =
2
libertad, por lo que podemos escribir: ;t < es la función generadora
(1 − 2t )(n −1) / 2 2
(
Se pide P 521 < x < 540 = ) 521 − 500
P
50 / 5
≤Z≤
540 − 500
50 / 5
= φ (1,79) − φ (0,94) = 0,1369
b) P(
(n − 1)S 2 ≤
9 ⋅ 68,56 2
) = P X 92 ≤ 16,92 = 0.95
σ2 50 2
ACTIVIDAD 16. Suponga que una muestra de 10 neumáticos nuevos tuvieron una
duración promedio igual a 75.000 kilómetros con una varianza estimada igual a 32.000
kilómetros. Suponiendo normalidad, calcular la probabilidad de que el estimador S 2
exceda a la verdadera varianza σ 2 en un 36% o más.
( )
Solución: Se pide P S 2 ≥ 1.36σ 2 = P (Y ≥ 12.24 ) = 0,20, donde Y ≈ X 92 . Se espera
que en 20 de cada 100 muestras ocurra este evento.
31
Así la variable aleatoria Y =
(n − 1)S 2 ~ χ n2−1 permite calcular probabilidades de la
σ2
forma P (a ≤
(n − 1)S 2 ≤ b) = 1- α para valores determinados de a y b. Este resultado
σ 2
(n − 1) S 2 (n − 1) S 2
≤σ2 ≤
ℵn2 −1 (1 − α / 2) ℵ2n −1 (α / 2)
siguiente forma: W =
x−µ
~ N (0,1) y V =
(n − 1)S 2 ~ X n2−1 variables aleatorias
σ/ n σ2
x−µ
σ/ n x−µ
independientes, entonces T = = ~ t-Student con (n-1) grados de libertad
(n − 1)S 2 S/ n
σ 2 ( n − 1)
32
La muestra aleatoria es sacada de una población normal, pero los parámetros µ y σ 2
son desconocidos. La estandarización de la v.a. es de la forma:
X −µ
T= ~ t (n − 1)
S n
EJERCICIO 4. Sea X una variable aleatoria con distribución normal de promedio µ = 5,2
y varianza desconocida. Se obtiene una muestra aleatoria de 10 individuos,
obteniéndose los siguientes resultados: 5,3 6,5 2,1 4,3 3,9 7,8 9,0 1,2 5,0
8,1
a) Calcular la probabilidad de que la media de la muestra exceda en 4,987
S2
b) Calcular P ≤ 0,46 .
σ 2
X −µ
De la expresión ~ t ( n − 1) podemos obtener un intervalo de confianza para el
S n
parámetro µ cuando σ2 es desconocido. La única diferencia con la expresión obtenida
antes es que ahora se utiliza S2 en lugar de σ2 y la distribución correspondiente es la
t(n-1) en lugar de la distribución normal estándar Z(0,1).
EJERCICIO 5. Una empresa muestrea 23 paquetes para estimar el costo postal promedio.
La media muestral es de US$23.56, con S = US$4.65.
a) El editor espera mantener el costo promedio por debajo de US$23.00 Calcule e
interprete el intervalo de confianza del 99%. ¿El editor está satisfecho?
b) Compare los resultados de la parte a) con el intervalo del 95%. Explique la
diferencia.
c) Manteniendo S = US$4.65, compare los resultados de la parte a) con el intervalo del
95%. Explique la diferencia.
33
Z X 1 − X 2 − ( µ1 − µ2 )
T= = ~ t ( n1 + n2 − 2)
Y 1 1
Sp ⋅ +
n1 + n2 − 2 n1 n2
El resultado anterior no se puede extender fácilmente al caso en que las dos poblaciones
tienen varianzas distintas y desconocidas.
n + n2 n1 n +n
Γ 1 n1
− 1 2
2 n1 2 −1 1 + n1 X 2
, x>0
2
f ( x) = X
n1 n 2 n 2
n2
Γ Γ
2 2
1
Propiedades: a) f 1−α (n1 , n 2 ) =
f α (n 2 , n1 )
b) X ≈ F (n1 , n 2 ) , luego P( X ≤ f 1−α (n1 , n2 )) = 1 − α , se encuentra tabulada.
c) Caso particular: Consideremos muestras provenientes de una distribución normal,
sabemos que: U =
(n1 − 1)S12 ~ X n2 −1 y V =
(n2 − 1)S2 2
~ X n2 −1 y son independientes.
σ12 1 σ2 2 2
S 2σ 2
Por lo tanto, la siguiente expresión: F = 1 2 ~ F (n1 − 1, n2 − 1)
S 22σ 12
34
A continuación, se muestra su representación gráfica para distintos valores de sus
grados de libertad.
σ 12 S12 S12
: 2 , 2
σ 22 S ⋅ f (1 − α / 2 ) S ⋅ f (α / 2 )
2 ( n1 −1 , n 2 −1) 2 ( n1 −1 , n 2 −1)
Los resultados hasta aquí están basados en una y dos muestras de la distribución normal.
Para otro tipo de distribuciones puede ser difícil encontrar la distribución exacta de los
estimadores. No obstante, algunos resultados asintóticos son posibles. A continuación,
mostraremos dos aplicaciones del teorema central del límite:
a. Estimación por intervalos de confianza del parámetro de la proporción p
de la distribución binomial
b. Determinación del tamaño adecuado de muestra aleatoria para estimar el
parámetro p.
35
EJERCICIO 8. Compruebe que la probabilidad de que Sn esté dentro de los límites np ± 2
npq es alrededor de FZ(2) - FZ(-2) = 0,9545; para np ± 3 npq la probabilidad es
aproximadamente 0,9973.
( )
P p + z1 pq / n < pˆ < p + z 2 pq / n = FZ (z 2 ) − FZ (z1 )
Se propone la siguiente actividad para aplicar esta propiedad en un estudio sobre planes
de pensiones.
36
La siguiente actividad implica la construcción de intervalo de confianza de la diferencia
de proporciones en dos muestras.
ACTIVIDAD 17.
Construya un intervalo de confianza para la diferencia entre dos proporciones p1-p2
EJERCICIO 10. Muestreo. Una fracción desconocida p de una población está compuesta
por fumadores, y vamos a utilizar el muestreo aleatorio con reemplazo para determinar
p. Se quiere encontrar p con un error no mayor de 0,005.
a. ¿Cuán grande debe ser el tamaño n de la muestra?
b. ¿Cuán grande debe ser el tamaño n de la muestra si se quiere un error a lo más 0,01?
37
Queremos conducirte a descubrir que la determinación del tamaño muestral está
condicionada al error muestral. Para ello discutamos la siguiente secuencia de algoritmo
de solución:
Sea p̂ la fracción de fumadores de la muestra. Es claro que ningún tamaño de muestra
puede garantizar de manera absoluta que pˆ − p < 0,005 . A lo más podemos considerar
muy improbable un error que exceda de la cota asignada de 0,005. Con este propósito,
se establecería un nivel de confianza arbitraria 1-α digamos 0,95, y elegiría una n tan
grande que el evento pˆ − p < 0,005 tenga probabilidad > 1-α.
Dado que Sn= nˆp puede interpretarse como el número de éxitos en n ensayos, tenemos
que P( pˆ − p < 0,005) = P( S n − np < 0,005n) ≥ 1 − α . Con apoyo de la aproximación normal y
observando sus valores en la tabla, sería necesario elegir una n tan grande que
0,005 n
≥ Z (1 − α / 2) ó n ≥ 40000 ⋅ p ⋅ q ⋅ Z 2 (1 − α / 2) .
pq
En esto interviene la probabilidad desconocida p pero, en cualquier circunstancia,
tenemos que pq ≤ 1 / 4 y, en consecuencia, será suficiente un tamaño de muestra
n ≥ 10000 ⋅ Z 2 (1 − α / 2) . En el nivel de confianza 1-α= 0,95, encontramos que
Z (1 − α / 2) = 1,96 , por lo que un tamaño muestral de n = 40000 es, desde luego,
suficiente.
En la parte b) Si solamente se requiere una precisión 0,01 sería suficiente un tamaño
muestral de 10000 (con el mismo nivel de confianza).
Observación:
a. Es preferible un intervalo más estrecho debido a la precisión adicional que
proporciona, y se controla el ancho del intervalo reduciendo el nivel de
confianza e incrementando el tamaño de la muestra. El tamaño de la muestra
juega un papel importante al determinar la probabilidad del error así como en la
precisión de la estimación.
2
Z (1 − α / 2)
b. Si en el tamaño de muestra n = ⋅ p (1 − p ) ; p no es conocido se
e
puede sustituir con una estimación p̂ / obtenida en un estudio piloto con una
muestra n / . En caso contrario, se sustituye p por el valor que hace máxima la
varianza p = 1/2
c. En la obtención del tamaño de la muestra para estimar µ, si se considera el error
absoluto de estimación o precisión e = X − µ y la variable normal estándar
X −µ
Z= , se puede reescribir algebraicamente, el tamaño muestral para
σ n
intervalos de la media poblacional con distribución normal y varianza conocida
2
Z (1 − α / 2) ⋅ σ
n= . Note que Si σ es desconocida se estima por S de
e
una muestra piloto y se reemplaza en la expresión anterior.
38
ANEXOS DE LAS DISTRIBUCIONES MUESTRALES
Def. 2. Un Estadístico es una función de los valores de la muestra que no depende del
parámetro de la población.
Un estadístico es una variable aleatoria; ésta tiene una distribución de probabilidad.
Sn : ℜn → ℜ X : ℜn → ℜ Re c : ℜ n → ℜ
n
n ∑ Xi
x → Sn = ∑ Xi x → X ( x) = i =1
x → Re c( x) = X máx − X mín
i =1 n
S 2 : ℜn → ℜ S : ℜn → ℜ
∑
n
i =1
(X i −X )
2
x → S 2 ( x) = x → S ( x) = S 2 ( x)
n −1
Propiedad 1. E ( X1 – X2 ) = E ( X1 ) - E ( X2 )
39
Propiedad 3. Si X1, X 2 son independientes, V ( X 1 − X 2 ) = V ( X 1 ) + V ( X 2 )
n n
3) Para X1 , X 2 ,......, X n , V ( a1 X 1 + a2 X 2 + ..... ⋅ an X n ) = ∑∑ ai a jCov( X i , X j )
i =1 j =1
Casos Particulares:
Consideremos X 1 ,X 2 ,…,X n variables aleatorias independientes e idénticamente
n
distribuidas (v.a.i.i.d.). Bajo condiciones se cumple para Sn = ∑ X i
i=1
40
(d) Si X ~ P (µ) entonces Sn ~ P (nµ)
(e) Si X i ~ exp (λ) entonces Sn ~ Γ(n, λ)
ANEXO 2. GLOSARIO
41
Variable Aleatoria: Una magnitud cuyo valor viene determinado por el resultado de un
experimento probabilístico.
Variable aleatoria discreta: Una variable aleatoria cuyos posibles valores son una
sucesión de puntos distintos de la recta real.
Valor esperado de una variable aleatoria: Media ponderada
Varianza de una variable aleatoria: Valor esperado de las diferencias cuadráticas entre la
variable aleatoria y su valor esperado.
Desviación estándar de una variable aleatoria: Raíz cuadrada de la varianza.
Función de probabilidad: Corresponde a un modelo probabilístico del comportamiento
de la variable aleatoria, la cual es usada para evaluar probabilidades acerca de X.
Variable aleatoria binomial con parámetros n y p: Una variable aleatoria igual al
número de éxitos en n pruebas independientes, cuando la probabilidad de éxito en cada
prueba es igual a p.
Variable aleatoria continua: Variable Aleatoria que puede tomar cualquier valor
contenido en un intervalo.
Función densidad de probabilidad: Curva asociada a una variable aleatoria continua. La
probabilidad de que la variable aleatoria esté comprendida entre dos puntos es igual al
área bajo la curva entre dichos puntos.
Variable aleatoria normal: Tipo de variables aleatorias continuas cuyas funciones de
densidad de probabilidad son simétricas con formas acampanadas.
Variable aleatoria normal estándar: variable aleatoria normal con media 0 y varianza 1.
Percentil de orden 100p por ciento de una variable aleatoria continua: La probabilidad
de que la variable aleatoria sea menor que dicho percentil es p.
Teorema central del límite: Teorema que establece que la suma de una muestra de
tamaño n procedente de una población sigue Aproximadamente una distribución
normal, si n es grande.
Muestra aleatoria: Una muestra de n miembros de una población es una muestra
aleatoria si se extrae de tal forma que todos los posibles subconjuntos de n miembros de
la población tienen la misma probabilidad de constituir la muestra.
Distribución t-student con n grados de libertad: Distribución de probabilidad que surge
del problema de estimar la media de una población normalmente distribuida cuando el
tamaño de la muestra es pequeño, o la desviación estándar de la población es
desconocida.
42
Distribución chi-cuadrado con n grados de libertad: Distribución que sigue la suma de
los cuadrados de n variables aleatorias normales estándar e independientes.
Distribución F de Fisher: Distribución de probabilidad de la razón de dos varianzas
provenientes de dos poblaciones diferentes.
Grados de libertad: Número de datos que pueden variar libremente al calcular un
estadístico.
Estadístico: Es una función de los valores de la muestra que no depende del parámetro
de la población.
Estimador: Un estadístico utilizado para aproximar un parámetro de la población.
También, se le denomina estimador puntual.
Valor estimado: Valor observado del estimador.
Estimador insesgado: Estimador cuya esperanza coincide con el parámetro que se desea
estimar.
Error estándar de un estimador (insesgado): Desviación estándar del estimador. Es un
indicador de la diferencia que se puede esperar que exista entre el estimador y el
parámetro que se desea estimar.
Error Cuadrático medio: (ECM) Es el valor esperado de la desviación cuadrática entre
el estimador y el parámetro que estima.
Estimador por intervalo de confianza: Intervalo cuyos extremos se determinan a partir
de los datos muestrales. El parámetro está contenido en el intervalo con un grado
determinado de confianza. Por lo general, el punto medio del intervalo coincide con el
estimador puntual del parámetro.
Coeficiente de confianza: Es la proporción de todas las estimaciones por intervalo que
incluyen al parámetro que está estimándose.
43
ANEXO 3. MÉTODOS DE MUESTREO
Conviene utilizar en situaciones donde la población es grande, por ejemplo obtener una
muestra de 2000 facturas colocadas en gavetas de archivos. Se puede seleccionar una
factura de cada 20 de las que se encuentran en el archivo. La primera factura se elige
utilizando un proceso al azar como punto de inicio. Si se ha obtenido el 10, entonces la
muestra constará de las facturas números 10, 30, 50,..
No conviene utilizar si hay un patrón predeterminado en la población. Por ejemplo
donde hay tres compartimientos con distintos artículos. Lo más probable es seleccionar
una muestra sesgada.
45
Muestreo aleatorio estratificado: Una población se divide en subgrupos, denominados
estratos, y se selecciona una muestra de cada uno. (Una muestra estratificada garantiza
la representación de cada subgrupo)
Tiene la ventaja, en algunos casos, de reflejar con mayor precisión las características de
la población, que el muestreo aleatorio simple o el aleatorio sistemático.
Observar que 2% de las empresas pagan dividendos de 30% o más (estrato 1), y 1%
tiene déficit (estrato 5). Si se tomara una m.a.s. de 50, se podría por casualidad, no
tomar ninguna empresa de los estratos 1 o 5. Sin embargo, una muestra estratificada
aseguraría que al menos una empresa en el estrato 1 y una en el estrato 5, estuvieran
representadas en la muestra.
46