Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El estudio de determinadas características de una población se efectúa a través de diversas muestras que pueden
extraerse de ella. Antes de abordar este problema propiamente, necesitamos conocer el comportamiento de
algunas variables aleatorias asociadas a las muestras.
En este Tema, vamos a suponer que conocemos (lo que no es habitual) los parámetros de la población a estudiar
y queremos deducir consecuencias sobre las muestras, presentando la distribución muestral de algunas variables
aleatorias que utilizaremos en los temas siguientes para la Inferencia Estadística.
Dpto. EDAN
El muestreo aleatorio simple funciona bien en muchos casos, y es fácil de utilizar y de comprender; en general
acude a la mente cuando una persona oye el término muestra. En el muestreo aleatorio simple los elementos se
seleccionan «al azar», en el sentido de que la elección de los elementos de la muestra es controlada por algún
mecanismo aleatorio. Cada elemento tiene la misma probabilidad de ser elegido para el estudio que cualquier
otro. El mecanismo aleatorio utilizado podría ser tan simple como sacar nombres de un sombrero, o tan complejo
como utilizar un generador electrónico de números aleatorios.
Ejemplo 4.1
Para realizar una encuesta sobre la intención de voto en una ciudad se elige, al azar, una muestra formada por
1000 personas.
1
4. Teoría de muestras 2
En una ciudad de sabe que el 60 % son mujeres y el 40 % hombres. Se quiere realizar una encuesta sobre la
intención de voto escogiendo una muestra de 1000 personas. Para ello, previamente se divide la población en
dos estratos: mujeres y hombres, y luego, se extrae de cada estrato una muestra proporcional, es decir, en este
caso, 600 mujeres y 400 hombres.
Ejemplo 4.3
Ejemplo 4.4
Para realizar una encuesta entre los alcaldes de España, se consideran las provincias de España. Se eligen al azar
algunas provincias y la muestra estará formada por todos los alcaldes de las provincias elegidas (claramente
en este ejemplo las secciones son todas las provincias de España).
Ejemplo 4.5
Los fabricantes de envasado de espárragos desean saber la longitud media de los espárragos. La longitud media
la representamos por µ y por σ la desviación típica. Elegimos una muestra aleatoria formada por 40 espárragos,
No es necesario constriur la distribución muestral de las medias en todos los casos ya que tienen su propia
distribución muestral conocida en cada caso. Para describir su comportamiento damos el Teorema Central
del Límite en la siguiente versión:
Teorema Central del Límite: Dada una población de media µ y desviación típica σ (cualquiera que sea
su distribución), la distribución de las √medias de las muestras de tamaño n, tiene la misma media que la
población, µ, su desviación típica es σ/ n y cuando n es «grande» es prácticamente Normal.
Se puede demostrar también que cuando la distribución de partida es Normal, la distribución de las medias es
Normal.
El término n «grande» es relativo y puede depender de la población considerada pero es bastante común tomarlo
como n ≥ 30. Se observa que cuánto más grande sea n, más pequeña es la desviación típica de la distribución
de las medias muestrales.
1. Si la población sigue una distribución Normal, entonces X sigue también una distribución Normal de
media igual a la media poblacional µ y desviación típica √σn , es decir
σ
Dpto. EDAN
X ∼ N (µ, σ) ⇒ X∼N µ, √
n
2. Si la población sigue una distribución cualquiera (no necesariamente Normal), entonces a medida que el
tamaño de muestra, n, crece, la variable aleatoria X se aproxima a la Normal de media µ y desviación
típica √σn , es decir
σ
X cualquiera y n es «grande» ⇒ X∼N µ, √
n
X −µ
En ambos casos, el estadístico Z = √ sigue una distribución Normal estándar, es decir Z ∼ N (0, 1).
σ/ n
Ejemplo 4.6
Se supone que la distribución de la temperatura del cuerpo humano tiene de media µ = 37 grados y de
desviación típica σ = 0.85 grados. Se eligen muestras de 105 personas.
b) Calcular la probabilidad de que la media muestral esté comprendida entre 36.5 y 37.5.
Solución: En este caso, la población, X, es la temperatura del cuerpo humano y no sabemos si sigue o no la
distribución Normal. El tamaño de la muestra es n = 105 > 30. Luego, podemos aproximar la distribución la
media muestral, X por la Normal
σ 0.85
X ∼ N µ, √ = N 37, √ = N (37, 0.083)
n 105
Apartado a): Tenemos que calcular P (X ≤ 39.9). Tipificando la variable, tenemos que
X −µ X − 37
Z= √ = ∼ N (0, 1)
σ/ n 0.083
36.9 − 37
P (X ≤ 36.9) = P Z ≤ = P (Z ≤ −1.2) = 1 − P (Z ≤ 1.2) = 1 − 0.8849 = 0.115
0.083
Apartado b): Se trata de calcular ahora
36.5 − 37 37.5 − 37
P (36.5 ≤ X ≤ 37.5) = P ≤Z≤ = P (−6.02 ≤ Z ≤ 6.02) = 2P (Z ≤ 6.02) − 1 = 1
0.083 0.083
Ejemplo 4.7
El peso de vacas de una determinada ganadería se distribuye según una Normal de media µ = 495 Kg. y
desviación típica σ = 44 Kg. Se toman muestras de 35 vacas de esa ganadería. Calcular la probabilidad de que
la media muestral:
Solución: Como la distribución de partida es Normal, la distribución de las medias muestrales sigue también
Dpto. EDAN
una distribución Normal, cualquiera que sea n, es decir
σ 44
X ∼ N µ, √ = N 495, √ = N (495, 7.44)
n 35
X −µ X − 495
Tipificando la variable, tenemos Z = √ = ∼ N (0, 1)
σ/ n 7.44
Apartado a):
500 − 495
P (X ≥ 500) = P Z ≥ = P (Z ≥ 0.67) = 1 − P (Z ≤ 0.67) = 1 − 0.7486 = 0.2514
7.44
Apartado b):
480 − 495
P (X ≤ 480) = P Z≤ = P (Z ≤ −2.02) = 1 − P (Z ≤ 2.02) = 1 − 0.9783 = 0.0217
7.44
X−µ
√ ∼ N (0, 1) sólo se puede usar en los casos en los que conocemos la desviación típica
El estadístico Z = σ/ n
poblacional, σ, lo que no sucede habitualmente.
Cuando no se conoce la desviación típica poblacional, σ, no podemos usar la variable aleatoria tipificada Z,
entonces es habitual tomar como aproximación de σ la cuasidesviación típica, ŝ calculada a partir de una
X −µ
T = √ ∼ tn−1 (4.2)
ŝ/ n
sigue una distribución t de Student de n − 1 grados de libertad, donde ŝ es la cuasidesviación típica muestral
dada por (4.1) y n es el tamaño de la muestra.
Se observa que T dada por (4.2) relaciona la media poblacional µ y la media muestral X. Sabemos que cuando
n crece, la distribución t de Student se comporta como una normal tipificada.
X −µ
Dpto. EDAN
Observando la analogía entre las expresiones de Z = √ ∼ N (0, 1) y de T ∼ tn−1 , vemos que la única
σ/ n
diferencia es que en vez de σ en Z, hemos tomado su «estimador», la cuasidesviación típica ŝ.
Ejemplo 4.8
El cociente intelectual de unos universitarios se distribuye normalmente con media 100 y desviación típica 11.
b) Para muestras elegidas al azar de 25 universitarios, encontrar la probabilidad de que la media de sus
cocientes intelectuales esté entre 100 y 103.
c) Obtener la probabilidad anterior suponiendo que, en las mismas condiciones, se desconoce el valor de la
desviación típica poblacional, σ, pero se sabe el valor de la desviación típica muestral, s = 10.
Solución:
Apartado a): Sea X la variable aleatoria que describe el cociente intelectual de unos universitarios. La
distribución de partida es N (100, 11).
100 − 100 103 − 100
P (100 ≤ X ≤ 103) = P ≤Z≤ = P (0 ≤ Z ≤ 0.27) = 0.1064.
11 11
Apartado b): Según el Teorema Central de Límite, la distribución de media muestral, X, como procede de
una población de partida Normal, es Normal cualquiera que sea el valor de n, es decir
σ 11
X ∼ N µ, √ = N 100, √ = N (100, 2.2)
n 25
Por tanto,
100 − 100 103 − 100
P (100 ≤ X ≤ 103) = P ≤Z≤ = P (0 ≤ Z ≤ 1.36) = 0.4131.
2.2 2.2
X −µ
Apartado c): Ahora, la variable aleatoria que hemos de usar es T = √ ∼ tn−1 que se distribuye según
ŝ/ n
una t de Student de n = 25 − 1 = 24 grados de libertad. Además,
ŝ s 10
√ =√ = √ = 2.04
n n−1 24
Luego,
100 − 100 103 − 100
P (100 ≤ X ≤ 103) = P ≤T ≤ = P (0 ≤ T ≤ 1.47) = P (T ≤ 1.47) − P (T ≤ 0).
Dpto. EDAN
2.04 2.04
Es claro que P (T ≤ 0) = 0.5 ya que la distribución t de Student es simétrica respecto al cero. Para calcular
P (T ≤ 1.47), de la tabla de t de Student tenemos que para n = 24: 1.47 está entre los valores 1.3178
(correspondiente a la probabilidad 0.9) y 1.7109 (correspondiente a la probabilidad 0.95). Como son valores
alejados uno del otro, construimos la recta que interpola los valores (1.3178, 0.9) y (1.7109, 0.95):
0.95 − 0.9
y = 0.9 + (x − 1.378)
1.7109 − 1.3178)
La probabilidad que buscamos se obtiene tomando en esta recta la ordenada correspondiente a x = 1.47
0.95 − 0.9 0.05
y = 0.9 + (1.47 − 1.378) = 0.9 + 0.0920 = 0.9117,
1.7109 − 1.3178 0.3931
de donde
Ejemplo 4.9
Los fabricantes de una determinada marca de chinchetas fabrican cajas de 100 unidades quieren saber cuántas
salen defectuosas. Sea p la proporción de chinchetas buenas, es decir, las que no presentan defectos en las
mencionadas cajas.
Si se toma una muestra aleatoria de n = 100 chinchetas y se observa que 86 de ellas están bien, al valor 86/100
lo denotamos p1 . Si consideramos otra muestra de 100 elementos, obtendremos otro valor p2 y sucesivamente
p3 , p4 ,. . . Los distintos valores de pi dan lugar a una variable aleatoria que denotamos P̂ que representa la
proporción o probabilidad de éxito de que se presente la característica que estudiamos (en este caso chinchetas
buenas) en muestras de tamaño n (en este caso, 100).
Dpto. EDAN
Distribución muestral de la proporción:
Consideramos en una población en la que la probabilidad de que un individuo muestre una cierta característica
es p. Entonces, la variable aleatoria, P̂ , que da la proporción de individuos que presentan dicha característica
en muestras de tamaño n, tiene las siguientes propiedades:
Este resultado puede justificarse intuitivamente recordando la definición de variable aleatoria Binomial y su
aproximación a una Normal. En efecto, por definición, si X representa el número de individuos que tienen la
característica
p mencionada en un conjunto de n elementos, seguirá una B(n, p), de media np y desviación típica
np(1 − p). Así pues, puede considerarse que la proporción P̂ , sigue aproximadamente
q una distribución como
p(1−p)
la de X, dividida por n. Su media y desviación típica son respectivamente, p y y cuando n es grande,
Ejemplo 4.10
Se sabe que un nuevo fármaco ha curado al 85 % de los enfermos a los que se les ha aplicado. Calcular la
distribución muestral de la proporción para muestras de tamaño 30, 100 y 1000.
Solución. La proporción de enfermos curados es p = 85/100 = 0.85 (la proporción poblacional). Por tanto, la
variable aleatoria P̂ que representa la proporción muestral tiene la media p = 0.85. Discutamos el valor de la
desviación típica y la ley que sigue la distribución muestral según el valor de n en cada muestra:
Ejemplo 4.11
En unas elecciones a alcalde el 56 % de los votantes optó por el candidato A, mientras que el 44 % lo hizo por
el candidato B.
a) Hallar la distribución de probabilidad de la proporción de muestras de tamaño 50 extraídas de la pobla-
ción.
b) Calcular la probabilidad de que la proporción, en muestras de 50 votantes sea, al menos de 30 votos
favorables al candidato A.
Dpto. EDAN
Solución. Apartado a): La característica que estudiamos es «votantes al candidato A». Se trata de distri-
bución de proporciones, P̂ , en muestras de tamaño n = 50. Tenemos que p = 0.56, n = 50. Entonces
r ! r ! r !
p(1 − p) 0.56(1 − 0.56) 0.56 × 0.44
P̂ ∼ N p, = N 0.56, = N 0.56, = N (0.56, 0.07)
n 50 50
P̂ − 0.56
Tipificando la variable, tenemos Z = ∼ N (0, 1)
0.07
Apartado b):
30 0.6 − 0.56
P P̂ ≥ = P (P̂ ≥ 0.6) = P Z≥ = P (Z ≥ 0.57) = 1 − P (Z ≤ 0.57) = 1 − 0.7157 = 0.2843
50 0.07
Esta diferencia de medias da lugar a una variable aleatoria, llamada diferencia muestral de las medias, que
representamos por X 1 − X 2 . La distribución de X 1 − X 2 se llama distribución muestral de la diferencia
de las medias.
Ejemplo 4.12
Supongamos que los salarios de dos poblaciones, una de hombres y otra de mujeres, siguen una distribución
Normal N (914, 42) y N (883, 30), respectivamente. Escojamos al azar una muestra de 40 hombres y una muestra
de 30 mujeres.
¿Cuál es la probabilidad de que el sueldo medio de los hombres supere al de las mujeres en 36 euros? Dpto. EDAN
Solución: Como X 1 y X 2 siguen una distribución Normal, la variable aleatoria X 1 − X 2 sigue también una
distribución Normal:
r !
422 302
X 1 − X 2 ∼ N 914 − 883, + = N (31, 8.61)
40 30
Por tanto, tipificando la variable, tenemos
36 − 31
P (X 1 − X 2 ≥ 36) = P Z ≥ = P (Z ≥ 0.58) = 1 − P (Z ≤ 0.58) = 1 − 0.72 = 0.28.
8.61
Cuando se desconoce el valor de las desviaciones típicas de las poblaciones, σ1 y σ2 , es necesario testar si éstas
son iguales o no y dependiendo de ello, se elige la variable aleatoria, T , para tomar decisiones sobre la diferencia
de medias.
Si se asume que las varianzas poblacionales son iguales, se define la cuasivarianza conjunta como
n1 −1 + n2 −1
Dpto. EDAN
Ejemplo 4.13
Consideramos los datos del Ejemplo 4.12. Supongamos que los salarios de dos poblaciones, una de hombres
y otra de mujeres, siguen una distribución Normal de media µ1 = 914 y µ2 = 883 respectivamente. No se
Solución: En primer caso, usamos la variable aleatoria T dada por (4.4), con la cuasivarianza conjunta dada
por
Luego,
36 − 31
P (X 1 − X 2 ≥ 36) = P T ≥ q = P (T ≥ 0.6) = 1 − P (T ≤ 0.6) = 1 − 0.72 = 0.28.
30.6252 36.32
39 + 29 )
Dpto. EDAN
Dpto. EDAN
12
Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional.
Índice de Tema 4
4. Teoría de muestras 1
4.1. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
4.1.1. Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
4.1.2. Muestreo aleatorio estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4.1.3. Muestreo aleatorio sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4.1.4. Muestreo por conglomerados y áreas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4.1.5. Distribución muestral de las medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
4.1.6. Distribución muestral de la proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.7. Distribución muestral de la diferencia de medias . . . . . . . . . . . . . . . . . . . . . . . 9
Bibliografía 11
Dpto. EDAN
13