Está en la página 1de 16

Unidad 1 / Escenario 2

Lectura fundamental

Distribuciones muestrales

Contenido

1 Distribuciones muestrales

Palabras clave: inferencial, parámetro, estadística o estadígrafo, distribución muestral, error estándar.
1. Distribuciones muestrales
Pues bien, ahora es necesario recordar que el propósito de la estadística inferencial es trabajar con
base en muestras y los resultados obtenidos se generalizan o infieren a una población. Además, que
las medidas de una población se conocen como parámetros y las medidas en la muestra se llaman
estadísticas o estadígrafos. Así, entonces, el parámetro es un valor fijo mientras que el estadístico o
estadígrafo varía de acuerdo con la muestra seleccionada.

Ahora resulta de interés, establecer cuál es el comportamiento o la distribución del estadístico


calculado en todas las muestras posibles del mismo tamaño seleccionadas de una población. Estas
distribuciones son conocidas como distribuciones muestrales y son el tema que comenzamos a trabajar.

Antes de comenzar, es necesario recordar la diferencia que se tiene en la notación al hablar de


un parámetro y de un estadístico. Algunos de los parámetros más empleados y sus estadísticos
correspondientes los encontramos en la Tabla 1. Veamos:

Tabla 1. Notación de parámetros y estadísticos más comunes

Característica Población Fórmula Muestra Fórmula

Media o promedio

Varianza

Desviación estándar

Proporción o
probabilidad de éxito X: elementos con la X: elementos con
característica de interés la característica de
interés

Fuente: elaboración propia basada en Anderson (2010)

POLITÉCNICO GRANCOLOMBIANO 2
En donde, N indica población y n indica muestra

Para comenzar a analizar la distribución muestral de la media, vamos a trabajar con un ejemplo en el
que se construirá la distribución muestral de medias, calculada a partir de todas las muestras posibles
que se pueden obtener de una población pequeña.

Ejemplo:

Suponga que tenemos una población conformada por los 5 empleados en una empresa (N=5).
La variable de interés es el tiempo (en minutos) que gastan en realizar un trabajo. Los datos de la
población son:

{76, 68, 85, 56, 65}

Vamos a responder a cada literal teniendo en cuenta la notación definida en la tabla 1:

A. Calculamos la media y la desviación estándar de la población

La media poblacional se obtiene realizando el siguiente cálculo:

La interpretación de este resultado es que los empleados de esta empresa gastan un tiempo promedio
de 70 minutos en el que realizar el trabajo.

Y la desviación estándar es la siguiente:

Tenemos, entonces, una población con media = 70, desviación estándar = 9,86 y varianza = 97,2196

La desviación estándar indica que la variación promedio del tiempo que gastan los empleados en
realizar el trabajo con respecto al tiempo promedio es de 9,86 minutos.

POLITÉCNICO GRANCOLOMBIANO 3
B. De la población, vamos a seleccionar todas las muestras posibles de tamaño n=2, sin orden y sin
repetición. ¿Cuántas muestras de dos elementos de la población pueden formarse?

Como la población tiene 5 elementos y se quieren formar grupos de dos sin importar su orden y sin
repetición tenernos que calcular una combinación:

C. Ahora, listamos todas las muestras posibles de tamaño n=2 y calculamos la media de cada muestra.

Tabla 2. Muestras de tamaño dos y media muestral

Muestras Ni Media muestral


(X1 , X2)
(76 , 68) 72
(76 , 85) 80,5
(76 , 56) 66
(76 , 65) 70,5
(68 , 85) 76,5
(68 , 56) 62
(68 , 65) 66,5
(85 , 56) 70,5
(85 , 65) 75
(56 , 65) 60,5

Fuente: elaboración propia

Hay 10 muestras posibles de tamaño 2 que pueden seleccionarse de esta población de cinco
empleados, por lo tanto, hay 10 medias muestrales posibles.

POLITÉCNICO GRANCOLOMBIANO 4
D. Como X̅ es una variable aleatoria escribimos su función de probabilidad de la siguiente forma:

Tabla 3. Función de probabilidad para la media muestral

X̅ 60,5 62 66 66,5 70,5 72 75 76,5 80,5

P(X̅ ) 0,1 0,1 0,1 0,1 0,2 0,1 0,1 0,1 0,1

Fuente: elaboración propia

Recordando que P(X̅ ) se obtiene dividiendo el número de veces que aparece cada valor de la media
muestral sobre el total de muestras.

E. Calculamos el valor esperado para X̅

Tabla 4. Cálculo del valor esperado

X̅ 60,5 62 66 66,5 70,5 72 75 76,5 80,5

P(X̅ ) 0,1 0,1 0,1 0,1 0,2 0,1 0,1 0,1 0,1

X̅ P(X̅ ) 6,05 6,2 6,6 6,65 14,1 7,2 7,5 7,65 8,05

Fuente: elaboración propia

E(X̅ )=70

Se espera que la media de la muestra en el tiempo que gastan los empleados en realizar el trabajo sea
de 70 minutos.

La conclusión es que se espera que la media muestral sea igual a la media poblacional

E(X̅ )=µ

POLITÉCNICO GRANCOLOMBIANO 5
Calculamos ahora la desviación estándar de las diez medias muestrales:

Tabla 5. Cálculo de la varianza

(X̅ ) 60,5 62 66 66,5 70,5 72 75 76,5 80,5

P(X̅ ) 0,1 0,1 0,1 0,1 0,2 0,1 0,1 0,1 0,1

X̅ P(X̅ ) 6,05 6,2 6,6 6,65 14,1 7,2 7,5 7,65 8,05

X̅ 2P(X̅ ) 366,025 384,4 435,6 442,225 994,05 518,4 562,5 585,225 648,025

Fuente: elaboración propia

Este resultado indica que la desviación estándar de las medias muestrales no es igual a la desviación
estándar poblacional.

Varianza corregida

Como la varianza poblacional es diferente a la varianza de X̅ , es necesario trabajar con una varianza
corregida, esto se logra de la siguiente forma para poblaciones finitas:

Con los datos del ejemplo, se tiene:

POLITÉCNICO GRANCOLOMBIANO 6
1.1. Distribución muestral para la media X̅ en una población normal

Si X̅ es la media de una muestra aleatoria de tamaño n sacada de una población distribuida


normalmente con media µ y desviación estándar σ, entonces la distribución muestral de X̅ es normal
con media µ y desviación estándar en done la estandarización es:

En donde

Para población infinita

Para población finita

Ejemplo:

El número de unidades producidas por una máquina tiene una distribución normal con un promedio
de 300 unidades y desviación estándar de 20. Se toma una muestra aleatoria de 16 productos.

a. ¿Cuál es el error estándar de la media de muestral?

b. ¿Cuál es la probabilidad de que la media muestral sea superior a 290 unidades?

Teniendo en cuenta las fórmulas anteriores, tenemos lo siguiente:

a. Para encontrar el error estándar de la media utilizamos la expresión:

POLITÉCNICO GRANCOLOMBIANO 7
b. Con base en el enunciado, debemos calcular

Veamos la representación gráfica de la probabilidad solicitada:

0,9772

4 -3 -2 -1 0 1 2 3 4

Figura 1. Área de la curva normal para Z > -2


Fuente: Politécnico Grancolombiano

Como la tabla de la distribución normal estándar almacena áreas de izquierda a derecha, entonces,
trabajamos con el complemento

P[Z > -2] = 1 – P[Z ≤ - 2] = 1 – 0,0228 = 0,9772

Este valor indica que hay una alta probabilidad de que la producción media sea superior a 290 unidades.

1.2. Teorema del límite central

En el caso de una población cualquiera con media µ y varianza σ2, la distribución de las medias de
muestras obtenida a partir de todas las muestras aleatorias de tamaño n de la población estará distribuida
aproximadamente en forma normal si el tamaño n de la muestra es grande (n ≥30).

POLITÉCNICO GRANCOLOMBIANO 8
1.3. Distribución muestral de X̅ cuando se desconoce la distribución de la población

Es común que cuando se selecciona una muestra se desconoce la distribución de la población; en estos
casos el tamaño de la muestra es determinante para definir la distribución. Si la muestra n es pequeña,
la forma de la distribución está relacionada con la forma de la población; sin embargo, para muestras
grandes (n>30), de acuerdo al teorema del límite central, la distribución central se aproxima a una
distribución normal independientemente de la distribución que tenga la población.

Ejemplo:

El departamento de control de calidad de una empresa establece que el tiempo de duración de ciertos
componentes electrónicos tiene una media de 900 horas y una desviación estándar de 70 horas. Si
se selecciona una muestra de 36 componentes, ¿cuál es la probabilidad de que el tiempo promedio de
duración este entre 870 y 925 horas?

En este caso, no se menciona la forma de la distribución de la población; como el tamaño de muestra es


grande (n≥30), por el teorema del límite central, entonces, la distribución es aproximadamente normal.

X: tiempo de duración de los componentes electrónicos

Parámetros Estadígrafos

N=? n=36

µ=900 X̅ = 870

σ=70

Este valor indica que existe una alta probabilidad de que en la muestra de 36 componentes el tiempo
de duración promedio este entre 870 y 925 horas.

POLITÉCNICO GRANCOLOMBIANO 9
1.4. Distribución muestral de X̅ en una población normal con varianza
poblacional desconocida

El caso que se presenta a continuación es muy común en la práctica y se presenta cuando no se


conoce la varianza poblacional σ2. En estos casos, se trabaja con la varianza de la muestra S2 como
una estimación puntual de σ2, esto hace que la distribución cambie de la normal a la distribución t
Student o distribución t, con la siguiente expresión:

La distribución t, de la misma manera que la distribución normal estándar, es una distribución


simétrica que tiene forma de campana con media igual a 0 y con una varianza mayor que 1, es por
esto, que la distribución es más aguda en el centro y más alta en las colas.

El área total bajo la distribución t es igual a 1 y esta distribución se encuentra tabulada para cada valor
(n-1) o grados de libertad (g.l), generalmente se presenta para las áreas del extremo superior.

Si representáramos estas áreas, gráficamente en una tabla, la columna de la izquierda contendría


diversos valores correspondientes a los grados de libertad (n – 1). El valor que aparece en el
encabezado de cada columna indicaría la proporción del área superior bajo la curva de la distribución
t. Por ejemplo, en la distribución t para 10 grados de libertad, para un área superior de 0,05 el valor
sería t = 1,8125.

1.5. Distribución muestral para la proporción

Cuando la variable de estudio es cuantitativa se trabaja con la media, pero cuando es cualitativa se
trabaja en función de la proporción. Por ejemplo, en un proceso de producción puede ser de interés
determinar la proporción de productos que no cumplen con cierta especificación, o el jefe de
personal puede estar interesado en conocer el porcentaje de empleados que llegan tarde al trabajo.

La proporción en la muestra está definida como en donde x es el número de elementos con


la característica de interés.

POLITÉCNICO GRANCOLOMBIANO 10
Por el teorema del límite central, si el tamaño de muestra es grande, la proporción tiene una
distribución normal con media igual a p y varianza en donde:

es el error estándar de la población y se calcula como error estándar de las proporciones muestrales

para poblaciones infinitas o como

para poblaciones finitas

Ejemplo:

Se sabe que el 60% de los adultos de una zona del país compra determinado producto; se obtiene una
muestra de 150 adultos de esta área, ¿cuál es la probabilidad de que la proporción muestral esté entre
el 50% y el 70%?

Recordemos que como P es aproximadamente normal, se requiere estandarizar la variable aleatoria


para poder utilizar las tablas de probabilidades:

POLITÉCNICO GRANCOLOMBIANO 11
1.6. Distribución muestral para la diferencia entre dos medias muestrales (X̅ 1- X̅ 2)

En muchas situaciones de toma de decisiones, necesitamos determinar si los parámetros de dos


poblaciones son iguales o diferentes; por ejemplo, se podría estar interesado en conocer si dos líneas
de producción sacan en promedio el mismo número de unidades, o si son diferentes dos métodos de
entrenamiento utilizados en el personal de producción.

Como una generalización de la distribución muestral para la media se puede decir lo siguiente:

• La diferencia muestral para la diferencia entre dos medias muestrales a partir de muestras
independientes de tamaño n1 y n2, extraídas de dos poblaciones distribuidas normalmente, estará
distribuida normalmente y tendrá una media igual a (µ1 - µ2) y una varianza igual a

• Si n1 y n2 son grandes, la distribución muestral de la diferencia entre las dos medias muestrales
será aproximadamente normal sin tener en cuenta la forma funcional de las poblaciones
originales, de acuerdo con el teorema del límite central.

En cualquiera de los dos casos, se utiliza la siguiente fórmula para la estandarización de la diferencia
de medias:

Si no se conocen las varianzas poblacionales , ,se trabaja con las varianzas muestrales , ,
respectivamente.

Los siguientes ejemplos tomados del libro Probabilidad y Estadística aplicadas a la Ingeniería Montgomery
y Runger (2012) ilustran el manejo de la distribución muestral para la diferencia de medias.

• La producción diaria de una primera fábrica de envases de plástico tiene una distribución normal
con una media de 50 unidades y una desviación estándar de 8 unidades. La producción de una
segunda fábrica está distribuida normalmente con una media de 40 unidades y una desviación
estándar de 12. Para comparar el rendimiento en el trabajo en dos fábricas de envases plásticos,
se saca de la primera fábrica, una muestra aleatoria de 100 obreros y de la segunda una muestra
de 400. Encontrar la probabilidad de que los obreros de la primera fábrica produzcan 8
unidades más que los de la segunda.

POLITÉCNICO GRANCOLOMBIANO 12
Solución:
Tabla 6. Datos producción diaria

Primera
n1 = 100 µ1 = 50 σ1 = 8
fábrica

Segunda
n2 = 400 µ2 = 40 σ2 = 12
fábrica

Fuente: elaboración propia

P [Z > -2] = 1 – P [Z ≤ -2] = 1 – 0,0228 = 0,9772

0,9772

4 -3 -2 -1 0 1 2 3 4

Figura 2. Área de la curva normal para Z > -2


Fuente: elaboración propia

• El rendimiento de los autos de la marca A es de 20 kilómetros por galón de gasolina (k.p.g.), con
una desviación estándar de 6 k.p.g. Las cifras comparables para los autos B son de 25 y 5,5 k.p.g.
respectivamente; se supone que el rendimiento de cada una de las marcas está normalmente
distribuido. ¿Cuál es la probabilidad de que en un concurso, el rendimiento medio para 10 autos
de la marca A sea mayor que el de 9 autos de la marca B?

POLITÉCNICO GRANCOLOMBIANO 13
Solución:
Tabla 7. Datos rendimiento de los autos

MARCA A MARCA B
SMUESTRA n1 = 10 n1 = 9
MEDIA µ1 = 20 µ1 = 25
DESVIACIÓN
ESTÁNDAR
σ1 = 6 σ1 = 5,5

Fuente: elaboración propia

La probabilidad que se busca se plantea de la siguiente forma:

P [Z > 1,81] = 1 – P [Z ≤ 1,81] = 1 – 0,9649 = 0,0351

0,0351

4 -3 -2 -1 0 1 2 3 4

Figura 3. Área de la curva normal para Z > 1,81


Fuente: elaboración propia

La probabilidad de que el rendimiento medio para 10 autos de la marca A sea mayor que el de 9 autos
de la marca B es de 0,0351.

En este Escenario, hemos visto las distribuciones muestrales en una o dos muestras que permiten
conocer la distribución de probabilidad adecuada para hacer las inferencias estadísticas de los datos
obtenidos en muestras representativas hacia una población objeto de estudio.

POLITÉCNICO GRANCOLOMBIANO 14
Referencias
Anderson, D. Sweeney, D. & Williams, T. (2010). Estadística para administración y economía.
México: Ed Thomson

Montgomery, C. & Runger, G. C. (2012). Probabilidad y Estadística aplicadas a la Ingeniería.


México: Limusa Wiley.

POLITÉCNICO GRANCOLOMBIANO 15
INFORMACIÓN TÉCNICA

Módulo: Estadística Inferencial


Unidad 1: Muestreo y distribuciones muestrales
Escenario 2: Distribuciones muestrales

Autor: Patricia Castillo Garzón

Asesor Pedagógico: Amparo Sastoque Romero


Diseñador Gráfico: Julieth Rodríguez
Asistente: Eveling Peñaranda

Este material pertenece al Politécnico Grancolombiano.


Prohibida su reproducción total o parcial.

POLITÉCNICO GRANCOLOMBIANO 16

También podría gustarte