En esta sección se analizará el teorema de límite central. Su aplicación a la
distribución de muestreo de los valores medios muestrales, presentada en la sección anterior, permite el uso de la distribución probabilística normal para crear intervalos de confianza de la media poblacional. El teorema de límite central establece que, para muestras aleatorias grandes, la forma de distribución de medias muestrales se acerca a la de la distribución del tipo normal. La aproximación es más exacta para para muestras grandes que para pequeñas. Esta es una de las conclusiones más útiles en Estadística. Se puede razonar acerca de la distribución de las medias muestrales sin contar con alguna información respecto de la forma de la distribución original de la cual se toma la muestra. En otras palabras, el teorema de límite central es cierto para todas las distribuciones. Enseguida presentamos un enunciado formal del teorema en cuestión.
Teorema de Límite Central: Si se seleccionan de cualquier población todas las muestras
de un tamaño determinado, la distribución de las medias muestrales se acercará a una del tipo normal. Esta aproximación aumenta en el caso de muestras grandes.
Si la población está distribuida normalmente, entonces, para cualquier tamaño de
muestra, la distribución de la media muestral también lo estará. Si la distribución de la población es simétrica (pero no normal), se verá surgir la forma normal del teorema de límite central, con muestras tan pequeñas como 10. Por otra parte, si se comienza con una distribución que es sesgada o tiene extremos gruesos, es posible que se necesiten muestras de al menos 30 o mayor, es suficiente para que se emplee el teorema de límite central. El concepto de que la distribución de las medias muestrales de una población que no es normal, converja a la normalidad en ciertos casos, se ilustra en los diagramas 8-2, 8-3 y 8-4. Más adelante se analizará detalladamente este ejemplo, pero el Diagrama 8-2 representa una distribución probabilística discreta que tiene sesgo positivo. De esta población pueden seleccionarse muchas muestras de tamaño 5. Supóngase que se seleccionan al azar 10 de tal tamaño 5, y se calcula la media de cada una. Estos resultados se presentan en el Diagrama 8-3. Obsérvese que la forma de la distribución de las medias muestrales cambió respecto de la población original, aun cuando solo se seleccionaron 10 muestras aleatorias de tamaño 5, de una población que tiene sesgo positivo, y se encontró que la distribución de las medias muestrales cambió respecto de la forma original de la población. Al tomar mayor número de muestras, se hallará que la distribución de las medias muestrales se aproximará a la del tipo normal. El Diagrama 8-4 es un histograma que muestra los resultados de 30 aleatorias de 5 observaciones de la misma población. Véase la clara tendencia hacia la distribución normal. Este es el objetivo del teorema de límite central. Es siguiente ejemplo resaltará esta condición. Ejemplo Ed Spence comenzó con su empresa comercial (de ruedas dentadas) hace 20 años. El negocio ha crecido a través del tiempo, y ahora emplea a 40 personas. Tal empresa, Spence Sprockets, Inc., se enfrenta a algunas decisiones importantes con respecto al cuidado de la salud de sus laborantes. Antes de tomar una resolución final acerca del plan de cuidados de la salud que adquirirá, Ed decide formar un comité de cinco representantes de los trabajadores, para que analice cuidadosamente el tema, y haga una recomendación con respecto a cuál plan se adapta mejor a las necesidades del empleado. Considera que los puntos de vista de los trabajadores más jóvenes con respecto al cuidado de la salud pueden diferir de aquellos de los correspondientes a empleados de mayor edad. Si Ed selecciona al azar este comité, ¿qué puede esperar respecto al cuidado del número promedio de años en la empresa de los integrantes del mismo? ¿Cómo se compara la forma de la distribución de años de experiencia de todos los empleados con la de las medias muestrales? Los tiempos de servicio (redondeados al año más cercano) de los 40 trabajadores que actualmente están en la nómina de dicha empresa, son como se indica a continuación.
El Diagrama 8-2 muestra la distribución de los años de experiencia para los 40
empleados actuales. Obsérvese que la distribución de los tiempos de servicio tiene sesgo positivo. Hay algunos empleados que han trabajado con Spence Sprockets por cierto tiempo. Específicamente, seis han estado con la compañía 10 años o más. Sin embargo, ya que el negocio ha crecido, el número de empleados ha aumentado en los últimos años. De los 40 laborantes, 18 han estado en la empresa dos años o menos. Considérense el primero de los problemas de Ed Spence. Le gustaría formar un comité de cinco empleados para que analice el tema de los cuidados de la salud y señale qué tipo de plan de seguros es el adecuado para la mayoría de los trabajadores. ¿Cómo debería seleccionar al comité? Si lo selecciona al azar, ¿qué puede esperar en términos del tiempo medio de servicio de los integrantes del grupo? Para empezar, Ed escribe en papeletas el tiempo de servicio de cada uno de los 40 empleados y las coloca dentro de una vieja gorra de beisbol. Después revuelve todos los pedazos de papel y selecciona al azar 5 de las papeletas. Los tiempos de servicio para estos cinco laborantes son: 4, 1, 0, 14 y 9 años. Por lo tanto, el tiempo medio de servicio para tales empleados es 5.60 años. ¿Cómo se compara este resultado con la media de la población? En ese momento Ed no la conoce, pero el número de empleados en la población es solo 40, por lo que decide calcular el tiempo medio de servicio para todos sus trabajadores. Esto da 4.80 años, valor obtenido de sumar los tiempos de servicio para todos los empleados y dividir el total entre 40. Esto es μ= (11+4+18+… +2+3)/40=192/40=4.80, y la media muestral, x̄, y la media poblacional se denomina error de muestreo. En otras palabras, la diferencia de 0.80 años entre la media de la población de 4.80, y la media muestral de 5.60, es el error de muestreo. Esto se debe a la circunstancia. De modo que, si Ed seleccionó a esos cinco empleados para formar el comité, el tiempo medio de servicio de tales trabajadores se encontraría ligeramente por arriba del valor medio de la población. ¿Qué pasaría si Ed devolviera las cinco papeletas a la gorra de béisbol y seleccionara otra muestra? ¿Se esperaría que la media de esta segunda muestra fuera igual a la de la muestra anterior? Supóngase que se elige otra muestra de cinco empleados, y se determina que sus tiempos de servicio son 8, 3, 1, 1 y 14. La media de esta muestra es 5.40 años. El resultado de seleccionar 10 muestras de 5 empleados cada una se presenta en el Diagrama 8-3. Obsérvese la diferencia en la forma de la población y la distribución de esas medias muestrales. La población de los tiempos de servicio para los empleados (Diagrama 8-3) tiene sesgo positivo, pero la distribución de las 10 medias muestrales no manifiesta el mismo sesgo positivo. De hecho, tiene sesgo negativo. La tabla 8-5 indica el resultado de seleccionar 30 o más muestras de 5 empleados cada una, y calcular sus medias muestrales, las cuales después se organizan en un histograma (Diagrama 8-4). Compárese la forma de este polígono de frecuencias, con la conformación de la población de empleados en el Diagrama 8-2. Se deben observar dos aspectos importantes: 1. La forma de la distribución de las 30 medias muestrales es diferente a la de la población. En el Diagrama 8-2, la distribución de todos los empleados tiene sesgo positivo. Sin embargo, la distribución de las medias muestrales, Diagrama 8-4, se aproxima más a una del tipo normal. Esto ilustra el teorema de límite central. 2. Existe menos dispersión en la distribución de medias muestrales que en la distribución de la población. En esta, los tiempos de servicio variaron de 0 a 19 años. En aquella distribución, las medias muestrales variaron de 2.2 años a 9.2 años. Asimismo, se puede comparar el valor medio de las medias muestrales con respecto a la media de la población. La media de las 30 muestras presentadas, en la tabla 8-5 es 4.7133 años, valor obtenido por . Se utiliza es símbolo para representar el valor de las medias muestrales. El subíndice indica que la distribución es de medias de muestras. Se lee ”mu sub X con barra”. Obsérvese que el valor medio de las medias muestrales, 4.7133 años, es muy parecido a la media de la población de 4.80 años. ¿A qué conclusión se puede llegar a partir de este ejemplo? El teorema del límite central indica que, sin importar la forma de la población, la distribución de las medias muestrales se aproximará a la distribución normal. Cuánto más grandes sean las muestras, tanto mayor serán la convergencia. La empresa Spence Sprockets, Inc. es una evidencia empírica del modo cómo funciona el teorema del límite central. Al principio de este ejemplo comenzamos con una población sesgada positivamente (Diagrama 8-2). Después se seleccionó un número pequeño de muestras y se observó la distribución de las medias muestrales. Se pudo observar un cambio en la