Está en la página 1de 39
Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de dato 8.1 Muestreo aleatorio El resultado de un experimento estadistico se puede registrar como un valor numérico o como una representacién descriptiva. Cuando se lanza un par de dados y lo que nos inte- resa es el resultado total, registramos un valor numérico. Sin embargo, si a los estudian- tes de cierta escuela se les hacen pruebas de sangre para averiguar cull es su tipo, podria ser més ttil una representacién descriptiva. La sangre de una persona se puede clasificar de 8 maneras, Puede ser AB, A, Bu O, cada una con un signo de mas o de menos, lo cual depende de la presencia o ausencia del antigeno Rh. En este capitulo nos enfocamos en el muestreo de distribuciones o poblaciones, y estudiamos cantidades tan importantes como la media de la muestra y la varianza de Ja muestra, que serén de importancia fundamental en los capitulos siguientes. Ademés, en los préximos capftulos intentamos introducir al lector al papel que desempeftaran la ‘media y la varianza de Ia muestra en la inferencia estadistica, El uso de las computadoras modernas de alta velocidad permite a los cientificos e ingenicros incrementar enorme- mente su uso de la inferencia estadistica formal con técnicas gréficas. La mayorfa de las, veces la inferencia formal parece muy drida y quizas incluso abstracta para el profesional ol gerente que desea que el andlisis estadfstico sea una gufa para la toma de decisiones. Poblaciones y muestras ‘Comenzamos esta secci6n presentando los conceptos de poblaciones y muestras. Ambas se mencionan de forma extensa en el capitulo 1; sin embargo, aqui sera necesario estu- diarlas més ampliamente, en particular en el contexto del concepto de variables aleato- rigs. La totalidad de observaciones que nos interesan, ya sean de ntimero finito 0 infinito, constituye lo que llamamos poblacién, En alguna época el término poblacidn se referia a observaciones que se obtenfan de estudios estadisticos aplicados a personas. En la actuali- dad el estadistico utiliza la palabra para referirse a observaciones sobre cualquier cuestién de interés, ya sea de grupos de personas, de animales o de todos los resultados posibles de algiin complicado sistema biolégico o de ingenieria. 226 Defi jn 8.1: n 8.2: Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos Una poblacién consta de a totalidad de las observaciones en las que estamos intere- sados. El mimero de observaciones en la poblacién se define como el tamafio de la pobla- cién, Si en la escuela hay 600 estudiantes que clasificamos de acuerdo con su tipo de sangre, decimos que tenemos una poblacién de tamaiio 600. Los ntimeros en las cartas de una baraja, las estaturas de los residentes de cierta ciudad y las longitudes de los pe- ces en un lago especifico son ejemplos de poblaciones de tamaiio finito. En cada caso el niimero total de observaciones es un mimero finito. Las observaciones que se obtienen al medir diariamente la presién atmosférica desde el pasado hasta el futuro, o todas las me- diciones de la profundidad de un lago desde cualquier posicién concebible son ejemplos de poblaciones cuyos tamafios son infinitos. Algunas poblaciones finitas son tan grandes gue en teoria las supondriamos infinitas, lo cual es cierto si se considera la poblacién de la vida titil de cierto tipo de baterfa de almacenamiento que se esta fabricando para distribuirla en forma masiva en todo el pats. Cada observacién en una poblacidn es un valor de una variable aleatoria X que tiene alguna distribucisn de probabilidad /(x). Si se inspeccionan articulos que salen de una linea de ensamble para buscar defectos, entonces cada observacién en la poblacién podria ser un valor 0 0 1 de la variable aleatoria X de Bernoulli, con una distribucién de probabilidad ba Lp)=prg*, x = 0,1 donde 0 indica un articulo sin defecto y 1 indica un articulo defectuoso. De hecho, se supone que p, la probabilidad de que cualquier articulo esté defectuoso, permanece cons- tante de una prueba a otra, En el experimento del tipo de sangre la variable aleatoria X representa el tipo de sangre y se supone que toma un valor del 1 al 8. A cada estudiante se le asigna uno de los valores de la variable aleatoria discreta. Las duraciones de las ba- terfas de almacenamiento son valores que toma una variable aleatoria continua que quizé tiene una distribucién normal. De ahora en adelante, cuando nos refiramos a una “pobla- cién binomial”, a una “poblacién normal” o, en general, a la “poblacién f(x)”, aludire- ‘mos a una poblacién cuyas observaciones son valores de una variable aleatoria que tiene una distribuci6n binomial, una distribucién normal o la distribucién de probabilidad f(3), Por ello, a la media y a la varianza de una variable aleatoria o distribucién de probabi- lidad también se les denomina la media y la varianza de la poblacién correspondiente, En el campo de Ia inferencia estadistica, el estadistico se interesa en Hegar a con- clusiones respecto a una poblacién, cuando es imposible o poco préctico conocer todo el conjunto de observaciones que la constituyen. Por ejemplo, al intentar determinar Ja longitud de la vida promedio de cierta marca de bombilla, seria imposible probarlas todas si tenemos que dejar algunas para venderlas. Los costos desmesurados que impli- carfa estudiar a toda la poblacisn también constituirfan un factor que impedirfa hacerlo, Por lo tanto, debemos depender de un subconjunto de observaciones de la poblacién que nos ayude a realizar inferencias respecto a ella, Esto nos lleva a considerar el concepto de muestreo. Una muestra es un subconjunto de una poblacién. Para que tas inferencias que hacemos sobre 1a poblacién a partir de la muestra sean vélidas, debemos obtener muestras que sean representativas de ella. Con mucha 8.2 Algunos estadfsticos importantes 2207 frecuencia nos sentimos tentados a elegir una muestra seleccionando a los miembros més convenientes de la poblaci6n, Tal procedimiento podria conducir a inferencias erréneas, respecto a la poblacién. Se dice que cualquier procedimiento de muestreo que produzca inferencias que sobreestimen o subestimen de forma consistente alguna caracteristica de la poblaci6n esta sesgado. Para climinar cualquier posibilidad de sesgo en el procedi- miento de muestreo es deseable elegir una muestra aleatoria, lo cual significa que las observaciones se realicen de forma independiente y al azar Para seleccionar una muestra aleatoria de tamafio n de una poblacién f(x) defi- nimos la variable aleatoria X, i = 1, 2,..., m, que representa la i-¢sima medicién 0 valor de la muestra que observamos. Si las mediciones se obtienen repitiendo el expe- rimento n veces independientes en, esencialmente, las mismas condiciones, las varia- bles aleatorias X,, X,,... X, constituirén entonces una muestra aleatoria de la poblacién JF) con valores numéricos x,, x,,...,X,- Debido a las condiciones idénticas en las que se seleccionan los elementos de la muestra, es razonable suponer que las n variables, aleatorias X,, X,,.... X, Son independientes y que cada una tiene la misma distribucién de probabilidad f(x). Es decir, las distribuciones de probabilidad de X,, X,,..., X,Son, respectivamente, /(x,), f(,) /@%) Y su distribucién de probabilidad conjunta es AIK 2, En) = FC1) fla) ---F(rq). El concepto de muestra aleatoria se describe de manera formal en la siguiente definicién. : Sean X,, X,,.... X, variables aleatorias independientes n, cada una con la misma distribu- cién de probabilidad f(x). Definimos X,, X,...., X, como una muestra aleatoria de ta- mation de la poblacién f(x) y escribimos su distribucién de probabilidad conjunta como FUR 25nd = FE) Fla) fn) Si se realiza una seleccién aleatoria de n = 8 baterfas de almacenamiento de un pro- ceso de fabricacién que mantiene las mismas especificaciones, y al registrar la duracién de cada baterfa se encuentra que la primera medici6n x, es un valor de X,, la segunda medicién x, es un valor de X,, y asf sucesivamente, entonces x,, x,,...x, son los valores, de la muestra aleatoria X,, X,,.., X,. Si suponemos que la poblacisn de vidas titles de las, baterfas es normal, los valores posibles de cualquier X,, i = 1, 2,..., 8 serdn exactamente los mismos que los de la poblacién original, por consiguiente, X, tiene una distribucién normal idéntica a la de X 8.2 Algunos estadisticos importantes Nuestro principal propésito al seleccionar muestras aleatorias consiste en obtener infor- macién acerca de los parémetros desconocidos de la poblacién. Suponga, por ejemplo, que deseamos concluir algo respecto a la proporcién de consumidores de café en Estados Unidos que prefieren cierta marca de café, Seria imposible interrogar a cada consumidor estadounidense de café para calcular el valor del parametro p que representa la propor- cién de la poblacién. En vez de esto se selecciona una muestra aleatoria grande y se calcula la proporcién f de personas en esta muestra que prefieren la marca de café en cuestidn, El valor p se utiliza ahora para hacer una inferencia respecto a la proporcién p verdadera. Ahora, f es una funci6n de los valores observados en la muestra aleatoria; ya que es posible tomar muchas muestras aleatorias de la misma poblacién, esperariamos 228 Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos que p variara un poco de una a otra muestra, Es decir, 6 es un valor de una variable alea- toria que representamos con P. Tal variable aleatoria se llama estadistico. jn 8.4: Cualquier funcién de las variables aleatorias que forman una muestra aleatoria se llama estadistico, Medidas de localizacién de una muestra: la media, la mediana y la moda muestrales En el capitulo 4 presentamos los pardmetros 1 y 0°, que miden el centro y la variabilidad de una distribucién de probabilidad. Estos son pardmetros de poblacién constantes y de ninguna manera se ven afectados o influidos por las observaciones de una muestra alea- toria, Definiremos, sin embargo, algunos estadisticos importantes que describen las me- didas correspondientes de una muestra aleatoria. Los estadisticos que més se utilizan para medir el centro de un conjunto de datos, acomodados en orden de magnitud, son la media, la mediana y la moda, Aunque los primeros dos estadisticos se expusieron en el capitulo 1, repetiremos las definiciones. Sean X,, X,..... X, representaciones de n varia bles aleatorias. a) Media muestra Observe que el estadistico Xtoma el valor ¢ = £ 37 x; cuando X, toma el valor x, X, toma el valor x, y asf sucesivamente, El término media muestral se aplica tanto al esta distico Xcomo a su valor calculado 3, b) Mediana muestral: Xie /2 sin es impar, EGinj2 + Xny241)s sim es par La mediana muestral también es una medida de localizacién que indica el valor central de Ja muestra, En la seccién 1.3 se presentan ejemplos de la media muestral y de la me- diana muestral. La moda muestral se define de la siguiente manera: ¢) La moda muestral es el valor que ocurre con mayor frecuencia en la muestra, Ejemplo 8.1: [Suponga que un conjunto de datos consta de las siguientes observaciones: 0.32 0.53 0.28 0.37 0.47 0.43 0.36 0.42 0.38 0.43 La moda de la muestra es 0.43, ya que este valor aparece con més frecuencia que los demés, 4 ‘Como se expuso en el capitulo 1, una medida de localizacién o tendencia central en una muestra no da por sf misma una indicacién clara de 1a naturaleza de ésta, de manera que también debe considerarse una medida de variabilidad en la muestra. 8.2 Algunos estadfsticos importantes 229 Las medidas de variabilidad de una muestra: la varianza, la desviaci6n estandar y el rango de la muestra La variabilidad en la muestra refleja cémo se dispersan las observaciones a partir del promedio. Se remite al lector al capitulo 1 para un anélisis més amplio. Es posible tener dos conjuntos de observaciones con las mismas media o mediana que difieran de manera considerable en la variabilidad de sus mediciones sobre el promedio. Considere las siguientes mediciones, en litros, para dos muestras de jugo de naranja envasado por las empresas A y B: MuestraA | 0.97 1.00 0.94 1.03 1.06 MuestaB [106 101 088 091 11d Ambas muestras tienen la misma media, 1.00 litros. Es muy evidente que la em- presa A envasa el jugo de naranja con un contenido més uniforme que la B. Decimos que la variabilidad o la dispersién de las observaciones a partir del promedio es me- nor para la muestra A que para la muestra B. Por lo tanto, al comprar jugo de naranja, tendriamos més confianza en que el envase que seleccionemos se acerque al promedio anunciado si se lo compramos a Ia empresa A Enel capitulo 1 presentamos varias medidas de la variabilidad de una muestra, como Ja varianza muestral, la desviacién esténdar muestral y el rango de la muestra. En este capitulo nos enfocaremos sobre todo en la varianza de la muestra, Nuevamente, sea que X,, X,.... X, representan n variables aleatorias. a) La varianza muestral: 1S = qo FY it (8.2.1) El valor calculado de $? para una muestra dada se denota con s*, Observe que 5? se define esencialmente como el promedio de los cuadrados de las desviaciones de las observaciones a partir de su media. La razén para utilizar n — 1 como divisor, en vez de la eleccién més obvia n, quedaré més clara en el capitulo 9 Ejemplo 8.2: Una comparacién de los precios de café en 4 tiendas de abarrotes de San Diego, selec- cionadas al azar, mostré aumentos en comparacién con el mes anterior de 12, 15, 17 y 20 centavos por bolsa de una libra. Calcule la varianza de esta muestra aleatoria de au- mentos de precio, i calculamos la media de la muestra, obtenemos 12+ 15 +17 +20 4 Solucié 16 centavos. Por lo tanto, ‘ 1 > _ (2 — 16)? + (15 — 16)? + (17 — 16)? + 20-16)? Foe = ee eerraeovvr 1 (<4? +61? + + GP _ 34 3 3 4 Mientras que la expresién para la varianza de la muestra de la definicién 8.6 ilustra mejor que S? es una medida de variabilidad, una expresién alternativa tiene cierto mérito, de manera que el lector deberfa conocerla. Fl siguiente teorema contiene tal expresién, 230 Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos ‘Teorema 8.1: Si $? es la varianza de una muestra aleatoria de tamafio n, podemos escribir n ox? - (Sx) 1 2 nn =D Prueba: Por definici6n, Sax? — 2kx; +4 SOx? 28 Sx, nk? = 4 Como en el capftulo 1, a continuacién se definen la desviacién esténdar muestral y el rango muestral Sta Yo. xy = b) Desviaci6n esténdar muestral: S = VS, donde S? es la varianza muestra Permitamos que X,,, denote el més grande de los valores X, y X,, el mas pequeiio, ©) Rango muestra: R= Kas, — Xow Ejemplo 8.3: [Calcule la varianza de los datos 3, 4, 5, 6, 6 y 7, que representan el mimero de truchas atrapadas por una muestra aleatoria de 6 pescadores, el 19 de junio de 1996, en el lago Muskoka. 6 Solucién: Encontramos que Y> x} INL, Dx, =3l yn = 6. De agut, ft a 13 1 2 wou —BD1= =| Por consiguiente, la desviacién esténdar de la muestra s = 73/6 = 1.47 y el rango muestral es 7-3 = 4, 4 Ejercicios 8.1 Defina las poblaciones adecuadas a partir de las cuales se seleccionaron las siguientes muestras: ©) Se probaron 200 pares de un nuevo tipo de calzado deportivo en un torneo de tenis profesional para a) Se llamé por teléfono a personas de 200 casas en la ciudad de Richmond y se les pidié nombrar al candidato por el que votarian en la eleccién del presidente de la mesa directiva de la escuela, b) Se lanz6 100 veces una moneda y se registraron 34 ctuces. determinar su duraci6n y se encontré que, en pro- medio, duraron 4 meses, 4) En cinco ocasiones diferentes a una abogada le tomé 21, 26, 24, 22 y 21 minutos conducir desde st casa en los suburbios hasta su oficina en el cen- tro de la ciudad, Ejercicios 8.2 El tiempo, en minutos, que 10 pacientes esperan ‘en un consultorio médico antes de recibir tratamiento se registraron como sigue: 5, 11, 9, 5, 10, 15, 6, 10, 5 y 10. Trate los datos como una muestra aleatoria y caleule ‘a) la media; 5) la mediana; ©) la moda. 8.3 Los tiempos que los 9 individuos de una muestra aleatoria tardan en reaccionar ante un estimulante se registraron como 2.5, 3.6, 3.1, 4.3, 2.9, 2.3, 2.6, 4.1 3.4 segundos. Calcule a) la media; b) la mediana 8.4 El mimero de multas emitidas por infracciones de trénsito por 8 oficiales estatales durante el fin de se- ‘mana del dia en Conmemoracidn de los Cafdos es 5, 4, 7,7,6,3, 86. 4a) Si estos valores representan el mimero de multas emitidas por una muestra aleatoria de 8 oficiales estatales del condado de Montgomery, en Virginia, defina una poblacién adecuada. b) Si los valores representan el mimero de multas cemitidas por una muestra aleatoria de 8 oficiales estatales de Carolina del Sur, defina una poblacién, adecuada 8.5 El mimero de respuestas incorrectas en un exa- men de competencia de verdadero-falso para una muestra aleatoria de 15 estudiantes se registraron de la siguiente manera: 2, 1, 3,0, 1,3, 6,0,3,3,5,2,L.4y 2. Caleule ‘a) la media: ) la mediana; ©) lamoda. 8.6 Calcule 1a media, 1a mediana y la moda para la muestra, cuyas observaciones, 15, 7, 8, 95, 19, 12, 8 22 y 14 representan el niimero de dias de incapacidad médica reportados en 9 solicitudes de devolucién de impuestos. ,Qué valor parece ser la mejor medida del centro de esos datos? Explique las razones de su pre- ferencia. 8.7. Una muestra aleatoria de empleados de una f- brica local prometieron los siguientes donativos, en lates, al United Fund: 100, 40, 75, 15, 20, 100, 75, 50, 30, 10, 55, 75, 25, 50, 90, 80, 15, 25, 45 y 100. Caleule a) la media; ) la moda 8.8 De acuerdo con la escritora ecologista Jacqueline Killeen, los fosfatos que contienen los detergentes de uuso casero pasan directamente a nuestros sistemas de desagtie, ocasionando que los lagos se conviertan 231 en pantanos, los cuales a la larga se volverdin desiertos Los siguientes datos muestran la cantidad de fosfatos por carga de lavado, en gramos, para una muestra alea- toria de diversos tipos de detergentes que se usan de acuerdo con las instrucciones prescritas Detergente Fosfatos por carga para ropa (gramos) A&PBhe Sal B Dash 47 Concentrated All 42 Cold Water All 2 Breeze 41 Oxydol 34 Ajax 31 Sears 30 Feb 29 Cold Power 29 Bold 29 Rinso 26 Para los datos de fosfato dados, calcule a) lamedia; 4) Ia mediana; ©) Ja moda, 8.9 Considere los datos del ejercicio 8.2 y calcule a) el rango; 4) Ia desviaci6n esténdar. 8.10 Para la muestra de tiempos de reac cicio 83 calcule a) elrango; ) la varianza, utilizando 1a formula de la forma (82. 8.11 Para los datos del ejercicio 8.5 calcule la va- rianza utilizando la férmula a) dela forma (8.2.1); by del teorema 8.1 in del ejer- 8.12 Elcontenido de alquitran de 8 marcas de cigarri- os que se seleccionan al azar de la lista més reciente publicada por la Comisién Federal de Comercio es el siguiente: 7.3, 8.6, 10.4, 16.1, 12.2, 15.1, 145 y 9.3 miligramos. Calcule a) la media; b) Ta varianza 8.13 Los promedios de calificaciones de 20 estudian tes universitarios del iltimo afio, seleccionados al azar de una clase que se va a graduar, son los siguientes: 32 19 27 24 28 29 38 30 25 33 18 25 37 28 20 32 23 21 25 19 Caleule la desviacisn esténdar, 232, 8.14 a) Demuestre que la varianza de la muestra per manece sin cambio si a cada valor de la muestra se le suuma o se le resta una constante e. b) Demuestre que la varianza de la muestra se vuelve € veces su valor original si cada observacién de la muestra se multiplica por ¢. 8.15 Verifique que la varianza de la muestra 4, 9, 3, 6, 4y7es 5.1, y utilice este hecho, junto con los resulta- dos del ejercicio 8.14, para calcular a) Ja varianza de 1a muestra 12, 27, 9, 18, 12 y 21; b) la varianza de la muestra 9, 14, 8, 11,9 y 12. Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos 8.16 En la temporada 2004-2005 el equipo de futbol americano de la Universidad del Sur de California tuvo las siguientes diferencias de puntuacidn en los 13 par- tidos que jug6. 1149 32.3 6 38 38 308431536 Caleule 4) la media de la diferencia de puntos; +) la mediana de las diferencias de puntos. Distribuciones muestrales El campo de la inferencia estadistica trata basicamente con generalizaciones y prediccio- nes. Por ejemplo, con base en las opiniones de varias personas entrevistadas en la calle, Jos estadounidenses podrfan afirmar que en una préxima eleccién 60% de los votantes de la ciudad de Detroit favorecerian a cierto candidato. En este caso tratamos con una muestra aleatoria de opiniones de una poblacién finita muy grande, Por otro lado, con base en las estimaciones de 3 contratistas seleccionados al azar, de los 30 que laboran actualmente en esta ciudad, podrfamos afirmar que el costo promedio de construir una residencia en Charleston, Carolina del Sur, esté entre $330,000 y $335,000. La pobla- cién que se va a muestrear aqui también es finita, pero muy pequefia, Finalmente, con- sideremos una méquina despachadora de bebida gaseosa que esté disefiada para servir en promedio 240 mililitros de bebida. Un ejecutivo de la empresa calcula la media de 40 bebidas servidas y obtiene ¥ = 236 mililitros y, con base en este valor, decide que la maquina esté sirviendo bebidas con un contenido promedio de x = 240 mililitros. Las 40 bebidas servidas representan una muestra de la poblacién infinita de posibles bebidas que despacharé esta maquina Inferencias sobre la poblacién a partir de informacién de la muestra En cada uno de los ejemplos anteriores calculamos un estadistico de una muestra que se selecciona de la poblacién, y con base en tales estadisticos hicimos varias afirmaciones respecto a los valores de los parimetros de la poblacién, que pueden ser 0 no ciertas. El ejecutivo de la empresa decide que la maquina despachadora esta sirviendo bebidas con un contenido promedio de 240 mililitros, aunque la media de Ia muestra fue de 236 mililitros, porque conoce la teorfa del muestreo segtin la cual, si = 240 mililitros, tal valor de la muestra podria ocurrir fécilmente. De hecho, si realiza pruebas similares, cada hora por ejemplo, esperaria que los valores del estadistico ¥ fluctuaran por arriba y por abajo de 4 = 240 mililitros. Sélo cuando el valor de ¥ difiera considerablemente de 240 mililitros el ejecutivo de la empresa tomard medidas para ajustar la méquina. Como un estadistico es una variable aleatoria que depende solo de la muestra obser- vada, debe tener una distribucién de probabilidad. Definicién 8,5: La distribucién de probabilidad de un estadistico se denomina distribucién muestral. 8.4 Distribucién muestral de medias y el teorema del Ifmite central 233 La distribucién muestral de un estadistico depende de la distribucién de la pobla- cin, del tamafio de las muestras y del método de seleccién de las muestras. En lo que resta de este cap{tulo estudiaremos varias de las distribuciones muestrales més impor- tantes de los estadisticos que se utilizan con frecuencia. Las aplicaciones de tales distr buciones muestrales a problemas de inferencia estadistica se consideran en la mayori de los capitulos posteriores. La distribucién de probabilidad de X se llama distribucién miuestral de la media, {Qué es la distribucién muestral de X? Se deberian considerar las distribuciones muestrales de Xy 5? como los mecanismos a partir de los cuales se puede hacer inferencias acerca de los pardmetros yu y 0”. La dis- tribucién muestral de Xcon tamafio muestral 7 es la distribuci6n que resulta cuando un experimento se eva a cabo una y otra vez (siempre con una muestra de tamaiio n) y resultan los diversos valores de X Por lo tanto, esta distribucién muestral describe la variabilidad de los promedios muestrales alrededor de la media de la poblacién . En el caso de la maquina despachadora de bebidas, el conocer la distribucién muestral de Xe permite al analista encontrar una discrepancia “tipica” entre un valor ¥ observado y el verdadero valor de 1, Se aplica el mismo principio en el caso de la distribucién de S?, La distribucién muestral produce informacién acerca de la variabilidad de los valores de s* alrededor de o? en experimentos que se tepiten. 8.4 Distribucién muestral de media del limite central sy el teorema La primera distribucién muestral importante a considerar es la de la media X Suponga que de una poblacién normal con media u y varianza ? se toma una muestra alcatoria de n observaciones. Cada observacién X, i = 1, 2,... n, de la muestra aleatoria ten- dré entonces la misma distribucién normal que la poblacién de donde se tomé. Asi, por la propiedad reproductiva de la distribucién normal que se establecis en el teorema 7.11, concluimos que 1 = FOr Xa be + Xe) tione una distribucin normal con media He 1 a? > pian +) = py varianza o% wr to + +0) = ‘n términos nm términos Si tomamos muestras de una poblacién con distribucién desconocida, ya sea finita © infinita, la distribucién muestral de X atin sera aproximadamente normal con media y varianza o7/n, siempre que el tamafio de la muestra sea grande. Este asombroso resul- tado es una consecuencia inmediata del siguiente teorema, que se conoce como teorema del limite central 234 Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos El teorema del limite central ‘Teorema 8.2: ‘Teorema del limite central: Si Xes la media de una muestra aleatoria de tamaiio n, tomada de una poblacién con media uy varianza finita o°, entonces la forma limite de Ia distribucién de X-4 oNn a medida que n — 00, es la distribucién normal esténdar n(z; 0, 1). La aproximacién normal para X por lo general sera buena sin = 30, siempre y cuando la distribucién de la poblacién no sea muy asimétrica, Sin < 30, la aproxima- cién seré buena s6lo si la poblacién no es muy diferente de una distribucién normal y, como antes se estableci6, si se sabe que la poblacién es normal, la distribucién muestral de Xseguiré siendo una distribucién normal exacta, sin importar qué tan pequeiio sea el tamafio de las muestras. El tamafio de la muestra n = 30 es un lineamiento para el teorema del limite central Sin embargo, como indica el planteamiento del teorema, la suposicién de normalidad en la distribucién de X se vuelve més precisa a medida que n se hace més grande. De hecho, la figura 8.1 ilustra cémo funciona el teorema. La figura indica cémo la distribucién de Xse acerca més a la normalidad a medida que aumenta n, empezando con la distribucién claramente asimétrica de una observacién individual (n = 1). También ilustra que Ia media de Xsigue siendo u para cualquier tamafio de la muestra y que la varianza de Xse vuelve més pequefia a medida que aumenta n. ‘grande (corca de lo normal) n= 1 (poblacién) ‘de pequeha a moderada ry Figura 8.1: Ejemplo del teorema del limite central (distribucién de Xparan = 1, n mo- derada yn grande), Ejemplo 8.4:1Una empresa de material eléctrico fabrica bombillas que tienen una duracién que se Solucién: distribuye aproximadamente en forma normal, con media de 800 horas y desviacisn es- tandar de 40 horas. Calcule la probabilidad de que una muestra aleatoria de 16 bombillas tenga una vida promedio de menos de 775 horas. La distribucién muestral de X sera aproximadamente normal, con ja, = 800 y a = 40/ VI6 = 10, La probabilidad que se desea es determinada por el drea de la regién sombreada de la figura 8.2. 8.4 Distribucién muestral de medias y el teorema del Ifmite central 235 En lo que corresponde a £ = 775, obtenemos que oz =10 775 800 * Figura 8.2: Area para el ejemplo 8.4. 775 ~ 800 peas y, por lo tanto, P(X < 775) = P(Z <~ 2.5) = 0.0062. a Inferencias sobre la media de la poblacién Una aplicacién muy importante del teorema del limite central consiste en determinar valores razonables de la media de la poblacién . Temas como prueba de hipétesis, estimacién, control de calidad y muchos otros utilizan el teorema del Ifmite central. El siguiente ejemplo ilustra cémo se utiliza el teorema del limite central con respecto a su relacién con , la media poblacional, aunque la aplicacién formal de los temas preceden- tes se deja para capitulos posteriores. En el siguiente estudio de caso proporcionamos un ejemplo en el que se hace una inferencia utilizando la distribucién muestral de X. En este ejemplo sencillo se conocen sy @. El teorema del limite central y el concepto general de las distribuciones muestrales a menudo se utilizan para proporcionar evidencias acerca de algain aspecto importante de una distribuci6n, por ejemplo uno de sus parémetros. En el caso del teorema del limite central el pardmetro que nos interesa es la media #. La inferencia que se hace acerca de puede adoptar una de varias formas. Con frecuencia el analista desea que los datos, (en la forma de 2) respalden (0 no) alguna conjetura predeterminada respecto al valor de 4. El uso de lo que sabemos sobre la distribucién de muestteo puede contribuir a responder este tipo de pregunta, En el siguiente estudio de caso el concepto de prueba de hip6tesis conduce a un objetivo formal que destacaremos en capitulos posteriores. Estudio de caso 8.1: Partes para automéviles. Un importante proceso de fabricacién produce partes de com- ponentes cilindricos para la industria automottiz. Es importante que el proceso produzca partes que tengan un didmetro medio de 5.0 milimetros. El ingeniero implicado asume 236 Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos que la media de la poblacién es de 5.0 milimetros. Se leva a cabo un experimento donde se seleccionan al azar 100 partes elaboradas por el proceso y se mide el didmetro de cada una de ellas. Se sabe que la desviaci6n esténdar de la poblacién es = 0.1 milimetros. El experimento indica un diémetro promedio muestral de ¥ = 5.027 milimetros, {Esta informacién de la muestra parece apoyar o refutar la suposicién del ingeniero? : Este ejemplo refleja el tipo de problemas que a menudo se presentan y que se resuelven con las herramientas de pruebas de hipstesis que se presentan en los siguientes capitulos, No utilizaremos aqui el formalismo asociado con la prueba de hipétesis, pero ilustrare- ‘mos los principios y la I6gica que se utilizan, Elhecho de que los datos apoyen o refuten la suposicién depende de la probabilidad de que datos similares a los que se obtuvieron en este experimento (¥ = 5.027) pueden ocurrir con facilidad cuando de hecho # = 5.0 (figura 8.3). En otras palabras, ;qué tan probable es que se pueda obtener £ > 5.027 con n = 100, si la media de la poblacién es i = 5.07 Si esta probabilidad sugiere que ¥ = 5.027 no es poco razonable, no se refuta Ja suposiciGn. Sila probabilidad es muy baja, se puede argumentar con certidumbre que los datos no apoyan la suposicién de que «= 5.0. La probabilidad que elegimos para el célculo es dada por P(\X-5| = 0.027). En otras palabras, si la media y es 5, ;cudl es la probabilidad de que X se desvie Eee 4378 30 30a7 Figura 8.3: Area para el estudio de caso 8.1. cuando mucho hasta 0.027 milimetros? P(\X —5| 2 0.027) = P(X —5 2 0.027) + P(X —5 = 0.027) =2P (sae Tae 22. 1) Aqui simplemente estandarizamos Xde acuerdo con el teorema del limite central. Si ln suposicién u = 5.0 es cierta, +X 5 deberia ser M0, 1). Por consiguiente, kas yp (2 > 2.7) = 2p = 2.7) = 210.0035) = 0.007, (size ) 2 e2D =X Por lo tanto, se experimentarfa por casualidad que una X estarfa a 0.027 milfmetros 8.4 Distribucién muestral de medias y el teorema del Ifmite central 237 de la media en tan s6lo 7 de 1000 experimentos. Como resultado, este experimento con £ = 5.027 ciertamente no oftece evidencia que apoye la suposicién de que x = 5.0. De hecho, jla refuta consistentemente! 4 Ejemplo 8.5] El viaje en un autobiis especial para ir de un campus de una universidad al campus de otra en una ciudad toma, en promedio, 28 minutos, con una desviaci6n esténdar de 5 minutos. En cierta semana un autobiis hizo el viaje 40 veces. {Cudl es la probabilidad de que el tiempo promedio del viaje sea mayor a 30 minutos? Suponga que el tiempo pro- medio se redondea al entero més cercano. : En este caso x = 28 y o = 3. Necesitamos calcular la probabilidad P(X > 30) con n = 40. Como el tiempo se mide en una escala continua redondeada al minuto més cercano, tuna ¥ mayor que 30 serfa equivalente a ¥ = 30.5. Por lo tanto, X =28 , 305-28 Pa >30) =P ( =e = 3.16) = 0.0008 5) ~ 5/0 Hay sélo una ligera probabilidad de que el tiempo promedio de un viaje del autobuis exceda 30 minutes. En la figura 8.4 se presenta una gréfca ilustrativa dl 28.0 305 * Figura 8.4: Area para el ejemplo 8.5. Distribucién muestral de la diferencia entre dos medias La ilustracién del estudio de caso 8.1 se refiere a conceptos de inferencia estadistica sobre una sola media El ingeniero estaba interesado en respaldar una suposicién con respecto a una sola media de poblacisn. Una aplicacién mucho més importante incluye dos poblaciones. Un cientifico o ingeniero se podrfan interesar en un experimento donde se comparan dos métodos de produccién: el 1 y el 2. La base para tal comparacién es i, ~My la diferencia entre las medias de poblacién. ‘Suponga que tenemos dos poblaciones, Ia primera con media 1, y varianza of, y la segunda con media y, y varianza 03. Representemos con el estadistico X1 la media 238 ‘Teorema 8.3: Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos de una muestra aleatoria de tamaiio n,, seleccionada de Ia primera poblacisn, y con el estadistico X) la media de una muestra aleatoria de tamafio n, seleccionada de la segunda poblacién, independiente de la muestra de la primera poblaci6n. {Qué podrfamos decir acerca de la distribucién muestral de la diferencia X, — Xp para muestras repetidas de tamafios n, y n,? De acuerdo con el teorema 8.2, tanto Ia variable X; como la variable X; estén distribuidas més o menos de forma normal con medias 4, y st, y varianzas jin, y on, respectivamente. Esta aptoximacién mejora a medida que aumentan 7, y 1, Al elegir muestras independientes de las dos poblaciones nos aseguramos de que las variables X; y Xp sean independientes y, usando el teorema 7.11, con a, = Ly a, = —1, concluimos que X, ~ X) se distribuye aproximadamente de forma normal con media May, = Be, — Pty = He He * " 2 gi a OR, 8, = OR, FOR, = El teorema del Iimite central se puede ampliar fécilmente al caso de dos muestras y dos poblaciones. Si se extraen al azar muestras independientes de tamatios n, y n, de dos poblaciones, discretas o continuas, con medias yy 4, y varianzas 0? y 03, respectivamente, entonces la distribucién muestral de las diferencias de las medias, X,— X, tiene una distribucién aproximadamente normal, con media y varianza dadas por oo} Hg, HY OF, = ta De aqui, (&1 — 82) - an —n) VOGT Ini) + (oz /na) es aproximadamente una variable normal estndar. Si tanto m, como n, son mayores o iguales que 30, la aproximacién normal para la distribucién de X, - X; es muy buena cuando las distribuciones subyacentes no estén tan alejadas de Ia normal. Sin embargo, aun cuando n, y 7, sean menores que 30, Ia aproxi- macién normal es hasta cierto punto buena, excepto cuando las poblaciones no son definitivamente normales. Por supuesto, si ambas poblaciones son normales, entonces ~ Xo tiene una distribucién normal sin importar de qué tamaio sean n, y n,. La ulilidad de la distribucién muestral de la diferencia entre los dos promedios muestrales es muy similar a la que se describe en el estudio de caso 8.1 en la pagina 235 para el caso de una sola media. Ahora presentaremos el estudio de caso 8.2, que se enfoca en el uso de la diferencia entre dos medias muestrales para respaldar (0 no) Ia suposicién de que dos medias de poblacién son iguales. Estudio de caso 82: [Tiempo de secado de pinturas. Se llevan a cabo dos experimentos independientes en los que se comparan dos tipos diferentes de pintura, el A y el B. Con la pintura tipo A se pintan 18 especimenes y se registra el tiempo (en horas) que cada uno tarda en secar. Lo mismo se hace con la pintura tipo B. Se sabe que la desviaci6n esténdar de poblacién de ambas es 1.0, 8.4 Distribucién muestral de medias y el teorema del Ifmite central 239 Si se supone que los especimenes pintados se secan en el mismo tiempo medio con los dos tipos de pintura, calcule P(X, —X5 > 1.0), donde Xs y Xp son los tiempos promedio de secado para muestras de tamaiio n, =n, = 18. A partir de la distribucién de muestreo de X4— Xp sabemos que la distribucién es aproxi- madamente normal con media y varianza 0 10 aoe Hats ‘Figura 8.5: Area para el estudio de caso 8.2. La probabilidad que se desea es dada por la regién sombreada en la figura 8.5. En correspondencia con el valor X4— Xz = 1.0, tenemos =a =ms) _ 1-0 V/s 1/9 30: de modo que P(Z > 3.0) =1-P(Z < 3.0) — 0.9987 = 0.0013 4 {Qué aprendemos del estudio de caso 8.2 La mecénica en el célculo se basa en la suposicién de que 4, = 4. Suponga, sin em- bargo, que el experimento realmente se leva a cabo con el fin de hacer una inferencia respecto ala igualdad de 1, ¥ u,, los tiempos medios de secado de las dos poblaciones. Si se encontrara que los dos promedios difieren por una hora (0 més), este resultado seria una evidencia que nos levarfa a concluir que el tiempo medio de secado de la poblacién 240 Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos no es igual para los dos tipos de pintura, Por otro lado, suponga que la diferencia en los dos promedios muestrales es tan pequefia como, digamos, 15 minutos. Siu, = sy, Plea Xp) > 0.25 horas] = P Ge > :) a =r (c>!) Como esta probabilidad no es baja, se concluirfa que una diferencia de 15 minutos en las medias de las muestras puede ocurrir por azar, es decir, sucede con frecuencia aunque 1, = My, Por lo tanto, este tipo de diferencia en el tiempo promedio de secado cierta- mente no es una seal clara de que 11, # i, Como indicamos al principio, en los capitulos siguientes se observaré un forma- lismo més detallado con respecto a éste y a otros tipos de inferencia estadistica, por ejemplo, la prucba de hipétesis. El teorema del limite central y las distribuciones de muestreo que se presentan en las siguientes tres secciones también desempefiarén un papel fundamental. = PZ < 0.75) = 10.7734 = 0.2266, Ejemplo 8.6: [Los cinescopios para televisor del fabricante A tienen una duraci6n media de 6.5 afos y Solucién: una desviacién estandar de 0.9 afios; mientras que los del fabricante B tienen una dura- cin media de 6.0 afios y una desviacidn estindar de 0.8 afios. Cuil es la probabilidad de que una muestra aleatoria de 36 cinescopios del fabricante 4 tenga por lo menos 1 aio més de vida media que una muestra de 49 cinescopios del fabricante B? ‘Tenemos la siguiente informacién: Poblacién 1 Poblacién 2. = 65 fh = 60 a = 09 on = 0.8 ny = 36 n 49 Si utilizamos el teorema 8.3, la distribucién muestral de X, — X, seré aproximada- ‘mente normal y tendiré una media y una desviaci6n estindar de My -x, = 65-60=05 y ox, _x, \= oot 0.189 La probabilidad de que 36 cinescopios del fabricante A tengan por lo menos 1 afio ms de vida media que 49 cinescopios del fabricante B es dada por el érea de la regién sombreada de la figura 8.6. Con respecto al valor ¥,—¥, = 1.0, encontramos que 1.0-0.5 “ors ~ 75 z= P(X —%, 21.0) P(Z > 2.65) =1—P(Z < 2.65) 0.9960 = 0.0040, 4 Ejercicios 241 1g, z,= 0.189 OF TO Figura 8.6: Area para el ejemplo 8.6. Mas sobre la distribucién muestral de medias. Aproximacién normal a la distribucién binomial En la secci6n 6.5 analizamos a fondo la aproximacién normal ala distribucién binomial. Estaban dadas las condiciones sobre los parémetros n y p, para los cuales la distribucién de una variable aleatoria binomial se puede aproximar mediante la distribucién normal, Los ejemplos y los ejercicios reffejaron la importancia del concepto de “aproximacién normal’. Resulta que el teorema del limite central da mas idea de cémo y por qué fun- ciona esta aproximacién, Sabemos con certeza que una variable aleatoria binomial es el mimero X de éxitos en n pruebas independientes, donde el resultado de cada prueba es binario, En el capitulo I también vimos que la proporcién calculada en un experimento asi es un promedio de un conjunto de ceros y unos. De hecho, mientras que la proporcién XIn es un promedio, X es la suma de este conjunto de ceros y unos, y tanto X como X/n son casi normales si n es suficientemente grande, Desde luego, a partir de lo que apren- dimos en el capitulo 6, sabemos que hay condiciones de n y p que afectan la calidad de a aproximaci6n; a saber, np = 5 y ng = 5. Ejercicios 8.17 Si se extracn todas las muestras posibles de ta- mato 16 de una poblaci6n normal con media igual a 50 y desviacisn estandar igual a 5, ;cudl es la probabilidad de que una media muestral Xcaiga en el intervalo que vade pg — 1.90 az — 0.407? Suponga que las me- dias muestrales Se pueden medir con cualquier grado de precision 8.18 Si la desviacin esténdar de la media para la distribucin muestral de muestras aleatorias de ta- mao 36 de una poblacién grande o infinita es 2, ,qué tan grande debe ser el tamaio de la muestra si la des- viaciGn estindar se reduce a 1.2? 8.19 Se fabricacierto tipo de hilo con una resistencia a Ja tensién media de 78.3 kilogramos y una desviacién cestindar de 5.6 kilogramos. {Cémo cambia la varianza de la media muestral cuando el tamafio de la muestra a) aumenta de 64 a 1967 b) disminuye de 784 2497 8.20 Dada la poblacién uniforme discreta Soy= ee eouscao, calcule la probabilidad de que una muestra aleatoria de tamafio 54, seleccionada con reemplazo, produzca una media muestral mayor que 4.1 pero menor que 4.4 Suponga que las medias se miden al décimo més cercano. 8.21 Una maquina de bebidas gascosas se ajusta de manera que la cantidad de bebida que sirve promedie 240 mililitros con una desviacién estindar de 15 mi- lilitros, La méquina se verifica periédicamente to- mando una muestra de 40 bebidas y calculando el 242, contenido promedio. Si Ia media de las 40 bebidas es un valor dentro del intervalo jig + 2org, se piensa que la maquina opera satisfactoriamente; de lo con- trario, se ajusta, En la seccidn 8.3 el ejecutivo de la empresa encontré que la media de 40 bebidas era 5 = 236 milliltros y concluyé que la maquina no ne- cesitaba un ajuste. {Fue ésta una decisién razonable? 8.22. Las estaturas de 1000 estudiantes se distribuyen aproximadamente de forma normal con una media de 1745 centimetros y una desviacién esténdar de 6.9 centimettos. Si se extraen 200 muestras aleatorias de tamafio 25 de esta poblacién y las medias se registran al décimo de centimetro mas cercano, determine a) la media y la desviacién estindar de la distribu- cién muestral de X; b) el nimero de las medias muestrales que caen entre 172.5 y 175.8 centimetros; ©) el nimero de medias muestrales que caen por de- bajo de 172.0 centimetros. 8.23 La variable aleatoria X, que representa el ni mero de cerezas en un tarta, tiene la siguiente distribu- cidn de probabilidad: x 5s 6 PR 020403 01 a) Calcule ta media wy la varianza 0° de X. b) Calcule la media jig y la varianza o? de la media Xpara muestras aleatorias de 36 tartas de cereza. 6) Calcule la probabilidad de que el niimero prome- dio de cerezas en 36 tartas sea menor que 5.5, 8.24 Si cierta maquina fabrica resistencias eléctricas que tienen una resistencia media de 40 ohms y una des- viacidn estindar de 2 ohms, {cual es la probabilidad de que una muestra aleatoria de 36 de estas resistencias tenga una resistencia combinada de mas de 1458 ohms? 8.25 Lavvida media de una maquina para elaborar pan 8 de 7 afios, con una desviacién estindar de 1 ab. Suponga que la vida de estas méquinas sigue aproxi- madamente una distribucién normal y caleule a) la probabilidad de que la vida media de una mues- tra aleatoria de 9 de estas méquinas caiga entre 6.4 y7.2afos; b) el valor de x a la derecha del cual caerfa 15% de Jas medias calouladas de muestras aleatorias de ta- maiio 9 8.26 La cantidad de tiempo que le toma al cajero de un banco con servicio en el automévil atender a un cliente es una variable aleatoria con una media y = 3.2 minutos y una desviacién estandar o = 1,6 minutos. Si se observa una muestra aleatoria de 64 clientes, calcule Ja probabilidad de que el tiempo medio que el cliente Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos pasa en la ventanilla del cajero sea 4) alo sumo 2.7 minutos; 1b) mas de 3.5 minutos; ©) al menos 3.2 minutos peto menos de 3.4 minutos, 8.27 En un proceso quimico la cantidad de cierto tipo de impureza en el producto es dificil de controlar y por ello es una variable aleatoria. Se especula que la canti- ddad media de Ia poblacién de impurezas es 0.20 gramos por gramo del producto. Se sabe que la desviacién estén- dar es 0.1 gramos por gramo. Se realiza un experimento para entender mejor la especulacién de que = 0.2. El proceso se Teva a cabo 50 veces en un laboratorio y el promedio de la muestra ¥ resulta ser 0.23 gramos por ‘gramo, Comente sobre la especulacién de que la can- tidad media de impurezas es 0.20 gramos por gramo, Utilice el teorema del limite central en su respuesta 8.28 Se toma una muestra aleatoria de tamaiio 25 de una poblacién normal que tiene una media de 80 y una desviacidn esténdar de 5. Una segunda muestra alea- toria de tamafo 36 se toma de una poblacién normal diferente que tiene una media de 75 y una desviacién estindar de 3. Calcule la probabilidad de que la media ‘muestral calculada de las 25 mediciones exceda la me- dia muestral calculada de las 36 mediciones por lo me nos 3.4 pero menos de 5.9. Suponga que las diferencias de las medias se miden al décimo més cercano. 8.29 La distribucién de alturas de cierta raza de pe- 110s terrier tiene una media de 72 centimetros y una desviacidn estindar de 10 centimetros; en tanto que la distribucién de alturas de cierta raza de poodles tiene una media de 28 centimetros con una desviacisn estn- dar de 5 centimetros. Suponga que las medias muestra- les se pueden medir con cualquier grado de precisién y calcule la probabilidad de que Ia media muestral de tuna muestra aleatoria de alturas de 64 terriers exceda Ja media muestral para una muestra aleatoria de alturas, de 100 poodles a lo sumo 44.2 centimetros. 8.30 La calificacién promedio de los estudiantes de primer afio en un examen de aptitudes en cierta uni- versidad es 540, con una desviacién estindar de 50. Suponga que las medias se miden con cualquier grado de precisién. ,Cual es la probabilidad de que dos gru- pos seleccionados al azar, que constan de 32 y 50 estu- diantes, respectivamente, difieran en sus calificaciones promedio por a) més de 20 puntos? +) una cantidad entre 5 y 10 puntos? 8.31 Considere el estudio de caso 8.2 de la pagina 238. Suponga que en un experimento se utilizaron 18, ‘especimenes para cada tipo de pintura y que Ia diferencia real en el tiempo medio de secado, result6 ser 10, 8.5 Distribucién muestral de S? 4a) (Pareceria ser un resultado razonable si los dos tiempos promedio de secado de las dos poblacio- nes realmente son iguales? Utilice el resultado que se obtuvo en el estudio de caso 8.2. b) Si alguien hicicra el experimento 10,000 veces bajo Ia condicién de que ., = 4, cen cuantos de esos 10,000 experimentos habria una diferencia £, — tan grande como 1.0 (0 mas grande)? 8.32 Dos méquinas diferentes de lenado de cajas se utilizan para llenar cajas de cereal en una linea de ensam- ble. La medicin fundamental en la que influyen estas ‘miquinas es el peso del producto en las cajas. Los in- genieros estén seguros de que la varianza en el peso del producto es o = 1 onza. Se realizan experimentos usando ambas méquinas con tamafios muestrales de 36 cada una. Los promedios muestrales para las maquinas Ay B son , = 4.5 onzas y , = 4.7 onzas, Los ingenie~ ros se sorprenden de que los dos promedios maestrales para las maquinas de Ienado sean tan diferentes 42) Utiliceel teorema del limite central para determinar P(X, —X4 20.2) bajo la condicién de que 1, = 1, b) Los experiments mencionados parecen, de cual- quier forma, apoyar consistentemente la suposi- cidn de que las medias de poblacién de las dos maquinas son diferentes? Explique utilizando la respuesta que encontré en el inciso a. 8.33 EI benceno es una sustancia quimica altamente \Gxica para los seres humanos. Sin embargo, se utiliza en a fabricacién de medicamentos, de tintes y de recu- brimientos, asf como en la peleteria, Las regulaciones del gobierno establecen que el contenido de benceno en cel agua que resulte de cualquier proceso de produccién ‘en el que participe esta sustancia no debe exceder 7950 partes por millén (ppm), Para un proceso particular de interés, un fabricante recolects una muestra de agua 25 veces de manera aleatoria y el promedio muestral £ fue de 7960 ppm. A partir de los datos histéricos, se sabe ‘que la desviacién estindar oes 100 ppm. 1a) {Cudl es la probabilidad de que el promedio mues- tral en este experimento exceda el limite estable- cido por el gobierno, si la media de la poblacién es igual al limite? Utilice el teorema del limite central b) La ¥ = 7960 observada en este experimento es firme evidencia de que la media de la poblacién 8.5 Distribucién muestral de S? 243 en este proceso excede el limite impuesto por el gobierno? Responda calculando PX = 7960 | x= 7950) Suponga que la distribucién de la concentracién, de benceno es normal. 8.34 En la fabricacién de cierto producto de acero se estin utilizando dos aleaciones, la A y la B. Se necesita disefiar un experimento para comparar las dos aleacio- nes en (érminos de su capacidad de carga maxima en toneladas, es decir, la cantidad maxima de carga que pueden soportar sin romperse. Se sabe que las dos des- viaciones estindar de la capacidad de carga son iguales 5 toneladas cada una, Se realiza un experimento en el que se prucban 30 especimenes de cada aleacién (A y B) y se obtienen los siguientes resultados Sa = 495, Be = 45.5; Los fabricantes de la aleacién A estén convencidos de que esta evidencia demuestra de forma concluyente que 1, > My ¥. Por lo tanto, que su aleacién es mejor. Los fabricantes de la aleaci6n B afirman que el experimento fécilmente podria haber resultado £, — ¥, = 4, incluso si las dos medias de poblacién fueran iguales. En otras palabras, “los resultados no son eoncluyentes!” @) Bncuentre un argumento que ponga en evidencia el error de los fabricantes de la aleacién B. Para ello caleule PUR, —X5 > 4| pe = ps). ) {Considera que estos datos apoyan fuertemente a Iaaleacién A? 835 Considere In situacién del ejemplo 8.4 de Ia pagina 234. {Los resultados que se obtuvieron alli lo evan a cuestionar la premisa de que . = 800 horas? Proporcione un resultado probabilistico que indique qué tan raro es el evento X < 775 cuando p = 800. Por otro lado, ;qué tan raro serfa si fuera, verdadera- ‘mente, digamos, # 760 horas? 8.36 Sea X,, X,... X, wna muestra aleatoria de una distribucién que sélo puede adoptar valores positivos. Utilice el teorema del limite central para argumen- tar que sin es tan grande como se requiere, entonces X,X,...X, tiene aproximadamente una distribucién logaritmica normal. Ta Tp = 4. En la seccién anterior aprendimos acerca de la distribucién muestral de X. El teorema del limite central nos permiti6 utilizar el hecho de que X-u 244 feorema 8.4: Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos tionde a N(O, 1) a medida que crece el tamafio de la muestra. Las distribuciones mues- trales de estadisticos importantes nos permiten conocer informacién sobre los parime- tos. Por lo general, los pardmetros son las contrapartes del estadistico en cuestién. Por ejemplo, si un ingeniero se interesa en la resistencia media de la poblacisn de cierto tipo de resistencia, sacaré provecho de la distribucién muestral de X una vez que retina la informacién de la muestra. Por otro lado, si est4 estudiando la variabilidad en la resis tencia, evidentemente utilizaré la distribucién muestral de S? para conocer la contraparte paramétrica, la varianza de la poblaci6n 0°. Si se extrae una muestra aleatoria de tamafio n de una poblacién normal con media wy varianza oy se calcula la varianza muestral, se obtiene un valor del estadistico S* Procederemos a considerar la distribuci6n del estadistico (n - 1)S°/0?. ‘Mediante la suma y la resta de la media muestral Xes féeil ver que Mew, -w* = Sa —X) + — wr ai mi = - FP + VK — wy? 42K - pW Vx -¥) a a mt = - X40 - ai Al dividir cada término de la igualdad entre o y sustituir (n — 1)S? por )>(X,-X)*, obtenemos a z 2m -H Ahora, de acuerdo con el corolario 7.1 de la pagina 222, sabemos que es una variable aleatoria chi cuadrada con n grados de libertad. ‘Tenemos una variable alea- toria chi cuadrada con n grados de libertad dividida en dos componentes. Observe que en la secci6n 6.7 demostramos que una distribuci6n chi cuadrada es un caso especial de la distri- bucién gamma. El segundo término del lado derecho es Z?, que es una variable aleatoria chi cuadrada con 1 grado de libertad, y resulta que (n ~ 1)S*/o* es una variable aleatoria chi cuadrada con n — 1 grados de libertad, Formalizamos esto en el siguiente teorema. Si S*es la varianza de una muestra aleatoria de tamafio n que se toma de una poblacién normal que tiene la varianza o°, entonces el estadistico (n= DS? _ Ak, -¥)* SLE 1 grados de libertad, tiene una distribuci6n chi cuadrada con v = 8.5 Distribucin muestral de 5? 245 Los valores de la variable aleatoria x? se calculan de cada muestra mediante Ja formula (w= 1s* a x La probabilidad de que una muestra aleatoria produzca un valor x? mayor que algin valor especifico es igual al érea bajo la curva a la derecha de este valor. El valor x? por arriba del cual se encuentra un 4rea de @ por lo general se representa con x2. Esto se iustra mediante la regién sombreada de la figura 8.7. ° a Figura 8.7: La distribucién chi cuadrada La tabla A.5 da los valores de x2 para diversos valores de ay v. Las éreas, a, son los encabezados de las columnas; los grados de libertad, v, se dan en la columna izquierda, y las entradas de la tabla son los valores x¢. En consecuencia, el valor x con 7 grados de libertad, que deja un 4rea de 0.05 a Ia derecha, es x3,95 = 14.067. Debido a la falta de simetrfa, para encontrar XZo5 = 2.167 para v = 7 también debemos usar las tablas. Exactamente 95% de una distribucién chi cuadrada cae entre X3o75 ¥ X}o2s- Un valor x? que cae a la derecha de x3 995 no tiene probabilidades de ocurrir, a menos que el valor de o que supusimos sea demasiado pequefio. Lo mismo sucede con un valor x? que cae a la izquierda de x3 97s, el cual tampoco es probable que ocurra, a menos que el valor de a que supusimos sea demasiado grande. En otras palabras, es posible tener un valor x? a la izquierda de x3.975 0 a la derecha de X35 cuando el valor de o* es correcto; pero si esto sucediera, lo mas probable es que el valor de o? que se supuso sea un error. Ejemplo 8.71 Un fabricante de baterfas para automévil garantiza que su producto durar4, en promedio, 3 afios con una desviacién esténdar de 1 afio. Si cinco de estas baterfas tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 aftos, jel fabricante continuaré convencido de que sus baterfas, tienen una desviacién estindar de 1 afio? Suponga que las duraciones de las baterias si- guen una distribucién normal. rimero se calcula la varianza de la muestra usando el teorema 8.1, (5)(4) (O15) T = 0.815 Entonces, 3.26 246 Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos es un valor de una distribucién chi cuadrada con 4 grados de libertad, Como 95% de los valores x? con 4 grados de libertad cae entre 0.484 y 11.143, el valor calculado con a? = Les razonable y, por lo tanto, el fabricante no tiene razones para sospechar que la desviacisn esténdar no sea igual a 1 aio. Grados de libertad como una medicién de la informacién muestral Del corolario 7.1 expuesto en a seccién 7.3 recuerde que > (Xi = ai tiene una distribucién x? con n grados de libertad. Observe también el teorema 8.4, el cual indica que la variable aleatoria (ps (x, -%)? “SL ae tiene una distribucién x? con n 1 grados de libertad. El lector debe también recordar que el término grados de libertad, que se utiliza en este contexto idéntico, se estudié en el capitulo 1 Como antes indicamos, el teorema 8.4 no se demostraré; sin embargo, el lector puede verlo como una indicacién de que cuando no se conoce 4 y se considera la distri- bucién de > (Xi XY “>. we hay 1 grado menos de libertad, o se pierde un grado de libertad al estimar u (es decir, cuando 1 se reemplaza por 3). En otras palabras, en la muestra aleatoria de la distribu- cin normal hay n grados de libertad o partes de informacién independientes. Cuando los datos (Jos valores en 1a muestra) se utilizan para calcular la media, hay un grado ‘menos de libertad en Ia informacién que se utiliza para estimar 8.6 Distribucién t Enla secci6n 8.4 se analizs la utilidad del teorema del Iimite central. Sus aplicaciones gi- ran en tomo a las inferencias sobre una media de la poblacién o a la diferencia entre dos medias de poblacién. En este contexto es evidente la utilidad de utilizar el teorema del Iimite central y la distribucién normal. Sin embargo, se supuso que se conoce la desvia- cién estandar de la poblacién, Esta suposicién quizé sea razonable en situaciones en las que el ingeniero est muy familiarizado con el sistema o proceso. Sin embargo, en mu- chos escenarios experimentales el conocimiento de ono es ciertamente més razonable que el conocimiento de la media de la poblacién 4. A menudo, de hecho, una estimacién de o debe ser proporcionada por la misma informacién muestral que produce el prome- dio muestral £. Como resultado, un estadistico natural a considerar para tratar con las inferencias sobre es 8.6 Distribucién 1 ‘Teorema 8.5 247 dado que S es el andlogo de 1a muestra para ¢. Si el tamaiio de la muestra es pequefio, los valores de S? fluctiian de forma considerable de una muestra a otra (véase el ejercicio 8.43 de la pagina 259) y la distribuci6n de T se desvia de forma apreciable de la de una distribuci6n normal esténdar, Si el tamafio de la muestra es suficientemente grande, digamos n > 30, la distribu- cién de T no difiere mucho de la normal esténdar. Sin embargo, para n < 30 es ttl tratar con la distribuci6n exacta de 7. Para desarrollar la distribucién muestral de 7, supon- dremos que nuestra muestra aleatoria se seleccioné de una poblacién normal. Podemos escribir, entonces, _ p= Kw haolyn) Se Vin —1)° X= oN donde tiene una distribucién normal esténdar y 1s? a tiene una distribucién chi cuadrada con v = n—1 grados de libertad, Al obtener muestras de poblaciones normales se puede demostrar que Xy S? son independientes y, en con- secuencia, también lo son Z y V. El siguiente tcorema proporciona la definicién de una variable aleatoria T como una funcién de Z (normal esténdat) y 7. Para completar se proporciona la funci6n de densidad de la distribucién ¢, Sea Zuna variable aleatoria normal estindar y Vuna variable aleatoria chi cuadrada con v grados de libertad. Si Z y V son independientes, entonces la distribucién de la variable aleatoria T, donde P WR es dada por la funci6n de densidad nv 2 ay -o4D/2 ho = Hee (1+5) , 2 <1 y 8? Sai -¥)* nale Entonces la variable aleatoria bertad, K tiene una distribucién t con y = 5 1 grads de lie La distribucién de probabilidad de T se publicé por primera vez en 1908 en un ar- ticulo de W. S. Gosset. En esa época, Gosset trabajaba para una cerveceria irlandesa que prohibfa a sus empleados que publicaran los resultados de sus investigaciones, Para evadir la prohibicién Gosset publics su trabajo en secreto bajo el seudénimo de “Student”. Es por esto que a la distribucién de 7 se le suele lamar distribucién 1 de Student o simple- ‘mente distribucién , Para derivar la ecuacién de esta distribucién Gosset supuso que las muestras se seleccionaban de una poblacién normal. Aunque ésta pareceria una suposi- cin muy restrictiva, se puede demostrar que las poblaciones que no son normales y que poseen distribuciones en forma casi de campana atin proporcionan valores de T que se aproximan muy de cerca a la distribucién {Qué apariencia tiene la distribucién £? La distribucién de T se parece a la distribucién de Z en que ambas son simétricas al- rededor de una media de cero. Ambas distribuciones tienen forma de campana, pero Ia distribucién 1 es més variable debido al hecho de que los valores T dependen de las fluctuaciones de dos cantidades, Xy S*; mientras que los valores Z dependen sélo de os cambios en Xde una muestra a otra. La distribucidn de T difiere de la de Z en que la varianza de T depende del tamafio de la muestra n y siempre es mayor que 1. Sélo cuando el tamaiio de la muestra n —» oo las dos distribuciones serdn iguales, En la figura 8.8 se presenta la relacién entre una distribucién normal esténdar (v = 00) y las distribucio- nes f con 2 y 5 grados de libertad. Los puntos porcentuales de la distribucién 1 se dan en latablaA4, = Figura 8.8: Curvas de la distribucién f para v=2, Sy oe. a ° 1 2 ta os Figura 8.9: Propiedad de simetrfa (alrededor de 0) de la distribucisn 8.6 Distribucién 1 249 El valor f por arriba del cual se encuentra un rea igual a a por lo general se re- presenta con 1, Por consiguiente, el valor con 10 grados de libertad que deja una érea de 0,025 a la derecha es 1 = 2.228. Como la distribucién 1 es simétrica alrededor de tuna media de cero, tenemos f, _, = -t,; es decir, el valor t que deja una érea de 1 - aa laderecha y, por lo tanto, una fea de @ a la izquierda es igual al valor f negativo que deja una rea de «en la cola derecha de la distribucién (véase la figura 8.9). Esto 8, f,,5 = =f foay = Too etoStera, Ejemplo 8.8:/ El valor t con v = 14 grados de libertad que deja una area de 0.025 a la izquierda y, por lo tanto, una area de 0.975 ala derecha, es to,975 = tors = 2.145. 4 Ejemplo 8.9:1Caleule P(—toos 500, el valor de r caleulado de Ia muestra serfa més razonable. Por lo tanto, es probable que el ingenicro concluya que el proceso produce un mejor producto del que pensaba. utiliza la distribucién ¢? La distribuci6n 1 se usa ampliamente en problemas relacionados con inferencias acerca de la media de la poblacién (como se ilustra en el ejemplo 8.11) 0 en problemas que implican muestras comparativas (es decir, en casos donde se trata de determinar si las medias de dos muestras son muy diferentes). El uso de la distribucién se ampliaré en los capitulos 9, 10, 11 y 12. El lector deberfa notar que el uso de la distribucién 1 para el estadfstico ~ Xap S/yn requiere que X,, X,,.., X, sean normales. El uso de la distribucién f y la consideracién del tamafio de la muestra no se relacionan con el teorema del limite central. El uso de la distribucién normal est4ndar en ver. de T para n 2 30 sdlo implica, en este caso, que S ¢s un estimador suficientemente bueno de o. En los siguientes capitulos la distribucién se usa con amplitud. 8.7 Distribucién F 251 8.7 Distribucién F Recomendamos la distribucisn ¢ en parte por su aplicacién a problemas en los que hay muestreo comparativo, es decir, a problemas en que se tienen que comparar dos medias muestrales. Por ejemplo, algunos de los ejemplos que daremos en los siguientes capf- tulos adoptaran un método atin més formal; un ingeniero quimico reine datos de dos catalizadores, un bidlogo recoge datos sobre dos medios de crecimiento o un quimico retine datos sobre dos métodos de recubrimiento de material para prevenir la corrosién. Si bien es importante que la informacién muestral aclare Jo relacionado con dos medias de poblacién, a menudo éste es el caso en el que comparar la variabilidad es igual de importante, si no es que més. La distribucién F tiene una amplia aplicacién en la com- paraciGn de varianzas muestrales y tambign es aplicable en problemas que implican dos ‘o-mas muestras, El estadistico F se define como el cociente de dos variables aleatorias chi cuadrada independientes, dividida cada una entre su ntimero de grados de libertad. En consecuen- cia, podemos escribir um Vin" donde U y V son variables aleatorias independientes que tienen distribuciones chi cua drada con v, y v, grados de libertad, respectivamente. Estableceremos ahora la distribu- cién muestral de F. ‘Teorema 8.6: Sean Uy Vdos variables aleatorias independientes que tienen distribuciones chi cuadra- da con v, y v, grads de libertad, respectivamente, Entonces, la distibucion de la varia- ble aleatoria F = 2 es dada por la funcidn de densidad f>0, fs 0. ares Esta se conoce como la distribucién F con v, y v, grados de libertad (g.1.). En capitulos posteriores utilizaremos ampliamente la variable aleatoria F. Sin embargo, no emplearemos la funcién de densidad, la cual s6lo se dara como complemento. La curva de la distribucién F no sélo depende de los dos parémetros v, y v, sino también del orden en el que se establecen. Una vez que tenemos estos dos valores, podemos identifi- carla curva, En la figura 8.11 se presentan distribuciones F Upicas Sea f, el valor f por arriba del cual encontramos un area igual a ax. Esto se ilustra mediante la regién sombreada de la figura 8.12. La tabla A.6 proporciona valores de f, s6lo para @ = 0.05 y @ = 0.01 para varias combinaciones de los grados de libertad v, Y ¥,. Por lo tanto, el valor f con 6 y 10 grados de libertad, que deja un area de 0.05 a la derecha, es f,, = 3.22. Por medio del siguiente teorema, la tabla A.6 también se puede utilizar para encontrar valores de f,, Y fy, La demostraci6n se deja al lector. 252 Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos di. = 6,19) 8 6 6 z ' Figura 8,11: Distribuciones F tipicas. Figura 8.12: Ilustracién de la f, para la distribucién F Teorema 8.7: Al escribir f, (¥,, v,) para f, conv, y v, grados de libertad, obtenemos, 1 fi-alvi.v2) ACen) Por consiguiente, el valor f con 6 y 10 grados de libertad, que deja una area de 0.95 ala derecha, es 1 1 Foos(10, 6) ~ 4.06 fo,95 (6, 10) 246, La distribucién F con dos varianzas muestral ‘Suponga que las muestras aleatorias de tamatios n, y n, se seleccionan de dos poblacio- nes normales con vatianzas a} y 03, respectivamente. Del teorema 8.4, sabemos que (m=DS} 0 _ (m= DS? x a a son variables aleatorias que tienen distribuciones chi cuadrada con v,=n,—1y v, =n, = 1 grados de libertad. Ademés, como las muestras se seleccionan al azar, tratamos con variables aleatorias independientes. Entonces, usando el teorema 8.6 con Xj = Uy X} = V, obtenemos el siguiente resultado. ‘Teorema 8.8: Si S? y S2 son las varianzas de muestras aleatorias independientes de tamafio n, yn, tomadas de poblaciones normales con varianzas a y a3, respectivamente, entonces, Si/ot _ o3Si ofS} tiene una distribucién F con v, = 7,-1yv, 1 grados de libertad, 8.7 Distribucién F 253 ¢Para qué se utiliza la distribucién F? Al inicio de esta seccién contestamos esta pregunta parcialmente. La distribucién F se uusa en situaciones de dos muestras para hacer inferencias acerca de las varianzas de po- blacién, lo cual implica aplicar el teorema 8.8. Sin embargo, Ia distribucién F también se puede aplicar a muchos otros tipos de problemas que involucren varianzas muestrales. De hecho, la distribucién F se llama distribucién de razén de varianzas. Como ejemplo, considere el estudio de caso 8.2 en el que se compararon tas dos pinturas, A y B, en relacién con el tiempo medio que tardan en secar, en donde la distribucién normal se aplica muy bien (suponiendo que se conocen @, y a). Sin embargo, suponga que nece- sitamos comparar tres tipos de pinturas, digamos A, B y C, y que queremos determinar si las medias de poblacién son equivalentes. Suponga que un resumen de la informacién importante del experimento es el siguiente: Pintura Media muestral Varianza muestral_ Tamafio muestral A a= 45 53 = 0.20 10 B Xp =55 sh = 0.14 10 c Xc =65 sk =O1L 10 EI problema se centra alrededor de si los promediios muestrales (R,, Zy ) estén o no suficientemente alejados. La implicacién de “suficientemente alejados" resulta muy importante. Pareceria razonable que si la variabilidad entre los promedios muestrales es mayor que lo que se esperaria por casualidad, los datos no apoyan la conclusién de que Mi, = My = Me Siestos promedios muestrales pudieran ocurtir por casualidad depende de 1a variabilidad dentro de las muestras, cuando se cuantifican por medio de 53, 53 y 52. La idea de los componentes importantes de la vatiabilidad se observa mejor utilizando algunas gréficas sencillas. Considere la gratica de los datos brutos de las muestras A, B y C que se presenta en la figura 8.13. Estos datos podrfan generat con facilidad la infor- macién antes resumida A AAAAA AG AAR ABBABE BACCA Cece coe” 45 55 65 + + + Ks Xe Ke Figura 8.13: Datos de tres muestras diferentes. Parece evidente que los datos provienen de distribuciones con diferentes medias de poblaci6n, aunque hay cierto traslape entre las muestras. Un andlisis que incluya todos los datos intentaria determinar si la variabilidad entre los promedios muestrales y’ la va- riabilidad dentro de las muestras podria haber ocurrido conjuntamente si, de hecho, las poblaciones tienen una media comin. Observe que la clave para este andlisis se centra alrededor de las dos siguientes fuentes de variabilidad. 1, Variabilidad dentro de las muestras (entre observaciones en muestras distintas), 2. Vatiabilidad entre muestras (entre promedios muestrales). Es evidente que si la variabilidad en 1) es considerablemente mayor que en 2), entonces habré un traslape considerable en los datos muestrales, una seftal de que los datos po- drian provenir de una distribucién comtin, En el conjunto de datos que se presenta en la 254 Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos figura 8.14 se encuentra un ejemplo, Por otro lado, es muy improbable que los datos de una distribucién con una media comiin puedan tener una variabilidad entre promedios muestrales que sea considerablemente mayor que la variabilidad dentro de las muestras. A 8C ACB AC CAB _C__ACBA BABABCACBBABCC zat Figura 8.14: Datos que con facilidad podrian provenir de la misma poblacién, Las fuentes de variabilidad en 1) y 2) generan importantes cocientes de varian- zas muestrales y los cocientes se utilizan junto con la distribucién F. El procedimiento general implicado se llama anilisis de varianza. Es interesante que en el ejemplo de la pintura aquf descrito tratamos con inferencias sobre tres medias de poblacién pero utilizamos dos fuentes de variabilidad. No proporcionaremos detalles aqui, pero en los capitulos 13, 14 y 15 utilizaremos ampliamente el anélisis de varianza en donde, por supuesto, la distribucisn F desempefa un papel importante. 8.8 Grdficas de cuantiles y de probabilidad En el capitulo 1 presentamos al lector las distribuciones empiticas. El objetivo es utilizar presentaciones creativas para extraer informacién acerca de las propiedades de un conjunto de datos. Por ejemplo, los diagramas de tallo y hojas brindan al observador una imagen de la simetria y de otras propiedades de los datos. En este capitulo tratamos con muestras que, por supuesto, son conjuntos de datos experimentales de los que sacamos conclusiones so- bre las poblaciones. A menudo, la apariencia de la muestra proporciona informacién sobre Ia distribucidn de la que se tomaron los datos. Por ejemplo, en el capitulo 1 ilustramos la naturaleza general de pares de muestras con gréficas de puntos que presentan una compa- raci6n relativa entre la tendencia central y la variabilidad de dos muestras, En los capftulos siguientes con frecuencia supondremos que una distribucién es nor- mal. La informacién gréfica respecto a Ia validez. de esta suposicidn se puede obtener a partir de presentaciones como los diagramas de tallo y hojas y los histogramas de frecuen- cias. Ademds, en esta seccisn presentaremos los conceptos de gréficas de probabilidad normal y gréficas de cuantiles. Estas gréficas se utilizan en estudios con diversos grados de complejidad con el principal objetivo de que las gréficas proporcionen una verificacién diagndstica sobre la suposicién de que los datos provienen de una distribucién normal, Podemos caracterizar el andlisis estadfstico como el proceso de sacar conclusiones acerca de los sistemas en presencia de la variabilidad del sistema, Por ejemplo, el intento de un ingeniero por aprender acerca de un proceso quimico a menudo es obstaculizado por la variabilidad del proceso. Un estudio que implica el nimero de articulos defec- tuosos en un proceso de produccién con frecuencia se dificulta por la variabilidad en el método con el que se fabrican, En las secciones anteriores aprendimos acerca de las muestras y los estadisticos que expresan el centro de localizacién y la variabilidad en Ja muestra, Tales estadisticos ofrecen medidas simples, en tanto que una presentacién ‘gréfica brinda informacién adicional por medio de una imagen. Un tipo de gréfica que puede ser especialmente iil para revelar la naturaleza de un conjunto de datos es la grifica de cuantiles. Igual que en el caso de la gréfica de caja y extensién (véase la seccisn 1.6), en el que el objetivo del analista es hacer distinciones, en la gréfica de cuantiles se pueden utilizar las ideas basicas para comparar muestras de 8.8 Gréficas de cuantiles y de probabilidad 255 datos, En los siguientes capitulos se presentarén més ejemplos del uso de las gréficas de cuantiles, en los que se analizaré la inferencia estadistica formal asociada con la com- paraciGn de muestras. En su momento, los estudios de caso mostrardn al lector tanto la inferencia formal como las gréficas diagnésticas para el mismo conjunto de datos. GrAfica de cuantiles Definicion 8, El propésito de las gréficas de cuantiles consiste en describir, en forma de muestra, la funcién de distribucién acumulada que se estudié en el capitulo 3. Un cuantil de una muestra, q(f), es un valor para el que una fraccisn especifica f de los valores de los datos es menor que o igual a q(f). Evidentemente, un cuantil representa una estimacién de una caracteristica de una poblacién o, mas bien, la distribucién tedrica, La mediana de la muestra es q(0.5). El percentil 75 (cuartil superior) es g(0.75) y el cuartil inferior es 4(0.25). Una gréfica de cuantiles simplemente grafica los valores de los datos en el eje vertical contra una evaluacién emptrica de la fraccién de observaciones excedidas por los valores de los datos. Pata prop6sitos tebricos esta fraccién se calcula con donde j es el orden de las observaciones cuando se ordenan de la menor a la mayor. En otras palabras, si denotamos las observaciones ordenadas como Yo S¥a S¥o) SSE SY» entonces la grifica de cuantiles describe una gritica de y,, contra f, En la figura 8.15 se presenta la gréfica de cuantiles para las asas de las latas de pintura analizadas con anterioridad, ‘A diferencia de la gréfica de caja y extensién, la gréfica de cuantiles realmente mues- tra todas las observaciones. Todos los cuantiles, incluidos la mediana y los cuantiles supe- rior ¢ inferior, se pueden aproximar de forma visual. Por ejemplo, observamos fécilmente tuna mediana de 35 y un cuartil superior de alrededor de 36. Las agrupaciones relativa- mente grandes en torno a valores especificos se indican por pendientes cercanas a cero; mientras que los datos escasos en ciertas éreas producen pendientes més abruptas. La figura 8.15 describe la dispersi6n de datos de los valores 28 a 30, pero una densidad relati- vamente alta de 36 a 38. En los capitulos 9 y 10 proseguimos con las grificas de cuantiles mediante la ilustracién de formas ttiles en que es posible comparar distintas muestras. Deberfa ser muy evidente para el lector que detectar si un conjunto de datos proviene ono de una distribucién normal puede ser una herramienta importante para el analista de datos. Como antes indicamos en esta seccién, a menudo suponemos que la totalidad 0 subconjuntos de las observaciones en un conjunto de datos son realizaciones de variables aleatorias normales independientes idénticamente distribuidas, Una vez més, la gréfica de diagndstico a menudo se agrega a (con fines de presentacién) una prueba de bondad del juste formal de los datos. Las pruebas de bondad del ajuste se estudiarén en el capitulo 10, Los lectores de un articulo o informe cientifico suelen considerar Ia informacién de diagnéstico mucho mas clara, menos frida y quiz menos aburrida que un andlisis formal, 256 Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos 40 38 36 34 6 32 30 28 0002 04 06 08 10 Fraccién, f Figura 8.15: Grafica de cuantiles para los datos de la pintura En los capitulos siguientes (del 9 al 13) nos enfocaremos nuevamente en los métodos de deteccién de desviaciones de la normalidad como un agregado de la inferencia estadistica formal. Las gréficas de cuantiles son titles para detectar los tipos de distribucién. En la elaboracién de modelos y en el diseto de experimentos también hay situaciones en que se utilizan las gréficas para detectar términos o efectos del modelo que estén activos. En otras situaciones se utilizan para determinar si las suposiciones subyacentes que el cientifico 0 el ingeniero hicieron en la construccién del modelo son o no razonables. En los capitulos 11, 12 y 13 se incluyen muchos ejemplos con ilustraciones. La siguiente subseccién brinda un andlisis y un ejemplo de una gréfica de diagnéstico denominada grdfica de cuantiles-cuantiles normales. Grafica de cuantiles-cuantiles normales La gréfica de cuantiles-cuantiles normales aprovecha lo que se conoce sobre los cuantiles de la distribucién normal. La metodologfa incluye una gréfica de los cuantiles empiri- cos recién analizados, contra el cuantil correspondiente de la distribucién normal. Ahora, la expresi6n para un cuantil de una variable aleatoria Niu, ) es muy complicada. Sin embargo, una buena aproximacién es dada por quoll) = e+ of4.9i[fo" — -s))}. La expresién entre las Haves (el miiltiplo de a) es la aproximacién para el cuantil corres- pondiente para la variable aleatoria N(0, 1), es decir, gah) = 4.91[F°% ~~ fy] 8.8 Gréficas de cuantiles y de probabilidad 287 Definicién 8.7: La gréfica de cuantiles-cuantiles normales es una grifica de y,, (observaciones orde- nadas) contra %,1(f). donde fj = —¥. Una relacién cercana a una linea recta sugiere que los datos provienen de una distribu normal. La interseccidn en el eje vertical es una estimacisn de la media de la poblacién « y la pendiente es una estimacidn de la desviacién esténdar @, La figura 8.16 presenta una réfica de cuantiles-cuantiles normales para los datos de las latas de pintura, 40 38 36 4 Cuantil y 32 30 28 2 2 4 2 2 CCuantil normal esténdar,q,, (f) Figura 8,16: Grafica de cuantiles-cuantiles normales para los datos de la pintura Graficacién de la probabilidad normal Observe cémo la desviacién de la normalidad se vuelve evidente gracias a la apariencia de la gréfica. La asimetria que exhiben los datos produce cambios en la pendiente. Las ideas para graficar la probabilidad se manifiestan en versiones diferentes de la grafica de cuantiles-cuantiles normales que se present6 aqui. Por ejemplo, se ha puesto mucha atencién ala llamada grafica de probabilidad normal, en la que fse grafica con- tra los valores de los datos ordenados en un papel especial y la escala utilizada da como resultado una linea recta, Ademés, una gréfica alternativa utiliza los valores esperados de las observaciones clasificadas para la distribucién normal y dibuja las observaciones, clasificadas contra su valor esperado, bajo el supuesto de datos de Mu, 0). Una vez més, Ja linea recta es el criterio grafico que se emplea, Continuamos sugiriendo que basarse en os métodos analiticos gréticos que se describen en esta seccisn ayudara a comprender los métodos formales que permiten distinguir muestras diferentes de datos. 258 Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos Ejemplo 8.12: |Considere los datos del ejercicio 10.41 en la pagina 358 del capitulo 10. En el estudio ‘Retencién de nutrientes y respuesta de comunidades de mactoinvertebrados ante la pre- sin de aguas residuales en un ecosistema fiuvial”, que se Ievé a cabo en el departamen- to de zoologia del Virginia Polytechnic Institute y la universidad estatal, se recabaron datos sobre mediciones de densidad (mimero de organismos por metro cuadrado) en dos diferentes estaciones colectoras, En el capitulo 10 se dan detalles con respecto a los mé- todos analiticos de comparacién de muestras para determinar si ambas provienen de la misma distribucién Mz, 0). Los datos se presentan en la tabla 8.1 Tabla 8.1: Datos para el ejemplo 8.12 jdmero de organismos por metro cuadrado Estacion 1 Estacion 2 5,030 4980] 2,800 2,810 13,700 11,910 | 4,670 1,330 10,730 8,130 | 6,890 3,320 11,400 26,850 | 7,720 1,230 860 17,660 | 7,030 2,130 2,200 22,800 | 7,330 2,190 4,250 1,130 15,040 1,690 Dibuje una gréfica de cuantiles-cuantiles normales y saque conclusiones con respecto a si es razonable o no suponer que las dos muestras provienen de la misma distribucién N(x, @), 25,000 20,000 18,000 © 40,000 5,000 Estacién 1 Estacién 2 2 = ° 7 2 Cuantl nomad estindar, 9,0) Figura 8.17: Gréfica de cuantiles-cuantiles normales para los datos de densidad del ejemplo 8.12. Ejercicios Solue 259 a figura 8.17 muestra la gréfica de cuantiles-cuantiles normales para las mediciones de densidad. La gréfica se aleja mucho de una sola linea recta. De hecho, los datos de la estaci6n 1 reflejan pocos valores en la cola inferior de la distribucién y varios en la cola superior. E] “agrupamiento” de observaciones hace que parezca improbable que las dos muestras provengan de una distribucién comiin Ny, 0). 4 Aunque hemos concentrado nuestra explicacién y ejemplo en las gréficas de proba- bilidad para distribuciones normales, podemos enfocarnos en cualquier distribucién. Tan sélo necesitarfamos calcular cantidades de forma analitica para la distribucién tedrica en cuestiGn, Ejercicios 8.37 Para una distribucién chi cuadrada caleule 4) Xb.axs cuando y = 15; }) Xgoreuando v =7; ©) Xboscuando v = 24. 838 Pe 5 cuando y = 5; 6) Xs cuando v = 19; ©) X3o1 cuando v = 12, una distribucién chi cuadrada, calcule 8.39 Para una distribucién chi cuadrada calcule Xi, tal que a) P(X? > x3) = 0.99 cuando v b) POC > x3) = 0.025 cuando v = 19; ©) PQBT.652 < X? < x3) = 0.045 cuando v = 25 8.40 Para una distribucién chi cuadrada calcule Xi, tal que @) P(X? > Xi) = 0.01 cuando v = 21; b) P(X? 1.318) cuando v = 24. ¢) Caleule P1356 < T'< 2.179) cuando v = 12. d) Caleule P(T > -2,567) cuando v = 17 8.46 a) Calcule PH,.95 < T 1.26) 8.65 Considere el ejemplo 1.5 de la pagina 25. Comente acerca de cualquier valor extremo, 8.66 Considere el ejercicio de repaso 8.56. Comente acerca de cualquier valor extremo en los datos. 8.67. La resistencia a la rotura X de cierto remache ‘que se utiliza en el motor de una méquina tiene una media de $000 psi y una desviacién estindar de 400 psi. Se toma una muestra aleatoria de 36 remaches. Considere la distribucién de X, a media muestral de la resistencia a la rotura, a) {Cual es la probabilidad de que Ia media de la muestra caiga entre 4800 psi y 5200 psi? b) (Qué muestra n seria necesaria para tener P (4900 < X < 5100) = 0.997 8.68 Considere la situacién del ejercicio de repaso 8.62. Sila poblacién de la cual se tomé Ia muestra tiene ‘una media poblacional = 53,000 kilémetros, esta in- formacisn de la muestra parece apoyar esa afirmacién? En su respuesta calcule = 53,000 avo y determine, consultando la tabla A.4 (con 9 g.1), siel valor t calculado es razonable o si parece ser un suceso rato. 8.69 Se consideran dos propulsores de combustible s6lido distintos, el tipo A y el tipo B, para una actividad del programa espacial. Las velocidades de combustign ‘en el propulsor son fundamentales. Se toman muestras aleatorias de 20 especimenes de los dos propulsores ‘con medias muestrales de 20.5 emis para el propulsor Ay de 24.50 cm/s para el propulsor B. Por lo general se supone que la variabilidad en la velocidad de com- bbustidn es casi igual para los dos propulsores y que es determinada por una desviacién estindar de poblacién de 5 cm/s. Suponga que Ia velocidad de combustién 261 para cada propulsor es aproximadamente normal, por lo cual se deberia utilizar el teorema del limite central. Nada se sabe acerca de las medias poblacionales de las dos velocidades de combustidn y se espera que este ex- perimento revele algo sobre ella. _ . a) Si, de hecho, pu= ps . ccudl seré P(X, —Xq 24.0)? ) Utilice lo que respondis en el inciso a) para dar luz sobre la validez. de la proposicién 2, = ty 8.70 La concentracién de un ingrediente activo en el producto de una reaccién quimica es fuertemente influido por el catalizador que se usa en la reaccién Se considera que cuando se utiliza el catalizador A la concenttacién media de la poblacién excede el 65%. Se sabe que la desviacién esténdar es o = 5%. Una ‘muestra de productos tomada de 30 experimentos inde- pendientes proporciona la concentracién promedio de 5, = 64.5%. 4) (Esta informacién muestral, con una concentra- cidn promedio de £,= 64.5%, oftece informacién inguietante de que quizé 1, no sea el 65% sino me- nos que ese porcentaje? Respalde su respuesta con una aseveracién de probabilidad 5) Suponga que se realiza un experimento similar utilizando otro catalizador, el B. Se supone que la desviacién estindar o sigue siendo 5% y ¥, resulta ser 70%. Comente si la informacién muestral del catalizador B sugiere con certeza que 1, ¢s en rea- lidad mayor que ,. Respalde su respuesta calcu Tando PRs —Xa 255 | Ms =p) ©) En el caso de que 4, = 4, = 65%, determine la distribucién aproximada de las siguientes canti- dades (con la media y Ia varianza de cada una), Utilice el teorema de! limite central DXe: Xa; 8.71 Con la informacién del ejercicio de repaso 8,70 caleule (suponiendo 1, = 65%) PRs > 70) 8.72 Dada una variable aleatoria normal X con media 20 y varianza 9, y una muestra aleatoria de tamaio tomada de la distribuci6n, {qué tamaio de la muestra nse necesita para que P(19.9 =X <20.1) = 0957 8.73 Encl capitulo 9 se estudiaré con detenimiento el concepto de estimacién de parémetros. Suponga que Xes una variable aleatoria con media w y varianza o° = 1.0. Ademés, suponga que se toma una muestra aleato- 262 ria de tamaiio n y que ¥ se utiliza como un estimado de 1. Cuando se toman los datos y se mide la media de la muestra, deseamos que ésta esté dentro de 0.05 unida- des de la media real con una probabilidad de 0.99. Es decir, aqui queremos que haya muchas posibilidades de que la ¥ calculada de la muestra esté “muy cerca de” la media de poblacién (jdondequiera que ésta se encuen- tre!), de manera que deseamos P(X ~ pl > 0.05) = 099. {Qué tamafio de muestra se requiere? 8.74 Suponga que se utiliza una maquina para llenar envases de cartén con un liquido, La especificacién que es estrictamente indispensable para el lenado de Ja maquina es 9 + 1.5 onzas. El proveedor considera que cualquier envase de cartén que no cumpla con tales, Iimites de peso en el llenado ests defectuoso. Se espera que al menos 99% de los envases de cartén cumplan con la especificacién. En el caso de que z= 9 y 0 = 1, gqué proporcién de envases de cartén del proceso estén defectuosos? Si se hacen cambios para reducir la variabilidad, ,cudnto se tiene que reducir o para que haya 0.99 de probabilidades de cumplir con la especil cacién? Suponga una distribucién normal para el peso. 8.75 Considere Ia situacién del ejercicio de repaso 8.74, Suponga que se hace un gran esfuerzo para “es- trechar” la variabilidad del sistema, Después de eso se toma una muestra aleatoria de tamafio 40 de la nueva Capitulo 8 Distribuciones de muestreo fundamentales y descripciones de datos linea de ensamble y se obtiene que la varianza de la muestra es s? = 0.188 onzas?, ;Tenemos evidencia numérica sélida de que a se redujo a menos de 1.07 Considere la probabilidad P(S? 50.188 | o = 10), y dé una conclusin. 8.76 Proyecto de grupo: Divida al grupo en equipos de cuatro estudiantes. Cada equipo deberd ir al gimna- sio de la universidad o a un gimnasio local y pregun- tar a cada persona que cruce el umbral cuénto mide en pulgadas. Después, cada equipo dividird los datos de las estaturas por género y trabajard en conjunto para realizar las actividades que se indican a continuacién, a) Dibujen una gréfica de cuantiles-cuantiles normal con los datos. Si usan la grifica como base, jles parecerfa que los datos tienen una distribucisn normal? 4) Utilicen la varianza muestral como un estimado de Ja varianza real para cada género. Supongan que la, estatura media de Ia poblacién de los hombres es realmente tres pulgadas mas grande que la de las mujeres. {Cual es la probabilidad de que la esta tura promedio de los hombres sea 4 pulgadas mé grande que la de las mujeres en su muestra? ©) (Qué factores podrian provocar que estos resulta- dos sean engafiosos? 8.9 Posibles riesgos y errores conceptuales. Relacién con el material de otros capitulos El teorema del limite central es una de las més poderosas herramientas de la estadistica, y aunque este capitulo es relativamente breve, contiene gran cantidad de informacién fundamental acerca de las herramientas que se wtilizardn en el resto del libro. El concepto de distribucién muestral es una de las ideas fundamentales mas impor- tantes de a estadistica y, en este momento de su entrenamicnto, el estudiante deberia entenderlo con claridad antes de continuar con los siguientes capitulos, en los cuales se continuarén utilizando ampliamente las distribuciones muestrales. Suponga que se quiere utilizar el estadistico X para hacer inferencias acerca de la media de la poblacién x, lo cual se hace utilizando el valor observado de una sola muestra de tamaiio n. Luego, cualquier inferencia deberd hacerse tomando en cuenta no sélo el valor tinico, sino también la estructura (edrica o la distribucién de todos los valores ¥ que se po- arian observar a partir de las muestras de tamafio n, Como resultado de lo anterior surge el concepto de distribucién muestral, que es la base del teorema del limite central. Las distribuciones f, x° y F también se utilizan en el contexto de las distribuciones muestrales. Por ejemplo, la distribucién f, que se ilustra en la figura 8.8, representa la estructura que ocurre si se forman todos los valores de =F. donde ¥ y s se toman de las 8.9 Posibles riesgos y exrores conceptuales. Relacisn con el material de otros capitulos 263 muestras de tamaiio n de una distribucién n(x; 4, 0). Se pueden hacer comentarios simi lares en relacién con 22 y F, y el lector no deberfa olvidar que la informacién muestral que conforma los estadisticos para todas estas distribuciones es la normal. Por lo tanto, se podria afirmar que donde haya una ¢, F ¢ la fuente era una muestra de una distribucién normal. Podria parecer que las tres distribuciones antes descritas se presentaron de una forma bastante aislada, sin indicar a qué se refieren. Sin embargo, aparecerén en la reso- luci6n de problemas pricticos a lo largo del texto. Ahora bien, hay tres cuestiones que se deben tener presentes para evitar que haya confusi6n respecto a estas distribuciones muestrales fundamentales: i) No se puede usar el teorema del limite central a menos que se conozca @. Para usar el teorema del limite central cuando no se conoce o se debe reemplazar con s, la desviacién esténdar de Ja muestra. ii) El estadistico T no es un resultado del teorema del limite central y x, xy... x, deben provenir de una distribucién n(x; 4, @) para que SF sea una distribucisn 1; por su- puesto, 5 es tan sélo una estimacién de . iii) Aunque el concepto de grados de libertad es nuevo en este punto, deberia ser muy intuitivo, ya que es razonable que la naturaleza de la distribucién de Sy también 1 deban depender de la cantidad de informacién en la muestra x,,.x,.

También podría gustarte