Está en la página 1de 229
PROBABILIDAD Y ESTADISTICA Aplicaciones y métodos George C. Canavos VIRGINIA COMMONWEALTH UNIVERSITY Traduecion: Edmundo Gerardo Urbina Medal Departamento de Ingenieria Eléctrica UAM Ixtapalapa ‘Técnica: Gustavo Javier Valencia Ramirez Doctor en Matematicas Profesor Titular Departamento de Matemiticas Facultad de Ciencias UNAM MEXICO + BUENOS AIRES * CARACAS » GUATEMALA, LISBOA * MADRID « NUEVA YORK * PANAMA » SAN JUAN SANTAFE DE BOGOTA * SANTIAGO * SAO PAULO. AUCKLAND * HAMBURGO * LONDRES « MILAN * MONTREAL NUEVA DELHI * PARIS » SAN FRANCISCO * SINGAPUR ST. LOUIS # SIDNEY * TOKIO * TORONTO PROBABILIDAD Y ESTADISTICA ‘Aplicaciones y métodos Prohibide la reproduccién total o parcial de esta obra, por citelquier medio, sin autorizacion egcrita det editor. DERECHOS RESERVADOS © 1988, respecto a Ia primera edicion en expafiol por MoGRAW-HILL/INTERAMERICANA DE MEXICO, S.A. DE C.V. ‘Atlscomutco 499-501, Fracc. Industrial San Andrés Atoto 153500 Neucalpan de Juérez, Edo. de México ‘Miembro de la Cimara Nacional de la Indurtria Editorial, Reg. Nam. 1690 ISBN 968-451-856-0 Traducido de ta primera edicion en inglés de APPLIED PROBABILITY ANO STATISTICAL METHODS Copyright © MCMLXXXIV, by George C. Canavos {SBN 0-316-12770-7 vamase7e) = PE-87—907a54s218 ‘rproso on Masco Pri in Mexico acne i lap te ace a Se tiraron 2500 ejomplares A mi madre, ya Athena, Alexis y Costa Contenido CAPITULO UNO Introduccion y estadistica descriptiva 1 1.2 Introduccién 1 1.2 Descripcién grifica de los datos 3 1.3. Medidas numéricas descriptivas 11 Referencia 22 Ejercicios 22 ‘Apéndice: Sumatorias y otras notaciones simbéticas 25 CAPITULO DOS Conceptos en probabilidad 28 2.1 Introduccion — 28 2.2 La definicion clasica de probabilidad 29 2.3 Definici6n de probabilidad como frecuencia relativa 30 2.4 InterpretaciOn subjetiva de la probabilidad 31 2.$ Desarrollo axiomitico de la probabilidad 32 2.6 Probabilidades conjunta, marginal y condicional 36 2.7 Eventos estadisticamente independientes 41 2.8 Elteorema de Bayes 43 29 Permutaciones y combinaciones +45 Referencias 48 Ejercicios 48 Vili Contenido CAPITULO TRES Yariables aleatorias y distribuciones de probabilidad 52 34 32 33 34 35 36 a7 El concepto de variable aleatoria 52 Distribuiciones de probabilidad de variables aleatorias discretas 53 Distribuciones de probabilidad de variables aleatorias continuas 57 Valor esperado de una variable aleatoria 62 Momentos de una variable aleatoria 67 ‘Otras medidas de tendencia central y dispersion 75 Funciones generadoras de momentos 80 Referencias 84 Ejercicios 84 CAPITULO CUATRO Algunas distribuciones discretas de probabilidad 88 44 42 43 4 48 Introduccion 88 La distribucion binomial 89 La distribucion de Poisson 100 La distribucion hipergeométrica 108 La distribucion binomial negativa 115 Referencias 121 Ejercicios 122 ‘Apéndice: Deduccién de la funcion -e probabilidad ‘de Poisson 126 Apéndice: Demastracién del teorema 4.1 128 ‘CAPITULO CINCO Algunas distribaciones continuas de probabilidad 130 5.1 52 53 54 55 5.6 Introducdiéa 130 La distritucion normal 130 : La distribucion uniforme - 143 La distribucion beta 147 La distribucion gama 152 La distribucion de Weibull 159 5.7 5.8 La distribucibn de una funcién de variable aleatoria La distribucion exponencial negativa 163 167 5.9 Conceptos basicas en la generacién de nimeros aleatorios por compucadora 171 La distribucion de Weibull 173 La distribucion de Erlang 174 La distribucion normal 174 La distribuci6n binomial 174 a distribuci6n de Poisson 175 Referencias 175 Ejercicios 175 Distribucion uniforme sobre e intervalo (a, 5 i Contenido ix ‘Apéndice: Demostracién de que la expresién (5.1) es una funcién de densidad de probabiidad 181 Apéndice: Demosinscién del teorema 5.1 182 CAPITULO SEIS Distribuciones conjuntas de probabilidad 185 6.1 Introduccién 185 6.2. Distribuciones de probabilidad bivariadas 63 Distribuciones marginales de probabilidad 6.4 Valores esperados y momentos para distribuciones bivariadas 191 6.5 Variables aleatorias estadisticamente independientes 194 6.6 Distribuciones de probabilidad condicional 197 6.1 Analisis bayesiano: las distribuciones a priori y a posteriori 200 6.8 La distribucion normal bivariada 207 Referencias 210 Ejercicios 210 CAPITULO SIETE, Muestras aleatorias y distribuciones de muestreo mW 12 13 14 2s 16 Introduccion 214 Muestras aleatorias 214 Distribuciones de muestreo de estadisticas La distribucion de muestreo de X 209 La distribucion de muestreo de $2231 La distribucion ¢de Student 234 218 214 x Contenido 7.7 La distribucion de la diferencia entre dos medias muestrales 138 7.8 Ladistribucion F 240 ° Referencias 244 Ejercicios 244 ‘Apéndice: Demostracién del teorema central del limite 247 “Apéndice: Deduecion de la funcién de densidad de probabilidad t de Student — 249 CAPITULO OCHO Estimacion puntual y por intervalo 251 8.1 Introduccion 251 8.2. Propiedades deseables de los estimadores puntuales 251 Estimadores insesgados 255 Estimadores consistentes 256 Estimadores insesgados de varianza minima 259) Estadisticas suficientes 261 8.3. Métodos de estimacién puntual 264 $3.1. Estimacion por mixima verosimiliud 264 [32 Método de los momentos 268 8.3.3. EstimaciOn por maxima verosimilitud para muestras censuradas 269 84 Estimacion por intervalo 271 8.4.1. Intervalos de confianza para 4 cuando se muestrea una istribucion normal con varianza conocida 274 8.42 Imtervalos de confianza para 4 cuando se muestrea una distribucion normal con variaaza desconocida 27 8.443 Intervalos de confianza para la diferencia de medias cuando se muestran dos distribuciones normales independientes 278 8.44 Intervalos de confianza para o* cuando se muestrea una tribucion normal con media desconocida 280 ‘8.4.5 Intervalos de confianza para el cociente de dos varianzas cuando se muestran dos distribuciones normales independienes 281 8.4.6 Intervalos de confianza para’el parimetro de proporcion p ‘cuando se muestrea una distribucion binomial 282 8.5 Estimaci6n bayesiana © 285 8.5.1 Estimacion puntual bayesiana 286 8.5.2. Estimacion bayesiana por intervalo 288 Contenido xi 8.6 Limites estadisticos de tolerancia 290 5.1 Limites de tolerancia independientes de la distribucign 290 8.6.2 Limites de tolerancia cuando se muestrea tuna distritwcion normal 293 Referencias 294 Ejercicios 294 CAPITULO NUEVE Prueba de hipotesis estadisticas 303 9.1 Introduccion 303 9.2 Conceptos basicos para la prueba de hipdtesis estadisticas 303, 9.3. Tipos de regiones criticas y la funcién de potencia 311 9.4 Las mejores pruebas 314 9.5. Principios generales para probar una HY, simple contra una H, uniobilateral 321 9.5.1. Principios generales para el caso 323, 9.5.2. Principios generales para elcaso2 324 9.8.3. Principios generales para el caso3 325 9.6 Prueba de hipétesis con respecto a las medias cuando se ‘muestrean distribuciones normales 326 9.6.1 Pruebas para una muestra 327 9.6.2 Pruebas para dos muestras 333 9.6.3. Reflexion sobre las suposiciones y sensitividad 338 9.6.4 Prueba sobre las medias cuando las observaciones estén pareadas 340, 9.7 Pruebas de hip6tesis con respecto a las varianzas cuando se muestrean distribuciones normales 346 9.7.1 Pruebas para una muestra 346 9.7.2 Pruebas para dos muestras 48 9.8 Inferencias con respecto it las proporciones de dos distribuciones binomiales independientes 350 Referencias 353 Ejercicios 353 CAPITULO DIEZ Pruebas de bondad de ajuste y andlisis de tablas de contingencia 362 10.1 Introduccién 362 10.2 La prueba de bondad de ajuste chi-cuadrada 363 10.3. La estadistica de Kolmogorov-Smirnov, 368 10.4 La prueba chi-cuadrada para el anil contingencia con dos criterios de clasificacion 370 Referencias 374 Ejercicios 374 CAPITULO o1 ‘Métodos para el control de calidad y muestreo para aceptacion 379 11.1 Introducci6n 379 11.2. Tablas de control estadistico 379 11.2.1. Tablas (media conocida de la poblacibn) 381 11.22 Tablas § (desviacion estindar conocida de la poblacién) 383 11.2.3 Tablas X’y S (media y varianza desconocidas dela poblacion) 364 11.3 Procedimientos del muestreo para aceptaci6n 388 11.3.1 El desarrollo de planes de muestreo sencillos para riesgos ‘estipulados del productor y del consumidor 392 11.3.2 Muestreo para aceptacién por variables 393, 11.3.3. Sistemas de planes de muestreo 396 Referencias 396 Ejercicis 397 CAPITULO DOcE - Diseio y anilisis de experimentos estadisticos 401.0 =) 12.1 Introduccion 401 12.2 Experimentos estadisticos 401 12.3 Diseftos estadisticos 403, Rd 25 12.6 CAPITULO TRECE Contenido wis Anélisis de experimentos unifactoriales en un disefio completamente aleatorio 404 12.4.1 Anilisis de varianza para un modelo de efectos fijos 407, 12.42 Método de Scheffe para comparaciones miltiples 413 {24.3 Anilisis de residuos y efectos de la violacion de las suposiciones 415 12.4.4 El caso de efectos aleatorios 418 Anilisis de experimentos con s6lo un factor en un disefto en bloque completamente aleatorizado 420 Experimentos factoriales 426 Referencias 435 Ejercicios, 435 Anilisis de regresién: ef modelo lineal simple 443 Ba B2 133 Ba BS 13.6 B7 13.8 B9 13.10 Introduccion 443, EI significado de la regresion y suposiciones basicas 444 Estimacién por minimos cuadsados para ef modelo lineal simple 448 Estimaci6n por maxima verosi el modelo lineal simple 455 Propiedades generales de los estimadores de minimos cuadrados 457 Inferencia estadistica para el modelo lineal simple 465 El uso del andlisis de varianza 470 Correfacion lineal 477 Series de tiempo y autocorrelacién 479 13.9.1 Componentes de una serie de tiempo 479. 139.2 La estadistica de Durbin- Watson 480 139.3. Eliminaci6n de la aulocorrelaci6n mediante la transformacién de datos 485 i Enfoque matricial para el modelo lineal simple 488, Referencias 491 Ejercicios 491 Apéndice: Breve revisin del dlgebra de matrices 497. : el modelo lineal general 14.1 Introduccibn $03 14.2 El modelo lineal general $03 14.3. Principio de la suma de cuadrados extra 513 14.4 El problema de Iz multicolinealidad 520 14.5. Determinacién del mejor conjunto de variables de prediccion $25 14.6 Anilisis de residuos o residuales 532 14.7 Regresién polinomial 538 14.8 Minimos cuadrados con factores de peso $47 14.9 Variables indicadoras 556 Referencias 563 Ejercicios 563 CAPITULO QUINCE, ‘Métodos no paramétricos 572 18.1 15.2 15.3 +154 155 115.6 15.7 7 Introduccion 572 Pruebas no paramétricas para comparar dos poblaciones con base en muuestras aleatorias independient:s $74 15.2.1 Prucba de Mann-Whitney 574 15.2.2 Prueba de tendencias de Wald-Wolfowitz $77 Pruebas no paramétricas para observaciones por pares 578 15.3.1 La prueba del signo 579 15.3.2 Prueba de rangos de signos de Wilcoxon 580 Prucba de Kruskal-Wallis para muestras aleatorias independientes 582 Prueba de Friedman para k muestras igualadas 584 ‘Coeficiente de correlaciéa de rangos de Spearman $86 Comentarios finales $88 Referencias 589 Ejercicios 589 Contenido xv APENDICE 593 TABLA A _ Valores de la funcién de distribucién acumulativa binomial 594 TABLA B Valores de la funcién de distribucién acumulativa de Poisson 602 TABLA C Valores de las funciones de probabilidad y de distribucion ‘acumulativa para la distribucion hipergeométrica 610 TABLA D Valores de la funciOn de distribucion acumulativa normal estandar 616 TABLA E Valores de cuantiles de la distribucion chi-cuadrada 619 TABLA F Valores de cuantiles de la distribucién ¢ de Student 621 TABLA G Valores de cuantiles de la distribucion F623 TABLA H__ k-valores para los limites de tolerancia bilaterales cvando se muestrean distribuciones normales 629 TABLA I k-valores para los limites de tolerancia unilaterales cuando se ‘muestrean distribuciones normales 631 TABLA J Valores de cuantiles superiores de la distribucion de la estadistica D, de Kolmogorov-Smimov 633 TABLA K _Limites de la estadistica de Durbin-Watson 635 Respuestas a los ejercicios seleccionados de mimero impar 636 indice 647 Prefacio Este libro se plane6 como una introducciém a fa teoria de la probabilidad y a la infe- rencia estadistica, para toda persona interesada en las disciplinas aplicadas; econo- mia y finanzas, ingenieria y ciencias fisicas y de la vida. No es necesario ningin co- nocimiento previo de probabilidad y estadistica, aunque se espera que el lector se encuentre familiarizado con los fundamentos del cdlculo diferencial ¢ integral. El libro hace hincapié en tas aplicaciones. El rigor matematico se emplea ‘inicamente com el fin de exponer las bases de la probabilidad y de la estadistica, lo que, en opi- nién del autor, es un ingrediente necesario para la aplicacién efectiva de los méto- dos. El texto intenta proporcionar al estudiante un conocimiento que vaya més alli de lo superficial, sin abrumarlo con teoria excesiva. En este sentido, la obra brinda 1a oportunidad de reforzar el “‘porqué’”, ademas de presentarle el “‘cémo" de fa aplicacién. A través del texto, cada concepto 0 método se ilustra con ejemplos reales que se expresan de manera que el lector pueda obtener una comprensién intuitiva del con- cepto. La mayor parte del desarrollo de la inferencia estadistica se fundamenta en el punto de vista de la teoria del muestreo. También se expiora el enfoque bayesiano para dar la perspectiva adecuada. Asimismo, se estudian las suposiciones de los méto- dos estadisticos y se dan respuestas a preguntas del tipo ““qué pasa si...” Adem, en muchos ejemplos se emplearon paquetes de programas para computadora y'¢écnicas de simulacién, con el propésito de ilustrar y reforzar los puntos presentados. EI material que abarca el libro demuestra ser suficiente para realizar un curso de dos semestres sabre probabilidad y métodos estadisticos. Por otra parte, es posible re- ordenar el material y asi ofrecer vatiedad de cursos, como un curso de um semestre sobre distribuciones de probabilidad y sus aplicaciones, en el que se empleen los ca- pitulos 1 a 7; un curso de dos trimestres sobre los fundamentos de la probabilidad y de los métodos estadisticos, con los capitulos 1 a 10; o un-curso en andlisis de varian- Zay métodos de regresion, con los capitulos 9, 12, 13 y 14, Bl alcance de fos temas ‘que se tratan es amplio, extenso y proporcionan al profesor la oportunidad de recal- ar Giertos temas u omitir otros. Que e libro pueda emplearse a nivel licenciatura oa nivel de graduados, depende tanto de las necesidades particulares como de los cono- cimientos previos de los lectores. Después de un andlisis razonablemente completo sobre la estadistica descrip- tiva (Cap. 1), el libro esté dividido en probabilidad (Caps. 2-7) y métodos esta- disticos (Caps, 8-15). En los capitulos 2 y 3 se presentan los conceptos basicos de probabilidad, variable aleatoria y distribucién de probabilidad. Los capitulos 4 y $ contienen una exposicion bastante completa de las distribucianes de probabilidad discretas y continuas, asi como sus aplicaciones. En estos capitulos se investigan, comparan y contrastan propiedades de dstribuciones como la binomial, de Poisson, normal, beta, gama y de Weibull, entre otras, proporcionando areas de aplicacion para cada urta. Dado el creciente papel de las computadoras y las técnicas de simuls- ci6n, se dedica una seccion del capitulo $ a la valoracion de varios métodos de gene- racién de valores aleatorios, en cada una de las distribuciones estudiadas. En el ‘capitulo 6 se exponen las distribuciones de probabilidad conjunta y condicional. a este contexto, se introducen los conceptos de distribuciones « priori y a posteriori para el punto de vista bayesiano, Ei capitulo siete funciona como transici6n entre la probabilidad y la inferencia estadistica. En éste se plantean los importantes conceptos de muestra aleatoria y dis- tribucién de muestreo. En el capitulo 8 se presentan los métodos de estimacion, tanto puntual como de intervalo. También se estudian los limites de tolerancia inde- pendientes de la distribucién y aquellos cuyo fundamento es la distribucién normal. En el capitulo 9 se exploran las bases de la inferencia estadistica y se presentan {as pruebas de hipétesis para medias, varianzas y proporciones. El capitulo 10 de- talla ef uso de la distribucidn chi-cuadrada, tanto para determinar la bondad del ajuste, como para tablas de contingencia, mientras que el capitulo 11 introduce al lector en los conceptos basicos del control de calidad estadistico y alos procedisnien- tos pata aceptar una muestra. En el capitulo 12 se presentan ¢l disefio de experimentos estadisticos y el andlisis de varianza, tanto para experimentos de un solo factor como para dos. En los capitulos 13 y 14 se trata, de manera prolija, el andlisis de regresion; ademss, se examinan con detalle temas como: errores autocorrelaciona- dos, andlisis de residuos, minimos cuadrados con factores de peso, multicolineali- dad y distintas formas para determinar ¢l mejor conjunto de variables ée predicci6n ‘Al concluir, el capitulo 15 explora y compara algunos de los procedimientos no paramétricos mas titles. Al final del capitulo 1 y del 13 se encuentra un apéndice en que se revisa la no- taci6a sumatoria y del algebra matricial. Las demostrac:oncs de los teoremas mas imortantes se encuentran, para los lectores cuyas inclinaciones son mAs hacia la teorfa, en los apéndices de los capitulos 4, 5 y 7. En el apendice del tibro se encuen- tran once tablas estadisticas. Se intent6, hasta donde fue posible, uniformar 1a estructura de éstas; por ejemplo, se encuentran tabulados valores para las distr- buciones binomial, de Poisson, hipergeométrica y normal, ademas de los valo- res cuantiles para las distribuciones chi-cuadrada, ¢ de Student y F. Las tablas para las distribuciones anteriores, excepto la hipergeoméirica, se generaron mediante al- ‘gunas subrutinas del paquete IMSL (Iaternational Mathematical and Statistical Li- braries). La similitud con las tablas estadisticas, ya establecidas, es excelente. Los aquetes para computadora Minitab y SAS (Statistical Analysis System) se emplea- ron con objeto de ilustrar las técnicas del analisis de regresion (Caps. 13 y 14). Se supone que el lector tiene acceso a algunos de estos paquetes 0 a otros similares, ‘como el SPSS (Statistical Package for the Social Sciences) y BMDP. (Biomedical Programs). Prefacio xix Deseo agradecer a todas las personas que por muchos aos, y de una forma y otra, desempeiiaron un papel directo o indirecto para que este libro fuese posible; en particular, al Departamento de Estadistica del Virginia Polytechnic Institute y de la State University, donde aprendi estadistica por primera vez; al NASA’s Langley Re- search Center, donde se me dio la oportunidad de continuar mis studios de estadis. tica, y a la Virginia Commonwealth University, donde generalmente enseno estadistica. También deseo agradecer la ayuda de John Koutrouvelis, del Departa- ‘mento de Ciencias Matematicas de fa Virginia Commonwealth University, pues con sus criticas contribuy6 de manera significativa en los capitulos sobre probabilidad. ‘Ademés, extiendo mi gratitud a las siguientes personas, quienes me proporcionaron sugerencias muy ditiles durante todas las etapas del desarrollo del manuscrito: Arlene S. Ash, de la Boston University; Bruce K. Blaylock, del Virginia Polytechnic Institute y de la State University; George W. Brown, de la University of California, en Irvin Donald R. Burleson, del Rivier College; John M. Burt, de la University of New Hampshire; Dean H. Fearn, de la California State University en Hayward; Richard H. Lavoie, del Providence College; Stephen Meeks, de lt Boston University; Chester scik, del Bryant College; Ramona L. Trader, de la University of Maryland, y George D. Weiner, de la Cleveland State University. Extiendo también mi aprecio a Carolyn England, K.W. Hall y Jamie Stokes, ‘quienes compartieron la labor de escribir todas las versiones del manuscrito. Gra- cias, de manera especial, al grupo editorial de Little, Brown and Company, y en par- ticular a Elizabeth Schaaf por su valiosa ayuda. Por dltimo deseo agradecer a mi familia su paciencia, comprension y aliento durante el tiempo en que escribi el libro. George C. Canavos CAPITULO UNO Introduccion y estadistica descriptiva 1.1 Introduceién Para mucha gente, estadistica significa descripciones numéricas. Esto puede verifi- carse facilmente al escuchar, un domingo cualquiera, a un comentarista de television narrar un juego de ftbol. Sin embargo, en términos mas precisos, la estadistica es el estudio de los fendmenos aleatorios. En este sentido la ciencia de la estadistica tiene, virtualmente, un alcance ilimitado de aplicaciones en un espectro tan amplio de dis- ciplinas que van desde las ciencias y la ingenieria hasta las leyes y la medicina. El as- pecto més importante de la estadistica es la obtencion de conclusiones basadas en los datos experimentales. Este proceso se conoce como inferencia estadistica. Si una. conclusion dada pertenece a un indicador econémico importante o a una posible concentracion peligrosa de cierto contaminante, o bien, si se pretende establecer una relaciOn entre la incidencia de céncer pulmonar y el fumar, ¢s muy comin que la conclusion esté basada en la inferencia estadistica. Para comprender la naturaleza de la inferencia estadistica, es necesario entender las nociones de poblacién y muestra. La poblacion es la coleccién de toda la posible informacion que caracteriza a un fenémeno. En estadistica, poblacién es un concep- ‘to mucho mis general del que tiene la acepcién comin de esta palabra. En este senti- do, una poblacion es cualquier colecci6n ya sea de un nlimero finito de mediciones o tuna coleecion grande, virtualmente infinita, de datos acerca de algo de interés. Por otro lado, la muestra es un subconjunto representativo seleccionado de una pobla- ci6n, La palabra representativo es la clave de esta idea. Una buena muestra es aguella que refleja las caracteristicas esenciales de la poblacién de la cual se obtuvo. En estadistica, el objetivo de las técnicas de muestreo es aseguras que cada observa- ci6n en la poblacién tiene una oportunidad igual e independiente de ser incluida en a muestra. Tales procesos de muestreo conducen a una muestra aleatoria, Las ob- servaciones de la muestra aleatoria se usan para calcular ciertas caracteristicas de la muestra denominadas estadisticas, Las estadisticas se usan como base para hacer ferencias acerca de ciertas caracteristicas de la poblaciOn, que reciben el nombre de 2 Introdaceion y estadistica descriptiva ardmetros, Asi, muchas veces se analiza la informacion que contiene una muestra aleatoria con el propésito principal de hacer inferencias sobre la naturaleza de la poblacion de la cual se obtuvo la muestra, En estadistica la inferencia es inductiva porque se proyecta de lo especifico (muestra) hacia lo general (poblacién). En un procedimiento de esta naturaleza siempre existe la posibilidad de error. Nunca podra tenerse el 100% de seguridad sobre una proposici6n que se base en la inferencia estadistica. Sin embargo, lo que hace que la estadistica sea una ciencia (separandola del arte de adivinar la fortung) es que, unida a cualquier proposicién, existe una medida de la confiabilidad de ésta. En estadistica la confiabilidad se mide en términos de probabilidad. En otras pa- labras, para cada inferencia estadistica se identifica la probabitidad de que la infe- rencia sea correcta, Los problemas estadisticos se caracterizan por jos siguientes cuatro elementos: 1, La poblacién de interés y el procedimiento cientifico que se empled para mues- rear la poblacion, 2. La muestra y el andlisis matemético de su informacién. 3. Las inferencias estadisticas que resulten del andlisis de la muestra. 4. La probabilidad de que las inferencias sean correctas. Et enfoque precedente para la inferencia estadistica descansa tinicamente en Iaevidencia muestral. Este ¢s denominado feoria del muestreo 0 enfoque cldsico de la inferencia estadistica y para la mayor parte de ésta,ser4 el que se tome en este libro. ‘Sin embargo, también se tratara de incorporar ocasionalmente otro punto de vista, ‘conocido como inferencia bayesiana. Esta forma de abordar la inferencia estadistica utiliza la combinacién de la evidencia muestral con otra informacién, generalmente proporcionada por el investigador del problema. Tal informacion descansa de ma- -nera fundamental en la conviecion o grado de creencia del investigador con respecto alas incertidumbres del problema, antes de que se encuentre disponible la evidencia rmuestral. Este grado de creenicia puede basarse en consideraciones como los resulta~ dos conacidos, que son producto de investigeciones previas. Es importante que el lector comprenda que el objetivo de los procedimientos clisico y bayesiano descansa on Ia evaluacin de las incertidumbres basadas en la probabilidad. ara comprender la esencia del muestreo aleatorio y de la inferencia estadistica, ex necesario entender como primer punto, la raturaleza de una poblacién en el con- texto de la probabilidad y de los modelos probabilsticos. Estos temas se examinan con detalleen los capitulos dos a seis. Este capitulo tratara brevemente las estadisticas descriptivas. A pesar de que és- tas son sencillas desde ei punto de vista matematico, son valiosas en casos donde se encuentra dispanible la poblacién completa y no existe incertidumbre, 0 cuando ‘se tienen a fa mano grandes conjuntos de datos que pueden 0 no considerarse como ‘muestras aleatorias. Si un conjunto grande se considera como muestra aleatoria de ama poblacién, la estadistica descriptiva puede ir tan lejos como la distribucién gene- ral de valores, al dar una evidencia empirica y otras caracteristicas de la poblacién. Esta evidencia tiene un apreciable valor puesto que afirma ciertas suposiciones que deben formularse en la aplicacién de la inferencia estadistica. 1.2 Descripeién grifica de tos datos 3 1.2 Descripcién grafica de los datos Una descripcin informativa de cualquier conjunto de datos esta dada por la fre- mn u_arreglo distribucional de tas observaciones en el conjunto. Para apreciar lo necesario de un resumen de datos, considere el ejemplo del Servicio de Hacienda Interno (SHI) que se encarga de recibir y procesar millones de declara- ciones de ingresos durante todo el aft. Es dudoso que el SHI pueda descubrir los patrones ocultos de ingresos € impuestos examinando simplemente la informacion contenida en las declaraciones. Similarmente, el Departamento del Censo no podria avanzar mucho al analizar fos datos del censo, si éstos no pudiesen visualizarse. Para identificar los patrones en un conjunto de datos es necesario agrupar las observa- jones en un nimero relativamente pequeio de clases que No se superpongan entre: de tal manera que no exista ninguna ambigiedad con respecto a la clase a que perte- nece una observacién en particular. El niumero de observaciones en una clase recibe el nombre de frecuencia de clase, mientras que el cociente de una frecuencia de clase con respecto al niimero combinado de observaciones en todas las clases se conoce como la frecuencia relativa de esa clase. Las fronteras de la clase se denominan limites, y el promedio aritmético entre fos limites superior inferior recibe el nombre dde punto medio dela clase. Al graficarse las frecuencia relativas de las clases contra sus respectivos intervalos en forma de rectangulos, se produce lo que coméinmente se conoce como histograma de frecuencia relativa o distribucién de frecuencia relati- va. Esta diltima es la que puede hacer evidentes fos patrones existentes en un conjun- to de datos. ‘Como itistracion, los datos dela tabla 1.1 representan las frecuencias de unidades vendidas por dia de un determinado producto por una compaiiia. E? histogtama de frecuencia relativa se construye graficando en el eje vertical la frecuencia relativa y en ef ¢je horizontal las fronteras inferiores de cada clase, como se ilustra en la gura 1. El niimero de clases que se emplea para clasificar los datos en un conjunto de- pende del total de observaciones en éste. Si el niimero de observaciones es relativa- ‘mente pequefio, el niimero de clases a emplear ser cercano a cinco, pero general- TABLA 1.1. Frecuencias para ¢1 nimero de unidades vendidas de cierto producto ‘Nimero de unidades Frecuencia de vendidas (Clase) la clase Frecuencia relativa 80-89 7 7/100 = 6.7 30-99 0 20/100 = 0.20 100-109 iG 5/100 = 0.05 10-119 a 11/100 = 0.11 129-129 u 11/100 = 0.11 130-139 2 12/100 = 0.12 149-149 6 6/100 = 0.06 150-159 B 23/100 = 0.23, 160-169 $ ‘5/100 = 0.05 Total 100 1.00 4 Introduccién y estadistica descriptiva 0.20] os 10 Frecuencia relativa 0.03 80 9 100 110 120 130 140 150 160 170 Niimero de unidades vendidas FIGURA 1.1. Histograms de frecuencia relativa para el nimero de unidades vendidas mente nunca menor que este valor. Si existe una cantidad sustancial de datos, el ni- mero de clases debe encontrarse entre ocho y doce y generalmente no existiran mas de 15 clases. Un niimero muy pequefio de clases puede ocultar la distribucién real del conjunto de datos, mientras que un niimero muy grande puede dejar sin observa- ciones a algunas de las clases, limitando de esta forma su uso. A manera de ilustr ci6n, si se reducen Jas nueve clases a solo tres, en el ejemplo anterior, como se indica en la tabla 1.2, el histograma de frecuencia relativa resultante (Fig. 2) es muy dife- rente al mostrado en la figura 1.1. ‘Una buena prictica es Ia creacién de clases yuc tengan una longitud igual. Esto ‘puede lograrse tomando la diferencia entre los dos valores extremos del conjunto de datos y idola entre el nimero de clases; el resultado ser aproximadamente la longitud del intervalo para cada clase. Sin embargo, existen casos donde esta regla 1n0 puede o no debe aplicarse. Por ejemplo, si se tuviera a la mano la lista de impues- ‘0s de SHI pagados por la poblacién en un affo, estas cantidades pueden encontrarse TABLA 12 Frecuencia para el nimero de unidades vendidas de cierto producto ‘Niemero de unidades ‘Frecuencia de vendidas (Clase) la clase Frecuéncia relativa ‘80-109 32 32/100 = 0.32 110-139 34 34/100.= 0:34 140-169 34 34/100 = 0.34 Total 100 1.00 1.2 Descripci6n gréfica de los datos. § Frecuencia relativa 80110140170 [Niimero de unidades vendidas FIGURA 1.2. Histogramna modificado para el nimero de unidades vendidas en un intervalo de $0 a $1 000 000. Aun a pesar de que se eligiesen 20 clases para la distribucion de frecuencia relativa, con intervalos de igual longitud, cada clase tendria una cobertura de $50 000. Lo anterior daria origen a una situacion en la que casi todas las observaciones caerian en la primera clase. Para casos como éste es pre- ferible seleccionar una escala més pequefia en ei extremo inicial que la utilizada para 1 extremo superior. Esta eleccién aclarara el patron de la distribucién. Los siguientes ejemplos ilustran estos conceptos. Ejemplo 1.1 De acuerdo con la revista Informes al Consumtidor en su nismero de febrero de 1980, las cuotas anuales de 40 compafias para un seguro de $25 000 para hombre de 35 afios de edad son las siguientes: $s 8 8687 8TH 92 938 HSS SSSR. 99 99 100100101. 107,S 103103103104 Hos 105106107, 1070709 Establecer un esquema de agrupamiento para este conjunto de datos y determinar las frecuencias relatives. Dado que la diferencia entre los dos valores extremos del conjunto es de slo $29, puede ser razonable agrupar los datos en clases con intervalos de igual longitud. ‘Supongase que se decide utilizar seis clases; entonces el intervalo de cada clase seré aproximadamente de $5. Para establecer las fronteras de cada clase, es necesario considerar la unidad mas cercana con respecto a la cual se miden las observaciones. En este ejemplo las cuotas se presentan redondeadas al déla: mas cercano. Con toda seguridad el importe de las cuotas es conocido hasta centavos, pero solo se presentan entre $81.50 y $82.49, las seis clases con sus respectivas fronteras son (81.5-86.5), (86.5-91.5), (1.5-95.5), (96.5-101.5), (101.5-106.5) y (106.5-111.5).. Estas fronteras también se conocen como los limites verdaderos debido a que reflejan Ja unidad més pequeha que se emplea para tomar las observaciones. Dado ‘que las cuotas se presentan redondeadas al délar mas cercano, se puede también elegir los limites de las scis clases como (82-86), (87-91), (92-96), (97-101), (102-106) y (107-111). Estos se conocen como los limites de escritura puesto que reflejan el ‘mismo grado de precisién que el de las observaciones presentadas. El intervalo de la clase es la diferencia entse los limites verdaderos de cada clase, mientras que los pun- tos medios pueden determinarse al utilizar tos limites verdaderos o los de escritura. En lla tabla 1.3 se da un resumen de la informacién pertinente para el agrupamiento de este ejemplo. De acuerdo con lo mencionado al principio de esta secci6n, la distribucién de fre- cuencia telativa se determina graficando las frecuencias relativas en el eje vertical contra los limites de escritura inferiores para cada una de las clases en el eje horizon- tal. Para este fin se emplean rectangulos de igual anchura que tepresenten las fre- cuencias relativas. En la figura 1.3 se muestra el histograma del ejemplo 1.1. Notese ‘que es mas facil graficar las frecuencias de cada clase que las correspondientes fre- ‘cuencias relativas; en ambos casos las grficas eran idénticas. Si existe alguna prefe- rencia para usar las frecuencias relativas, se debe a que la escala vertical tiene un in- tervalo fijo de cero a uno. EI principal objetivo de la representacion gréfica de las frecuencias relativas es mostrar el perfil de distribuci6n de los datos. El conocimiento de este perfil es itil en ‘varias formas, como sugerian los analisis apropiados que se intentarn mediante la inferencia estadistica, 0 si los datos constituyen una muestra aleatoria de alguna poblacién o si se uilizan con el fin de comparar los perfiles de distribucion de dos o més conjuntos de datos. En el ejemplo 1.1. es notorie que la distribucion de cuotas anuales en las 40 compafiias es uniforme a través de todo el intervalo de valores. Oltra caracterizacién grafica itil, de un conjunto de datos, es la distribucién de Srecuencia relativa acurulada v ojiva. La distribucign acumulativa se obtiene grafi- ‘cando, en ol eje vertical, la frecuencia relativa acumulativa de una clase contra el TABLA 1.3. Agrupamiento y frecuencias relativas para el ejemplo 1.1 Limites de escritura. Punto Frecuencia de la clase ‘Frecuencia relativa deta clase medio fi Sdn 2-86 4 3 3/40 = 0.075 87-91 9 7 7/40 = 0.175 4 8 8/40 = 0.200 9 A 8 8/40 = 0:200 104 : 7 7/40 = 0.175 109 7 7/40 = 0.175 Total a 1.000 0.20) 0.10 Frecuencia relativa 0.05 887 ~«92~«97~«t02~«107”-~«ND Cuotas anuales FIGURA 1.3. Distribucibn de frecuencia relativa para los datos del ejemplo 1.1 limite inferior de la siguiente sobre el eje horizontal y uniendo con segmentos todos Jos puntos consecutivos. La tabla 1.4 lista las frecuencias relativas acumufadas para el ejemplo 1.1, Dado que la frecuencia relativa de una clase refleja la proporcién de las observa- ciones contenidas en ésta, la frecuencia relativa acumulativa es la proporcin de ob- servaciones cuyos valores son menores o iguales al limite superior de la clase o, en forma equivalente, menores que el limite inferior de la siguiente clase. En el ejemplo 1.1 y para la tabla 1.4, la proporcién de cuotas menores de $82 es cero. La de cuotas menotes de $87 ¢s de 0.075, la propotcién de menores de $92 es de 0.250. La distri- bucién de frecuencia relativa acumulativa para e! ejemmpfo 1.1 se muestra en la figu- ra ld, En este contexto el principal uso de la distribuci6n acumuiativa es lo que comin- ‘mente se conoce como cuantiles. Cun i.specto a una distribucion de frecuencia rela- tiva acumulativa, se define un cuanti como el valor bajo el cual se encuentra una de- terminada proporcién de los valores de la distribucién. El valor del cuantil se lee en TABLA 1.4 Distribucion de la frecuencia selativa acumulativa Limites de cescritura de Frecuencia Frecuencia Frecuencia reativa a clase de clase cumulative ‘cumulative 82-86 3 3 3/40 = 0.075 87-91 7 10 10/40 = 0.250 92-96 “8 B 18/40 = 0.450 97-101 8 % 26/40 = 0.650 102-106 7 3 33/40 = 0.825, 107-1) 7 0 oo : a 06 Frecuencia relat 102 112 40.1 = 815 49,75 = 104.5 40.9= 40.25 = 92 109.5 FIGURA 1.4 Distribucion de frecuencia relativa acumulativa para el ejemplo 1.1 la direcci6n opuesta, en el eje horizontal, aa proporcién correspondiente deseada sobre el eje vertical. El cuantii més comin es el pereentil. Por ejemplo, gp; €5 el valor bajo el cual se encuentra el 20% de los valores de la ‘bajo ef cual se encuentra el 90% de los valores de la distribucién. Ejemplo J.2 El departamento de Agricultura de Estados Unidos informé que, en 1976, los ingresos netos por cosecha para los 50 estados de la nacién, fueron los si- guientes: $5952 63855-39362 9692 27611 13 647 10 630 6 644 4438 19 106 Ret 5332 2304 6.859 8141 u77 9378 592 7000 12543 4963 4543 Nim? 12292 6.695 10 207 7627 8992-23811 7657 843, 8972 6 480 6 824 9554 4 626 4 845, 10452 99 7683 S19 8621 2290 4973 3.904 2.892 5.405, 2789 30 241 Establecer un esquema de agrupamiento para este conjunto de datos y determinar las frecuencias relativas. 1.2 Deseripcton grafica de los dates 9 TABLA 1.5 _Frecuencias relativas para el ejemplo 1.2 con intervalos de igual longitud Limites de escritura de la clase Frecuencia de lo clase Frecuencia relativa 0-799 2 0.54 8 000-15 99 18 036 16 000-23 999 A 0.04 24.000-31 999 ' 0.02 32.090-39 999 ' 0.02 40 000-47 99 0 0 48 000-55 999 0 0 56 000-63 999 1 0.02 Total 1.00 Supéngase que se decide emplear ocho clases de igual longitud. Puesto que la di- ferencia entre los dos valores extremos del conjunto de datos es aproximadamente de $64 000, la longitud de cada clase es de $8 000 y los limites son (-0.5-7 999.5), (7 999.5-15 999.5), ..., (55 999.5-63 999.5). Las frecuencias de cada clase y las fre- cuencias relativas para este esquema de agrupamiento se dan en la tabla 1.5. Tal es- ‘quema resulta inadecuado porque el 90% de las observaciones se encuentran en las dos primeras clases y existen otras dos que no tienen ninguna observaciéa. Este ¢jemplo ilustra un conjunto de datos para el que no deben usarse intervalos de igual longitud, ya que se tiene un agregado muy alto de observaciones con sélo algunas ‘cuantas dispersas alrededor de éste. En el ejemplo 1.2existe mayor concentracién de datos en el extremo inferior que en el superior. Por consiguiente, considérese el si- guiente esquema de agrupamiento de ocho clases con limites (-0.5-1 999.5), (1 999.5-3 999.5), (3 999.5-5 999.5), (5 999.5-7 999.5), (7 999.5-11 999.5), (11 999.5-27 999.5), (27 999.5-43 999.5), (43 999.5-75 999.5). La tabla 1.6 contiene Tas frecuencias relacivas para este esquema, mientras que en la figura 1.5 se muestra Ia distribucidn de frecuencias. ‘Ai determinar la distribucion de frecuencia relativa de a figura 1.5, se empled lz altura del rectangulo en la representacion de la frecuencia relativa de cada clase, de Ja misma manera como se hizo en el ejemplo 1.1. Sin embargo, a causa de que los. intervalos no tienen la misma longitu, la figura 1.5 produce Js impresin errénea de ue, por ejemplo, la clase (12 000-27 999) contiene mas del 12% de las observa- ciones. Lo anterior se debe a que cuando se comparan figuras geométricas, como los rectangulos, se tiende mas a comparar e!drea que la altura. Cuando los intervalos de clase son idénticos, el area de los rectangulos representa las frecuencias. Sin embargo cuando la longitud de los intervalos es diferente, como en el ejemplo 1.2, las areas no representan la frecuencia. Por lo tanto, es necesario ajustar la altura de los rec- téngulos para que sus dreas sean proporcionales @ la frecuencia. Este procedimiento representa de manera correcta las frecuencias para intervalos de diferente longitud. Para ilustrar este método, en el ejemplo 1.2, se observa que las longitudes de las primeras cuatro clases son idénticas. Entonces deben ajustarse las itimas cuatro con el fin de que sus longitudes se relacionen con las de las primeras cuatro clases (de $2 000). Las alturas de los recténgulos correspondientes a las cuatro iltimas clases Frecuencia relative 0.05; ye 02468 12 76 Smgresos netos por cosecha (miles de délares) FIGURA 1.5 Distribucion de frecuencia rlativa para los ingresos por cosecha del aflo 1976 ‘ajustan de tal forma que su area se encuentra en la misma proporcién (2.000) com res- ‘pecto a sus frectiencias relativas que las de los recténgulos de las primeras cuatro cla- ses, Las alturas de las primeras cuatro siguen siendo las mismas que aparecen en la il- tima columna de 's tabla 1.6, mientras que las alturas corregidas para las dltimas cuatro son 0.15, 0.015, 0.0025 y 0.00125 respectivamente. En este momento debe notarse que la suma de todas estas nuevas alturas es de 0.70875 y no de 1.00, como es requerido para frecuencias relativas. Una division por 0.70875 convertira estas altu- ras.a bas frecuencias telativas descadas. En la tabla 1.7 aparecen las frecuencias rela- tivas corregidas y en la figura 1.6 se da la cc-recta representacion de la distribucion de frecuencia relat TABLA 1.6 Frecuencias relativas pars el ejempla 1.2 con intervalos de distinta longitud ‘Limites de escritura de (a clase Frecuencia de la clase ‘Frecuencia relaiva 0-199 2 0.08 2000-3 99 5 0.10 4 000-5 999 a on 6 000-7 999 , 38 0.8 8.000-11 999 15 030 12.000-27 999 6 oz 28 000-43 999 » U : 0.02 1, 44 000-75 999 ' om * Total 3 nmuunas wees Pus Muonertcas LD TABLA 1.7 Frecuencias relativas corregidas para el ejemplo 1.2 can intervals de distinta longitud Limites de escrtura de la clase Frecuencia relativa corregida 9-1.999 0.0564 2,000-3 999 oat 4000-5 999. 03104 6,000-7 999. 0.2540 8,000-11 999 0.2116 12,000-27 999 0.0212 28,000-43 999 0.0035 44,000-75 999 0.0018 Total 1.3 Medidas numéricas descriptivas En la seccién anterior se plantearon las técnieas graficas para descubrir los patrones de distribucién ocultos en un conjunto de datos. En esta seccién se definen algunas ‘medidas numéricas que se emplean comimmente para describir conjuntos de datos. Si dl conjunto es una muestra sleatoria de una poblacién y la dltima meta es hacer inferencia estadistica, estas medidas serdn utilizadas como bases para las inferen- cias, tal como se menciona en los capitulos 7 a 9. 0.30] 0.25} 0.20] ous! ‘Frecuencia relativa 0.10} 0.05 02468 12 28 44 76 Ingresos netos por cosecha (miles de délares) 1 FIGURA 16 Distribucin de frecuencia relativa corregida para los ingresos por cosecha del allo 1976 12 Introduccion y estaaisuca desenpuiva Existen dos medidas de interés para cualquier conjunto de datos: la localizacion de su centro y su variabilidad. La tendencia central de un conjunto de datos es la dis- posici6n de éstos para agruparse ya sea alrededor del centro o de ciertos valores nu- méricos. La variabilidad de un conjunto de datos es la dispersion de las observa- ciones en el conjunto. Existen principalmente tres medidas de tendencia central: la media, la mediana y la moda. Definiciom 1.1 La media de las observaciones xy, x3, .... x, €8 el promedio arit- mético de éstas y se denota por Dan. a.) La media es una medida apropiada de tendencia central para muchos conjuntos de datos. Sin embargo, dado que cualquier observacién en el conjunto se emplea para su célculo, el valor de la media puede afectarse de manera desproporcionada or la existencia de algunos valores extremos. Definicion 1.2. La mediana de un conjunto de observaciones es el valor para el ‘cual, cuando todas las observaciones se ordenan de manera creciente, la mitad de és- tas es menor que este valor y la otra mitad mayor. Si el niamero de observaciones en el conjunto es impar, la mediana es el valor de la observacién que se encuentra a la mitad del conjunto ordenado. Si el niimero es par se considera la mediana como el promedio aritmético de los valores de las dos observaciones que se encuentren a la mitad del conjunto ordenado. Alternativamen- te, la mediana puede determinarse a partir de la distribucién acumulativa, es decir, Ja mediana es el percentil cincuenta. uesto que la mediana es un valor que se basa en la secuencia ordenada de las ob- servaciones en un conjunto de datos, es necesario saber que la existencia de algunos valores extremos no afectard su valor. Por lo tanto, si un conjunto contiene unos ‘cuantos valores extremos y un agregado muy alto de observaciones, la mediana puede ser una medida de tendencia central mucho més deseable que la media. Gene- ralmente los conjuntos de datos que describen informacién acerca de ingresos caen cen esta categoria. Definicién 1.3 La moda de un conjunto de observaciones es el valor de la observa~ jn que ocurre con mayor frecuencia en el conjunto. La moda muestra hacia que valof tienden los datos a agruparse. En conjuntos re- Iativamente pequefios, puede que no exista un par de observaciones cuyo valor sea el ‘mismo. En esta situaci6n no es clara la definicién de moda. También puede suceder {que la frecuencia mis alta se encuentre compartida por dos o mas observaciones. En estos casos, la moda tiene una uilidad limitada como medida de tendencia central. Si se ha determinado una distribucin de frecuencia relativa, a clase con la frecuen- 1.3 Medidas descriptivas numéricas 13 cia mas alta recibiré el nombre de clase modal, con Jo que se define a la moda como el punto medio de esa clase. En este caso la clase modal sirve como punto de con- centracién en el conjunto de datos. ara las observaciones del ejemplo 1.1 1a media se calcula como B24 BS +o HUT 0 = $97.90, La media para el ejemplo 1.2 es yw SSE A GBS + Hg ay 50 La mediana del ejemplo 1.1 es el promedio artimético de los valores de las obser- vvaciones 20 y 21 en la secuencia ordenada de éstas, ya que existe un niimero par de ‘observaciones. La mediana ¢ (98 +99)/2 = $98.50. Similarmente, la mediana del ejemplo 1.2.s el promedio aritmético de los valores de las observaciones 25 y 26 en la secuencia ordenada de éstas, 0 (7 627 + 7 657)/2 = $7 642. Se observa que la moda ‘en el ejempo 1.1 es $95 porque este valor es el que ocurre con mayor frecuencia; sin ‘embargo, para el ejemplo 1.2 la moda no esta claramente definida puesto que nin- sgitn valor se renite. Notese que para el ejemplo 1.1 los valores de la media, mediana y ‘moda se encuentran muy cercanos, relativamente, entre si. Esto se debe a que las ‘cuotas se encuentran distribuidas de manera uniforme sobre el intervalo completo de valores. Para el ejemplo 1.2 la media es sustancialmente mayor que la mediana, de- bido a que la primera se encuentra afectada de manera desproporcionada por los ingresos por cosecha de algunos estados, los que son muy grandes comparados con los de otros. Asi, para este conjunto de datos la mediana de $7 642 podria ser una ‘medida de tendencia central mucho més real. ‘Muchas veces la tinica informacién disponible es uns tabla de frecuencias, como las tablas 1.3 a 1.6. En estos casos s6lo es posibie obtener valores aproximados para la media, medianta y moda — o para cualquier otra medida numérica descriptiva Jos valores exactos nueden calcularse Gnicamente a partir de las observaciones in¢ Viduales de! conjunto 0 de los datos no agrupados. Los célculos aproximados se bbasaz en los puntos medios de cada clase y sus respectivas frecuencias. Em general, mientras mas pequefia sea la longitud de la clase y mayor la uniformidad de las ob- servaciones en ésta, mayor seré la similitud entre las medidas descriptivas calculadas €n Jos datos agrupados y no agrupados. Para calcular la media con base en los datos agrupados, sea k el nfimero de clases y x; el punto medio de la -ésima clase, Entonces el valor aproximado de la media es x= Dhnln, a2 A000 en'donde fj es la frecuencia de la i-tsima clase y 1 fix NOtese que en esta formula la frecuencia de la clase representa la frecuencia relativa de las observaciones dentro de'cada clase. Es decir, entre mAs observaciones tenga una clase mayor ser el Peso del punto medio de ésta en el célculo de la media. La afirmacién anterior gene- TABLA 1.8 Calculo aproximado de Ya media para el ejemplo 1.1 Punto medio Frecuencia de ¥ de ia clase ‘a clase ‘ [i ieee me Sha mM 89 7 a * 4 8 182 Lin = 3910 % 8 2 is 104 7 78 * 109 7 763 ¥ = D fixiin = 3910/40 = $97.75 Total 40 3.910 ralmente es cierta en la determinacion de medidas numéricas con base en datos agni- pads. Se ilustrarén los procedimientos computacionales para determinar las medidas

También podría gustarte