Está en la página 1de 470
STADISTICA PARA LAS CIENCIAS ADMINISTRATIVAS TERCERA EDICION LINCOLN L. CHAO | VK PM win Estadistica para las Ciencias Administrativas Tercera edicion LINCOLN L. CHAO California State University Long Beach, California Traduccion JOSE MARIA CASTANO, Exjefe del Departamento de Matematicas Universidad del Valle Adaptacién GREGORIO A. CABALLERO SAUMETH Matemitico y estadistico, MS. Universidad Nacional de Colombia Profesor, Universidad Distrital Francisco José de Caldas Pontificia Universidad Javeriana Revision técnica JESUS MARIA SIMBAQUEBA HERNANDEZ, Profesor titular de estadistica Universidad Distrital Francisco José de Caldas McGRAW-HILL Santafé de Bogota, Buenos Aires, Caracas, Guatemala, Lisboa, Madrid, México, Nueva York, Panama, San juan, Santiago, Sao Auckland, Hamburgo, Londres, Milin, Montreal, Nueva Delhi, Paris, San Francisco, San Luis, Sidney. Singapur, Tokio, Toronto. Prohibida la reproduccién total o parcial de esta obra, por cualquier medio, sin autorizacién escrita del editor. DERECHOS RESERVADOS. Copyright © 1993, por MCGRAW-HILL INTERAMERICANA, S.A. respecto a la edicion adaptada Transversal 42B No. 19-77, Santafé de Bogota, Colombia. Adaptado de ESTADISTICA PARA LAS CIENCIAS ADMINISTRATIVAS. Segunda edicién, Copyright © MCMLXXVIII, por MCGRAW-HILL INTERAMERICANA, S.A. Traducido de la segunda edicién en inglés de STATISTICS: METHODS AND ANALYSIS Copyright © MCMLXXIV, por McGRAW-HILL, Inc Editora: Martha Edna Suarez R. 3124567890 9012456783 ISBN 958-600-142-3. Tercera edicién (ISBN 968-451-192-2. Segunda edicién) Impreso en Colombia Printed in Colombia Se imprimieron 7.600 ejemplares en el mes de julio de 1993. Impresor: Panamericana. Prélogo Capitulo 1 Capitulo2 Capitulo 3 CONTENIDO | Introduccién Resenia historica tt 1.2 Definicion de estadistica 13 Usoyabuso de la estadistica 1.4 Conceptos basicos de la teoria de conjuntos 15 Variable y tipode variables 1.6 Componentes de una investigacion estadistica Distribuciones de frecuencias 2.1 Escalas de medicién—Tablas de frecuencias Construccién de una tabla de frecuencias para datos cuantitativos 23 Histogramas y poligonosde frecuencias para datos cuantitativos 24 — Distribucion de frecuencia para datos cualitativos 25 Otras representaciones grdficas Medidas de posici6n y de variabilidad 3.1 Medidas de posicién 3.2 Otras medidas de posicion 3.3 Medidasde variabilidad v vrs vas 33 33 44 49 Capitulo 4 Capitulo5 Capitulo 6 Capitulo7 Capitulo’ 3.4 Medidas que incluyen la media yla desviacion estandar 3.5 Otras medidas descriptivas Teoria elemental de la probabilidad 4.1 Introduccién 4.2 Probabilidad clasica 43 Terminologia de eventos y operaciones entre conjuntos 4.4 Técnicasdeconteo 45 Propiedades elementales de la probabilidad 4.6 Probabilidad condicional 4.7 Tresteoremas importantes 48 Independencia de eventos Distribuci6n de probabilidad 5.1 Variablealeatoria 5.2 Valor esperado y varianza de una variable aleatoria 5.3 Algunas distribuciones discretas 5.4 Distribucién normal 5.5 Aproximacién de la distribucién normal ala binomial Nociones de muestreo 6.1 Introduccion 62 Disefiode muestreo Distribucién muestral 7.1 Introduccién 7.2 Distribucién conjunta. Independencia de variables 73 Muestraaleatoria. Estadisticas 7.4 Distribucién de la media muestral 7.5 Distribucién de la varianza muestral. Distribuci6n ji cuadrado 7.6 _ Distribucién tde Student 7.7 Distribucién de la diferencia de medias en poblaciones normales independientes 7.8 Distribucion del cociente de varianzas. Distribucién F 7.9 Muestreo en poblaciones finitas Estimacion 8.1 Estimacién puntual 8.2 Propiedadesde un estimador vi 59 68 68 69 74 77 83 88 94 ELE ae 103 108 WI7 129 134 134 135 147 147 150 154 157 168 174 177 179 181 184 185 186 Capitulo 9 Capitulo 10 Capitulo 11 Capitulo 12 83 Estimacién de maxima verosimilitud 8.4 Elerrorestandar 8.5 Estimacién por intervalos 8.6 Tamafiode la muestra para estimar medias y proporciones Pruebas de hipstesis 9.1 Introduccién 9.2 Definiciones 9.3 Pasosde una prueba de hipotesis 9.4 Pruebas de hipétesis respecto de las medias en poblaciones normales 9.5 Pruebas de hipotesis respecto de las varianzas en poblaciones normales 9.6 Pruebas para proporciones 9.7 Lafuncién de potencia de la prueba 9.8 Factores que afectan la potencia de la prueba Regresi6n ycorrelaci6n simples 10.1 10.2 10.3 10.4 10.5 10.6 10.7 108 109 10.10 La recta de regresion de la poblacion El término error Estimacion dea y B Estimacion de o’ Inferencia respecto de la pendiente Bdela recta de regresion Estimacion de E[Y|x] Prediccién de un valor particular de Y para un valor dado de x Anilisis de correlacion Uso de paquetes de computador en regresion simple Relaciones no lineales entre dos variables Anilisis de series de tiempo il 112 i 14 SNS 11.6 Introduccién Componentes de una serie de tiempo Descomposicién de una serie de tiempo Promedios moviles Numeros indices Algunas aplicaciones importantes Las utilidades y la teoria bayesiana 12.1 ees 123 Concepto de utilidad Algunos criterios de decision Decisién con informacion vil 19} 196 197 210 215 ae 219 226 227 235, 236 240 246 248 250 252 256 265, 266 270 273 274 282 283 286 286 288 294 314° 317 325 328 328 337 343 Capitulo 13 Capitulo 14 Suplementos Suplemento! Suplemento Il Suplemento Ill SuplementolV Suplemento V Suplemento VI Suplemento VII Suplemento VIII SuplementoIX Tablas Tablal Tabla ll Tabla Ill TablalV TablaV 12.4 Probabilidades conjuntas y la estrategia de Bayes Métodos no paramétricos 13.1 Prueba delamediana 13.2 Pruebas en las que intervienen signos de diferencia 13.3 Pruebas porsuma de rangos 13.4 Método de correlacion de rangos Dos importantes pruebas de hipstesis 14.1 Andlisis de varianza de un factor 14.2. Andlisis de varianza de dos factores 14.3 Pruebas jicuadrado La varianza es minima cuando se la calcula respecto de lamedia E(|x - m'|}esminimo cuando m’ = medianade x Si Xy Yson independientes, entonces Ox ay = Ox + Oy Desigualdad de Shebyshev La media de la variable aleatoria binomial Lafuncién de Poisson Estimador sesgado de la varianza de poblacién Estimador insesgado de la varianza de poblacion Las varianzas de B, ¥ y Y, Numeros aleatorios Distribucin normal tipica acumulada Valores porcentuales de la distribucién x? Valores porcentuales de la distribucién ¢ valores porcentuales de la distribucién F Respuestasa algunos problemas de numeracion impar indice vill 350 354 355, 357 364 ca) 378 378 389 398 413 413 44 414 416 416 4l7 418 419 421 423 423 429 430 432 433 437 457 « Capitulo INTRODUCCION HRI__RESENA HISTORICA El término estadistica es ampliamente escuchado y pronunciado a diario desde diver- 0s sectores activos de la sociedad. Sin embargo, hay una gran diferencia entre el sentido del término cuando se utiliza en el !enguaje corriente (generalmente al ante- ceder una citaci6n de caracter numérico) y lo que la estadistica significa como ciencia. Son diversos fos vocablos que se citan como antecedentes del término estadis- tica. Sin pretender ser exhaustivos, pero si buscando resefar los de mayor mencién, podemos nombrar los siguientes: - Status (latin), que significa situaci6n, posicion, estado. - Statera(griego), que quiere decir balanza, ya que la estad{stica mide o pesa hechos. — Staatlaleman), que se refiere a Estado como expresion de unidad politica superior. La raz6n o razones que motivaron al hombre en un momento de su desarrollo a tomar en cuenta datos con propésitos estadisticos, tal vez la hallemos si tenemos en cuenta que es dificil imaginar un organismo social, sea cual fuere la época, sin la necesidad, casi instintiva, de recoger aquellos hechos que aparecen como actos esen- ciales de la vida; y asi, al situarnos en una etapa del desarrollo de [a estadistica podemos pensar que se convirtié en una aritmética estatal para asistir al gobernante que necesitaba conocer la tiqueza y el ntimero de los stibditos con el objeto de recaudar impuestos © presupuestar la guerra. Es sabido que César Augusto decreté que todos tos stbditos tenian que tributar y por tanto exigio a todas las personas que se presentaran al estadistico mas cercano que era entonces el recaudador de impuestos. Guillermo el Conquistador ordené un censo de las tierras de Inglaterra con fines de tributacién y del servicio militar. Este documento se Ilamé Domesday Book. Sin embargo, con mucha anterioridad a estos dos casos antes sefialados de recoteccién de datos hay evidencias del uso de la estadistica a un nivel rudimentario por organizaciones sociales antiguas. Asi por ejemplo, en fos monumentos egipcios hay testimonios de que los movimientos de poblaciones eran seguidos por medio de 1 2 Estadistica para las ciencias administrativas censos. La Biblia cita que Moisés hizo un censo de los israelitas en el desierto, como también que David llevé un censo. En China, Confucio narra como un rey llamado Yao, unos 3,000 afios a. C., hizo levantar un recuento agricola, industrial y comercial del pais. Especial mencién ameritan los estudios Renta Vitalicia, durante la época del Imperio Romano, los cuales suponen el célculo de la vida media a distintas edades; y los documentos sobre los Itinerarios en los que se describen las distancias entre las diversas localidades y el desarroll6 de las vias de comunicacion. Hacia mediados dei siglo XVII en Alemania comenz6 a tomar fuerza una disciplina orientada a la descripcién de las cosas notables de Estado; esta disciplina gozaba de una sistematizacion organica y respondia a principios doctrinales. Ajustada a esta estructura, Hermann Conring (1600-1681) la introduce en un curso de ciencia politica con el propésito de describir y examinar los casos sobresalientes del Estado. Mas tarde Godofredo Achewald (1719-1772) entra a considerarla como disciplina indepen- diente y la introduce como una asignatura universitaria con el nombre de ESTADISTICA, encargada de la descripcién de las cosas del Estado. Paralela y contemporanea con la escuela alemana, en Inglaterra se desarrolla la escuela conocida con el nombre de los aritméticos politicos y en Francia la escuela probabilistica La escuela de los “Aritméticos politicos” tuvo como propésito fijar en ntimeros aquellos fendmenos sociales y politicos buscados por los empiricos. Tienen como hecho meritorio sus creadores el intento de buscar leyes cuantitativas que regularan los comportamientos sociales. Uno de sus miembros fue Graunt (1620-1674), quien realiz6 investigaciones estadisticas sobre poblacién y por ello se le sefiala como el iniciador de la tendencia conocida con el nombre de estadistica investigadora, la cual se oponia a la postura universitaria alemana que se conoce con el nombre de estadis- tica descriptiva. La escuela probabilistica, conocida también como enciclopedicotematica, basé su desarrollo en el empleo de la matematica particularizada en el cdlculo de probabi- lidades como instrumento de investigacion. El calculo de probabilidades nace con Blas Pascal (1623-1662) y Pedro de Fermat (1601-1665) al tratar de dar soluciones a problemas relacionados con juegos de azar propuestos por Antonio Gambaud, mas conocido con el titulo nobiliario de Caballero de Meré. A partir de Pascal fueron muchos los matematicos insignes que al apoyarse en la teoria de la probabilidad formularon la teoria estadistica y su aplicacion practica Sin pretender agotar los nombres de todos aquellos que han contribuido al desarrollo de los métodos estadisticos, comencemos por sefialar a Adolph Quetelet (1796-1874), quien fue el primero en aplicar métodos modemos al estudio de un conjunto de datos. Quetelet se reconoce como el padre de la estadistica moderna por su persistencia en recalcar la importancia de aplicar métodos estadisticos. En este Punto es justo reconocer la labor desarrollada por Antonio Cournout (1801-1877), tendiente a integrar las leyes de la teoria de la probabilidad al andlisis estadistico; esto le dio prestancia a la estadistica al tiempo que la doté de un rigorismo hasta ese momento ausente en sus procedimientos. Ahora bien, si tuviésemos que sefalar un hecho que hubiera contribuido mas al desarrollo de la que pudiésemos llamar estadistica moderna, tal vez la mayoria, por no decir todos, estariamos de acuerdo en sefialar la aparicion de la distribucion normal. La ecuaci6n de la curva asociada a esta distribucion fue publicada por vez primera en 1733 por De Moivre, pero debido a su incapacidad para aplicar sus resultados a observaciones experimentales su trabajo permanecié inédito hasta cuando Karl Pearson Introduccion 3 lo encontré en una biblioteca en 1924. Sin embargo, Laplace (1749-1827) y Gauss (1777-1855) obtuvieron cada uno por su lado el mismo resultado que habia conseguido De Moivre Entre los contemporaneos de Quetelet y Gauss que contribuyeron al avance de la estadistica como ciencia estaban Florence Nightingale (1820-1910) y Francis Galton (1822-1911). Nightingale afirmaba que /os politicos y legisladores fracasaban a menudo porque sus conocimientos estadisticos eran deficientes. Galton, como su primo Charles Darwin, se dedicé al estudio de la herencia, a la cual aplicé métodos estadisticos. Entre sus aportes mas importantes se cuenta el desarrollo de métodos basicos como la regresion y la correlacion. La obra de Galton estimuld a Karl Pearson (1857-1936) para que profundizara en sus investigaciones y fund6 asi el periddico Biométrica, que ha influido profundamente en el desarrollo de la estadistica. Muchos métodos que forman parte del glosario del anilisis estadistico son obra de Pearson y su obra cumbre es la creacién de la distri- bucién ji cuadrado. Debido a que Pearson se ocupé fundamentalmente de muestras grandes, la correspondiente teoria no se ajustaba para el estudio basado en muestras pequefias. Entre los experimentadores que vivian este problema estaba William Gosset (1876- 1937), quien estudiaba con Pearson. Gosset, quien escribia con el seudénimo de “Student”, dedujo la distribucién t y con ello solucioné el problema para el estudio de pequefias muestras. Ronald Fisher (1890-1962), recibié influencia de Karl Pearson y de Student, e hizo numerosas e importantes contribuciones a la estadistica, sobre todo en su apli- cacion para el estudio de situaciones propias de la agricultura, biologia y genética. A Fisher se debe el hallazgo de la conocida distribucién F. J. Neyman, 1894 y E. S. Pearson, 1895, presentaron una teoria sobre la verificacion 0 prueba de hipétesis estadistica, entre 1936 y 1938. La teoria estimulé la investigacion y fueron varios los resultados de uso practico. Finalmente, mencionemos a Abraham Wald (1902-1950), quien en sus libros Sequential Analysis y Statistical Decision Functions, presenta conquistas estadisticas orientadas en ei campo de la genética. mw DEFINICION DE ESTADISTICA Debido a lo extenso y variado del campo cubierto por la estadistica es dificil proponer una definicion precisa del concepto. No obstante, tacitamente todos los estadisticos estan de acuerdo en clasificar la materia en dos tipos, cuales son la estadistica descrip- tiva y la estadistica inferencial, las que desempenan funciones distintas pero comple- mentarias en el andlisis estadistico. Estadistica descriptiva. Trata esta parte de la estadistica del resumen y descripcion de los datos. Dicho resumen puede ser tabular, grafico o numérico. El andlisis se limita en si mismo a los datos coleccionados y no se realiza inferencia alguna o generaliza- ciones acerca de la totalidad de donde provienen esas observaciones (poblacién). Por ejemplo, si un jefe de personal somete a un test de aptitud a un grupo de graduados de un instituto superior recientemente contratados; entre lo que puede hacer con las puntuaciones que resultan del test valiéndose de la estadistica descrip- tiva, estan los aspectos siguientes: arreglar las puntuaciones o clasificarlas de manera que con sélo dar un vistazo a los datos se pueda tener una imagen general! de los 4 Estadistica para las ciencias administrativas mismos; calcular e) promedio de las puntuaciones y reconocer algo sobre la aptitud tipica de los empleados; construir tablas, graficas y cuadros para visualizar el compor- tamiento de los datos o bien convertir las puntuaciones brutas en rangos o en percen- tiles para hacer comparaciones; utilizar el promedio como punto de localiza describir la variabilidad 0 dispersién de los datos. Ademas, si después se obtienen ciertas medidas sobre el rendimiento en el trabajo de estos empleados, se puede tratar de describir la relaci6n entre las puntuaciones dadas por el test y dichas medi- ciones. Y en cuanto se establezca una relacién semejante, se puede predecir el ren- dimiento de un empleado en su trabajo con base en su puntuacién en el testde aptitud. Estadistica inferencial. Si bien la descripcién de los hechos recolectados es a veces en si misma el fin que se propone, en la mayoria de los anilisis estadisticos estamos realmente mas al comienzo de la tarea que al término de la misma, una vez que hemos terminado los aspectos descriptivos. Y esto es asi, puesto que el objetivo ultimo de la labor estadistica es el de extraer conclusiones utiles sobre la totalidad de todas las observaciones posibles de que se trate, con base en fa informacion recolectada. Es decir, la estadistica descriptiva no es mas que el trabajo preliminar para la inferencia. Entendiéndose como inferencia estadistica el proceso de hacer predicciones acerca de un todo o tomar decisiones al basarnos en la informacion contenida en una muestra. La estadistica inferencial, por su parte, se refiere a la rama de la estadistica que trata de los procesos inferenciales, la que a su vez comprende la teoria de estimacion y prueba de hipstesis. Al resenar las dos facetas de la estadistica, se puede resumir como sigue el significado de estadistica: “La estadistica es la ciencia, pura y aplicada, que Crea, desatrolla y aplica técnicas, de modo que pueda evaluarse la incertidumbre derivada de inferencias inductivas”. USO Y ABUSO DE LA ESTADISTICA La estadistica se ha convertido en materia decisiva para estudiantes de ciencias empresariales, de economia, de sociologia, de antropologia y de otras ciencias del comportamiento. Los métodos estadisticos han demostrado ser utiles en una amplia gama de estudios relacionados con la conducta humana, raz6n que ha hecho que se incluya en los pénsumes de las carreras antes sefialadas. La economia moderna se ha tornado tan compleja que la incertidumbre en cuanto a las futuras operaciones de la empresa se acrecientan; sin embargo, las firmas empresariales deben tomar decisiones pese a tales incertidumbres. La decision solida y razonada exige andlisis e interpretacion cuidadosos de la informacién sobre hechos, y a este respecto las técnicas estadisticas han demostrado ser especialmente ttiles. En las actividades de hoy ya no se considera la estadistica como el mero registro de ventas y de contabilidad, sino mas bien como una parte integrante en la decisién administrativa. En la investigacion de mercados y en la previsién de las tendencias econémicas, por ejemplo, es manifiesta la necesidad de utilizar el muestreo, el andlisis de regresion y otros métodos estadisticos. A continuacién presentamos otras situaciones que nos indican como la inferencia estadistica se ha convertido en una importante herramienta en la empresa Suponga que una compafia manufacturera quiere decidir si acepta 0 rechaza un embarque de mercancia que ha recibido recientemente. Se inspecciona una parte del embarque para determinar su calidad. Si se halla que 3 de 30 unidades examinadas son defectuosas, ¢este resultado es prueba suficiente para indicarnos que el embarque Introduccion 5 es de mala calidad? La inferencia estadistica nos permitira dar una respuesta racional a este interrogante. Una compafiia que fabrica harina, la empaqueta en bolsas plasticas, cada una de las cuales se supone que contiene 25 libras. Si el proceso esta bajo control, el peso promedio de las bolsas seré de 25 libras. Suponga que en el proceso se chequea periédicamente una muestra. Si una muestra de 50 bolsas da una media (muestral) de 24 libras 12 onzas, el método inferencial nos permite determinar si el proceso se puede considerar bajo control. Mediante el proceso inferencial podemos también decidir, por ejemplo, si una vacuna que ha sido desarrollada para combatir el resfriado se puede considerar eficaz en el 95% de los casos, al haber encontrado que de 30 personas vacunadas, 27 pasaron el invierno sin haber sufrido resfriado. En el campo de la educacién, la estadistica también desempefia un papel de importancia. Un educador tal vez quiera saber si hay una relacién significativa entre las puntuaciones de un test de aptitud escolar y las calificaciones promedio de un grupo de estudiantes, Si existe una relacién semejante, se podria predecir la calificacion promedio de un estudiante con base en su puntuacién en el test de aptitud. Asi mismo, es posible comparar dos métodos de ensefanza diferentes para determinar sus eficacias relativas. Esto podria llevarse a cabo con la eleccién de dos grupos de estudiantes de capacidades comparables para ensefarles a través de los dos métodos una materia determinada. Al final del periodo de instruccién se administra un test tipico a ambos grupos. Con base en las puntuaciones promedios obtenidas por cada grupo en el test, se puede Hegar a la conclusién de si los dos métodos son igualmente efectivos o si uno de los métodos es significativamente mas efectivo que el otro, en sentido estadistico. La situacion aqui comentada pone al descubierto la necesidad de un conocimiento de métodos estadisticos por parte de los estudiantes de educacién y de sicologia. En biologia y agronomia las técnicas estadisticas se han empleado desde hace mucho tiempo, en particular para estudiar el efecto de los tipos de semillas, de los insecticidas y de los fertilizantes en las cosechas. La produccién de ganado de mejor calidad con el desarrollo de planes especiales de alimentacién y de cria también ha sido resultado de estudios que han tenido como fondo un anilisis estadistico. La medicina reconoce los efectos secundarios 0 la eficacia de medicamentos y mejora los métodos de control de la propagacion de enfermedades con base en las técnicas estadisticas. También se puede aplicar con buenos resultados en la genética, la silvi- cultura y la ecologia. Todo lo anterior nos senala por qué la estadistica se recomienda y a veces se exige a los estudiantes de estas ciencias. La estadistica ha encontrado también una aplicacién creciente en la fisica y la quimica, ciencias en las que se ha utilizado para contrastar hipotesis con base en los datos experimentales. El trabajo de investigacion del fisico ha hecho crecer el campo del diseno experimental, que es una importante técnica estadistica. En la ingenieria, el uso de los instrumentos estadisticos para controlar la calidad de la produccién ha sido una experiencia fructifera desde hace varios decenios. EI desarrollo del campo de la computacion ha contribuido a la expansién de las aplicaciones de las técnicas estadisticas en nuevos y mas complejos problemas. Al tiempo que se han fortalecido y ampliado los métodos de anilisis estadisticos, particu- larmente al hacer uso de la teoria de la simulacion. No siempre se hace buen uso de la metodologia estadistica en cuanto al analisis de los datos. Unas veces por desconocimiento y otras por descuido del investigador. 6 Estadistica para las ciencias administrativas Unas cuantas citas acerca del mal empleo de la técnica estadistica nos permitird comprender mejor el fondo del problema. Uno de los errores que se cometen con mayor regularidad es hacer conclusiones basadas en datos muestrales no representa- tivos. Quizas el mas sonado caso de este tipo de error fue el que cometié el Literary Digest sobre los resultados de las elecciones presidenciales en los Estados Unidos en 1936. El Digest envid papeletas de voto a una muestra de votantes escogidos mediante los registros telefénicos de su propia lista de suscriptores. Las papeletas devueltas hacian prever que Franklin D. Roosevelt obtendria 161 votos electorales y su contendor Alfred Landon lo aplastaria por 370 votos. La eleccién final arrojé como resultado 523 votos electorales para Roosevelt y 8 para Landon. Roosevelt gané en 46 de los 48 estados, con victoria aplastante en muchos de ellos. Lo erréneo estuvo en que la muestra no fue representativa, ya que durante el afo de la depresion de 1936 las personas que podian darse el lujo de tener teléfonos o suscripciones de revistas pertenecian a nucleos econdmicos superiores y éstos si estaban en su mayoria en favor de Landon, pero los votantes favorecieron a Roosevelt. Esta salida en falso del Digest contribuyé a que dejara de e Otro error que se comete es aquel en el cual las conclusiones estén basadas en datos insuficientes. Suponga que un vendedor de seguros hace llamadas de casa en casa para vender cierta péliza de seguros. Afirma que el 25% de sus llamadas resultaran en ventas efectivas porque hizo una venta el sdbado por la tarde cuando realiz6 cuatro llamadas, lo cual da la impresién de que el 25% de todas las llamadas tendran éxito, cosa que naturalmente no es asi. Su informacién seria mas confiable si dijera, por ejemplo, que de 100 llamadas, 25 dieron fruto; y mejor ain, si dijera que de 1,000 llamadas, 250 terminaron en ventas. Asi pues, cuando se utilice un porcentaje es aconsejable tener en cuenta el total de casos u observaciones para garantizar la fiabilidad. Como atin no se han presentado los diversos métodos de la estadistica, la presentacion y examen de los abusos de ésta quedan limitados. Finalmente diriase que todo procedimiento estadistico puede emplearse de modo engafioso 0 con inter- pretaciones deficientes de los resultados. Sin embargo, no es dificil evitar tales engafios © falsas interpretaciones; al lector se le recomienda el librito de Darrel Huff: How to Lie with Statistics (editado por W.W. Norton & Company, Inc., en 1954)' si desea tener una mejor vision de los abusos de la estadistica. Ejercicios 1 El término “estadistica” que usted escucha en Ia calle, Entonces, para un estudiante que haya obtenido una calificacion de 4 en la asignatura A y de 5 en la asignatura-B, la nota promedio (ponderada) esta dada por 214) +35) 8 +15 245. 5 2: =— = 46 = Observe que si las notas se hubiesen obtenido en el orden 5 para A y 4 para B, la nota promedio seria 25) + Ha) +12 _ 22 _ 24+3 5 5 A 5 +4 En cambio la media aritmética simple en ambos casos es 7 = 45, Ya que una medida de posicidn se refiere al “centro” de una sucesién de obser- vaciones, deberia ser la medida que mejor representara los datos. Sin embargo, el sentido al que la media aritmética se refiera se pierde por la marcada sensibilidad que ésta tiene ante fos valores extremos, como se vera. Suponga que se hace una encuesta de ingresos familiares en una ciudad de 1,000 familias. Entre estas 1,000 familias hay tres que tienen ingresos de $10,000,000; y hay 997 con ingresos de solo $500,000. El ingreso medio por familia es de $798,000, pero el 99.7% de estas familias tienen un ingreso por debajo de esta cuantia. Si bien en algunos casos la sensibilidad de la media puede ser deseable, en otros no. Por ello la estadistica nos proporciona otras medidas alternas a la media como son la mediana y la moda, que pueden ser mas adecuadas para describir la circunstancia que la mencionada media Ejercicios [3.1] 1. Defina la media aritmética 2 54 2 2 56 - 58 5 57 7 - or 9 60 16 4 62 — 64 15 63 31 5 65 - 67 12 66 43 6 68 — 70 5 69 48 7 1 - 7B 2 2 50 ‘i ee ~ Determinamoslaciasemediana: = —>- = 25. Asi que la clase mediana corresponde a la clase cuarta. A partir de esta clase se tiene: lm = 615, 2 =25, Fm = 16, =, ¢=3 Al reemplazar en (3-12) se tiene k= 615 + So x 3 = 615 + x3 = 633 25 — 16 9 63 15 42 Estadistica para las ciencias administrativas Este valor se interpreta de la manera siguiente: “E150%de las obreras tiene una estatura por debajo de 62 pulgadas aproximadamente”. 3.1.4 La moda A veces tenemos que clasificar datos en grupos que no son nimeros. Por ejemplo, los empleados de una compajifa se pueden clasificar por el sexo, estado civil, ocupa- ciones, etc. En estos casos no tiene sentido hablar de media o de mediana del sexo de los empleados, de su estado civil o de sus ocupaciones, por cuanto la asignacién numérica que hagamos sera mas bien con propésito diferencial, pero carente de cualquier sentido cuantitativo. Sin embargo, si tiene sentido preguntar por ejemplo, cual es la ocupacién de la mayoria de los empleados. Esta ocupacién se llama entonces la ocupacién modal. Por consiguiente pues, ademas de la media y mediana, es nece- sario introducir otra medida de posicién, que es la moda. La moda de una sucesién de datos se define como el valor que se da con mayor frecuencia. La moda se denota x. Los datos 2, 2, 5, 7, 4, 2 tienen moda & = 2 (datos unimodales). Los datos 2, 2, 5, 5, 5, 2, 3, 3 tienen moda k = 2 y & = 5 (datos bimodales). Los datos 2, 3, 4, 5, 6 no tienen moda. De lo anterior se deduce que una sucesién de datos puede tener s6lo una moda, mas de una moda o no tener moda. Cuando se trata de datos agrupados para hallar la moda debemos determinar antes que todo la clase modal en la cual se halla ésta. Dicha clase corresponde a aquella que presente mayor frecuencia (absoluta). Una vez localizada la clase modal, procedemos por interpolacién para determinarla. Esta interpolacién nos conduce a la siguiente formula para la moda: d, = ed 3 kiln tag © (3-13) E imite real inferior de Ia clase modal {la clase de mayor frecuencia) d, ferencia entre la frecuencia dela clase modal y la de la clase que la antecede d, iferencia entre [a frecuencia de la clase modal y la de la clase que le sigue - = Longitud del intervalo de la clase modal Al aplicar la formula (3-13) a los datos de la tabla 2.7, tenemos que la clase modal corresponde a la clase cuarta. Por tanto, lm = 615, d, = 15-9 = 6 d, = 15 — 12 Al reemplazar en (3-13) se tiene k= 615 + x3 = 615 +2 x 3 = 635 6 o+3 La moda tiene la siguiente interpretaci6 estatura de 63.5 pulgadas aproximadamente” ‘La mayoria de las obreras tienen una Medidas de posicién y de variabilidad 43 3.1.5 Uso de la media, mediana y moda. Relacién entre estas medidas La media, mediana y moda se consideran las medidas de posicién mas importantes por su séncillez y utilidad. No obstante, como ya sefalamos antes, no son aplicables en todos los casos. A continuacién daremos algunas ideas acerca del uso de cada una de estas medidas. La figura 3.1 muestra las posiciones de la media, la mediana y la moda en curvas simétricas y sesgadas (asimétricas). En caso de que la curva sea simétrica (figura 3.].a) las tres medidas coinciden. En las curvas sesgadas (figuras 3.).by 3.1.ci los tres valores difieren y tenemos asi que: En la figura 3.1.b se ve que la distribucién es sesgada a la derecha — la cola mas larga de la distribucién queda a la derecha. La mediana tiene una posicién tal que la mitad de la distribucién esta por encima de la mediana y la otra mitad por debajo. Como la cola larga esté situada a la derecha, la moda que sigue situada en el pico de la curva ha de llevarse a la izquierda de la mediana; es decir, hacia los valores inferiores de la distribucién. Como la media aritmética es la mas sensible a los valores extremos, se ve llevada a la derecha de la mediana 0 sea hacia los valores altos de la distribucién. Ocurre todo lo contrario cuando la curva es sesgada a la izquierda (véase figura 3.1.0). En cuanto a cua! medida es la mas indicada para referirse a un conjunto de datos, esto sdlo puede ser resuelto una vez que hayamos observado la forma de la distribucion y del objetivo que se persiga con dicha medida. Si la distribucién es simétrica, 0 aproximadamente simétrica, no importa qué medida utilicemos. Si la distribucién es sesgada (asimétrica), puede ser mas adecuado utilizar la moda o la mediana, ya que !a media no ofrece un buen comportamiento en estas circunstancias. Si la medida se utiliza para obtener un valor total, debemos emplear la media. Por ejemplo, si un avién de pasajeros esté disefiado para transportar 20,000 libras, es de esperar que Ileve 100 personas, si suponemos que el peso promedio, incluido el equipaje por persona, sea de 200 libras. Si lo que se desea es averiguar el gasto tipico de un hogar en alimentacién, debe utilizarse la moda. {____™ Figura 3.1.b Figura 3.1.¢ Figura 3.1 La posicion de la media, mediana y moda en distribuciones simétricas y sesgadas. Desde el punto de vista aritmético la media, la mediana y moda estén relaciona- das como se indica en la siguiente formula de aproximaci6n (valida para las curvas moderadamente sesgadas). ae fee 44 Estadistica para las ciencias administrativas EE]_OTRAS MEDIDAS DE POSICION Ademés de las medidas antes estudiadas (media, mediana, moda) existen otras que pueden ser mas practicas para precisar ciertas situaciones. Estas medidas son los cuartiles, los deciles y los percentiles. 3.2.1 Cuartiles Los cuartiles como los deciles y los percentiles son en cierta forma una extensién de fa mediana. Los cuartiles de una sucesién de datos ordenados son aquellos niimeros que dividen la sucesién en cuatro partes porcentualmente iguales. Hay tres cuartiles, denotados usualmente O,, Q,, Q;. El segundo cuartil Q,, es precisamente la mediana. El primer cuartil Q,, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesién (ordenada); el tercer cuartil Q,, es el vator en el cual 0 por debajo del cual quedan las tres cuartas partes (75%) de los datos. Como Jos cuartiles adquieren su mayor importancia cuando contamos un nimero grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia, nos limitaremos a presentar Ja formula para el cAlculo de los cuartiles cuando se trata de datos agrupados. Esta formula es como sigue: KGa) -Fi 7 a, + ee tg k= 123 Cy Ik 1, = Limite (real) inferior de la clase del cuartil k(Se determina de manera similar que en el caso de la mediana) n Numero de datos Fy Frecuencia acumulada de la clase que antecede a la clase del cuartil k & = Frecuencia de la clase del cuartil k ¢ = Longitud del intervalo de la clase del cuartil k Calculemos Q, y Q; para los datos de la tabla 2.7. Calculo de Q, Determinamos en primer lugar {a clase del cuartil: Para determinar esta clase efectuamos la operacion k Hh. tomando k = ly 50. El resultadoes | (30 = 12.5. Ahora ubicamos la clase en donde la frecuencia acumulada es igual a. este ndmero. Esto ocurre en la clase tercera. Portanto, L = 585, k= 1, n= 50 FR = 7 f= 9% C= 3 Al reemplazar en la formula {3-14} tenemos: B5=T x 3 = 595 +22 x 3 = 6033 Este valor se interpreta de la manera siguiente: “Aproximadamente el 25% de las obreras tienen estatura por debajo de 60 pulgadas”, también puede decirse “apro- ximadamente el 75% de las obreras tienen estatura por encima de 60 pulgadas”. beg ae Medidas de posicion y de variabilidad 45 Calculo del tercer cuartil Para determinar la clase del tercer cuartil realizamos la operacién k (7, tomando k = 3 yn = 50. Esto nos da 3755 y asi la clase del cuartil tres corresponde a la clase quinta. = 645, n= 50, KR = 31, K= 12, c= 3 Al reemplazar en la formula (3-14) se tiene: a, = 645 + FA 31 x 3 = 645 + $3 x 3 = 66.13 El valor del cuartil tercero se interpreta asi: "Aproximadamente el 75% de las obreras tienen estatura por debajo de 66 pulgadas”, también se puede interpretar como “aproximadamente el 25% de las obreras tienen estatura por encima de 66 pulgadas”. 3.2.2 Deciles Los deciles son citrtos nimeros que dividen la sucesién de datos (ordenados) en diez partes porcentualmente iguales. Los deciles se denotan D,, D,,..., Dy, que se leen primer decil, segundo decil, etc. Para datos agrupados los deciles se calculan mediante la férmula Cok 123, 9. (3-15) Limite (real) inferior del intervalo de la clase del decil k n = Nitmerode datos F, = Frecuencia acumulada de la clase que antecede a la del decil k & = Frecuencia de laclase del decil k c= Longitud del intervalo de la clase del decil k Calculemos el decil D; para los datos de la tabla 2.7. Determinamos la clase del séptimo decil. Esto ocurre en la clase quinta (k (7 to) = 35). L, = 645, n= 50, Fp = 31, f= 12, c= 3 Al reemplazar en (3-15) obtenemos: _ 35 — 31 _ 4 : = 645 + 12 x3 = 645 + 12 acd 65.5 Este valor tiene fa interpretacién siguiente: “El 70% de las obreras tienen estatura por debajo de 66 pulgadas”. Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento académico y es asi que se acostumbra sefalar que la puntuacién 46 Estadistica para las ciencias administrativas de un estudiante esta por debajo, por ejemplo, del tercer cuartil o que esta por encima del noveno decil. 3.2.3 Percentiles Los percentiles son, tal vez, las medidas mas utilizadas para propésitos de ubicacion © clasificaci6n de las personas cuando se atienden caracteristicas tales como peso, estatura, etc. Los percentiles son ciertos nimeros que dividen la sucesin de datos ordenados en cien partes porcentualmente iguales. Cuando los datos estan agrupados en una tabla de frecuencias, se calculan mediante la formula aoe F, n= + Mw k = 123, ...,99 G-16) he Los elementos constitutivos de la formula tienen las interpretaciones analogas que hemos indicado para los cuartiles y los deciles. Es facil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el percenti] 50 y el tercer cuartil con el percentil 75. Calcular el percentil 80 para los datos de la tabla 2.7. Determinamos la clase del percentil 80. Esto ocurre en la clase quinta. Lg = 645, 1 = 50, Feo = 31, fo = 12 € 3 Al reemplazar en (3-16) se obtiene que: 40 — 31 Pao = 64.5 + 2 x3 = 645 + 2x 3 = 6675 “Aproximadamente el 80% de las obreras tienen estatura por debajo de 67 pulgadas”. 3.2.4 Proporcion La proporcién, designada por Pp, se refiere a la fraccién de la muestra que posee determinada caracteristica 0 propiedad. Asi, por ejemplo, si de los 80 trabajadores de una empresa 15 tienen mas de cinco afios de vinculacién; 20 mas de diez afios; 40 mas de quince afios y 5 mas de veinte afios. Entonces, a Proporcién de trabajadoresconmasdecincoafos = 27- = 0.1875 (18.75%) Proporci6n de trabajadores con mas de diezafios = a = 025 (25%) Proporci6n de trabajadores con mas de quince afios = 2 =05 (50%) Proporcién de trabajadoresconmésdeveinteafios = —2- = 0.0625 (6.25%) Medidas de posicion y de variabilidad 47 Ejercicios [3.2] e 1. Halle la mediana y la moda para las siguientes sucesiones de datos: a) 2.4, 5, 6, 6, 6, 9% 10, 13, 15 13,5, 7.77% 9 10, 10, 1, 12 2. cn qué caso coinciden los valores de media, mediana y moda? 3. Sean las observacion 122333334444 4 45,555.66 Construya una tabla de frecuencias y calcule la mediana y la moda por medio de las férmulas de estas medidas para datos agrupados. 4. Bex, - Key - . 56 Estadistica para Jas ciencias administrativas = yt 242 Six, my- A (3-29) a y ae SS ~~ Sw = VS + ty + Zw - ny El ultimo término de (3-29) consta de dos factores, 2 y [3(x, — Ri(¥; — P) bee areca n El ultimo tiene gran importancia en el analisis estadistico y recibe ef nombre de covarianza muestral de X y Y; se la designa cov (X, Y). Esto és, 2x, — RY, -V) (3-30) DLLDrC~™ De manera que la varianza de la suma X + Yes igual ala suma de las varianzas de X y de Y mas dos unidades de la covarianza. En capitulos posteriores retomaremos el tema de la-covarianza cuando tratemos otros conceptos, particularmente el de variable aleatoria. : Es bueno aclarar que aunque la varianza puede calcularse respecto de cualquier ndmero (particularmente una medida de posicidn), se prefiere la media aritmética porque con ésta se puede demostrar que la varianza toma su valor minimo y por tanto asf la desviacién estandar, cuando se calcula respecto de la media aritmética. Es decir, que si se utiliza la desviacion estandar para medir el grado de error cometido al conjeturar el valor de alguna medida de la distribucién, entonces la magnitud de ese error sera minima si se conjetura partiendo de la media aritmética. 3.3.4 Rango semi-intercuartilico y entre percentiles Ademas de las medidas de variabilidad ya estudiadas (amplitud, desviaci6n media absoluta, varianza y desviacién estandar), existen otras medidas que pueden ser de mayor utilidad y de mejor interpretacion en algunos estudios que las ya citadas. Estas medidas son ef rango semi-intercuartilico y el rango entre percentiles. El rango semi-intercuartilico, se denota y define de la manera siguiente: Q, a= ee (3-31) en donde Q, y Q; corresponden al primer y tercer cuartil respectivamente. Asi, por ejemplo, al partir de los valores de estos cuartiles haflados en la secci6n 3.2.1 que se refieren a las estaturas de 50 obreras, los cuales fueron Q, = 60.33 y Q; = 66.33, entonces de acuerdo con (3-31) se tiene Q = $33 = 033 7 = 3 comoel rango 2 semi-intercuartilico de las estaturas de estas obreras. El rango entre percentiles 10 — 90se toma como igual a la diferencia entre el percentil 90° y el percentil 10°. Se denota Pio — 99, esto es, Pio - 90 = Poa — Po (3-32) Medidas de posicion y de variabilidad S? De la tabla 2.7 se tiene, Poo = 69.7 ¥ Pro = 573 y asl, Pro — 99 = 69.7 — 573 = 124 Existen algunas relaciones entre distintas medidas de variabilidad. Una muy utilizada es la que se da entre la amplitud y la desviacién estandar, la cual establece que “la amplitud es aproximadamente igual a cuatro veces la desviacién estandar”. Para verificar la citada relacién tofnaremos los datos que se dan a continuacién, los cuales corresponden a los puntajes obtenidos por 30 aspirantes a ocupar un cargo de direccién y que para tal propésito presentaron un examen de conocimiento. Los resultados fueron los siguientes: 120, 121, 112, 113, 123, 132, 157, 132, 157, 118, 119, 115, 150, 121, 138, 107, 104, 140, 109, 113, 106, 129, 134, 121, 109, 102, 123, 116, 110, 121 La amplitud esté dada por A = 157 ~ 102 = 55,y la desviacién estandar por s = 13.8. Asique,4s = 4 (13.8) = 55.2 que es aproximadamente igual a 55 que es el valor de la amplitud. Otra relacién de importancia es la que existe entre el rango semi-intercuartilico y la desviacion e&tandar; esta relacién dice que “el rango semi-intercuartilico es apro- ximadamente igual'a ~ de la desviacién esténdar’ La comprobacién de esta relacién la encontramos en los datos de las estaturas de las obreras que venimos analizando y para los cuales hemos obtenido que la desviacién estandar s = 4.22 y el rango semi-intercuartilico Q = 3. De este modo, tenemos que (2) s= @ (4.22) = 2.8 que es aproximadamente igual 3 que es el valor del rango sem itercuartilico. Como sucede con cualquier tipo de aproximaci6n, ésta puede ser buena o mala, segiin las caracteristicas particulares que posean los datos. En el caso que nos ocupa, tanto para la amplitud como para el rango semi-intercuartilico, cuando los datos son bastante simétricos, ambas aproximaciones son bastante buenas. Ejercicios |3.3) 1, Entre las medidas de variabilidad esta la amplitud. a) ¢Cudles son las desventajas de la amplitud como medida de variabilidad? 1b) @Por qué se la utiliza a veces a pesar de sus desventajas? 2. Entre las medidas aproximadas de variabilidad se encuentra la desviacién media absoluta. a) I. En un examen de estadistica 30 estudiantes obtuvieron las siguientes notas: 4.2, 4.2, 4.8, 4.7, 4.4, 3.9, 45, 3.1, 3.4, 4.6, 4.4, 4.6, 3.6, 1.9, 4.4, 4.1, 46, 4.2, 4.1, 45, 2.5, 4.0, 4.1, 4.0, 3.6, 4.9, 3.6, 3.9, 4.5, 3.5. a) Tome k = 2 ycalcule x — ks y X + ks. b} Utilice la regla de Shebyshev para predecir el porcentaje de datos que quedarén incluidos entre X — ks y X + ks. c) Calcule este porcentaje directamente. En primer lugar, calculamos la media y la desviacién estandar. El calculo de estas medidas nos da X = 4.03 y s = 0.66. * Ver suplemento IV para la demostracién de la regla (teorema) de Shebyshev. 62 Estadistica para las ciencias administrativas a. ¥ — ks = 4.03 — 2 (0.66) = 403 — 132 = 2.71 y X + ks = 4.03 + 2(0.66) = 403 + 132 = 5.35. b. De acuerdo con la regia de Shebyshev, por lo menos el (1 — jx ) 100% = 75% de los datos quedan comprendidos entre 2.71 y 5.0 (que es la nota maxima). c} Al hacer el conteo directo encontramos que hay 28 datos dei total de 30 compren- didos entre 2.71 y 5.0, lo que representa el = x 100% = 93%. En la practica el porcentaje real de datos que quedan comprendidos en el intervalo supera la cota minima que establece Shebyshev. A veces el propésito es determinar qué intervalo se debe escoger para que en éste quede comprendido determinado porcentaje de datos. Por ejemplo, zqué valor k debe escogerse para que en el intervalo quede el 50% de los datos como minimo? Eneste caso, hacemos{} — 7; } = 0.5,entonces 7 = OSyasik = 2y k= 14, Cuando los datos corresponden a distribuciones simétricas en forma de campana (monticular) la regla de Shebyshev nos da resultados mas precisos, y tenemos asi: — El 68% de las datos (area) quedan comprendidos entre » —- oy w + o. Véase figura 3.2.'. ee Figura 3.2 Porcentaje de area comprendida entre 4% — o y wp + o. ~ E1 95% de los datos (4rea) quedan comprendidos entre 1 — 20 y w + 20. Véase figura 3.3. B- » miw Figura 3.3. Porcentaje de 4rea comprendida entre uw — 20 y w+ 2. = E199.75% de los datos (rea) quedan comprendidos entre pz — 30 y « + 30. Véase figura 3.4. ' Utiitzamos las letras p y o'en lugar de Xy s porque nos referimosa los valores poblacionales (parémetros). Medidas de posicién y de variabilidad 63 “30 B # +30 Figura 3.4 Porcentaje de drea comprendida entre uw — 30 y wp + 30. Una fabrica de productos comestibles ha fijado el peso promedio de cierto alimento empaquetado en 450 gramos, con una desviacién estandar de 12 gramos. La, curva que representa estos pesos tiene forma monticular; qué proporcién de paquetes presenta: a) mas de 462 gramos b) mas de 474 gramos c) entre 414 y 486 gramos Aplicamos la regla de Shebyshev para estos casos y tenemos que para ai w+ ko = 462 queal reemplazar nos queda 450 + (12) k = 462. Aldespejar k tenemos k= Lyasi: — El 16% de los paquetes presentarén un peso superiora 462 gramos. Véase figura. 450, 462 Igualmente se tiene k = 2, al despejarlo de la ecuaci6n 450 + (12) k = 474y asi: . — El 2.5% de los paquetes tienen peso por encima de 474 gramos. Véase figura. 50 474 Finalmente, para la parte c) hay que resolver las dos ecuaciones 450 — (12) k = 414y450 + (12) k = 486,dandonos el valor k = 3; de acuerdo con la regla de Skebyshev podemos decir que: 64 Estadistica para las ciencias administrativas — E199.75% de los paquetes presentaran un peso entre 414 y 486 gramos. Véase figura. 414 450 486 OTRAS MEDIDAS DESCRIPTIVAS Ademas de las medidas de posicién y de variabilidad, en el andlisis descriptivo se hace un estudio de la forma como se distribuyen los datos. Las medidas que se emplear para este propésito son el coeficiente de sesgo y el coeficiente de curtosis. 3.5.1 Coeficiente de sesgo El coeficiente de sesgo es un ntimero que mediante su signo podemos determinar si los datos (la curva) tienen distribucién simétrica 0 sesgada. El coeficiente de sesgo se denota y define para datos agrupados, como sigue: Hi Dhtx, — Wn CS = aye en donde f son las frecuencias de clases, x; las marcas de clase, Xes la media aritmética y sla desviacién estandar. El coeficiente de sesgo se interpreta del siguiente modo: SiCS = 0 => Los datos (la curva) se distribuyen de manera simétrica, como se ilustra en la figura 3.5. (3-35) Figura 3.5 Curva de frecuencia con CS = 0. SiCS > 0 = Los datos (la curva) son sesgados a la derecha, como se ilustra en la figura 3.6. Figura 3.6 Curva de frecuencia con CS > 0. Medidas de posicion y de variabilidad 65 Si CS < 0 => Los datos (la curva) son sesgados a la izquierda, como se ilustra en la figura 3.7. Figura 3.7 Curva de frecuencia con C.S < 0. Si tomamos los datos de la tabla 2.7, tenemos que de acuerdo con la formula (3-35), el coeficiente de sesgo es: 2 (54 — 63.8) + 5 (57 — 63.8)? + 9 (60 — 6387 + 15 _ (63 — 63.8) + 12(66 — 638)? +5 (69 — 63.8)? + 2 (72 — 63.87/50 _ 427° Este valor del coeficiente de sesgo nos indica que la distribucién de las estaturas de las obreras es un poco sesgada a la izquierda. cs -0.54 3.5.2 Coeficiente de curtosis EI coeficiente de curtosis es un ntimero cuya magnitud nos indica si los datos se distribuyen simétricamente de forma normal (curva mesocurtica),mas empinados que la curva normal (curva leptocurtica) 0 mas aplanados que la curva normal (curva platicirtica). El coeficiente de curtosis se denota y define de la manera siguiente, para datos agrupados: a Dil, — In k = (3-36) en donde f son las frecuencias de clase, x,son las marcas de clase y la media aritmética. El coeficiente de curtosis se interpreta de la manera siguiente: Sik = 3 ==> Los datos (la curva) presentan forma de una normal estandari- zada, como se muestra en la figura 3.8. El numero 3 se deduce de manera terica en estudios de estadistica matematica. Figura 3.8 Curva de frecuencia con k Sik > 3 => Los datos (la curval se presentan mas empinados que los de la normal estandarizada. Véase figura 3.9. 66 Estadistica para las ciencias administrativas Figura 3.9 Curva de frecuencia con k > 3. Sik < 3 => Los datos (la curva) se presentan mas aplanados que los de la normal. Véase figura 3.10. Figura 3.10 Curva de frecuencia con k < 3. El coeficiente de curtosis para los datos de la tabla 2.7 es 254 — 63.8)* + 5157 — 63.8)¢ + 9160 — 63.8) + 15163 — 63.8) + 12166 — 63.8) + 5(69 — 63.8) + 2(72 — 63.8)4/50 k= ooeeermnrev_c0—_E OO oEeeeeree m= 271 422 Este valor de k nos indica que los datos se distribuyen de manera un poco aplanada. Ejercicios [3.4 1. Halle el coeficiente de variacién para los siguientes datos: 2, 4, 5, 6, 6 9, 10, 13. al Halle el coeficiente de variacién para los datos agrupados dados en el problema 15, ejercicio 3.2 » Una persona tiene una estatura de 175 cm; la estatura promedio de la poblacién es 170 cm con una desviacin estandar de 5 cm. Esta misma persona pesa 70 ke; el peso promedio de la poblacién es de 68 kg con una desviacidn estandar de 5 kg. En qué caso esta persona ocupa tun puesto relativamente mayor? > Paral problema 3 determine cual de las dos caracteristicas presenta mayor variabilidad relativa. > La demanda diaria en unidades de un producto durante 30 dias fue: 38, 35, 76, 58, 48, 59, 67, 63, 33, 69, 53, 51, 28, 25, 36, 32, 61, 57, 49, 78, 48, 42, 72, 52, 47, 66, 58, 44, 44, 56. a) Tome k = 15 y-calcule ¥ — ks, 7 + ks b) Utilice la regla de Shebyshev para predecir el porcentaje de datos que quedarén compren- didos entre ¥ - ks y ¥ + ks ¢) Determine el porcentaje exacto por conteo directo 6. Suponga que los salarios de 10,000 empleados oficiales tienen forma monticular con media $50,000 y desviacion esténdar $4,000. Halle la proporcién de empleados que tienen salario: 10. Medidas de posicion y de variabilidad 67 a) Por debajo de $46,000 ) Por encima de $58,000 ch. Entre $38,000 y $62,000 Para el problema 5, determine el valor k para que en el intervalo de extremos ¥ — ks y 7 + ks quede al menos el 80% de los datos. ‘Suponga que X representa ciertos valores con media (muestral) X y desviacién s. Liene los espacios en blanco. 4) Porlo menos el 99%de los valores de Xquedan dentrode desviaciones ‘estandares a partir de la media 1b} Por lo menos el 80% de los valores de X caerén dentro de desviaciones estandares a partir de la media ©) Alo més el 15% de los valores de X caerén a mas de desviaciones ‘estandares a partir de X d} A lo mas el 50% de los valores de X quedaré a mas de desviaciones estindares a partir de €) Por lo menos % de los valores de X cumplirdn la desigualdad |X ~ | < 2s fl Alo mas % de los valores de X cumpliran la desigualdad |X — | > 3s Calcule el coeficiente de sesgo y el coeficiente de curtosis para los datos del problema 15, ejercicio 3.2. Calcule el coeficiente de sesgo y el coeficiente de curtosis para los datos del problema 9, ejercicio 2.1. Capitulo TEORIA ELEMENTAL DE LA PROBABILIDAD INTRODUCCION El fin principal de este capitulo es estudiar el concepto de probabi- lidad. La probabilidad es el medio por el cual a partir de la informacién contenida en una muestra tomamos decisiones o hacemos afirmacio- nes que se refieren a toda una poblacién mediante el proceso llamado. inferencia estadistica. La probabilidad y la estadistica se refieren a situaciones diferen- tes y por tanto resuelven problemas distintos. Sin embargo, las dos se complementan como veremos en la discusién de los dos problemas siguientes: Un problema de probabilidad: Se lanza un dado balanceado una vez. Cual es la probabilidad de obtener tres puntos? Como el dado puede caer de seis formas posibles y sélo una de éstas corresponde a tres, diriamos que tenemos de seis probabilida- des, sdlo una de acertar. En términos de probabilidad, decimos que ésta es det. Observe que para la solucién de este problema partimos de un total (ndmero de formas como puede concluir el lanzamiento del dado) — poblacion, para responder una situacién particular, “obtener tres puntos’"— muestra. Esto es, hemos razonado de lo general a lo particular. Un problema de estadistica (inferencial): Se lanza un dado para determinar si esta balanceado o no. Para tal propésito se lanz6 20 68 Teoria elemental de la probabilidad 69 veces y siempre se observé dos puntos, qué podemos pensar de este dado? La respuesta es que el dado no esta balanceado. Porque de estarlo, y si se tiene en cuenta que en este caso cada una de las caras tiene la misma probabilidad de darse, es bastante extrafio que sdlo se dé el dos. Note que en la solucién de este problema partimos de un hecho particular, “observar siempre dos puntos” para concluir sobre la situa- cién de un todo (el dado no esta balanceado) basandonos en la probabilidad que tiene cada resultado de darse. La probabilidad nos permite estudiar o analizar los fendmenos © procesos Ilamados aleatorios. Un experimento se dice aleatorio cuando puede concluir de diversas maneras sin que sea posible predecir con certeza qué resultado par- ticular va a ser observado. Ejemplos de experimentos aleatorios son los siguientes: - Lanzamiento de un dado una sola vez — Peso de una persona — Los valores de las acciones de cierta empresa en el dia de mafiana — El estado del tiempo atmosférico en el dia de mafiana En cada uno de los casos anteriores esta presente la incertidum- bre (la cual se mide mediante la probabilidad); pero ésta se presenta de diferentes formas y tenemos asi que para el caso del dado, por mucho que lo lancemos siempre nos encontramos con el mismo nivel de incertidumbre en cuanto a qué resultado particular va a darse en el préximo lanzamiento. Para el caso del pesaje de una persona, {a incertidumbre sélo se da antes de pesarla por primera vez; después es un resultado relativamente ya conocido. Para los dos ultimos casos \a situacién particular que se dé, mafiana no vuelve a repetirse nunca y asi su evaluacién probabilistica es de caracter subjetivo. PROBABILIDAD CLASICA Se da el nombre de probabilidad clasica cuando ésta se toma objetivamente (en sentido practico) y se puede considerar de dos maneras, a priori y a posteriori. Ademas de estas dos consideraciones que son las que tienen alguna validez formal, se menciona la Hamada probabilidad subjetiva. La probabilidad a priori o cannica fue introducida por Laplace y se establece de la forma siguiente: “Si un experimento aleatorio puede concluir de n maneras mutuamente excluyentes e igualmente posibles y m de estas n maneras poseen una caracterfstica E, la proba- bilidad de E esta dada por 7 7 Esse llama evento o suceso y la probabilidad de E se denota P[E]. 70 Estadistica para las ciencias administrativas De lo anterior se tiene que, m aa 4-1 PLE] =" en 0 lo que es lo mismo, Niimero de casos favorables Namero de casos posibles PIE] = Asi por ejemplo, si en el lanzamiento de una moneda nos preguntamos cual es la probabilidad de obtener “cara”. Entonces el evento E esta definido por “obtener cara” y escribimos, E: Se obtiene “cara".La expresién “probabilidad de obtener cara” la representamos mediante la escritura P[E]. Ahora bien, como la moneda puede caer de dos formas distintas mutuamente excluyentes, entonces n = 2; y como de estas dos formas sdlo una corresponde al hecho de que salga “cara” m = 1, la probabilidad pedida esta dada por P[E] = + = 05,de. acuerdo, con la férmula (4-1). Los distintos resultados de un experimento aleatorio dan lugar a un conjunto llamado espacio muestral y se denota por lo general con la letra S y a sus elementos se les llama puntos muestrales. Cada subconjunto del espacio muestral se llama evento © suceso. Al espacio muestral S se le conoce con el nombre particular de evento seguro y al conjunto vacfo se le llama evento imposible. A continuacién desarrojlamos unos ejercicios para precisar el espacio muestral y algunos eventos. - Lanzamiento de una moneda una vez. En el diagrama que sigue exponemos el desarrollo del proceso de lanzamiento de la moneda una vez. aa ic s Por lo anterior se tiene que el espacio muestral es S = {c, s}; y dos eventos pueden ser A = {ch y B = {s}. En este momento es bueno saber que los eventos, aunque son conjuntos, no se acostumbra expresarlos por ninguno de los métodos tradicionales (extensién y comprensi6n) que se estudian en los cursos de matematicas y en cambio se emplea una terminologia propia de la probabilidad. Es asi que el evento (conjunto) A que dimos antes se expresa asf: A: sale “cara” Andlogamente B se expresa como, B: sale “sello” Teoria elemental de la probabilidad 71 - Lanzamiento de una moneda dos veces'. En el diagrama (de arbol) indicamos cémo se \leva a cabo el proceso del lan- zamiento de la moneda dos veces: c ¢ : c s s Por lo anterior se tlene que el espacio muestral es S = {cc, cs, sc, ss}; dos eventos serian A = {cs, ss}o A: se obtiene “sello” en el segundo lanzamiento, B = {cc, cs} 0 B: se obtiene “cara” en el primer lanzamiento. - Lanzamiento de un dado balanceado una vez. t a 2 t 3 4 BE 5 6 El espacio muestral esta dado por S = {I, 2, 3, 4, 5, 6}. Dos eventos son: A = {2, 4, 6} 0 A: se obtiene un numero par de puntos, B = {3, 6} 6 B: se obtiene un numero de puntos miltiplo de tres. ~ Lanzamiento de un dado dos veces”. < " Desde el punto de vista de la probabilidad no hay diferencia entre lanzar una moneda dos veces y lanzar dos monedas. avawnn ? No se hace diferencia entre lanzar un dado dos veces y lanzar dos dados en probabilidad. 72 Estadistica para las ciencias administrativas El espacio muestral esta dado por = {I-l, 1-2, 1-3, 1-4, 1-5, 1-6, ... Gc, 6-2, 6-3, 6-4, 6-5,.6-6} }, 2-2, 3-1} o A: la suma de puntos es cuatro : el namero de puntos en el primer lanzamiento Dos eventos serian, A = {I = {I-1, 2-2, 3-3, 4-4, 5-5, 6-6F0 es igual al segundo. Ahora calcularemos algunas probabilidades. ~ Se lanza una moneda dos veces; halle la probabilidad del evento A: sale “cara” en el primer lanzamiento. Como se sefialé antes S$ =, {cc, cs, sc, ss}y A = {cc, cs} y asi, en virtud de la formula (4-1) se tiene P[A] 0.5, que se traduce como “la probabilidad de obtener cara en el primer "atten es igual a 0.5". - Se lanza un dado dos veces, halle la probabilidad de los eventos siguientes: A: la suma de puntos es siete, B: la suma de puntos es menor 0 igual a cinco. En este caso resulta mas conveniente hacer un cuadro y una tabla como la siguiente: . Primer dado Segundo dado Figura 4.1 Suma de puntos en las “caras” de dos dados después de jugarlos. Suma de puntos 567891011 12 Posibilidades 25634 3 2 I 1 1+2+3+4 10 5 Portanto, P[A] = 36 sz P[B] = a, == - Calcule la probabilidad de que se dé el numero 1936 al hacer girar las cuatro ruedas que se usan en los sorteos de la loteria. En esta situacién la descripcién individual de los resultados no es tan simple como en los dos casos anteriores; ademas no es necesario hacerlo, porque al fin y al cabo lo que importa es el nimero de formascomo pueden darse los distintos resultados y para obtenerlos procedemos de la manera siguiente: Numero de formas como puede darse el primer nimero = 10 Numero de formas como puede darse el segundo resultado = 10

También podría gustarte