Está en la página 1de 42
CAPITULO La utilizacion de graficos para describir datos ESQUEMA DEL CAPITULO / Diagramas de puntos dispersos Tablas y gréticos 1.6. Errores en la preséntacién de los datos, Tablas cruzadas Histogramas engafiosos Graficos de tarta Graficos de series temporales engafiosos Diagramas de Pareto Introducci6n Cudies son las ventas provistas de un nilévo producto? zContinuaré aumentando el coste de las acciones de Google? 4 Quién ganaré en las préximas elecciones presidenciales? ,Cudl es su grado de satisfaccién con su tiltima compra en Starbucks, Media Markt o Decathlon? Si le contratara el organismo nacional de nutticién de su pais, .cémo averiguaria si se estén cumpliendo sus directri- ‘ces sobre el consumo de frutas, verduras, tentempiés y bebidas refrescantes? Es la dicta de las Personas que realizan actividad fisioa més saludable que la dieta de as que no realizan ninguna actividad tisica? 2Qué factores (quiz4 la renta disponible o las prestaciones sociales) son importan- tes para predecir el consumo agregado de bienes de consumo duradero? ¢Cémo afectard una su- bida de fos tipos de interés de un 2 % ala inversiGn en vivienda? ;Contribuyen los historiales credi- ticios, el saldo actual 0 el saldo pendiente a que aumente el porcentaje de cuentas morosas de un banco hipotecario? Para responder a este tipo de preguntas, hay que saber estadistica y conocer las fluctuaciones del mercado, las preferencias de los consumidores, las tendencias, etc. La estadistica se utiliza para predecir o prever las ventas de un nuevo producto, los costes de construccién, los niveles de satistaccién de los clientes, el tiempo meteorolégico, los resultados ‘lectorales, las cifras de matriculados en las universidades, las calificaciones medias, los tipos de interés, los tipos de cambio y otras muchas variables que afectan a nuestra vida diaria. Tenemos ‘que asimilar @ interpretar grandes cantidades de datos. Las administraciones, las empresas y los 1.1, La toma de decisiones en un entorno incierto Estadistica para administracion y economia investigadores cientificos dedican miles de millones de délares a recoger datos. Pero una vez reco- Gidos, zqué hacemos con ellos? zCémo inflyen los datos en la toma de decisiones? En nuestro estudio de la estadistica, aprenkiomos muchos instrumentos que nos ayudan a proce- sar, resumi, analizare interpretar datos con el fin de tomar mejores decisiones en un entomo incierto. En pocas palabras, el conocimiento de la estadistica nos permite interpretar todos los datos. En este capitulo, introducimos tablas y gréficos que nos ayudan a comprender mejor los datos y que constituyen una ayuda visual para tomar mejores decisiones. Los informes mejoran con la in- ‘clusion de tablas y graficos adecuados, como disttibuciones de frecuencias, gréficos de barras, gré- ficos de tarta, diagramas de Pareto, graficos de series temporales, histogramas, diagramas de tallo y hojas u ojivas. La visualizacion de los datos es importante. Siempre debemios hacemos las si- Quientes preguntas: {Qué sugiere el grafico sobre los datos? {Qué es lo que vemos? Las decisiones a menudo se basan en informacién incompleta. Los contables pueden tener que seleccionar una serie de documentos para realizar las auditorias. Los inversores financieros tienen que entender las fluctuaciones del mercado y elegir entre diferentes inversiones de cartera. Los directivos pueden utilizar encuestas para averiguar si los clientes estén satisfechos con los productos 0 con los servicios de su empre- sa. Es posible que un ejecutivo de marketing quiera tener informaciGn sobre las preferencias de los consu- midores, sus habitos de compra o las caracteristicas demogrificas de los compradores por Internet. Un in- vversor no sabe con certeza si los mercados financieros mostrarin una tendencia alcista, estable o bajista. No obstante, tiene que decidir cémo conseguir una cartera equilibrada de acciones, bonos ¢ instrumentos de! mercado de dinero, aunque no sepa eémo evolucionard ef mercado en el futuro. En cada una de estas situaciones, tenemos que definir exactamente el problema, averiguar qué datos se necesitan, recogerlos y utilizar la estadistica para resumirlos, hacer inferencias y tomar decisiones basadas €n los datos obtenidos. El pensamiento estadistico es esencial desde 1a definicién inicial del problema hasta la decisi6n final, como consecuencia de la cual pueden disminuir los costes, aumentar los beneficios, mejo- rar los procesos y aumentar la satisfaccién de los clientes. Muestreo aleatorio y sistematico Antes de introducir un nuevo producto en ef mercado, su fabricante quiere saber cull serd probablemente el nivel de demanda y es posible que realice una encuesta de mercado. Le interesan, en realidad, todos los compradores potenciales (la poblacién). Sin embargo, las poblaciones a menudo son tan grandes que es dificil anatizarlas; seria imposible o prohibitive recoger toda Ia informacién de una poblacidn, Incluso en las circunstancias en las que parece que se dispone de suficientes recursos, la falta de tiempo obliga a exa- ‘minar un subconjunto (tina muestra). Poblacién y muestra Una poblacién es el conjunto completo de todos los objetos que interesan a un investigador. Eltamafio de la poblacién, 0, puede ser muy grande o incluso infinito. Una muestra es un subconjunto observado ‘de una poblacién cuyo tamario muestral viene dado por n. Ejemplos de poblaciones son: * Todos los compradores potenciales de un nuevo producto, acciones que cotizan en la bolsa de valores. *# Todos los votantes censados en un pais. * Todas las cuentas pendientes de cobro de una empresa. La utilizacion de graficos para deseribir datos 3. Nuestro objetivo final es hacer afirmaciones basadas en datos muestrales que tengan alguna validez sobre la poblacién en general, Necesitamos, pues, una muestra que sea representativa de la poblacién. ¢C6- ‘mo podemos lograrlo? Uno de los principios importantes que debemos seguir en el proceso de selecciGn de Ja muestra es la aleatoriedad. Otro método de muestreo es el muestreo sistemaAtico (el muestreo estratificado y el muestreo por con- glomerados se analizan en el Capitulo 17). Supongamos que se desea que el tamatfio de la muestra sea de 100 y que la poblaciGn esté formada por 5.000 nombres en orden alfabético. En ese caso, j = 50. Seleccionamos aleatoriamente un nimero del 1 al 50, Si el nimero es el 20, seleccionamos ese niimero y los sucesivos ntimeros obtenidos sumando 50 al rimero inicial; de esa manera, se obtiene una muestra sistemética formada por los elementos que llevan los niimeros 20, 70, 120, 170, etc. hasta que se seleccionan los 100 objetos. Una muestra sistemética se analiza de la misma forma que una muestra aleatoria simple, ya que, en relacién con el tema investigado, la lista de la poblacién ya esté en orden aleatorio. El peligro estd en que exista alguna relacién sutil e inesperada entre 1a ordenacién de la poblacién y el tema estudiado. En ese caso, habrfa un sesgo si se empleara un muestreo sistemético. Las muestras sisteméticas coffStituyen una buena representacién de la poblacién si la poblacién no experimenta ninguna variacién cfclica, Errores de muestreo y errores ajenos al muestreo ‘Supongamos que queremos saber cusl es la edad media de los votantes censados de un pais. Es evidente que el tamafio de la poblacién es tan grande que solo podrfamos tomar tna muestra aleatoria, por ejemplo, 500 ‘otantes censados, y calcular su edad media. Como esta media se basa en datos muestrales, se llama estadisti- co. Si pudiéramos calcular la edad media de toda la poblacién, la media resultante se llamarfa pardmetro. 4 Estadistica para administracion y economia En este libro, veremos céimo se toman decisiones sobre un parimetro poblacional, basdndose en un estadistico muestral, Debemos damos cuenta de que siempre habri un cierto grado de incertidumbre, ya {que no sabemos cual es cl valor exacto del parimetro. Es decir, cuando se toma una muestra de una pobla- Ci6n, no es posible saber cusl es exactamente el valor de cualquier pardmetro poblacional. Una de las fuen- tes de error, llamado error de muestreo, se debe a que solo se dispone de informacién sobre un subconjun- to de todos los miembros de la poblacidn. En los Capftulos 6, 7 y 8 desarrollaremos la teoria estadistica que ros permite caracterizar la naturaleza del error de muestreo y hacer algunas afirmaciones sobre los parime- ‘tos poblacionales. En los andlisis practicos, puede haber errores que no tengan que ver con el tipo de métado de muestreo utilizado. De hecho, también se podria cometer ese tipo de errores si se tomara un censo completo de la poblacién. Se denominan errores ajenos al muestreo, He aqui algunos ejemplos: La poblacién de la que se hace realmente el muestreo no ¢s la relevante. En 1936, ocurrié un ‘conocido caso de este tipo, cuando la revista Literary Digest predijo con seguridad que Alfred Lan- don ganarfa las elecciones presidenciales frente a Franklin Roosevelt. Sin embargo, Roosevelt gan por un amplio margen. Este error de predicci6n se debié a que los miembros de la muestra de Di- ‘gest Se habian tomado de las gufas de teléfono y de otros listados, como las listas de suscriptores a revistas y los registros de automéviles. En estas fuentes, estaban claramente subrepresentados los pobres, que eran predominantemente demécratas. Para hacer una inferencia sobre una poblacién (en este caso, sobre el electorado estadounidense), es importante obtener una muestra de esa pobla- cin y no de un subgrupo, por muy cémodo que parezca esto titimo, 2. Los sujetos de la encuesta pueden dar una respuesta inexacta o falsa, Eso podria ocurtir porque las preguntas se formulan de una manera difieil de entender o de un modo que parece que una determinada respuesta es més agradable 0 mas deseable. Ademés, muchas de las preguntas que uno {querria hacer son tan delicadas que seria imprudente esperar que todas las respuestas sean sincera Supongamos, por ejemplo, que un jefe de planta quiere evaluar las pérdidas anuales que causan a la ‘empresa los robos de los empleados. En principio, se podria seleccionar una muestra aleatoria de émpleados y preguntar a sus miembros «qué ha tobado en esta planta en los 12 kltimos meses?» no es, desde luego, la forma mas fiable de conseguir la informacién necesaria! Falta de respuesta a las preguntas de la encuesta. Los sujetos de una encuesta pueden no respon- der ninguna pregunta o pueden no responder a algunas. Si eso ocurre en muchos casos, puede haber mas errores de muestreo y errores ajenos al muestreo. El error de muestreo se debe a que el tamatio de Ia muestra logrado es menor que el pretendido. El error ajeno al muestreo puede deberse ‘aque la poblacién de la muestra no es la poblaciGn que interesa. Se puede considerar que los resul- tados obtenidos son una muestra aleatoria de la poblacidn que esta dispuesta a responder. Esta personas pueden ser diferentes en importantes aspectos de la poblacién en general. En ese caso, habra un sesgo en las estimaciones resultantes, No existe ningin método general para identificar y analizar los errores ajenos al muestreo, pero estos pueden ser important igador debe tener cuidado en cuestiones como la identificacién de la po- blacién relevante, el disefio del cuestionario y la falta de respuesta para reducir lo més posible la importan cia de los errores ajenos al muestreo. En cl resto de este libro, suponemos que se ha tenido ese cuidado, por Jo que en nuestro andlisis centramos la atenciGn en el tratamiento de los errores de muestreo. ara pensar cn términos estadisticos hay que comenzar definiendo el problema: (1) ; Qué informacién s. El inves se necesita? (2) ,Cudl es la poblacién relevante? (3) ;Cémo se deben seleccionar los miembros de la mues- tra? (4) ;Cémo se debe obtener informacién de los miembros de la muestra? A continuacién, hay que saber ccémo se debe utilizar la informacién muestral para tomar decisiones sobre la poblaciGn que nos interesa. Por iltimo, querremos saber qué conclusiones se pueden extraer sobre la poblacién, Una ver identificado y definido el problema, se recogen datos producidos mediante diversos procesos de acuerdo con un diseno y, a continuacién, se analizan esos datos witizando uno 0 mas métodos estadisti- cos. De este anilisis se obtiene informacién. La informacién se convierte, a su ver, en conocimiento, utili- La utllizacion de graficos para describir datos & zando los resultados de expericncias espectficas, de la teorfa y de la literatura y aplicando métodos estadis- ticos adicionales. Para convertit los datos en un conocimiento que lleva a tomar mejores decisiones se utili- za tanto la estadfstica descriptiva como la estadistica inferencial. Clasificacion de las variables Una variable es una caracterfstica espectfica (como la edad 0 el peso) de un individuo o de un objet variables se pueden clasificar de diversas formas, Uno de los métodos de clasificacién se refiere al tipo y a la cantidad de informacién que contienen los datos. Estos son categ6ricos o numéricos. Otro método, intro- ducido en 1946 por el psic6logo estadounidense Stanley Smith Stevens, consiste en clasificar los datos por niveles de medicién y obtener variables cualitativas o cuantitativas. La clasificacién correcta de los datos es un primer paso importante para seleccionar los métodos estadisticos correctos necesarios para analizar € interpretar los datos. Variables categoricas y numéricas Las variables eategéricas producen respuestas que pertenecen a grupos 0 categorfas, Por ejemplo, las res- Puestas a preguntas s{/no son categdricas. Cuando se pregunta «Ha estudiado administracién de empre- sas» y «jTiene coche», solo se puede responder «si» 0 «no». Una compatiia de seguros médicos puede clasificar las reclamaciones incorrectas segin el tipo de errores, como los errores de procedimiento y de iagnéstico, los errores de informacién del paciente y los errores contractuales. Otros ejemplos de variables categéricas son las preguntas sobre el sexo 0 sobre el estado civil. A veces, las variables categ6ricas permi- ten clegir entre varias opciones, que pueden ir desde «totalmente en desacuerdo» hasta «totalmente de acuerdoy. Consideremos, por ejemplo, una evaluacién del profesorado en la que los estudiantes tienen que responder a afirmaciones como las siguientes: «Bl profesor de este curso es un buen profesor» (1: total- mente en desacuerdo; 2: un poco en desacuerdo; 3: ni de acuerdo ni en desacuerdo; 4: un poco de acuerdo; 5: totalmente de acuerdo). ~ Las variables muméricas pueden ser variables discretas o variables continuas. Una variable numérica disereta puede tomar (pero no necesariamente) un rtimero finito de valores. Sin embargo, el tipo més fre- cuente de variable numérica discreta produce una respuesta que proviene de un proceso de conteo. Ejem- plos de variables numéricas discretas son el ntimero de estudiantes matriculados en una clase, el niimero de créditos universitarios obtenidos por un estudiante al final de un cuatrimestre y el mimero de acciones de Microsoft que contiene 1a cartera de un inversor. Una variable numérica continua puede tomar cualquier valor de un intervalo dado de nimeros reales ynormalmente proviene de un proceso de medici6n (no de conteo). Una persona puede decir que mide 1,89 metros, pero en realidad puede tener una estatura de 1,81, 1,79 0 algin otro niimero similar, dependiendo de la precisi6n del instrumento utilizado para medir la estatura. Otros ejemplos de variables numéricas con- timuas son el peso de las cajas de cereales, el tiempo que hace una persona en una carrera, la distancia entre dos ciudades 0 la temperatura. En todos los casos, el valor podria desviarse dentro de un cierto margen, dependiendo de Ia precisién del instrumento de medicién utilizado. En las conversaciones diarias, tende- ‘mos a truncar las variables continuas y a tratarlas como si fueran variables discretas sin ni siquiera pensarlo dos veces. Estadistica para admintstracion y economia Niveles de medicion También podemos dividir los datos en eualitativos y ewantitativos. Con datos cualitatives, la «diferencia» centre los ntimeros no tiene ningun significado mensurable. Por ejemplo, si aun jugador de baloncesto se le asigna el nimero «20» y a otro el mimero «10>, no podemos extract la conclusiGn de que el primero es el doble de bueno que el segundo, Sin embargo, con datos euantitativos la diferencia entre los nimeros tiene un significado mensurable. Cuando un estudiante obtiene una puntuacién de 90 en un examen y otro obtic- ne una puntuacién de 45, la diferencia es mensurable y tiene un significado, Los datos cualitatives pueden ser niveles de medicién nominales u ordinales. Los datos cuantitativos pueden ser niveles de medicién basados en intervalos y en razones. Los niveles de medicién nominales y ordinales se refieren a los datos que se obtienen con preguntas ‘categoricas. Las respuestas a preguntas sobre el sexo, el pafs de origen, la afliacién politica y la propiedad de un teléfono mévil son nominales. Se considera que los datos nominales son el tipo de datos més bajo 0 mas débil, ya que la identificaciOn numérica se elige estrictamente por comodidad y no implica una ordena- ccidn de las respuestas. Los valores de las variables nominales son palabras que describen las categorias 0 clases de respuesta. Los valores de la variable sexo son hombre y mujer; los valores de «Tiene coche?» son «sf» ¥ «no» Asignamos arbitrariamente un e6digo o un niimero a cada respuesta. Sin embargo, este mimero no se em. plea més que para clasificar. Por ejemplo, podriamos codificar las respuestas sobre la variable sexo 0 las respuestas si/no de la forma siguiente: Hombres; Sf; 2=No Mujeres Los datos ordinales indican el orden que ocupan los objetos y. al igual que en el caso de los datos nominales, los valores son palabras que describen las respuestas. He aqu‘ algunos ejemplos de datos ordina- les y de cédigos posibles: 1. Valoracién de ta calidad del producto (1: malo; 2: medio; 3: bueno). 2. Valoracién de la satisfaccién con el servidor actual de Intemet (1: muy insatisfecho; 2: moderada- ‘mente insatisfecho; 3: ninguna opiniGn; 4: moderadamente satisfecho; 5: muy satisfecho). 3. Preferencia de los consumidores por uno de tres tipos de bebidas refrescantes (1: el que mas se prefiere; 2: segunda opcién: 3: tereera opeidn). En estos ejemplos, las respuestas son ordinales, es decir, siguen un orden, pero la diferencia» entre ellas no tiene ningén significado mensurable, Es decir, la diferencia entre la primera opcién y la segunda puede no ser igual que la diferencia entre la segunda y la tercera. Los niveles de medicién basados en intervalos y en razones s¢ refieren a los datos obtenidos a partir de variables numéricas y la diferencia entre las mediciones tiene un significado. Una escala de intervalos indi- ca el orden y la distancia con respecto a un cero arbitrario medidos en intervalos unitarios. Es decir, se ffrecen datos en relacién con un nivel de referencia determinado arbitrariamente. La temperatura es un ejemplo clisico de este nivel de medicién; los niveles de referencia determinados arbitrariamente se basan, en general, en los grados Fahrenheit 0 Celsius. Supongamos que hace 80 grados Fahrenheit en Orlando (Florida) y solo 20 en St. Paul (Minnesota). Podemos extraer la conclusién de que la diferencia de tempe lura es de 60 grados, pero no podemos saber si hace el cuddruple de calor en Orlando que en St. Paul aiio es otro ejemplo de un nivel de medicién basado en intervalos: en este caso, los niveles de referencia normalmente se basan en el calendario gregoriano. Los datos basados en una escala de razones sf indican tanto el orden como la distancia con respecto a un ‘cero natural y los cocientes entre dos medidas tienen un significado. Una persona que pest 80 kilos pesa el doble que una que pesa 40; una persona que tiene 40 alos es el doble de vieja que una que tiene 20. Una ver recogidos los datos, primero tenemos que clasificar las respuestas en categéricas © numéricas © segtin la escala de medicién, A continuacién, asignamos un nimero arbitrario a cada respuesta. Algunos gréficos son adecuados para las variables categéricas y otros se utilizan para las variables numéricas. La utilizacion de graficos para deseribir datos. 7 Obsérvese que los ficheros de datos normalmente contienen «valores perdidos». Por ejemplo, los en- cuestados pueden decidir no responder en un cuestionario a ciertas preguntas sobre cl sexo, la edad, la renta © algiin otro tema delicado, Los valores perdidos requieren un cédigo especial en la fase de introducci6n de los datos. Si no se resuelve correctamente Ia cuestién de los valores perdidos, es posible que el resultado sea erréneo. Los paquetes estadisticos resuelven la cuestiGn de los valores perdidos de diferentes formas. EJercicios Entre en wirw.mymathlab com/glabal o en ‘ww.pearsonglobaleditions.com/newbold pars acceder ‘los Ficheros de datos Ejercicios basicos LL. Un banco hipotecario realiza un muestreo aleatorio de las ‘cuentas de sus clientes de tiempo compartido. Indique si ‘cada una de las siguientes variables es categdrica o numé- rica. Si es categérica, indique el nivel de medicién. Si es numérica, jes disereta 0 continua? ‘a. El precio original de compra de una unidad de tiempo ‘compartido de un cliente. . El lugar de residencia de un propietario de tiempo compartido, El grado de satisfacci6n de un propietario de tiempo ‘compartido con el mantenimiento de la unidad com- prada (de 1: muy insatisfecho a 5: muy satisfecho). 4. EI ndmero de veces que el cliente se ha retrasado en pagar. 1.2, Un supermercado de Singapur ha realizado a los clientes una encuesta sobre el servicio de atenci6n al cliente. ;Son categéricas © numéricas las respuestas a las siguientes preguntas? Si una respuesta es categ6rica, indique el nivel de medicién. Si es numérica, jes discreta 0 continua? fa {Habfa estado antes en Ia tienda? b. {Cémo valorarfa el nivel de atenciGn que ha recibido hoy en una escala de 1 (muy malo) a 5 (muy buggo)? ‘e. ;Cudnto dinero ha gastado hoy en la tienda? 13, En una gran universidad, se repartié un cvestionario entre Jos estudiantes para averiguar su grado de satisfaccién con diversas actividades y servicios. Por ejemplo, por lo ‘que se referia a la facilidad para aparcar, se pidi6 a los estudiantes que indicaran su nivel de satisfaccin en una scala de 1 (muy insatisfecho) a 5 (muy satisfecho). (Es Ja respuesta de un estudiante a esta pregunta numérica categérica? Si es numérica, zes discreta o continua? Si es ccategérica, indique el nivel de medicién, 14, En una encuesta realizada recientemente, se pidié al pro- fesorado de una wi ‘que respondiera a una serie de preguntas. Indique el tipo de datos de cada pregunta, a. Indique su nivel de satisfaccién con su carga docente (muy satisfecho; moderadamente satisfecho; neutral; ‘moderadamente insatisfecho; muy insatisfecho). . {Cusntos artfculos ha publicado en revistas con eva- luacién anénima durante los dtimos cinco afios? . 2Ha asistido a la Gltima reunién del consejo de depar- amento? 4. {Cree que el proceso de evaluacidn de la docencia de- be revisarse? 1.5. En un centro de informacién turfstica de Londres, se reali- 26 una serie de preguntas a una muestra aleatoria de turis- tas que entraron. Describa el tipo de datos obtenidos con ccada pregunta. aa. (Vaca pasar la noche en Londres’? \. {Cudntas veces habfa estado anteriormente en Lon- siguientes atracciones ha visitado? Palacio de Buckingham Big Ben Covent Garden Abadia de Westminster 4. {Qué probabilidades hay de que vuelva a Londres en los préximos 12 meses: (1) improbable, (2) probable, (3) muy probable? 1.6. La comunidad de propietarios de viviendas ha formulado una serie de preguntas a los residentes de una urbaniza- ‘cin. Identifique el tipo de datos que se pide en cada pre- gunta. ‘a, {Jug6 al golf el mes pasado en el nuevo campo de golf dde la urbanizacién? 'b. {Cudntas veces comié en el restaurante de Ia urbaniza- ‘cidn el mes pasado? cc. jTiene usted una caravana? 4. Valore el nuevo sistema de seguridad de la urbaniza- cin (muy bueno, bueno, malo, muy malo). Ejercicios aplicados LA, BB sarervior de ama enone fin bane ls tiempos (en segundos) que necesita una muestra aleatoria de trabajadores para realizar una tarea. Esta i formacin y otros datos sobre los trabajadores se encuen- ‘tran en el fichero de datos Completion Times. ‘a. Ponga un ejemplo de variable categ6rica con respues- tas ordinales. 8 Estadistica para administracién y economia b. Ponga un ejemplo de variable categ6rica con respues: Americans. Los datos se encuentran en el Fichero de datos tas nominales, HEL Cost Data Variable Subset ¢. Ponga un ejemplo de variable numérica, a. Ponga un ejemplo de variable categsrica con respues- 18. EI Center for Nutrition Policy and Promotion a dos Unidos (USDA) cres y utilizd el Healthy E: dex-2005 9 (CNPP) del Departamento de Agricultura de Esta 3 Ponga un efmpo de vara etgtrica com rece ir tas nominales, . Ponga un ejemplo de v continu 4. Poniga un ejemplo de variable numérica con respuestas diseretas, able numérica con respuestas ra ver en que medida seguia la poblicidn las ones de las 2008 Dietary Guidelines for 1.3. Graficos para describir variables categoricas Las variables categoricas se pueden describir utilizando tablas Ue distribucin de frecuencias y gréticos como grificos de barras, grificos de tarta y diagramas de Pareto, Estos graficos son wtilizados habitual ado para describir los datos procedentes de encuestas y de mente por los directives y los analistas de met cuestionarios, Distribucién de frecuencias Una distribucién de frecuencias es una tabla que se utiliza para organizar datos. La columna de la izquierda (lamada clases o grupos) contiene todas las respuestas posibles sobre una variable estudia~ da, La columna de la derecha es una lsta de las frecuencias o nimero de abservaciones correspon dientes a cada clase. Se obtiene una distribucién de frecuencias relativas dividiendo cada frecuen- ‘la por el numero de observaciones y multipicando la proporcién resultanto por 100 %. Tablas y graficos Las clases que utilizamos para construir tablas de distribucién de fre simplemente las respuestas posibles a la variable categérica. Los graficos de barras y los graficos de tarta se utilizan normalmente para describir datos categsricos, Si nuestro objetivo es Hamar li atencién sobre la frecuencia de ciuda categoria, lo mas probable es que tracemos un griifico de barras, En un geifico de barras, la altura de un rectdngulo representa cada frecuencia. No es necesario que las barras se toquen, ncias de una variable eategériea son Healthy Eating Index 2005 (HEI-2005): nivel de actividad (distribucion de frecuencias y grafico de barras) El Center for Nutrition Poticy and Promotion (CNPP) del Departamento de Agricultura de Estados Unidos (USDA) y el National Center for Health Statistics (NCHS), que forman parte de los Centers for Disease Control and Prevention (CDC), realizan encuestas para evaluar la salud y la nutticién de Ja poblacién estadounidense. El CNPP realiza el Healthy Eating Index (Guenther et al., 2007) y cl NCHS realiza la National Health and Nutrition Examination Survey (CDC 2003-2004), El Healthy Eating Index (HEI) controla la calidad de la dieta de la poblacién estadounidense, sobre todo en qué medida se ajusta a las orientaciones dietéticas. £1 HEI-2005 mide el grado en que la poblacién sigue las recomendaciones de las Dietary Guidelines for Americans de 2005 (Guenther et ai.). Mide, en particular, en una escala de 100 puntos 1a idoneidad del consumo de verduras, fruta, cereales, leche camne y legumbres y aceites Iiquidos. La utilizacton de graficos para describir datos Tablas cruzadas Hay situaciones en las que tenemos que describir relaciones entre variables categéricas u ordinales. Las empresas de estudios de mercado describen las actitudes hacia los productos, medidas en una escala ordi- nal, en funcién de los niveles de estudios, de medidas del estatus social, de las zonas geogréficas y de otras variables ordinales 0 categGricas. Los departamentos de personal estudian los niveles de evaluacién de los cempleados en relacién con las clasificaciones de los puestos, con los niveles de estudios y con otras varia- bles de los empleados. Los analistas de producci6n estudian las relaciones entre los departamentos o lineas de produccién y las medidas del rendimiento para averiguar las causas de los cambios de los productos, las causas de la interrupcién de la producci6n y la calidad del producto. Estas situaciones normalmente se describen por medio de tablas cruzadas y se representan mediante gréficos de barras por componentes 0 agrupados. Estos grficos de barras son utiles extensiones del gréfico de barras simple de la Figura 1.1. 10 Estadistica para administracion y economia, Tabla cruzada Una tabla cruzada, llamada a veces tabla de contingencia, enumera el numero de observaciones co- rrespondiente a cada combinacién de valores de dos variables categoricas u ordinales. La combinacién de todos los intervaios posibles de las dos variables define las casillas en una tabla. Una tabla cruzada de r filas y c columnas se denomina tabla cruzada de dimension r = c. ‘gnificos de barras por componentes y grificos de E] Ejemplo 1.2 muestra el uso de tablas eruzada ables categdricas del estudio del HEI-2005, ribir graficamente dos v barras agrupados para de ERMeREg HEI-2005: Nivel de actividad y sexo (graficos de barras por componentes y agrupados) Examinemos de nuevo los datos de la Tabla 1.1. A veces es interesante comparar una variable (el nivel de actividad) con otra (como el sexo). Trace graficos de barras por componentes y agrupados que comparen el nivel de actividad y el sexo. Utilice los datos de la primera entrevista (dayeode del fichero de datos HEL Cost Data Variable Subset. Solucién. Lo Tabla 1.2 es una t vo y 3 = muy activo) y el sexo (0 participantes en et HEI-2005, a cruzauda de los niveles de actividad (1 = sedentario, 2 = acti- hombre; | = mujer) obtcnidos en la primera entrevista a los, Tabla 1.2. Nivel de actividad de los participantes en ef HEI-2005 (primera entrevista) por sexo (gréfico de barras por componentes) Hombres Mujeres Total Sedentario 937 2.183 Activo 40 787 Muy activo 842 1.520 Total 2139) 00 formacién con un grdfico de barras por componentes 0 apilado. La Figura 1.3 es un grifico de barras agrupado de los mismos datos. 25004 2.000 11500 1.000 ‘500 ot Hombres Mujeres Figura 1.2. Nivel de actividad de los participantes en el HEI-2005 (primera entrevista) por sexo (grafico de barras por componentes) (grAfico de barras simple), La utilizacion de graficos para describir datos. 11 Graficos de tarta ‘Si queremos llamar la atencién sobre la proporcién de frecuencias en cada categoria, probablemente utili- zaremos un gréfico de tarta para representar la divisién de un todo en sus partes integrantes. El cfrculo (© «tarta») representa el total y los segmentos (0 «trozos de la tarta») que parten del centro representan proporciones de ese total. El grifico de tarta se construye de tal forma que el érea de cada segmento es proporeional a la frecuencia correspondiente. Sa nessa tos ie a ‘Mereado europeo 12 Estadistica para administracion y economia Ovr0s Opera 0.58% 4ae% \° Safari 490%. Febrero de 2011 Figura 1.4. Guerras de navegadores: cuota de mercado europea (gratico de tarta). Opera -- Ors 058% \F 06% Febrero de 2011 Figura 1.5. Guerras de navegadores: cuota de mercado norteamericana (grafico de tarta) Diagramas de Pareto Los directives que necesitan identificar las principales causas de los problemas ¢ intentar cor damente con un coste minimo a menudo utilizan un grafico de barras especial llamado diagrama de Parcto, EL economista italiano Vilfredo Pareto (1848-1923) seflal6 que en la mayoria de los casos un pequeno nui mero de factores es responsable de 1a mayoria de los problemas. En un diagrama de Par barras de izquierda a ders poner el acento en las causas mis frecuentes de los defectos CEE { Diagrama de Pareto Un diagrama de Pareto es un gréfico de barres que muestra la frecuencia de las causas de los defectos. La barra de la izquierda indica la causa més frecuente y as de la derecha indican las causas con frecuen: jas decrecientes. Los diagramias de Pareto se utlizan para separar lo «poco vital» de to «mucho trivial» EL resultado de Pareto se aplica a una amplia variedad’de conductas en muchos sistemas, A veces se denomina «regla del 80-20», Un fabricante de cereales puede observar que la mayoria de los errores de empaquetado se deben tinicamente a unas cuantas causas. Un estudiante podria pensar que el 80 % del trab de grupo ha sido realizado tinicamente por et 20 % de los m jo de snbros del equipo. La utilizacién de graficos para deseribir datos 18 La utilizaci6n de un diagrama de Pareto también puede mejorar la comunicacién con los empleados 0 con la direccién y en el seno de los equipos de produccién, EI Ejemplo 1.4 ilustra el principio de Pareto aplicado a un problema de una compafifa de seguros médicos. Cocke la 0 nee ie neers [Categoria Cdigos de procedimientos y diagnésticos Informacién del proveedor Informacién del paciente Tablas de precios Solicitudes de contratos Ajustes de los proveedores Errores de los programas y de los sistemas core Fea De aah ahs Bs 14 Estadistica para administracién y economia Ejercicios basicos 1.9. Bl gerente de una universidad pidié una desagregacién de los gastos del profesorado en viajes realizados para asistir a diversas reuniones profesionales. Se observ ‘que el 31 % de los gastos de viaje correspondia a los ‘costes del transporte, el 25 % al alojamiento, el 17 % a Ia comida y el 20 % a los gastos de inscripcién en las onferencias; el resto correspondia a costes varios. ‘2. Trace un grifico de tarta b. Trace un grafico de barras. 1.10, Una empresa ha Ilegado a la conclusién de que hay siete defectos posibles en una de sus lineas de productos. Construya un diagrama de Pareto de las siguientes fre- ccuencias de defectos: (Cédigo de los defects Frecuencia 10 70 eumgae> wae 8a 1.11. Se ha pediido a los clientes de un banco que indiquen su grado de satisfaccién con el servicio de los cajeros del bbanco, Estas son las respuestas de una muestra aleatoria de clientes: 60 estaban muy satisfechos; 55 estaban mo- deradamente satisfechos; 5 no tenfan ninguna opinisn; 3 estaban moderadamente insatisfechos; y 2 estaban ‘muy insatisfechos. ‘Trace un grifico de barras, D. Trace un grifico de tata. EL supervisor de una planta ha obtenido una muestra aleatoria de la experiencia de los empleados (en meses) ¥ del tiempo que tardan en realizar una tarea (en minu- tos). Represente los datos con un grifico de barras por 12. componentes. Entre Sy Entre 10 y Experiencial Menos de menos de menos de tiempo S minutos 10 minutos 15 minutos ‘Menos de 3 meses 10 B 25 3 <6 meses 10 B 2 6<9 meses 9 2 8 9< 12 meses 5 18 19 EJercicios aplicados 1.13. Suponga que segtin una estimacién del gasto pico, cl 46 % se destina & pensiones, el 18 % a defensa, el 15 % suregiones y municipios, el 14 % a intereses de la deuda, €1 6 % a otros gasios de la administracin central y el 1% al seguro de depésitos. Represente grificamente es- ta informaciOn mediante un grafico de tara, 1.14, El Statistical Abstract of the United States contiene un resumen fable y completo de estadisticas sobre la orga- nizacién politica, social y econémica de Estados Unidos. La tabla adjunta muestra una lista parcial del némero de ‘especies salvajes en peligro de extincidn tanto dentfo co- ‘mo fuera de Estados Unidos en abril de 2010 (Tabla 383, dde Statistical Abstract of the United States 2011): Bipecies salvajes _ Especies salvajes peligro ‘en peligro de extincién, de extineisn Especie en EE.UU. en otros passes Mamiferos ——~70 255 Aves 6 182 Reptiles B 6 Antibios 4 8 Peces ” ul Fuente: U.S. Fish and Wildlife Servos, piv. census v7 ‘compendiatatabicaa/geography_ environmental (cnsuliado (112 de febrero de 2011), La utilizacion de graficos para describir datos 1s. 116. 47. 1.18. 15 a. Construya un grfico de barras del nimero de espe- cies salvajes en peligro de extincién en Estados Uni- dos. . Construya un grfico de barras del nimero de espe: cies salvajes en peligro de extinci6n fuera de Estados Unidos. ‘e. Construya un grafico de barras para comparar el né- ‘mero de especies salvajes en peligro de extincién en Estados Unidos y el de especies salvajes en peligro de extinciGn fuera de Estados Unidos, Jon Payne, entrenador de tenis, anots el tipo de terrores ms graves que cometié cada uno de sus Jugadores en un programa de formacin de una semana. [Los datos se encuentran en el fichero de datos Tennls, 4. Construya un diagrama de Pareto de Tos erorestota- les cometidos por todos los tenistas, >. Construya un diagrama de Pareto de los errores tota- les cometidos por los tenistas mascutinos, Construya un diagrama de Pareto de los errores tota- Jes cometidos por los tenistas femeninos. 4. Construya un grafico de bars por componentes que ‘mueste el tipo de error y ef sexo del tensta GA qué tipo de actividad de Internet dedica usted la ‘mayor parte del tiempo” Las respuestas de una muestra aleatoria de 700 usuarios de Internet fueron las siguien- tes: realizar operaciones de banca electrénica, 40; com- prar un producto, 60; obtener noticias, 150; enviar o leer correo electrsnico, 200; comprar o realizar una reserva para viajar, 75; enterarse de los resultados de partidos 0 de informacién deportiva, 50; y buscar la respuesta a una pregunta, 125, Describa los datos gréficamente. Una muestra aleatoria de 100 estudiantes de administracién de empresas tuvo que responder una serie de preguntas demogrificas, entre las que se ‘encontraba la especialidad, el sexo, 1a edad, el aio, el ccurso y Ia calificacién media. También se les pregunt6 por su nivel de satisfaccién con el aparcamiento, el alo- Jjamiento y los comedores del campus universitario. Las respuestas a estas preguntas sobre la satisfaccién se mi- dieron en una escala de 1 a 5, en la que 5 correspondita al nivel de satisfaccién mas alto. Por tltimo, se les pregun- 16 si tenfan intencién de hacer estudios de posgrado en un plazo de 5 afios una vez terminado el grado (0: no; 1: si). Estos datos se encuentran en el fichero de datos Finstad and Lie Study. ‘a, Construya un grifico de barras agrupado de la espe- cialidad y el sexo de los encuestados. . Construya un grifico de tarta de sus especialidades. EI Healthy Eating Index-2005 mide el grado en ue la poblacién sigue las recomendaciones de las Dietary Guidelines for Americans de 2005. La Tabla 1.2 es una distribucién de frecuencias de los hombres y de las mujeres en cada uno de los tres niveles de activi- 16 Estadistica para administracion y economia ‘dad: sedentario, activo y muy activo. Este nivel de acti- Vidad se toms en la primera entrevista (daycode = 1). 4, Uillice los datos de la Tabla 1.2 0 Ios datos (dayco- de = 1) del fichero de datos HEI Cost Data Varia ble Subset para construir un grifico de tarta del porcentaje de hombres que hay en cada una de las ca- tegorfas de niveles de actividad. D. Utlice Tos datos de la Tabla 1.2 0 Jos datos (day- code = 1) del fichero de datos HEI Cost Data Va- viable Subset para construir un grifico de tarta del porcentaje de mujeres que hay en cada una de Is ca- tegorias de niveles de actividad. {La cuota mundial de mercado de Internet Explo- rer (IE) cay6 por debajo del 50 % por primera vez en septiembre de 2010 (StatCounter Global Stats Microsofi, 2010). Continué disminuyendo durante los ‘meses siguientes. Los datos sobre la cuota mundial de ‘mercado de enero de 2010 a febrero de 2011 de IE, Fire- fox, Chrome, Safari y Opera se encuentran en el fichero de datos Browser Wars. ‘a Represente las cuotas mundiales de mercado de fe- brero de 2011 com los datos que contiene el fichero de datos Browser War utilizando un gréfico de tarta, b. Utilice un gréfico de tarta para representar las cuotas ‘actuales de mercado de estos navegadores de Internet, ‘Giuente: gs.statcounter.com). . Seleccione un pafs 0 una regiGn de la lista de Stat- Counter Global Stats y represente las cuotas de mer- ceado de! periodo actual con un gréfico de tarta (fuen- te: gsstatcounter.com), 1.4. Graficos para describir datos de series temporales ‘Supongamos que tomamos una muestra aleatoria de 100 cajas de u nueva variedad de cereales. Si reco- -gemos nuestra muestra en un momento del tiempo y pesamos cada caja, las mediciones obtenidas se cono- ‘cen con el nombre de datos de corte transversal. Sin embargo, podrfamos recoger y medir una muestra aleatoria de cinco cajas cada 15 minutos o de diez. cajas cada 20 minutos. Los datos medidos en sucesivos ‘momentos del tiempo se denominan datos de series temporales. Un grafico de datos de series temporales se lama gréfico de series temporales. Ejemplos de datos de series temporales son las cifras anuales de matriculados en Ia universidad, los tipos de interés anuales, el producto interior bruto en un periodo de afios (Ejemplo 1.5), los precios diarios de cierre de las acciones, los tipos de cambio diarios entre varias monedas mundiales (Ejemplo 1.6), los ingresos y los gastos pablicos en un periodo de afios (Ejemplo 1.7), las ventas mensuales de un producto, los beneficios empresariales trimestrales y el tréfico semanal (como el mimero semanal de nuevos visitan- tes) de la pagina web de una empresa a través de las redes sociales (Ejemplo 1.8). En el Capftulo 16, anali- ‘zamos cuatro componentes (tendencial, cfclico, estacional ¢ irregular) que pueden afectar a la conducta de los datos de series temporales y presentamos métodos descriptivos para analizar los datos de series tem- porales. La utilizacion de graficos para describir datos Eee oer 18 Estadistica para administracion y economia Los Ejemplos 1.7 y 1.8 muestran que a veces se utiliza un grafico de series temporales para comparar ms de una variable a lo largo del tiempo. La uttlizacién de graficos para deseribir datos Ejercicios La ulllizacion de graficos para describir datos SS Entre en www.mnymathlab.comv/global o en www pearsonglobaleditions.com/newbold para acceder sos Ficheros de datos. Ejercicios basicos 1.20. Construya un grfico de series temporales del siguiente inimero de clientes que compraron en un nuevo centro comercial durante una semana dada. Dia ‘Niimero de clientes Lunes 525 Martes 540 Miéreoles 469 Jueves 500 Viernes 586 Stbado 640 11.21. A continuacién se indica el nimero de hombres y de muje- res mutriculados en las universidades (grado y posgrado) en Estados Unidos entre 2000 y 2008. Represente grifica- ‘mente estos datos con un grifco de series temporaes. ‘Niimero de matriculados (en miles) Hombres Mujeres 2000) 67218 85905 2001 6.960,8 967.2 2002 7202.1 9409.6 2003 712556 — 9.644,9 2004 73873 9.8844 2005 74559 10.0316 2006 75748 10.1841 2007 78159 10.432,2 2008 8.1889 10.9139 Fuente: Tabla 275 (2011). Saco Abstract of the Unie Sates. EJercicios aplicados 122. Uiilice un grafico de series temporales para rep- resentar tanto la inversi6n interior bruta como ‘el ahorro privado bruto en miles de millones de détares reales de 2005 del fichero de datos Macro 2009. a informaci6n sobre el PIB de la industria de bienes de consumo duradero y no duradero es importante para los propietarios de empresas y para los economists, a. Utilice un gréfico de series temporales para represen- tar el PIB de Ia industria manufacturera por industrias de bienes de consumo duradero (como productos de madera, muebles y productos afines, vehiculos de 123, 124, 128, 1.26, 127, 1.28. 1.29. ‘motor y equipo) en délares cortientes y reales (2005) de 2000 a 2009. Los datos estin expresados en miles de millones de d6lares (fuente: Tabla 1002, 2011, Statistical Abstract of the United States), b. Utilice un grafico de series temporales para represen- tar el PIB de la industria manufacturera por indus- ttias de bienes de consumo no duradero (como ali- ‘mentos, prendas de vestir y productos de cuero) en , y asf sucesivamente. Otra posibilidad es definir las clases de edad del modo siguiente: «20-29», «30-39», etc. Dado que la edad es un ntimero entero, no hay ningsin solapamiento. La scleccién de los Ifmites es subjetiva. Hay que asegurarse simplemente de definir unos limites que permitan comprender ¢ interpretar claramente los datos. En el Apartado 1.3, definimos la distribucién de frecuencias y la distribucién de frecuencias relativas. A continuacién, introducimos dos distribuciones de frecuencias especiales, la distribucidn de frecuencias ‘acumuladas y 1a distribucién de frecuencias relativas acumuladas. stadistica para administracién y economia eupowpare x eee wa De 250 a menos de 260 || De 260 a menos de 270 De 270 a menos de 280 De 280 a menos de 290 De 290 a menos de 300 La utilizacion de graficos para describir datos 25 Histogramas y ojivas Una vez. desarrolladas las distribuciones de frecuencias, estamos preparados para representar gréficamente formaci6n. En este apartado, analizamos dos grificos: los histogramas y las ojivas. La Figura 1.13 es un histograma de los tiempos de realizacién de la Tabla 1.7. La Figura 1.14 es una ojiva que describe las frecuencias relativas acumuladas de la Tabla 1.8. 35 ‘Tiempo (segundos) Figura 1.13. Tiempos de realizacién (histograma). 26 — Estadistica para administracion y economia 30240250 280270280 28000 ‘Tiempo (segundos) Figura 1.14. Tiempos de realizacién (ojiva). Forma de una distribuci6n Podemos describir gréficamente la forma de la distribucién por medio de un histograma. Es decir, podemos saber visualmente si los datos estén repartidos de una manera uniforme a un lado y a otro del punto medio del grafico. A veces, el centro de los datos divide el grafico en dos «imagenes gemelas», de manera que la parte de uno de los lados es casi idéntica a la del otro. Los gréficos que tienen esta forma son siméiricos; los ‘que no la tienen son asimétricos 0 sesgados. Las Figuras 1.15(a), 1.15(b) y 1.15(e) muestran un histograma de una variable unimodal numérica con- tinua con una distribucién simétrica, una distribucién sesgada hacia la derecha y una distribuciGn sesgada hacia la izquierda, respectivamente, Frecuencla Figura 1.15(a). Distribucién simétrica. La uttlizacion de graficos para deseribir datos 27 2 10. Ao as a ee 8 0 {2 904. 682-7) a 8 Figura 1.15(b). Distribucién sesgada hacia Figura 1.15(c). Distribucién sesgada hacia la derecha. la izquierda. La distribucién de las rentas a menudo est4 sesgada hacia Ia derecha, ya que las rentas tienden a conte- ner una proporcién relativamente pequefia de valores altos. Una elevada proporcién de la poblacién tiene una renta relativamente modesta, pero, por ejemplo, las rentas del 10 % superior de todos los perceptores de renta se extienden alo largo de un considerable intervalo de valores. En el Ejemplo 1.10, se muestra el caso de una distribucién sesgada hacia la izquierda, ‘Aunque los histogramas pueden permitimos conocer la forma de la distribucién, es importante recordar que los histogramas mal disefiados pueden ser engafiosos. En el Apartado 1.7, hacemos algunas adverten- ‘cias sobre los histogramas que distorsionan la verdad y en el Capitulo 2 analizamos una medida numérica para determinar el sesgo de una distribucién. 28 — Estadistica para administracion y economia Diagramas de tallo y hojas El andlisis exploratorio de datos (AED) consiste en los métodlos que se utilizan para describir los datos en sencillos términos aritméticos con imégenes féciles de trazar con lépiz y papel. Uno de esos métodos, el diagrama de tallo y hojas, permite idemtificar rpidamente las pautas posibles cuando tenemos un peque’io ‘conjunto de datos. EI niimero de digitos de cada clase indica la frecuencia de clase. Los digitos individuales indican la pauta de valores dentro de cada clase. Salvo los casos arfpicos extremos (los valores de datos que son mu- cho mayores 0 menores que otros valores de! conjunto de datos), se incluyen todos los tallos aunque no haya observaciones (hojas) en el subconjunto correspondiente. En el Ejemplo 1.11, mostramos un diagrama de tallo y hojas. Dlagramas de puntos dispersos En el Apartado 1.3, hemos analizado graficos (cl gréfico de barras, el grafico de tarta, el diagrama de Pare- to) para describir una nica variable categorica y también hemos analizado gréficos (grafico de barras por componentes y grafico de barras agrupado) para describir la relacién entre dos variables categéricas. En este apartado, hemos presentado los histogramas, las ojivas y los diagramas de tallo y hojas para describir La utilizacion de graficos para describir datos 29 una Gnica variable numérica. A continuaci6n, ampliamos las medidas gréficas para incluir el diagrama de ‘Puntos dispersos, que es un gréfico que se utiliza para investigar posibles relaciones entre dos variables ‘numéricas. Los andlisis empresariales y econémicos a menudo se refieren a las relaciones entre variables. ,Cémo afecta la publicidad a los beneficios totales? ;Cudnto varfa la cantidad vendida como consecuencia de una ‘modificacién del precio? {Cémo influye en las ventas totales la renta total disponible en una regiGn geogré- fica? ,Cémo varia Ia mortalidad infantil en los pafses en vias de desarrollo cuando aumenta la renta per ‘c&pita? ;Cémo se comporta un activo en relacién con otro? {Obtienen mejores calificaciones medias en la universidad los alumnos que tienen mejores notas en el examen de selectividad’? En estos ejemplos, observamos que una de las variables puede depender en alguna medida de la otra. Por ejemplo, la cantidad vendida de un art{culo puede depender del precio del articulo. En ese caso, llam ‘mos a la cantidad vendida variable dependiente y la representamos por medio de ¥ y al precio del articulo variable independiente y la representamos por medio de X. Para responder a estas preguntas, reunimos y analizamos muestras aleatorias de datos recogidos en poblaciones relevantes. Una imagen a menudo muestra la relacién que puede existir entre dos variables. Nuestro anilisis comienza con la construcciGn de un gréfico llamado diagrama de puntos dispersos. En os Capitulos 11 a 13, realizamos un estudio mAs extenso de as posibles relaciones entre las variables ‘numéricas, Podriamos trazar diagramas de puntos dispersos representando puntos en un papel milimetrado. Sin ‘embargo, todos los paquetes estadfsticos modernos contienen rutinas para realizar directamente diagramas de puntos dispersos a partir de un fichero de datos electr6nico. La realizaci6n de un diagrama de ese tipo es una tarea habitual en cualquier andlisis inicial de datos que se realiza al principio de un estudio econémico ‘oempresarial. En el Ejemplo 1.12, mostramos un diagrama de puntos dispersos de dos variables numéricas. puntos « 8 Ejercicios La utilizacion de graficos para describir datos 31 Enice en wwrw.mymathlab.com/global o en ‘www pearsonglobeleditions.com/newbold pars scceder alos Ficheros de datos. Ejercicios basicos 1.30. Utilice la gua répida para hallar un némero aproximado de clases de una distribucién de frecuencias suponiendo due el tamaiio de la muestra es: an=47 ben=80 en =150 din=400 n= 650 1.31. Halle la amplitud que deben tener los intervalos en el ca- 0 de una muestra aleatoria de 110 observaciones que se encuentran ‘a, Entre 20 y 85 (inclusive). bb, Entre 30 y 190 (inclusive) . Entre 40 y 230 (inclusive) d. Entre 140 y 500 (inclusive), 1.32, Considere los datos siguientes: ayes an Series 2% 51 mM 6S Deuethe st gels 9. 32 4 260. 1 4 2 447 59 13 4456 2 4 659 ‘a, Construya una distibucién de frecuencias, b. Trace un histograma. ‘e. Trace una ojiva, 4. Trace un diagrama de tallo y hojas. 1.33. Trace un diagrama de tallo y hojas de las horas que dedican 20 estudiantes a estudiar para un examen de marketing 35 28 45 62 48 23 26 39 44 55 52 67 30 24 50 36 29 10 28 36 1.34. Considere la siguiente distribucién de frecuencias Clase Frecuencia 0=10 8 10 <20 10 20<30 13 30.<40 12 40.< 50 6 ‘a, Construya una distribucién de frecuencias relativas. >. Construya una distribuci6n de frecuencias acumu- das. Construya una distribucién de frecuencias relativas acumuladas. 1.35. Realice un diagrama de puntos dispersos con los datos siguientes: (5.53) (21,65) (14,48) (11,66) (9.46) (4,56) 753) @1S7) (1749) (14,66) 54) (7.56) 9.53) 21,52) (13,49) (14,56) 59) (4,56) Ejercicios aplicados 1.36. La tabla siguiente muestra la distribucién por edades de los participantes en vn torneo benéfico de tenis celebra- do en Rome: Baad 18-24 25-34 35-44 45-54 55+ Porcentaje 18,26 1625 25,88 a. Construya una distribueién de frecuencias relativas scumuladas. ’. {Qué porcentaje de los participantes tenfa menos de 135 altos? © {Qué porcentaje de los participants tenia 45 aos 0 mis? En Florida, la demanda de agua embotelada aumenta durante la temporada de huracanes. El director de una planta que embotella agua quiere estar seguro de que el proceso de embotellado de botellas de un gal6n (3,785 ios aproximadamente) est funcionan- do correctamente, Actualmente, la compafia esté com- probando el volumen de las botellas de un gal6n. Se comprucha una muestra aleatoria de 75 botellas. Estudie el proceso de embotellado de este producto y presente tun informe de sus resultados al diector de operaciones. ‘Construya una distrbucin de frecuencias, una distribu- ign de frecueneias acumuladas, un histograma y un dia- grama de tallo y hojas. Incorpore estos gréficos a un re- sumen bien redactado. Cémo podriamos pensar en téeminos estadisticos en esta situacin? Los datos se en- ‘cuentran en el fichero de datos Water. EE fichero de datos Returns contiene 1s rend mientos porcentuales obtenidos en un determina- 4d dia por los 25 mayores fondos de inversiGn en accio- nes ondinarias de Estados Unidos. a. Construya un histograma para describir los datos. 137. 1.38, 82 —_Estadistica para administracion y economia 1.39. ‘Ann Thome, Ia directora de operaciones de una tear nirmpentin se de que el proceso que se emplea para llenar los enva- ses de ocho onzas (237 mil) de SunProtector esté funcio- nando correctamente. Suponga que se selecciona una ‘muestra aleatoria de 100 envases de esta crema, se mi- den los contenidos y se almacenan los volémenes (en zl) en el fichero de datos Sun. Describa los datos grati- camente. Una empresa fija diferentes precios para un sistema de DVD en ocho regiones diferentes del pais. La tabla ad- junta muestra el niimero de unidades vendidas y los co- rrespondientes precios (en délares). Represente los datos por medio de un diagrama de puntos dispersos en el que las ventas sean la variable dependiente y el precio sea la variable independiente, Ventas 420 380 350 400 440 380 450 420 141 109 Precio 104 195 148 204 96 256 ‘Una empresa realiza un test de aptitud a todos tos nue vos representantes de ventas. La direcciGn tiene interés ‘en saber cudl es la posible relacin entre las puntuacio- nes obtenidas en el test y el éxito final de los represen- tantes de ventas. La tabla adjunta muestra las ventas se- rmanales medias (en miles de délares) y las puntuaciones del test de aptitud de una muestra aleatoria de ocho re- ‘resentantes. Construya un diagrama de puntos dispersos fen el que las ventas semanales sean la variable depen- dente y las puntuaciones del test sean Ia variable inde- LAL. ‘Ventas semanales 10 12 28 24 18 16 15 12 Puntuacién del test $5 60 85 75 80 85 65 60 Los médicos tienen interés en saber cual es la posible re- lacién entre la dosis de un medicamento y el tiempo que necesita un paciente para recuperarse. La tabla adjunta ‘mestra las dosis (en gramos) y los tiempos de recupera- cidn (en horas) de una muestra de 10 pacientes. Estos pacientes tienen unas caracterfsticas similares, salvo por las dosis del medicamento. Describa los datos grifica- ‘mente con un diagrama de puntos dispersos. Dosis 142. 12:13:10 14 1,5 1812 131413 ‘Tiempo de recuperacién 25 28 40 38 10 9 27 30 16 18 143. El supermercado Bishop's anota el precio efect vo de los productos de alimentacién y las canti- dades vendidas semanalmente, Utilice el fichero de da- 144, 14s. 1.46, tos Bishop para obtener el diagrama de puntos dispers0s del precio efectivo de un galdn de zumo de naranja y las ccantidades semanales vendidas a ese precio. {Sigue el dingrama de puntos dispersos Ia pauta que indica la teo- sfa econsmica? Un vendedor ambulante de Hong Kong oftece tres tipos de comida preparada para llevar a 3, 5 y 10 dlares,res- pectivamente, Le gustarfa saber si existe una relacién centre el precio de la comida preparada y el nimero de ‘ventas por hora, para Jo cual anota durante 15 dias el ni- ‘mero de ventas de cada uno de los tres tipos de comida preparads. Los datos siguiemtes muestran el precio de la comida preparada (x) y el nimero vendido (y) durante cada una de las 15 horas del almuerzo. 7), 5) (10, 2) (3,9) (5, 6) (10, 5) G, 6) 5, 6) 40, 1), 10) (5, 7) (10, 4) @, 5) , 6) (10, 4) ‘Trace un diagrama de puntos dispersos de los puntos y comente Ia relacién entre el precio de las comidas pre~ paradas y el ndmero vendido durante cada hora del al- ‘muerzo. El fichero de datos Stordata comtiene los ingre- 80s totales por ventas (en d6lares) segin el dia de la semana. Realice una tabla cruzada en Ia que apa- rezcan los dias de la semana en tas filas y los cuatro intervalos cuartilicos de ventas en las columnas, 1. Caleule los porcentajes por fas. bb {Cudles son las principales diferencias entre los nive- Jes de ventas de los distintos dias de la semana segéin los porcentajes por filas? . Describa las pautas esperadas del volumen de ventas lo largo de la semana baséndose en esta tabla. Muchas ciudades pequefas hacen muchos es fuerzos para atraer establecimientos comercia- Jes, como centros comerciales y grandes almacenes. Uno de os argumentos es que estas instalaciones aumentan el rnimero de propicdades que se pueden gravar y, por tan- to, generan més fondos para satisfacer las necesidades de las administraciones locales. Los datos del fchero de ‘datos Citydatr proceden de un estudio de la capacidad municipal de generacién de ingresos. Realice un diagra- ‘ma de puntos dispersos dela variable «taxbase>, 0 sea, de la base imponibe, es decir, del valor catasral de t- 4as las propiedades municipales en millones de dares, en relaciGn con la variable scomper», que es el porcen- taje del valor catastral de las propiedades que son pro- piedades comerciales. ;Qué informacién suministra este diagrama de puntos dispersos sobre la base imponible y el porcentaje de propiedades comerciales que hay en la ciudad? La utilizacion de graficos para describir datos. 33 1.6. Errores en la presentaci6n de los datos Los gréficos mal realizados pueden distorsionar fécilmente la verdad. Si se emplean de una manera sensata yy prudente, pueden ser excelentes instrumentos para extraer la informacién esencial de lo que, de lo contra- rio, serfa una mera masa de nimeros. Desgraciadamente, no siempre se intenta resumir los datos de una manera sensata 0 prudente. En esas circunstancias, es fécil que la manera en que se presenta el resumen induzca a error. Debemos extraet de los datos la imagen més clara y precisa posible. Los grificos incorrec- tos pueden ofrecer una imagen distorsionada y dar una falsa impresi6n. Es posible transmitir un mensaje erréneo sin ser deliberadamente deshonesto. Realizar los grificos con precisiGn es esencial en los mercados mundiales de hoy. Los sesgos culturales pueden influir en la manera en que vemos los gréficos. Por ejemplo, en las culturas occidentales la gente lee de izquierda a derecha y hace lo mismo autométicamente cuando observa grificos de barras 0 de series temporales. En esta situaciGn, debemos tratar de colocar la informacién més importante en el lado derecho del grifico. Los gréficos deben ser convincentes, claros y veraces. En este apartado, presentamos algunos ejemplos de gréficos engafiosos, no con el fin de animar a utiizar- los sino con el fin de advertir de sus riesgos. El Ejemplo 1.13 muestra que las distorsiones en los histogramas pueden llevar a extraer conclusiones incorrectas. El 1.14 muestra que la eleccién de una u otra opcién para el ‘ee de ordenadas en los grificos de series temporales puede llevar a extraer conclusiones diferentes. Histogramas engahosos Sabemos que la amplitud de todos los intervalos tiene que set ta misma. Supongamos que un conjunto de ‘datos contiene muchas observaciones que se encuentran dentro de una parte relativamente reducida del rango, ‘mientras que otras estén muy dispersas. Podrfamos tener la tentacién de construir una distribucién de frecuen- ccias con intervalos reducidos en los que se encontrara la mayorfa de las observaciones e intervalos més am- plios en otra parte. Aunque recordemos que son las éreas, no las alturas, de los rectdngulos del histograma las ‘que deben ser proporcionales a las frecuencias, nunca es una opciGn deseable construir un histograma con diferentes anchos de columnas, ya que puede engafiar 0 distorsionar los resultados. Ineluimos este apartado simplemente para sefialar los errores que podemos encontraros en los histogramas. En el Ejemplo 1.13, mos- tramos cémo se construye un histograma cuando los intervalos no tienen todos ellos la misma amplitud. 34 Estadistica para administracion y economia Tabla 1.10... Recibos de una tienda de slimentacion (eantidades en dolates. ‘Cantidad en délares Numero de recibos _ Proporciones os

También podría gustarte