Está en la página 1de 46
ESTADISTIC. METODOS NU! ‘A DESCRIPTIVA: |MERICOS CONTENIDO ESTADISTICA EN LA PRACTICA: SMALL FRY DESIGN a 32 33 34 3.6 MEDIDAS DE LOCALIZACION Media Mediana Moda Percentiles Cuattiles MEDIDAS DE VARIABILIDAD Rango Rango intercuartl Varianza Desviacién estindar Coeficiente de variacién MEDIDAS DE LOCALIZACION RELATIVA Y DETECCION DE VALORES AT{PICOS Valores 2 Teorema de Chebyshev La regla empitica Deteceién de valores atipicos ANALISIS EXPLORATORIO DE DATOS Resumen de cinco niimeros Diagrama de caja ‘MEDIDAS DE ASOCIACION ENTRE DOS VARIABLES Covarianza Interpretacién de la covarianza Coeficiente de correlacién Interpretacién del coeficiente de correlacién MEDIA PONDERADA Y MANEIO DE D. i vearaaeen ATOS AGRUPADOS Datos agrupados Exotica en ka prdetica Pundada en 1997, Small Pry Design es igoetes ¥ accesonios que disedia ¢ hebés. La linea de productos de la bs reloche . iguetes musicales, sonajas y colchas de sep tencid disetbo de mufiecos de peluche de alta cen el color, text na empresa dle jus OHA prdetos para npaia ineluye aves W se centra en el dad con énfasis, 108 son disefia Y sonido, Los pro ddox en Estados Unidos y se fabrican en China Small Fey Design emplea a representantes indepen: dlientes para vender los predctos a distribuidores al me, naadeo de accesories para Bebé, almaccnes de top y accesorios para beds. tiendas de regalos, alma, departamentales para personas de altos ingresos y com. pahfas importantes de ventas por eatélogo. En la actun, lided, os productos de Small Fry Design se distibuyen cen mis de 1000 puntos de venta al menudeo en Estados Unidos, El manejo de flujo de efectivo es una de las activida- des més importantes en las operaciones diarias de esta floreciente compaiia. Asegurar el ingreso suficiente de efectivo para satisfacer las obligaciones monetarias ac. tuales y en curso puede significar la diferencia entre un negocio exitoso y el fracaso. Un factor critico en el ma- nejo del flujo de efectivo es el andlisis y control de cuen- tas por cobrar. Al medir el tiempo promedio y el valor monetario de facturas pendientes, la administracién per- mite predecir la disponibilidad de efectivo y vigilar los cambios en el estado de cuentas por cobrar. La compaifa ha establecido los siguientes objetivos: el tiempo prome- dio para facturas pendientes no debe ser mayor de 45 dias y el valor monetario de las facturas con mis de 60 dias no debe exceder 5% del valor monetario de las cuentas por cobrar. En un resumen reciente del estado de las cuentas por cobrar se proporcionaron las siguientes estadi criptivas para la edad de Jas facturas vigentes: “los autores opradecen a John A. McCarhy, presidente de Small Fry Design, haber proporcionado este foma de Estodisica en la prsica, En el capitulo 2 deseribimos los métodos tabulares y graficos para resumir datos, mismos que son eficaces para redactar informes y son ayuda visual en presentaciones a individuos 0 gr pos. En este capitulo presentaremos varios métodos numéricos de la estadistica descriptiva, 73 Algunos de los productos de Small Fry Design. © Fotografia, cortesia de Small Fry Design. Media 40 fas Mediana 35 dias ‘Moda 31 dias La interpretacién de estas estadisticas deja ver que la edad media o promedio de una factura es de 40 dias. La media- ‘na muestra que la mitad de las facturas han estado vigen- tes 35 dias o mas. La moda de 31 dias es la edad de factura més frecuente, ¢ indica que el periodo mas comiin que una factura ha estado vigente es de 31 dias. El resumen esta- distico también mostré que 3% del valor monetario de las cuentas por cobrar duré mas de 60 dias. Con base en la in- formacién estadistica, la administracién estuvo de acuer- do en que las cuentas por cobrar y el ingreso de flujo de efectivo estuvieron bajo control. En este capitulo el lector aprender cémo calcular € interpretar las medidas estadisticas que emplea Small Fry Design. Ademds de la media, la mediana y la moda, apren- derd otros estadisticos descriptivos, como el rango, la va- rianza, Ia desviacién esténdar, los percentiles y la correlacién, Esas medidas numéricas ayudan a compren- der y a interpretar los datos. gue proporcionan mAs alternativas para restmir los datos, ‘Comenzaremos con conjuntos de datos de una sola variable. Las medidas numéticas de localizacién y dispersin se calculan a partir de los n valores de los datos, Si el conjunto de da- tos tiene més de una variable, esas medidas numéricas se pueden calcular por separado para 74 31 Copitvlo 3 Estadistica descriptiva: métodos numéricos cada variable. Enel caso de dos variables, desarollaremos también las medidas de gray, od In relacién entre las variables, Hay varias medidas numéricas de localizacién, dis mos. Si se calculan partiendo de datos de una muestra, se Haman estadisticos de la muey Si se caleulan a partir de datos de una poblacién, entonces se denominan pardmettos pote clonal MEDIDAS DE LOCALIZACION Media Quiz4 Ia medida numérica mAs importante de la localizacién sea la media o promedio de ung variable, que es una medida de la localizacién central. Si los datos proceden de una muestra, cl promedio se representa con £; si proceden de una poblacién, se utiliza la letra griega y, En las formulas estadisticas, se acostumbra denotar el valor de la variable x para la pri. mera observacién mediante x, el valor de x para la segunda observaci6n con 2, etc. En ge. neral, el valor de x para la i-ésima observaciGn se denota mediante x;- Para una muestra conn observaciones, la férmula para la media de la muestra es como sigue. ‘Media de la muestra (3.1) En Ja formula anterior, el numerador es a suma de los valores de las n observaciones. Es decir, Bysxp tay tec ty, La letra griega 5 es el signo de suma, o sumatoria, Para ilustrar el célculo de un promedio muestral veamos los siguientes datos del tamafio del grupo, para cinco grupos en una escuela. 46 54 42 46 32 Aplicamos la notacién x, x, 5, X45 para representar la cantidad de alumnos en cada uno de los cinco grupos. 246 54 y= y= 4 = 32 Por consiguiente, para calcular el promedio de la muestra podemos escribir ett tay tatty 46 +54 + 42 + 46 +32 3 3 El tamaiio medio del grupo es de 44 estudiantes. Otro ejemplo del célculo de una media muestral es el siguiente caso. Suponga que una bolsa de trabajo universitaria manda un cuestionario a una muestra de graduados de su escue- a de administracién, donde se pide informes sobre sus salarios iniciales. La tabla 3.1 mues- Maedidas de localizacién 75 SUALES INICIALES PARA UNA MUESTRA DE 12 DBUNA ESCUELA DE ADMINISTRACION | Sueldo _ Sueldo Egresado ——_menstal (dares) Egresndo —_‘mensual (d6lares) 1 2850. 1 7890, | 2 2950 8 3130 suey 3 3050, 9 2940 4 2880 10 3325 5 2755 iW 2920 6 2710 12 2880 tra los datos que se reunieron. El promedio de salario mensual inicial de la muestra de 12. grax dundos de esa escuela se calcula asf: ty tectan 12 + 2880 _ 2850 + 2950+ 12 35 280 7 240 La ecuacién (3.1) indica cémo calcular la media cuando la muestra tiene m observacio- nes. La formula para calcular Ia media de una poblacién es la misma, aunque se usa distinta notacién para indicar que se trabaja con toda la poblacidn. La cantidad de elementos de 1a po- blaci6n se representa por Ny el sfmbolo de la media de la poblacién es #. Media de la poblacién 2 Hea (3.2) Mediana La mediana es otra medida de la localizaién central de Ios datos. Bs el valor intermedio saa los valores de los datos se ordenan en forma ascendente, Con un nimero impar de ob- saacfones, la mediana es el valor intermedio. Un nimero par de observaciones no tiene vax ser ntermedio, En este caso se sigue la convencin de defini la mediana como el promedio vp tos valores de ls dos observaciones intermedias. Por comodidad, Ia definicién de la me- diana se enuncia como sigue. | Mediana ‘Ordene los datos en orden ascendente (de menor a mayor). 4) Para un nimero impar de observaciones, Ia mediana es el valor intermedio. ) Para un nimero par de observaciones, Ia mediana es el promedio de los dos valores intermedios, Estadistica descriptiva: mélodos numéricos 76 Copitulo 3 Apliquemos esta definiidn para calular la mediana del tama de grupo para ta muy cinogrposen a eseel Al dispone scino valores de datos en orden cena te tiene la siguiente lista ordenada, * 04 32 42 46 46 54 Como n = 5s impala mediana es el valor intermedio. Ast a mediana del tami ge ido este conjunto de datos tiene dos valores 46, cada uno se ¢% 8 46 alunos, Aun eu como elemento separado al ordnar los datos de manera ascendentey determinar lamee’® Suponga que tanbign calculamos la mediana del sala nical de los eresads ge ula de administacin, Ordenamos los 12 elementos de fa tabla 3.1 en foma ascends 2N0 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 y5 Dos valores intermedios Como n = 12 es par, identificamos ios dos valores intermedios: 2890 y 2920. La median Ja media de esos dos valores. Malina «280° 2920 as 1a medians es la medida de Aunque la media es la medida de localizacién central que mas se usa, hay cas0s en los jrealeacién ques uiso.con és que se prefiere la mediana. Como dijimos antes, la media se-ve influida por valores extrema. damente pequefios o extremadamente grandes. Por ejemplo, suponga que uno de los egresa. “frecuencia para datos de ingreso onan peqcto mince oes 40S f4VO Un salarioinicil de 10 000 délaces por mes (quzé porque su familia es uefa de a ranean reste os cures) "Si pbtannos el cain alas ocona neal or le GOS STe ape 10000 ingresos ocotasrales se puede ares y recaleulamos la media, éstacambia de 2940 a 3496 d6lares. Sin embargo, la media. inflar la media. En esos casos lana de 2905 no cambia, porque 2890 y 2920 siguen siendo los dos valores intermedi Alin- Teemracrinemdormeddede ciuir el salar inicial extremadamente grande, Ia mediana da una mejor indicacion de cae Jocalizacién central que la media. Podemos generalizar lo anterior y decir que si un eoajuna de datos tiene valores extremadament altos 0 bajos, con frecuencia la mediana es la media preferida de localizacién central. ‘Moda Una tercera medida de localizacién es Ia moda, y se define como sigue. Moda La moda es el valor de los datos que se presenta con més frecuencia, Para ilustrar Ia identificaci6n de 1a moda, veamos la muestra de los cinco tamatios de gru- o. El tinico valor que se presenta més de una vez es 46; como este valor (cuya frecuencia es 2) tiene la méxima frecuencia, consttuye la moda, Otro ejemplo: veamos la muestra de sal + Tios iniciales de los egresados de la escuela de administracién. El tinico salario mensual ini- cial que se presenta més de una vez es de 2880 délares. Como este valor tiene 1a méxima frecuencia, constituye la moda. ‘Se dan casos en los que la méxima frecuencia se presenta en dos 0 més valores distints, or lo que en ellos existe més de una moda. Si los datos tienen exactamente dos modas, sed ce que son datos bimodale ienen mas de dos modas, son multimodates. En Jos casos mut timodales casi nunca se menciona la moda, Porque no ayudaria citar tres o més modas pal* describir Ia localizaci6n de los datos. 3.1 Medidos de locolizacién Percentiles Un percentil da informacién acerca de cémo se distribuyen los valores sobre el intervalo, des- de el menor hasta el mayor. Para datos que no tienen muchos valores repetidos, el p-ésimo (Ge dice “peésimo”) percentil divide los datos en dos partes. Més 0 menos el p por ciento de las observaciones tienen valores menores que el p-fsimo percentil. Aproximadamente el (100~p) por ciento de las observaciones tienen valores mayores que el p-ésimo percentil. Es- te percentil se define como sigue: Percentil El p-ésimo percentil es un valor tal que por lo menos p por ciento de las observaciones son menores 0 iguales que este valor y por lo menos (100 ~ p) por ciento de las obser vaciones son mayores 0 iguales que este valor. Las calificaciones de admisiGn en las escuelas y universidades se registran con frecuen- cia en forma de percentiles. Por ejemplo, suponga que un solicitante alcanza una calificacién bruta de 54 en la parte verbal del examen de admisién. No se sabe con facilidad cémo se de- sempeiié ese alumno en relacién con otros que presentaron la misma prueba: sin embargo, si Ia calificaci6n bruta de 54 corresponde al percentil 70, sabemos que, aproximadamente, 70% de los alumnos tuvo calificaciones menores que este valor y més o menos 30% tuvo califica- ciones mayores que él. Para calcular el p-Esimo percentil se aplica el siguiente método. CAleulo del p-ésimo percentil 5 fli caleutar los Paso 1. Ordene los datos de manera ascendente. Seem shoes Paso 2. Caleule un indice é = (2 ‘ (ita)" en donde p es el percentil de interés y nes la cantidad de observaciones. Paso 3. a) Si ino es entero, se redondea. Bl valor enteto inmediato mayor que i indica la posicidn del p-ésimo percentil. b) Si sf es entero, el p-ésimo percentil es el promedio de los valores de Jos datos ubicados en los lugares fe i+ 1. Como ejemplo de este procedimiento, determinemos el percentil 85 de los datos de sala- rio inicial de la tabla 3.1. Paso 1. Disponga los 12 valores de los datos en orden ascendente. 2710 2755. 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 fe (Pala += (a= (re) Paso 3. Como i no es entero, redondeamos. El lugar del percentil 85 es el siguiente en- tero mayor que 10.2, o sea, el lugar 11. Paso 2. Al referimos de nuevo a los datos, vemos que el percentil 85 es el valor en la posicién déci- ma primera, 0 3130. Nise satis Los cuartiles son slo percentiles ‘especficos: por consiguiente, los ‘pasos para calcular los percentiles ‘se pueden aplicar en forma directa, para calcular los cuartiles. Coptivlo 3 Estadisica descriptiva: métodos numéricos Veamos otro ejemplo del procedimient: callers el percent SO. Apt obtenemos * APtisando ea | (50) ‘ (in) a Como ies entero, el paso 3b) establece que el percentil $0 es el promedio de los vaore, Teardntos sentoy séptimo; es, por lo tanto, (2890-+ 2920)/2 = 2905. Observe que el pot enti 50° es también la mediana. Cuartiles Con frecuencia se dividen los datos en cuatro partes, cada una con aproximadamente ta parte, 0 el 25% de las observaciones. La figura 3.1 muestra un conjunto de datos ‘en cuatro partes. A los puntos de divisi6n se les llama cuartiles, y se definen como s Q, = primer cuartl, o percentil 25 (Q)= segundo cuartil, o percentil 50 (también la mediana) Q)= tercer cuartl, o percentil 75. De nuevo usaremos los datos de sueldo inicial mensual, arreglados en orden ascendente; yg dijimos que Q,, el segundo cuartil o mediana, ¢s 2905. 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 Para determinar Q, y Q3 emplearemos la regla para calcular el percent 25 y el 75. Desert. remos es0s célculos. Para Q1, iz (San = (Be =3 ‘Como ies entero, de acuerdo con el paso 3b) el primer cuartil, o percentil 25 es el promedio del tercero y cuarto valor de los datos; asf, Q, = (2850 + 2880)/2 = 2865. Para Qs, FIGURA 3.1 LOCALIZACION DE LOS CUARTILES | I Ufo einai Ejercicion De nuev medio de los valores de los dat Los cunttites ones, 79 como Fes entero, el paso 3h) indica que el tercer cunrtil, o percentil 75 es el pro- rnoveno y déeimo; asf, Qy = (2950 + 3050)/2 = 3000, idieron tos valores en cuntro partes, cada ‘con 25% de las observa 2710 2785 2850 | 2880 2880 2890] 2920 2940 2950] 3080 3130 3325 Q, = 2865 Q, = 2905 2; = 3000 (Medinna) ccuartiles en la 0s los eutatiles como los percentiles 25, 50 y 75. Ast, hemos calculado tos sma forma que otros percentiles, Sin embargo, veces se emplean otras con- Yenciones para catcular los euartiles y los valores reales calculados pueden variar un poco de- pendiendo de la convencisn seguid celeulo de cuattiles es divi Es mejor usar la mediana que la media como medida de tendencia central, cuando un con- junto de datos contiene valores extremos. Otra ‘medida que se usa a veces cuando hay valores extremos es Ia media recortada, que se obtiene climinando los valores minimo y méximo de un cconjunto de datos, y calculando entonces el pro- medio de los valores restantes. Por ejemplo, la media recortada al 5% se obtendria eliminando €15% de los valores mayores y el 5% de los me- nores, en un conjunto de datos, procediendo en- tonces a calcular el promedio de los valores restantes. La media recortada al 5%, de los suel- dos iniciales de la tabla 3.1 es 2924.50 d6lares Métodos ‘Sin embargo, el objetivo de todos los procedimientos de los datos en, aproximadamente, cuatro partes iguales, LR ALU 2. Los partidarios del andlisis exploratorio de da- tos desarrollaron una altemnativa a los cuartiles para dividir un conjunto de datos en cuatro par- tes iguales: la charnela inferior corresponde al primer cuartl, y la charnela superior al tercer cuartil. Debido a los diferentes métodos de cAlculo, puede suceder que los valores de las. chamelas y de los cuartiles sean un poco distin- tos, Pero ambos se pueden interpretar, correcta- mente, como la divisién de un conjunto de datos en cuatro partes aproximadamente igua- les. Para los datos de sueldo inicial de la tabla 3.1, las chamelas y los cuartiles se ubican en Jos mismos valores, 1. Se tiene una muestra de tamafio 5 con valores de datos de 10, 20, 12, 17 y 16. Calcule la me- diay la mediana. 2. Se tiene el tamafio de muestra de 6, con valores de datos de 10, 20, 21, 17, 16 y 12, Calcule Ja media y la mediana, 3. Se tiene una muestra de tamafio 8 con valores de datos de 27, 25, 20, 15, 30, 34, 28 y 25. Calcule los percentiles 20, 25, 65 y 75. dia, Ja mediana y Ia moda, Aplicaciones Dada una muestra cuyos valores son 53, 55, 70, 58, 64, 57, 53, 69, 57, 68 y 53, calcule la me- 5, De acuerdo con una encuesta de salarios que realiz6 la National Association of Colleges and Employers, el promedio de las ofertas iniciales de salario oftecidas a los contadores u c sitarios recién graduados fue de 34.500 délares por afio en 1999 (Bureau of Labor Statistics, 80 ‘AcctSal EU Ca ITAL Discount 01), Una muestra de 30 estudiane, jo com Fssind oy ge Copitulo 3 ccuparonal Outiook Handbook, edcién 2000-01), Una craduaron en el ao 2000 como lienciados en conta Sslario ales, Los datos estén en miles de délares. q suo 352 32362 es aes 361 367 366 | 373 38.2 36.3 36.4 39.0 ] 38.3 36.0 35.0 36.7 37.9 38.3 36.4 36.5 38.4 39.4 38.8 35.4 36.4 37.0 36.4 a, Cuil es el salario promedio inicial? b. Cudl es In mediana de salario inicial? ¢. {Cuslles la moda? 4, {Cuil es el primer cuattil? e {Cusl es el tercer cuatil? Cada vez los inversionistas recurren més y mas a los corredores para ahorrar al compra, | ciones. La Asociacién Americana de laversiorista Individales leva a cabo unten | anual de los descuentos de los corredores de inversiones. En fa tabla 3.2 se presentan laggy misiones cobradas por una muestca de 20 corredores para dos clases de movimiento: de sy acciones a 50 délares cada una y de 1000 acciones a 5 délares cada una. Calcule la media, la mediana y la moda de las comisiones por negociar 500 accion 50 délares cada una, ; . Calcule Ia media, Ia mediana y Ia moda de las comisiones que se cobran por adqie 1000 aceiones a 5 délares cada una. {iQué se lleva més comisién: adquisir 500 acciones a 50 délares cada una, 0 1000 sti. nes a 5 délares cada una? 4. El costo de una transaccién, ;parece relacionarse con el monto de ella? Por ejemplo, ‘monto de Ia negociacién de 500 acciones a 50 délares cada una es de 25.000 delares. 6. © TABLA 3.2 COMISIONES QUE COBRAN LOS CORREDORES BURSATILES Comisién (délares) Corredor 500@$50 1000@$5 AcuTrade 38.00 48.00 Bank of San Francisco 140.00 79.50 Burke Christensen & Lewis 34.00 34.00 Bush Burns Securities 35.00 35.00 Charles Schwab 155.00 90.00 Downstate Discount 55.00 60.00 Dreyfus Lion Account 154,50 88.50 First Union Brokerage 140.00 90.00 Levitt & Levitt 35.00 70.00 Max Ule 195.00 70.00 Mongerson & Co 95.00 66.00 Quick & Reilly 119.50 60.50 Scottsdale Securities, Inc. 50.00 63.00 Seaport Securities Corp. 50.00 70.00 St. Louis Discount 66.00 64.00 Summit Financial Services 95.00 60.50 T. Rowe Price Brokerage 134.00 30.00 Unified Financial Services 154.00 90.00 Wall Street Access 45.00 45.00 Your Discount Broker 55.00 70.00 Fuente: AAI! Journal, enero de 2000. anda de mio excaoe tuvieron con una muestra de 30 individuos, and 834346 70g 00 992-349 81709 84 0017S 450533 29.1 288 = 0.098.964 5 44 67994276566 529° 456 704 65:1 63.6 ® Calcule la media y la moda, D. Estos resultados, zparecen coineidir con Ia media que menciona el diario? © Calcul la mediana. 4d. Calcute el primer y tercer cuartiles, & Calcule e interprete ed percent 40. Millones de estadounidenses se levantan cada maiana y tabajan en sus propia casas, Se sue slere que el uso creciente de computadoras es una de las razones por las que las personas pue. den trabajar en empresas caseras. A continuacién vemos una muestra de datos sobre ls edades de esas personas, 22 58 24 500952 57 30 “4400 460 290 33732 ak 29 - Calcule la media y la moda, b. Lamediana de la edad de la poblacién de todos los adultos es 35.1 afios (Oficina del Cen- 50, Estados Unidos, 1 de noviembre de 1997). Use la mediana de Ia edad de los datos an- teriores para comentar si Ios trabajadores en casa tienden a ser mas j6venes 0 més viejos que la poblaci6n de todos los adultos ¢. Calcule el primer y tercer cuartiles, 4. Caleule e interprete el percentil 32. Media Matrix reunié datos que muestran los sitios de internet més populares al navegar en la casa y en el trabajo (Business 2.0, enero de 2000). Los datos siguientes muestran el nimero de visitantes tinicos (en mites) para los 25 sitios més populares al navegar en casa. Visitantes tinicos Sitio (en miles) about.com 5538 altavista.com 739 amazon.com 7986 angelfire.com 8917 aol.com 23863 biuemountainarts.com 6786 ebay.com 8296 excite.com 10479 geocities.com 15321 go.com 14330 hotbot.com 5760 hotmail.com 11791 icq.com 5052 ooksmart.com 5984. lycos.com 9950 microsoft.com 15593 ‘msn.com 23505 netscape.com 14470 passport.com 11299 real.com 6785 snap.com 5730 82 rene Cameras Copia 3. Exton descriptive: matodos numiricos Visttantesiinteos Sitio (en miles) tripxticom m0 com com 5652 yyahoxs com 26796 ranet com, 5133 1 Calene 1a matin y ta metiana 1 {Cui cree sue sera mejor wear: I media o I medana como medi de tendency ipaeeinaree e. Cibtetencontie piety eo f Gataiee neq pecan 98 18 Bl pein Zax Antler Tne frac regi le de ea dela tim re Cao Secor in cede See Pe 2 100 son moserados, de 101 2200 son insures, de 201 4275 son muy insalbresy ns Ses tom ge Ion dre de Peon cin 842.9 aa a y 50. " 2 Case umd a mein y mod ss. 5 be coda ben eng ce de calidad del aire de Pomona? . Calcule el percentil 25 y 75 de los datos de la calidad del aire en Pomona M1, Los datos que siguen representan la cantidad de automéviles que Megan a una caseta de co. ‘bro durante intervalos de 10 minutos cada uno. Calcule la media, la mediana, la moda, el pr, ‘mer cuartly el tercer cuartil para estos datos. 2% 2% 8 mM Rm 2 IS 3 9 2 20 18 16 2H HB 12, En una prueba de rendimiento y consumo de gasolina se probaron 13 vehiculos, durante 309 rillas, en condiciones de trénsito en ciudad y en el campo; de lo anterior se obtuvieron los siguientes datos en millas por galén. Ciudad: 16.2 16.7 159 144 132 153 168 160 16.1 153 152 153 162 Campo: 194 206 183 18.6 19.2 174 17.2 186 19.0 21.1 194 185 187 Para llegar a una conclusién sobre la diferencia de rendimiento en la ciudad y en el campo, use la media, la mediana y la moda. 13. Una muestra de 15 estudiantes del ultimo aio de carrera mostré lassi tomadas durante el periodo final de su dltimo afio de escuela: ientes horas-créito 15 21 18 16 18 21 19 15 14 18 17 20 18 15 16 ‘a, ;Cuéles son la media, la mediana y la moda de las horas-crédito tomadas? Calclelas ¢ interprete los resultados. b. Calcule el primer y tercer cuartiles e Calcule e interprete el percentil 70. 14, Debido a los recientes avances tecnol6gicos, las cAmaras digitales actuales producen fotogr- fias de mejor apariencia que las cémaras de hace un afio. En los datos siguientes se observa el precio comercial, 1a capacidad maxima de fotografias y la duracién de la baterfa (minutos) para 20 modelos recientes (PC World, enero de 2000). Capacidad Duracién muixima de de la bateria Cémara Precio (ddlares) —_fotografias (minutos) Agfa EPhoto CL30 349 36 35 Canon PowerShot ASO 499 106 iw Canon PowerShot Pro70 999 96 us Epson PhotoPC 800 699 120 A Fujifilm DX-10 299 30 12: Fi 699 ry 14 3.2 Medidos de voriobilidad 83 Duraci6s de la bateria Cémara (minutos) Fujifilm MX-2900 Zoom 899 88 HP PhotoSmart C200 299 68 Kodak DC215 Zoom 399 159 Kodak DC265 Zoom 899 186 Kodak DC280 Zoom 799 143 Minolta Dimage EX Zoom 1500 549 38 Nikon Coolpix 950 999 88 Olympus D-340R. 299 161 Olympus D-450 Zoom 499 62 Richo RDC-500 699 36 ‘Sony Cybershot DSC-F55 699 69 ‘Sony Mavica MVC-FD73 599 186 ‘Sony Mavica MVC-FD88 999 88 ‘Toshiba PDR-M4 599 142 a. Calcule el precio promedio. b, Calcule la capacidad media méxima de fotografias. . Calcule la vida promedio de Ia baterfa. d. Si usted tuviera que seleccionar una cdmara de la lista, ,cudl elegirfa? Explique. 3.2. MEDIDAS DE VARIABILIDAD ‘Ademis de las medidas de localizacién, con frecuencia es conveniente considerar medidas de dispersi6n o variabilidad. Por ejemplo, suponga que es un agente de compras de una impor- tante empresa manufacturera, y que con regularidad coloca pedidos con dos proveedores dis- tintos, Después de varios meses de trabajar asf, encuentra que el promedio de dias necesarios para surtir los pedidos es de aproximadamente 10, para cada proveedor. Los histogramas que resumen la cantidad de dias hébiles requeridos para surtir los pedidos se muestran en Ia figu- ra 3.2. Aunque la cantidad promedio es, més o menos, de 10 en ambos casos, tienen éstos el mismo grado de confiabilidad para entregar a tiempo? Observe la dispersiGn, o variabilidad, cn los histogramas. ,Qué proveedor prefiere usted? GURA 3.2, DATOS HISTORICOS DE LA CANTIDAD DE DIAS NECESARIOS PARA SURTIR PEDIDOS 05; 05 £ 04 £04 3 ‘ Dawson i J.C, Clark | a Distribut Bo ‘Supply, Inc. ee jistributors 3 3 i 02 i 02 : 3 la a 8 9 10 1 12 13 14 15 9 10 11 Dfas habilles: ‘Dias habiles Coptulo 3 Estadisica descriptiva: métodos numéricos Jas empresas es importante recibir materiales y suministros a temp Las entregas a fos siete w ocho dias de J. C. Clark Distributors pueden considerarse favor, blew cin embargo, algunas de las entregas a los 13 0 15 dias podrian ser desastrosas en tm, pace lnutilizacién de la mano de obra y del cumplimiento de los programas de produccin, Bate ejemplo ilustra un caso en que Ia dispersién, o varibilidad, en los empos de entre, puede ser la consideracién més importante para seleccionar un proveedor. Paras mayorta de Tos agentes de compra, la menor dispersiGn que muestra Dawson Supply. Ine. aris que fu, ra el proveedor mAs consistente y preferido. ‘Ahora pasemos a describir algunas de las medidas que se usan con ms frecuencia pany la dispersi6n o variabilidad. Para la mayoria de Rango Quiaé la medida mas sencilla de Ia dispersiGn en un conjunto de datos sea el rango- , Rango Rango = valor maximo - valor mfnimo {A propésito de los datos sobre salarios mensuales iniciales de los egresados de 1a escue- Jade administracién presentados en la tabla 3.1. el salario inicial miximo es de 3325 y el mi rnimo de 2710 délares. El rango es 3325 - 2710 = 615. ‘Aungue el rango es la medida de dispersién mis ficil de caleular, casi nunca se usa co” is El rang es fel de determina, pero ex sensible ‘mo Ia dnica medida de dispersién. La razén es que se basa slo en dos de las observacit lores extremos de los datos. Suponga que uno torsades de io poe consiguent, ests my infu por Ls Va de los egresados tuviera un salario inicial de 10 000 d6lares. En este caso, el rango seria de 10 000 — 2710 = 7290, y no de 615. Este valor tan grande del rango no describiria la variabi lidad de Jos datos, porque 11 de los 12 salaros iniciales se agrupan estrechamente entre 2710 y 3130, Rango intercuartil de la dispersién que elimina la influencia de los valores extremos de los datos es Una mec el rango intercuartil (RIC). Esta medida de dispersién ¢s simplemente la diferencia entre el tercer cuartil Q, y el primero Q,. En otras palabras, el rango intercuartil corresponde al rango del 50% intermedio de los datos. Rango intercuartil RIC =Q;-@, Para Jos datos de los salarios mensuales a 1a contratacién, los cuartiles son Qy = Q, = 2865. Asi, el rango intercuartil es de 3000 - 2865 = 135. Varianza La varinnza es una medida de la dispersin que emplea todos los datos. Se basa en la diferen- cia entre el valor de cada observacién (x,) y la media. La diferencia entre cada x; y el promedio & para una muestra, 4 para una poblacién) se lama desviacién respecto al promedio. Para luna muestra, la desviacién respecto a la media se expresa como (x, ~ 2); para una poblacién es (s;-#). Para calcular la varianza, las desviaciones respecto al promedio se elevan al ‘cuadrado. Si el conjunto de datos es una poblacién, el promedio de las desviaciones al cuadrado s¢ Mama varianza de la poblacién y se representa con el simbolo griego a°. Para una poblacién de N observaciones, cuando y« representa el promedio de esa poblacién, la definicién de la va" rianza de la poblacién es como sigue. asaieisenonatnaeecacceattall arianza ess para comparar riabilidad de dos variables. 3.2 Medides de variabilidod 85 Varianza de una poblacién o varianza poblacional t= 2 (3.4) N En la mayoria de las aplicaciones estadisticas los datos analizados son una muestra. Cuando calculamos la varianza de la muestra, nos interesa utilizarla para estimar la varianza de la poblacin o. Aunque una explicacién detallada rebasa el propésito de este libro, se puede demostrar que si la suma de las desviaciones respecto al promedio de la muestra, ele- vadas al cuadrado, se divide entre n ~ 1 y no entre n, la varianza resultante de la muestra es un estimador insesgado de la varianza de la poblacién. Por este motivo, la varianza muestral, © varianza de Ta muestra, representada por s°, se define como sigue: ‘Varianza de la muestra 0 varianza muestral 2a (3.5) A fin de ilustrar el célculo de la varianza de una muestra emplearemos los datos de la mues- tra de cinco grupos presentados en Ia seccién 3.1. En la tabla 3.3 se presenta un resumen de Ios datos, el eélculo de las desviaciones respecto al promedio y las desviaciones al cuadrado. La suma de las desviaciones respecto a la media elevadas al cuadrado es S(x, ~ 0)? = 256, Por consiguiente, con m~ 1 = 4, la varianza de la muestra es pe LD 6g, n-1 4 nm Antes de proseguir, observe que las unidades asociadas con la varianza de la muestra regularidad causan confusiones. Como los valores que se suman al calcular la varianea, que son (x, ¢ elevan al cuadrado, las unidades asociadas con la varianza de la muestra tam- bign se elevan al cuadrado. Por ejemplo, la Varianza muestral de los datos del tamaiho de los grupos es s? = 64 (alumnos)’. Las unidades al cuadrado asociadas con la varianza hacen diffe cil formarse una idea intuitiva y una interpretacién del valor numérico de la varianza. Le re- comendamos que imagine que Ia varianza es una medida til para comparar el grado de TABLA 3.3 CALCULO DE DESVIACIONES Y DESVIACIONES AL CUADRADO, RESPECTO A LA MEDIA, PARA LOS DATOS DE TAMANO DE GRUPO Cantidad de Tamaiio Desviacién Desviacién respecto alumnos en promedio respectoalamedia -—_a la media elevada el grupo (x) de grupo (#) (x,2 # al cuadrado (x, 2 2)? 46 4 2 4 54 4 10 100 42 pr -2 4 46 4 2 4 32 4 =2 ia Oo 256 2G, - Sa, - 3 SSS _——_—_———ESSS—— Copitula 3 Eatodistica deseriptiva: métodos numéricos a lispersién de dos o mas variables. Al comparar Ins variables, Ia que tiene mayor vatiany ne la mayor dispersin 0 variabilidnd. Af, no sen neeesario trata de interpretar mgs erg de Ia varianza, ~ Onn ejemplo del edleuto de una varianzn muestral es el de los salarios iniciales de jy ‘bla 3.1, para tos 12 egresndos de In escuela de adnfinistracién. En Ia secci6n 3.1 demos {que cl salario mensnal promedio iniglal ex do hi lates, BI efleulo de Ia varianza de mniestra (x? = 27 440.91) se observa eb la tabla 3.4, 7 Ba las tablas 3.3 y 34 se muestra la sua de tax desviaciones respecto a la media y ta yy, ma de las lesviaciones respecto a ta media elevadas af cuadrado, Para cualquier conjunto¢y datos, la stma de las desvinciones respecto a In media siempre es igual a cero. Observe que cen tas tablas 3.3 y 34, (4) =.) as desviaciones positivas y las negativas siempre xe ccancelan entre sf, 1o cual da como resultado que las desviaciones respecto a la media seay igual a cero, Desviacién estandar La desvineién esténdar se define como Ia rafz cuadrada positiva de Ja varianza. Adoptands Ja notacién que establecimos para Ia varianza de una muestra y Ia varianza de la poblaciéa, uusaremos s para representar Ia desviacién estindar de Ia muestra y para la desviaci6n estin. dar de Ia poblacién. La desviacién estdndar se deriva de la varianza como sigue. / Desvincién estindar { Desviacién estindar de una muestra = s = Vs? (3.6) \ Desviacién estindar de una poblacién = 0 = Vo" (3.7) TABLA 3.4 CALCULO DE LA VARIANZA MUESTRAL PARA LOS DATOS DE SUELDO INICIAL Salario Media de Desviacién Desviacién respecto a mensual Ja muestra respecto ala media la media elevada al &) (@) (x2 %) cuadrado (x; 2 37° 2850 2940 90 8100 2950 2940 10 100 3050 2940 110 12100 2880 2940 -60 3600 2755 2940 -185 34225 2710 2940 -230 52900 2890 2940 =50 2500 3130 2940 190 36100 2940 2940 0 0 3325 2940 385 148225 2920 2940 -20 400 2880 2940 60 3600 0 301850 2Q;- 3) Con la ecuacién (3.5) se obtiene Su, - 5? EQ, - 201850 ey ee s ” Notas y comentarios a7 Recordemos que Ia varianza muestral para Ja muestra de los tamafios de tos. grupos en cinco grupos de Ia escucia es s* = 64, Entonces, la desvinci6n esténdar de la muestra es += V64 = 8 Pata el conjunto de datos de los salarios iniciales, Ia desviaci6n estindar mucstral ee 7 V27 440.91 = 165.65, pulp icra a Qué se gana al pasar de la vatianza a su desviacién estindar correspondiente? Recuer- Po ala gee een ore etna a prinera ime at eos dates. de que las unidades asociadas con la varianza estén elevadas al cuadrado. Por ejemplo, la Ciian2a muestral de los datos de salario inicial de los egresados es s* = 27 440.91 (d6lares)? Como la desviacién esténdar es tan sdlo la ra(z cuadrada de la varianza, las unidades de la va. ‘lanza, que en este caso fueron délares al cuadrado, se convierten en délares en la desviacién estindar. Ast In desviacién esténdar de los datos de salariosiniciales es de 165.65 délares, En otras palabras, la desviacién est Coeficiente de variacion En algunos casos nos puede interesar una medida estadistica descriptiva que indique lo gran- Jet de vit na eam devratidad rca conta on : Coeficiente de variacién, de que es la desviaciGn estindar en comparacién con la media. A esta medida se le lama coe- ficiente de variacién, y se calcula como sigue. Desviaci6n estindar Sasa x 100 (3.8) Para los datos del tamafio de los grupos determinamos un promedio muestral de 44 y una des- viacién estindar muestral de 8. El coeficiente de variacién es (8/44) x 100 = 18.2. Interpre- tando estos datos, el coeficiente de variacién indica que la desviacién estindar de la muestra es el 18.2% del valor de la media de la muestra. Para los datos de salario inicial, con me: de la muestra de 2940 y desviacién esténdar de Ia muestra de 165.65, el coeficiente de varia- ida es (165.65/2940) x 100 = 5.6, ¢s decir, la desviaciOn estandar de esta muestra s6lo es del 5.6% del valor de la media de Ia muestra. En general, el coeficiente de variacign es un esta- distico stil para comparar la dispersién de variables que tienen distintas desviaciones estén= dar y distintos promedios. Do CR Ace NLL tos) 1. Se pueden emplear hoja de céloulo y progra- (x, se pueden cometererores de redondeo mas estaditcos para calcular las medidas esta: gue eleulode a vateneay a dessaeaae disticas descriptivas que hemos descrito en este capitulo, Después de haber tecleado los datos en una hoja de trabajo se usan algunos coman- dos sencillos para generar el resultado que se busca. En los apéndices 3.1 y 3.2 mostraremos ¢6mo usar Minitab y Excel en los célculos de la estadistica descriptiva, 2. La desviacién esténdar se usa con frecuencia para medir el riesgo implicado al invertir en ac- ciones y en portafolios (Business Week, 17 de ‘enero de 2000). Permite medir cémo fluctian Jos rendimientos mensuales respecto al retorno promedio a largo plazo. 3. Alredondear el valor de la media de la muestra Ey los valores de las desviaciones al cuadrado tindar. Para reducir esos errores recomendamos trabajar, cuando menos, con seis digitos signifi- cativos durante los célculos intermedios. La va- rianza o desviacin estindar resultante se puede redondear después a menos digitos. 4, Una formula altema para el efleulo de la va- rianza de la muestra es donde Ex} = x? + x3 +--+ +22, Copitvlo 3 Estodistca descriptva: métodos numéricos Métodos 15. Se tiene una muestra de tamafo 5, con valores de 10, 20, 12, 17 y 16. Caleute eng rango intercuati. 16. Se tiene una muestra de tamafo 5, con Ios valores 10,20, 12,17 y 16. Caleue la vata, | Ia desviacién esténdar, Auto& Aplicaciones 17, Se tiene una muestra de tamafio 8, con valores de 27, 25, 20, 15, 30, 34, 28 y 25. Cateuleg ‘rango, el rango intercuartil, la varianza y la desviacién estindar. 7 18, Los puntos de un jugador de boliche, en seis partidas, fueron 182, 168, 184, 190, 170 y 17, AutoBemn Con estos datos como muestra, calcule las siguientes medidas estadisticas deseriptivas: a. Rango b. Varianza | . Desviaci6n estindar 4. Coeficiente de variacién 1». La revista PC World publicé las evaluaciones para las 15 computadoras portitiles més popy. lates (PC World, febrero de 2000), Se utiliz6 una escala de 100 puntos para dar una evalu. cin global para cada computadora portatil probada en el estu Una calificacién de 90 9 mds es excepcional, en tanto que una de 70 esta arriba del promedio. En la tabla siguiente se ‘mwvestran las evaluaciones globales para las 15 computadoras del estudio. Evaluacién | Computadora global AMS Tech Roadster 1SCTA380 o \ ‘Compag Armada M700 B | Compag Prosignia Notebook 150 ~ | Dell inspiron 3700 C466GT 80 Del inspiron 7500 RSOOVT 84 | Dell Latitude Cpi A366XT 15 Enpower ENP-313 Pro 7 { Gateway Solo 9300LS 2 | HP Pavillion Notebook PC 83 IBM ThinkPad I Series 1480 B | Micro Express NP7400 cd ‘Micron TransPort NX PIL-400 B NEC Versa SX B Sceptre Soundx 5200 B Sony VAIO PCG-F340 n Calcule el rango, el rango intercuaril, la varianza y Ia desviacién esténdar. 20, El diario Los Angeles Times informa con regularidad el indice de calidad del aire de varias zonas del sur de California. Una muestra de valores del indice de la calidad de aire para Po- ‘mona dio los siguientes datos: 28, 42, 58, 48, 45, 55, 60, 49 y 50. a. Calcule el rango y el rango intercuartil e. 'b, Calcule ta varianza de la muestra y la desviacién estindar de la muestra. Una muestra de indices de calidad del aire para Anaheim dio un promedio de 48.5, unt varianza de 136 y una desviacién estindar de 11.66. ;Qué comparaciones pueden est blecerse entre las calidades del aire en Pomona y en Anaheim, con base en estas medidas estadisticas descriptivas? 21, La empresa Davis Manufacturing Company acaba de terminar cinco semanas de operaciéa bajo un nuevo proceso que se supone aumenta la productividad. Las cantidades de partes P1™ ducidas cada semana son 410, 420, 390, 400 y 380. Caloule la varianza de la muestra y !? I, peroz no Brel ejerccio 27 intervienen lores no enteros de z mayores el. zesla empirica se basa 1a disribucion normal de ‘abilidades, que presentaremos HV eaptulo 6 y que se usa oho en ete libra. 3.3 Medidos de lcalzacin relativa y deocciin de valores apices n ‘Teorema de Chebyshev ‘Cuando menos (1 ~ 1/2’) de los datos debe estar a menos de z desviaciones estindar de separacién respecto a la media, siendo z cualquier valor mayor que 1. A continuacién veamos algunas de las implicaciones de este teorema, con z= 2,3 y 4 desviaciones estindar. + Cuando menos, el 0.75 0 75% de los datos deben estar a menos de z= 2 desviaciones cestdndar de la media. * Cuando menos, el 0.89 u 89% de los datos deben estar a menos de z = 3 desviaciones estandar de la media. + Cuando menos, el 0.94 0 94% de los datos deben estar a menos de z= 4 desviaciones esténdar de la media. Como ejemplo de Ia aplicacién del teorema de Chebyshev, suponga que las calificacio- nes del examen parcial de 100 alamnos en un curso de estadistica para la administraci6n tu- vieron un promedio de 70 y una desviacién esténdar de 5. ;Cudntos alumnos tuvieron calificaciones entre 60 y 80? ;Cudntos entre 58 y 827 Para las calificaciones de 60 a 80 vemos que el valor 60 esta a dos desviaciones estindar abajo del promedio, y que el valor 80 a dos desviaciones estdndar arriba. Al aplicar el teore- ma de Chebyshev, cuando menos el 0.75 0 75% de las observaciones deben tener valores me- nores de dos desviaciones estindar del promedio. Asf, cuando menos 75 de los 100 alumnos deben haber obtenido calificaciones entre 60 y 80. Para las calificaciones entre 58 y 82, (58 - 70) .4 indica que 58 esti a 2.4 desvia- ciones estdndar abajo del promedio, y que (82 - 70)/5 = +2.4 indica que 82 esté a 2.4 des- viaciones esténdar arriba del promedio. Aplicamos el teorema de Chebyshev con z = 2.4 y obtenemos 1 1 (: ~ 2) ~ [: . aa “= Cuando menos 82.6% de los alumnos deben tener calificaciones entre 58 y 82. La regla empirica Una de las ventajas del teorema de Chebyshev es que se aplica a cualquier conjunto de datos, independientemente de la forma de la distribucién de los mismos. Sin embargo, en las aplica- ciones précticas se ha encontrado que muchos conjuntos de datos tienen una distribucién en forma de colina o de campana, como la de la figura 3.3. Cuando se cree que los datos tienen aproximadamente esa distribucién se puede aplicar la regla empirica para determinar el por- centaje de elementos que debe estar dentro de determinada cantidad de desviaciones estindar respecto al promedio. La regla empfrica Para datos con distribucién en forma de campana: + Aproximadamente 68% de los elementos estén a menos de una desviaci6n es- tdndar de la media. + Aproximadamente 95% de los elementos estén a menos de dos desviaciones es- tdndar de la media, + Casi todos los elementos estin a menos de tres desviaciones estindar de la 92 ‘Se recomienda comprobar si hay valores atpicos antes de tomar decisiones a partir dl andliss de datos. Con frecuencia se cometen errores al anotar los datos yal capturarlos en computadora, No necesariamente se deben eliminar los valores atipicos, pero sf se debe comprobar su exacttud calidad de apropiados, CCopiule 3. Esloditica descriptive: métodos muméricos FIGURA 3.3. DISTRIBUCION EN FORMA DE COLINA © CAMPANA Por ejemplo, en una Iinea de produccién se Henan, automiticamente, envases de pléstcy con detergente lfquido. Con frecuencia, los pesos de Ilenado tienen una distribuei6n en form de campana. Si el peso promedio de llenado es de 16 onzas y Ia desviaci6n esténdar 0.25 op, zas, se puede aplicar fa regla empirica para hacer las siguientes conclusiones: + Aproximadamente 68% de los envases llenos tienen entre 15.75 y 16.25 onzas (esto es, menos de una desviaci6n estindar del promedio). + Aproximadamente 95% de los envases llenos tienen entre 15.50 y 16.50 onzas (esto es, menos de dos desviaciones estindar del promedio). + Casi todos los envvases Llenos tienen entre 15.25 y 16.75 onzas (esto es, menos de tes desviaciones esténdar del promedio). Deteccién de valores atipicos Avveces un conjunto de datos tiene uno o més elementos con valores demasiado grandes o de- masiado pequefios. A los valores extremos como éstos se les llama valores atipicos. Las per: sonas con experiencia en estadistica toman sus precauciones al identificar los valores atfpicos y los revisan uno por uno cuidadosamente. Un valor atipico puede ser un elemento para el cual se haya anotado su valor en forma errénea. Si es asi, puede corregirse antes de proseguir el andlisis. También, un valor atipico puede ser uno que por error se incluyé en el conjunto de datos y, en estos casos, debe eliminarse. Por tiltimo, puede ser tan sélo un elemento poco co- md que se haya anotado en forma correcta y que sf pertenece al conjunto de datos. En estos. casos ese elemento debe mantenerse. Los valores estandarizados (valores z) pueden emplearse para identificar los valores at picos. Recordemos que la regla empirica permite decir que cuando los datos tienen distribu: Ci6n acampanada, casi todos estardn a menos de tres desviaciones estandar del promedio. Pot Consiguiente, al usar los valores z para identificar valores atipicos se recomienda considerit que cualquier elemento con un valor z inferior a ~3 0 superior a +3 sea tratado como un Vi" Jor atipico. La exactitud de esos elementos se podrd revis hecen al conjunto de datos 0 no. Veamos los valores z de los datos del tamafio de grupo de la tabla 3.5. El valor z de -1-50 ‘Muestra que el quinto elemento es el més alejado de la media. Sin embargo, este valor estat” darizado se encuentra dentro del criterio utifizado de ~3 a +3 para identificar valores atiicos Por consiguiente, los valores z muestran que en los datos del tamaiio de grupo no hay valofe atipicos, sar después para determinar si pet? Ejercicios 93 Renamed 1, El teorema de Chebyshev se aplica a cualquier cconjunto de datos, y se puede emplear para de- finir la cantidad minima de valores que deben estar dentro de cierta cantidad de desviveiones estdindar respecto a Ia media, Si se sabe que el cconjunto de datos tiene una forma casi acampa- nada, se puede decir mAs, Por ejemplo, Ia regla empfriea permite decir que aproximadamente 95% de los valores estardn a menos de dos des- viaciones estindar de la media, mientras que el teorema de Chebyshev sélo permite decir que cuando menos 75% de los elementos estard dentro de ese intervalo. . Antes de analizar un conjunto de datos se debe cefectuar una serie de pruebas para asegurar Ia v2- lidez de los mismos. En un estudio grande no es raro cometer errores al registrar valores de datos cal capturarlos en computadora. Una de las he- rramientas para comprobar la validez de los da- tos es Ia identificaciGn de valores atipicos. [Biercicios” 2 Métodos 27. Se tiene una muestra con media de 30 y desviacién estindar de 5. Aplique el teorema de (Chebyshev para determinar Ia proporciéa o porcentaje de los datos dentro de cada uno de los siguientes intervalos. a. 20240 b. 15.a4s ce. 22438 a. 18242 e 12048 28. Unos datos cuya distribucién tiene forma de campana presentan una media de 30 y desvia- cin esténdar de 5. Aplique la regla emplrica para determinar la proporcién o porcentaje de Jos datos dentro de cada uno de tos intervalos siguientes. a. 20040 b. 15245 e. 25835 29, Se tiene la muestra de tamafio 5, con los valores de 10, 20, 12, 17 y 16, Determine el valor z de cada uno de los cinco valores. 30, Se tiene una muestra con media de 500 y desviaciGn estindar de 100. {Cudl es el valor z de cada uno de los siguientes valores: 520, 650, 500, 450 y 280? Aplicaciones 31. Los resultados de una encuesta nacional de 1154 estudiantes mostraron que, en promedi, los adultos duermen 6.9 horas por dfa durante la semana de trabajo (Encuesta 2000 Omnibus Sleep in America). Suponga que Ia desviacién estindar es de 1.2 horas. a. Por medio del teorema de Chebyshev, calcule el porcentaje de individuos que duerme en- tte 4.5 y 9.3 horas por dia. b. Utilice el teorema de Chebyshev para calcular el porcentaje de individuos que duerme entre 3.3 y 9.9 horas por dia. Suponga que el ntimero de horas de suefio tiene forma de campana. Emplee la regla em- pirica para calcular el porcentaje de individuos que duerme entre 4.5 y 9.3 horas al dia. Cémo compara este resultado con el que obtuvo por medio del teorema de Chebyshev en el inciso a? e. 32, Segin ACNielsen, los muchachos de entre 12 y 17 afios vieron un promedio de 3 horas de televisin por da durante el afio de transmisiones que termin6 en agosto (Barron's, 8 de no- viembre de 1999). Suponga que la desviacin estindar es 1 hora y que la distribucién del tiempo transcurrido viendo televisi6n tiene una distribucién en forma de campana. a. {Qué porcentaje de los muchackos de 12 a 17 afios ven televisién entre 2 y 3 horas por dia? b. Qué porcentaje de Ios muchachos con edades de 12 a 17 afios ven televisién entre 1 y 4 horas por dia? © {Qué porcentaje de los muchachos de 12.a 17 afios ven televisién més de 4 horas por dia? ere -@ Copinlo 3 Estodisica deseripva: métodos numéricos 133. Suponga que las puntuaciones para el CI tienen una distribucién en Forma de company, tuna media de 100 y una desviacidn estindar de 15. a. {Qué porcentaje de Ia poblacién debe tener un coeficiente de inteligencia entre BS yy). . tener un coeficiente de inteligencia entre 79 . {Qué porcentaje de la poblacién debe tener u genio emte 701 {Qué poreentaje de In poblacién debe tener un coefieiente de inteligencia mayor gy | 130? Una persona cuyo coeficiente de inteligencia sea mayor que 145 debe considerarse ung rio, ZRespalda la regla empitica esta afermacién? Explique sus razones, a. nes de televisores, en Chicago, es 99 El costo promedio de mano de obra en las separaciones de t 15 délares (The Wall Street Journal, 2 de enero de 1998). Suponga que Ia desviacién estindar, 20.00 dotares. il es el valor z para una reparacién cuyo costo de mano de obra fue 71.00 d6lares? Guat esel valor ¢ para una repa i ra fue 168.00 détaeyy b. {Cul es el valor z para una reparacin cuyo costo de mano de ob ‘e.Interprete los valores z obtenidos en los incisos a y b. Comente si se deberfan considerar valores atipicos. ‘Wageweb lleva a cabo encuestas de datos de salarios y red. Con los datos de salarios hasta el I de enero de 2000, Wageweb informé que los salarios de los gerentes de beneficios variaron de 50935 a 79577 délares (Wageweb.com, 12 de abr de 2000). Suponga que los datos siguientes son una muestra de Ios salarios anuales para 3) sgerentes de beneficios (los datos estén en miles de dlares), 577 644 G2 59.N THAT 630 647 «612 668618 642 633 «22612594 63.0 66.7 60.3 740 628 687 638 59.2 603 566 593° 65 617 589 63.1 presenta restimenes en su sitio de ly 38. ‘a, Calcule la media y la desviaci6n estandar para los datos de la muestra . Por medio de la media y la desviacién esténdar calculadas en el inciso a como estimacio- nes de la media y la desviacién estindar de salarios para la poblacién de gerentes de be- neficios, uilice el teosema de Chebyshev para determinar el porcentaje de los gerentes ‘con un salario anual entre 3 000 y 71 000 délares. Construya un histograma para los datos de la muestra. ,Al parecer es razonable suponer ue la distribucién de salarios anuales se puede aproximar mediante una distribucién en forma de campana? Suponga que Ia distribuci6n de salarios anuales tiene forma de campana. Con la media y Ja desviacidn estindar calculadas en el inciso a como estimaciones de la media y la des- viaeién estindar de salarios para ta poblacién de gerentes de beneficios, uilice la regla empirica para determinar el porcentaje de gerentes con un salario anual entre 50 000 y 71 000 délares. Compare su respuesta con el valor calculado en el inciso b. €. {Los datos de Ia muestra contienen algin valor atfpico? 36. Una muestra de 10 puntajes de Ia National Basketball Association (NBA) consiste en los da- tos siguientes (USA Today, 14 de abril de 2000) Margen Puntos Equipo Puntos del Equipo ganador anotados perdedor anotados ganador Philadelphia 93 Washington 84 9 Charlotte ng Atlanta 87 32 Milwaukee 101 Cleveland 100 1 Indiana 77 ‘Toronto 3 2 Seattle 10 ‘Minnesota 83 a Boston 95 Orlando o1 a Detroit 90 Miami 3 1 New York 91 New Jersey 89 a Utah 102 LA. Clippers 93 9 Phoenix 12 Vancouver 116 6 Speakers 3.4 Andlsis explorotorio de doles 95 ‘8. Calcule la media y ta desviacin estindar para el nero de puntos anotados por el equi- po ganador. . Suponga que el niimero de puntos anotados por el equipo ganador para los juegos de la NBA tiene forma de campana. Con la media y la desviacin esténdar calculadas en el in- ciso a como estimaciones de Ia media y la desviacién estindar de los puntos anotados pa- ra la poblacién de los juegos de la NBA, estime el porcentaje de los juegos de la NBA en los que el equipo ganador anotars 100 puntos 0 més. Estime el porcentaje de juegos ¢n Tos que el equipo ganador anotard mis de 114 puntos. © Calcule la media yladesviacién estindar para el margen del ganador. Los datos del mar- gen del ganador contienen algin valor atpico? Explique su respuesta 37. La revista Consumer Review publica investigaciones y evaluaciones de varios productos {que se anuncian en internet. A continuacién se presenta una muestra de 20 sistemas de boci- ‘nas, con sus calificaciones, que se publicé el 2 de enero de 1998 (véase hitp:/Avwwxaudiore- view.com). Las calificaciones son de 1 a 5, y 5 es lo mejor. Bocina Calificacién Bocina Infinity Kappa 6.1 4.00 ACI Sapphire 11 Allison One 412 Bose 50 Series Cambridge Ensemble = 3.82 DCM KX.212 Dynaudio Contour 1.3 4.00 Eosone RSF1O00 Hu Rech, HRSWI2V 456 Joseph Audio RM7si Legacy Audio Focus 432 Martin Logan Aerius Mission 7311 433 Omni Audio SA 12.3 PSB 400; 450 Polk Audio RT12 Snell Acoustics DIV 464 Sunfire True Subwoofer Thiel CS1.5 420 ‘Yamaha NS-A636 a. Calcule la media y la mediana. b, Calcule el primer y tercer cuartiles, ¢. Calcule la desviacién estindar. 4d. {Cuéles son los valores z asociados con Allison One y Omni Audio SA 12.3? €. {Hay valores atipicos? Explique su respuesta, 3.4 ANALISIS EXPLORATORIO DE DATOS En el capitulo 2 presentamos el diagrama de tallo y hojas como técnica de andlisis explorato- rio de datos, Recordemos que con el andlisis exploratorio de datos podemos emplear opera- ciones aritméticas simples y figuras féciles de trazar para resumir los datos. En esta seccién continuaremos con este tema y describiremos los restimenes de cinco nimeros y los diagra- mas de caja, Resumen de cinco némeros En un resumen de cinco niimeros se emplean cinco cantidades para resumir los datos: 1. Valor minimo 2. Primer cuartil (Q,) 3. Mediana (Q,) 4, Tercer cuartil (Q3) 5. Valor maximo La forma més fécil de elaborar un resumen de 5 niimeros es poner los datos en orden as- ccendente, Ast es cil identificar el valor minimo, los tres cuartles y el valor maximo. Los sa- % Copiivle 3 Estadsticn desripliva: métodos numbrieos larios mensuales inicinles de In tabla 3.1 de u tninistracidn son tos siguientes: La mediana, que es 2905, y los cuartiles Qy = 3000 fueron calculados en i, cid 3.1, Al repasat Tos datos anteriores se ve un valor minimo de 2710 y un valor masing 3325, Af, el resumen de einco niimeros de los datos de salarios es 2710, 2865, 2805, agg, 3325, Aproximadamente una cuarta parte, 25% de los valores de los datos, estén entre gy inmeros adyacentes del resumen de cinco nimeros. Diagrama de caja Un dingrama de eaja es un resumen grafico de los datos basado en un resumen de cinco ng, meros, Una clave para construir un diagrama de caja es el calculo de la mediana y los cuan, les Q; y Qs. También se usa el rango intercuartil, RIC = Q; ~ Q,. La figura 3.4 es el diagrama de caja de tos datos de sa {a son los siguientes: 1, Se traza un rectangulo con los extremos en el primer y tercer cuartiles. Para los datos de salarios, Q, = 2865 y Q; = 3000. Este rectdngulo contiene el 50% intermedio de los datos. 2, En la caja se traza una recta vertical en el lugar de fa mediana (2905 para los datos de salarios). Asf, la linea de la mediana divide los datos en dos partes iguales. 3. Se ubican los limites mediante el rango intercuartil, RIC = Q; — Q,. Los limites en el Eee diagrama de caja estan a 1.5 (RIC) abajo de Q, y a 1.5 (RIC) arriba de Qy, Para los da- ralevetbee pas tos de salarios, RIC = Q; ~ Q, = 3000 - 2865 = 135. Asi, los Imites son 2865 - -necesariamente los mismos valores 1.5(135) = 2662.5 y 3000 + 1.5(135) = 3202.5. Se considera que los datos fuera de es- sere nee eS ites son valores atpicos. mmayres que +3 eno aloes 4, Las lineas punteadas de ta figura 3.4 se aman bigotes de la caja, que se trazan desde ene ee los extremos de ésta hasta los valores minimo y maximo dentro de los limites. Asi, los Honea voles eereettte no bigotes terminan en los valores de salarios de 2710 y 3130. pertenecer al conjunto de datos. 5. Por tiltimo, se marcan con un asterisco (*) las localizaciones de los valores atipicos. En la figura 3.4 se ve que hay uno: el valor 3325. Con ios diagramas de caja FIGURA 3.4 DIAGRAMA DE CAJA DE LOS SUELDOS MENSUALES INICIALES CON LINEAS QUE MUESTRAN LOS L{MITES INFERIOR Y SUPERIOR 24002600 cr 1 seo “fe sa0) 2800 3000 3200 ft | una muestra de I2egresados de laescuty | 3 m4, 2710 2785 2850 | 2880 2880 2890 | 2920 29402950 | 3050 3139 5, Q) = 2865 o ios mensuales iniciales. Los pasos para trazar un diagrama deca. |

También podría gustarte