Está en la página 1de 45
CapiTULO 2 Caracteristicas de una distribucion de frecuencias © ITES-Paraninfo 18m ESTADISTICA DESCRIPTIVA Como ya se comenté en el Capitulo 1, la informacién que suministra una tabla de frecuencias acerca de un cardcter estadistico puede ser representada en un grafico, 0 sintetizada en unas medidas numéricas que describan de manera mds precisa el comportamiento del caracter analizado. En este capitulo se van a estudiar las deno- minadas medidas de posicién, medidas de dispersién y medidas de forma. Para ello, se hard referencia a los caracteres cuantitativos, es decir, se utilizarén los términos variable y valor, aunque algunas de estas medidas (posicién) también son de aplica- ci6n para el caso de los caracteres cualitativos 0 atributos. Las medidas de posicién permiten situar la distribuci6n, es decir, fijan el com- portamiento global de una variable a partir de los valores individuales recogidos en Ja tabla, Las primeras medidas de interés son las medidas de posicién o tendencia central de la distribucién que, en cierta manera, reflejan el centro o punto sobre el que gravita el conjunto de valores de la distribucién. Otras medidas de posicién mas generales son las no centrales. Las medidas de dispersién determinan Ia varial lidad existente en los valores de la variable. Las medidas de forma informan, sin necesidad de representar gréficamente la distribucién, sobre la deformacién hori- zontal (medidas de asimetria) y vertical (medidas de curtosis 0 apuntamiento) de la misma. 2.2.1. MEDIDAS DE POSICION CENTRAL Las medidas de posici6n central mas importantes son las medias (aritmética, geo- métrica y arménica), la mediana y la moda. 2.2.1.1. Media aritmética Dada una distribuci6n de frecuencias (x,; n), la media aritmética, o simplemente media, que se denota por X, viene definida por la expresin ny + XpMy + any + XgMz N ny 7 Par 5 Como fi = 7,18 media aritmética también puede expresarse como: Fah tient xh = Y xf st x © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 19 Como puede apreciarse, en la media aritmética cada valor de la variable va pon- derado por su importancia relativa en la distribucién. No obstante, no tiene por qué coincidir con ningiin valor de la distribuci6n, siendo su centro de gravedad. Si los datos estuvieran agrupados en intervalos, la expresién de la media aritmé- tica seria la misma, pero utilizando, esta vez, la marca de clase (x). EJEMPLO 2.1 Las pensiones mensuales de jubilacién de 50 personas, trabajadores aut6nomos, son las si- guientes: Pensiones mensuales de jubilacién (euros) | 4 5 bl 6 4 eS 8 9 6 50. La pensién mensual seré: —_ 450-4 + 525-5 +--+ + 490-6 = 5 559,96 eu058 50 EJEMPLO 2.2 Agrupando la distribucién del ejemplo anterior en cinco intervalos de igual amplitud, se tiene: Lak xi ny 450-500 475 | 15 500-550 525 5 550-600 575 | 17 600-650 625 9 650-750 675 4 50 © ITES-Paraninto 20m ESTADISTICA DESCRIPTIVA y la media aritmética toma el valor: 475-15 + 525-5 ++ + 675-4 = 557 euros En el primer intervalo, se observa que hay 15 personas que perciben una pensién com- prendida entre 450 y 500 euros; sin embargo, al utilizar la marca de clase lo que se hace es suponer que la pensi6n de todas esas personas es de 475 euros; lo mismo ocurre en los demas intervalos. Como puede observarse, la pensidn media de esta distribucién no coincide con la del Ejemplo 2.1, es decir, se ha cometido un error, denominado error de agrupamiento. Con Jas distribuciones agrupadas se simplifican mucho los célculos pero también se pierde infor- macién, 0, dicho de otra manera, la informacién es menos exacta (lo que lleva en nuestro ejemplo a una pensién media ligeramente inferior a la real), por lo que habré que ver hasta qué punto compensa el agrupar 0 no los valores de la distribucién en intervalos. Las principales propiedades de la media aritmética son las siguientes: 1, La suma de las desviaciones de los valores de la variable respecto a su me- dia aritmética es cero: ¥ (5 -9y= Yom s x a Xx N 2, La media aritmética del cuadrado de las desviaciones de los valores de la variable respecto a una constante k cualquiera se hace minima cuando dicha cons- tante es igual a la media aritmética (Teorema de Kénig). En efecto, Sow = Sn —xXN=Nx-Nx=0 -k- xy . ny . - por lo que ¥) (x,—k)? 5 se hace minima cuando k = X, ya que en ese caso im (k — &) se anuta, 3. Si de un conjunto de valores se pueden obtener dos 0 mas subconjuntos disjuntos, la media aritmética de todo el conjunto se encuentra relacionada con las medias aritméticas de los subconjuntos disjuntos. Considérese la distribucién ex- puesta en la tabla de la pdgina siguiente, de donde se han obtenido k subconjuntos disjuntos de tal manera que f tn yn Y n=M Yn m1 oft ism N, +N, +--+N=N © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 21 Xi ni; x m oa mn x ny Ayer | Ape yea | Myer Xn ™% mei | Met Xm+2 | Mm+2 Xn My N La media aritmética del conjunto total sera: f b xin Yoox t YO xt if _EiN, + S)Ny + + Ne N Esta propiedad es muy wtil cuando se incorpora algdn valor a la distribucién, porque no hace falta calcular nuevamente la media de todos los valores. Si a la dis- tribucién del Ejemplo 2.1 se le afiaden las pensiones de 5 trabajadores més, cada una de 600 euros, la pensién media de los 55 trabajadores es 559,96-50 + 600°5_ 5, 6 _ = 563,60 euros © ITES-Paraninto 22° m_ ESTADISTICA DESCRIPTIVA 4, Sia todos los valores x, de una distribucién (xj; m) se les suma (resta) una constante b, la media aritmética de la nueva distribuci6n (y,; 1) queda aumentada (disminuida) en esa constante. En otros términos, a la media aritmética le afectan los cambios de origen. Si y; = x; + b, la media aritmética de la variable y sera: Eom Seton Lam Sn ee N b 5. Sia todos los valores x, de una distribucién (x;; 1) se les multiplica (divide) por una constante a, distinta de cero, la media aritmética de la nueva distribuci6n (yx n)) queda multiplicada (dividida) por esa constante. Es decir, a la media aritmé- tica le afectan los cambios de escala. Si y) = ax;, la media aritmética de la variable y sera Lym LY axm Ye xn si 5 N° N = ax 6. Como consecuencia de las dos propiedades anteriores, si a una variable se le aplica un cambio de origen b y un cambio de escala a, la media de la nueva variable y = ax + b serd =axtb a La media aritmética tiene una serie de ventajas: En su célculo intervienen todos los valores de la distribucién, lo cual parece un requisito indispensable de un promedio. Es facil de calcular y siempre se puede determinar. En distribuciones agrupa- das es necesario que los intervalos estén perfectamente definidos; si los inter- valos son del tipo menor que 0 mayor que, al no poderse calcular la marca de clase tampoco se puede calcular la media. Es tinica. . La media aritmética es el centro de gravedad de la distribuci6n, en virtud de la primera propiedad. © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 23 EJEMPLO 2.3 Considérense las siguientes tres distribuciones de salarios anuales (miles de euros): Salarios |, Salarios | Salarios |, x) ‘ @) ‘ &) ‘ 50 1 60 2 40 3 60 1 70 2 70 1 70 2 80 2 100 1 80 1 130 1 90 1 Estas distribuciones tienen idéntica media aritmética: 70 (en otros términos, idéntico cen- tro de gravedad, representado por A). Sin embargo, en las dos primeras este valor es el resul- tado de promediar valores muy parecidos entre sf, y en la tercera valores muy grandes con valores muy pequefios. * * * * ee a 50 60 70 80 90 60 70 80 a a * ae * * + OO 401 50 60 70 801 90 2 1001 110 22120) 30) a El principal inconveniente de la media aritmética es la escasa representatividad que puede tener, como valor central de la distribucién, en el caso de que la variable tome valores anormalmente extremos (como ocurre en la tercera distribucion del Ejemplo 2.3), dando lugar a conclusiones no muy fiables. 2.2.1.2. Media geométrica La media geométrica de una distribucin de frecuencias (x;; n), que se representa por G, se define como la raiz N-ésima del producto de los valores de la variable elevados a sus correspondientes frecuencias absolutas. C= YEE OE = -4 Tl x? © ITES-Paraninfo 24 m_ ESTADISTICA DESCRIPTIVA Notese que log G = log NT] x! = woe ( it 7 y utilizando las propiedades de los logaritmos, logx? = x Por tanto: Y dog x)n; 1 N log G es decir, el logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores de la variable. ‘Como puede observarse, en el ciilculo de la media geométrica también intervie- nen todos los valores de la distribucién. Sin embargo, uno de los grandes inconve- nientes de esta medida central es su no representatividad cuando uno (0 varios) de Ios valores sea cero, ya que G se anula. Por otra parte, cuando algunos de los valo- res de la variable son negativos, existen determinados casos en los cuales no se puede calcular la media geométrica; esto no significa que no exista sino que no se puede determinar. La media geométrica se suele utilizar para promediar, por ejemplo, tipos de tasas de variacién, porcentajes y niimeros indice, es decir, cuando los valo- res de la variable presentan variaciones acumulativas. arromscaaennitss EJEMPLO 2.4 Un individuo invirtié 12.000 curos en un plan de pensiones. Durante los cinco afios signien- tes las tasas de revalorizacién fueron del 5,6%, 2,25%, 4,15%, 8% y 9%, respectivamente. Calciilese fa tasa de revalorizacién media anual de esos cinco aitos. Si a la cantidad inicial invertida, So, se le aplican sucesivamente las tasas de revaloriza- cin anuales, r1, r2, r3, Pa P5» Se obtienen las cantidades resultantes para los cinco aitos: A afio: $= So(1 +71) 2° allo: Sz = S,(1 + rz) = So(1 + ry)(1 + 19) 3 afio: $3 = Sy(1 +73) = So(l +r + 72) + 15) AP afio: Sq = S3(1 + 14) = So(L + ry + ra) + 3)(1 + 19) Sailor Ss = Sg(1 + rs) = So(1 + ra)(1 + r2)(1 + r3)(1 + rg)(1 + 15) © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 25 La tasa media anual que ha de calcularse (r), que debido a su naturaleza se conoce como tasa media anual acumulativa, debe ser tal que, aplicada sucesivamente durante cinco afios a Ja cantidad inicial, proporcione cl montante del tltimo aiio considerado. Es decir, se debe verificar So(1 + n° = Ss o bien So(1 +r)? = So( + ry)(1 + r2)(L + ry)(1 + rg) +79) Por tanto, ——— a Le raft ry + ral + 1X + aX + 75) “JU (+n) mt expresién que involucra la media geométrica de (1 + r), siendo G = 1 +r. Despejando la tasa media anual r, ésta resulta ser ST] (+r) ist =/( + 0,056(1 + 0,0225)(1 + 0,0415)(1 + 0,081 + 0,09) = 0,057711807 Por tanto, al individuo le es indiferente que su dinero se incremente un porcentaje distin- to cada affo o que aumente todos los afios un 5,77%, ya que al final del quinto affo la cuantia de su plan de pensiones va a ser la misma: 12.000 (1 + 0,056)(1 + 0,0225)(1 + 0,0415)(1 + 0,08)(1 + 0,09) = 15.886,13 euros 12.000(1 + 0,057711807) = 15.886,13 euros Si se hubiese utilizado la media aritmética, el incremento seria 5,6% + 2,254% + 4,15% + 8% + 9% _ 5 5,8% resultado no realista, pues 12.000 (1 + 0,058)° = 15.907,78 euros, cifra que no coincide con Ia cantidad total que el individuo en cuesti6n tiene al final del quinto afio: 15.86,13 euros. 2.2.1.3. Media armonica La media arménica H de una distribucién de frecuencias (x;; n,) se define como la inversa de la media aritmética de los inversos de los valores de la variable; esto es, © ITES-Paraninfo 26m ESTADISTICA DESCRIPTIVA Igual que las dos medias anteriores, la media arménica tiene Ia ventaja de que en su célcuto intervienen todos los valores de la variable; sin embargo, no tiene sentido su utilizaci6n cuando algiin valor de la distribucién sea nulo. La media arménica se suele utilizar para promediar rendimientos, productivida- des, etc., es decir, cuando las unidades de medida de la variable analizada vienen dadas en forma de cociente. expense EJEMPLO 2.5 Una empresa de equipos electrénicos tiene tres talleres de montaje con las siguientes cifras mensuales: seen Produccién Productividad (n° de equipos) | (n.° de equipos por empleado) Taller A (equipo A) 4.500 30 Taller B (equipo B) 2.400 15 Taller C (equipo C) 3.000 25 La productividad media del trabajo (niimero de equipos por empleado) se calcula de la siguiente forma: po de-equipos totales _ 4.500 + 2.400 + 3.000 11° de empleados totales 4.500 | 2.400 3,000 30° 1525 23,02 equipos/empleado Nétese que 4.500/30 es el nimero de empleados del taller A: Lempleado ———> 30 equipos x empleados 4,500 equipos $500 _ 150 emplead _ empleados Andlogamente, 2.400/15 y 3.000/25 son los empleados de los talleres B y C, respectiva- mente, esto es, 160 y 120. Si se calcula la media aritmética de las productividades, se lega a: 30 + 15 + 25 3 resultado err6neo, pues, si se toma como productividad media 23,33 equipos por empleado, el ndimero total de equipos producidos seria 430 x 23,33 = 10.032, cuando Ia cifra real es de 9.900. 23,33 equipos por empleado © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 27 2.2.1.4. Medias ponderadas Cuando la ponderacién de los valores de la variable (w,) es distinta de Ia frecuencia (absoluta o relativa) se tienen las denominadas medias (aritmética, geométrica y ar- ménica) ponderadas, definidas, respectivamente, como y xm, yw, mH 2.2.1.5. Mediana Suponiendo que los valores de la variable estén ordenados de menor a mayor, la mediana se define como aquel valor que divide la distribucién de frecuencias de forma que el ntimero de frecuencias que quedan a su izquierda es igual al nimero de las que quedan a su derecha. Distribuciones no agrupadas en intervalos Si el ntimero total de datos es impar, la definicién proporciona siempre un tinico valor, ya que denominando k al nimero de observaciones inferiores y superiores a la mediana resulta que N Sin embargo, si el ntimero de datos es par, habra dos valores medianos: el que N N ocupa el lugar k + 1=—-y el que ocupa el lugar k +2 => + 1, puesto que @ITES-Paraninto 28 =m ESTADISTICA DESCRIPTIVA k+L+1+k=N N-2 N at) - En este caso, se conviene en tomar como valor mediano la media aritmética de ambos. No obstante, esto no es sino un convenio. Perfectamente podria tomarse co- mo mediana uno u otro. Distribuciones agrupadas en intervalos En el caso en que la distribuci6n se encontrase agrupada en intervalos, no se tendré un valor mediano sino un intervalo mediano. Una vez establecido dicho intervalo mediano, hay que determinar un valor dentro de él que se corresponda con la me- diana, valor que no se puede calcular de forma exacta puesto que se desconocen los diferentes valores que toma la variable en cada uno de Ios intervalos. Existen varios ctiterios para aproximar el valor mediano: a) Si se asigna n, aun punto, se puede considerar que la mediana es cualquier valor del intervalo, exceptuando L,_ ;, puesto que los intervalos se conside- ran abiertos por la izquierda y cerrados por la derecha. b) Sino se asigna n, a un punto sino que se considera que todos los valores del intervalo estén distribuidos de manera uniforme dentro de él, se puede aproximar la mediana de la forma siguiente: Ml Niimero de datos impar Como se ha visto en distribuciones no agrupadas en intervalos, si el ntimero de da- tos es impar la mediana es aquel valor de la variable, supuesta una ordenacién de menor a mayor, que ocupa el lugar: N+1 k + k+1 2 © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 29 Siguiendo este mismo criterio, el intervalo mediano seré aquel que contenga la i+ frecuencia . Si el intervalo mediano es — Ly se observa el histograma acumulativo de frecuencias del Gréfico 2.1 se tiene: GrAfico 2.1. Evidentemente, Me = L;_, + m, y m se determina mediante la siguiente regla- de tres: En c, ———> n; frecuencias N+1 En m ———> — Njq4 frecuencias despejando m se tiene que con lo que © ITES-Paraninfo 30m ESTADISTICA DESCRIPTIVA H Néimero de datos par En este caso se dispone de dos valores medianos, que son los que ocupan las posi- ciones N N = s+ ktt=> y kt2=541 Si ambos valores estén en el mismo intervalo L; tiene que — L, (intervalo mediano) se pudiéndose tomar como mediana cualquiera de ellos 0 la media de los dos: N+1 es decir, Ia misma expresi6n que la obtenida para el caso de que la frecuencia total sea impar. Si los dos valores medianos se encuentran en distintos intervalos, se procederia de forma anéloga. La mediana, como medida de posicién central, resulta de gran utilidad en los casos siguientes: © Cuando existan valores anormalmente bajos 0 elevados. La mediana es me- nos sensible que la media aritmética a estos valores extremos porque en st. determinacién no intervienen todos los valores de 1a variable sino los que ocupan las posiciones centrales. * Cuando en las distribuciones agrupadas en intervalos el primero sea del tipo ‘menor que 0 el tiltimo del tipo mayor que, siempre y cuando ninguno de estos intervalos sea el intervalo mediano. * Cuando se analizan variables cualitativas que vienen dadas en escala ordinal. En este caso, no se puede determinar la media aritmética, siendo la mediana Ja medida de tendencia central mas representativa. © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 31 peso EJEMPLO Se dispone de la siguiente informacién acerca de las prestaciones mensuales por desempleo (euros) percibidas por 15 personas: | Prestaciones (x;) nm $23 2 2 550 3 5 631 4 9 644, 2 i 682 3 14 716 1 15 15 Como el mimero de datos es impar, la prestacién mensual mediana es el valor que ocupa el lugar N+1 _ 8 es decir, Me = 631 euros. Si la distribuci6n anterior tuviera un mémero par de observaciones como, por ejemplo, Prestaciones \ 523 2 2 550 3 5 631 5 10 644 6 16 682 2 18 716 2 20 20 donde k+1 k+2 el primer valor mediano serfa 631 y el segundo 644, siendo la media aritmética de am- bos 637.5. © ITES-Paraninto 32m ESTADISTICA DESCRIPTIVA raneacmancis EJEMPLO 2.7 El nimero de beneficiarios de prestaciones de nivel contributivo por desempleo en Espafia en 2004, segiin la edad de los mismos, viene recogido en la siguiente tabla: Edad de los beneficiarios (aiios) n N Li. bi 16-20 3.748 3.748 20-25 57.992 61.740 25-30 122.216 183.956 121.856 305.812 92.358 398.170 70.069 468.239 52.595 520.834 47.631 568.465 48.046 616.511 46.642 663.154 Total 663.154 Fuente: Anuario de Estadisticas Laborales y Asuntos Sociales 2004. Ministerio de Trabajo y Asuntos Sociales. Como se dispone de un niimero par de datos, los dos valores medianos ocupan, respecti- vamente, las posiciones: N N k+l => = 331577 k+2=> 4 1= 331.578 Dado que ambos se encuentran en ¢l mismo intervalo mediano (35-40), la mediana es Netiy Me=L;-, + = gg + SOL STES = 305.812 5 _ 36.40 = 36 a Me=Lj-1 ' = oss = 36,40 © 36 afios EJEMPLO 2.8 Segiin la «stadistica de Accidentes de Trabajo» del Ministerio de Trabajo y Asuntos Socia- les, entre enero y septiembre de 2005 los accidentes laborales con baja registrados en Espaia durante la jornada de trabajo fueron, segtin su gravedad: leves: 675.190; graves: 7.508; mor- tales: 770. © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 33 re eeeneeeenensneimenraeenene Accidentes n; N; | Leves 675.190} 675.190 Graves 7.508 | 682.698 Mortales 710 | 683.468 683.468 Igual que ocurre en el caso de las variables, al ser el ntimero de observaciones par, los dos valores medianos corresponderén a aquellas dos modalidades que ocupen los lugares: N kt l= 5 = 341.734 k +1 = 341.735 2 es decir, en cualquier caso, a los accidentes leves. En caso de dos modalidades medianas distintas, es obvio que no se puede calcular la media aritmética de ambas, debiéndose proce- der con un juicio razonable. Si el ntimero de observaciones es impar, existirfa con una Gnica modalidad central. 2.2.1.6. Moda La moda es aquel valor de la variable que presenta mayor frecuencia absoluta, es decir, aquel que mas veces se repite, Puede darse el caso de que existan varios valo- res que presenten la maxima frecuencia absoluta, teniéndose entonces una distribu ci6n bimodal, trimodal, etc. Si la distribuci6n esta agrupada en intervalos, en primer lugar habré que deter- minar el intervalo modal y, posteriormente, elegir como moda un valor de dicho intervalo. Se distinguen dos casos: A. La amplitud de los intervalos es la misma En este caso, el intervalo modal es aquel que presenta mayor frecuencia absoluta y, como se desconocen los valores incluidos en dicho intervalo, se puede aproximar la moda siguiendo varios criterios: ALL. Si se asigna n, a un punto, se puede elegir cualquier valor del intervalo como moda (descartando el extremo inferior por considerar el intervalo abierto por Ia izquierda). A.2. Si se considera que todos los valores del intervalo estén distribuidos de manera uniforme dentro de él y el intervalo modal es L,_; — L,, la moda estardi més cerca (lejos) del intervalo de la derecha cuanto mayor (menor) frecuencia tenga este intervalo y menor (mayor) tenga el izquierdo (Grafico 2.2) © ITES-Paraninto 34m ESTADISTICA DESCRIPTIVA ™ Mie Finp bint Mo Ly Grafico 2.2. La semejanza de los tridngulos ABH y CDH permite hallar la longitud del seg- mento MH (cantidad que se debe sumar a L;_, para obtener el valor de 1a moda) Por la semejanza de los tridngulos, se verifica que NH + MH MH siendo haps my Ae = Mat Por tanto, 1 Mo-hitp—e Ro B. La amplitud de los intervalos es distinta En este caso, el intervalo modal no es el que tiene mayor frecuencia absoluta sino el que tiene mayor frecuencia por unidad de intervalo, es decir, mayor densidad de 1, . frecuencia (4 ="). Una vez determinado el intervalo modal se puede aproximar la moda siguiendo los criterios vistos en el caso anterior, siendo el mas razonable el Ultimo Lt © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 35 con ~d, Hr Y Kiet = de dev Por tiltimo, la moda es la mejor medida de tendencia central en el anélisis de los atributos dados en escala nominal, ya que sus modalidades no son susceptibles de ser ordenadas y tampoco admiten ningtin tipo de operaci6n algebraica. EJEMPLO 29 Los contratos registrados en Espafia durante los ejercicios 2004 y 2005, segiin modalidad de contratacién y duracién del contrato, fueron erent NN ECE Contato eit cy apa ein meiated | aoat | as Indefinidos 1.419.718 | 1.542.838 Indefinido ordinario™ 491.648 | 547.449 Minusvalidos 9.497 | 10.020 | Indefinidos de fomento del empleo 305.129 | 285.285 Convertidos en indefinidos 613.444 | 700.083 ‘Temporales 14.931.066 | 15.622.127 Obra o servicio 6.057.846 | 6.401.169 Eventuales por circunstancias de Ia producciéa 7.117.436 | 7.487.659 Interinidad 1,234,104 | 1.314.449 | ‘Temporales minusvélidos 11.093 12.646 | | Temporales de insercién laboral 67.523 4.969 | Sustitucién jubilacién 64 aftos 1.684 1.697 Total relevo 16.030 22.151 Jubilacién parcial 15.780 21.232 Précticas 85.845 85.577 Formacién 126.534 | 120.584 Otros 197.201 | 149.394 Total 16.380.784 | 17.164.965 Fuente: Instituto Nacional de Empleo. (1) Tncluye contratos a tiempo completo, tiempo parcial o fijos discontinuos no acogidos a medidas de fomento al empleo. ( Cada modalidad de contrataci6n temporal incluye los respectivos contratos de tiempo parcial El tipo de contrato més frecuente en nuestro pais, tanto en el ejercicio 2004 como en 2005, fue el eventual por circunstancias de la produccién, puesto que es el que presenta en ambos aflos la mayor frecuencia absoluta. © ITES-Paraninfo 36m ESTADISTICA DESCRIPTIVA EJEMPLO 2.10 Las prestaciones mensuales por desempleo (euros) de un determinado niimero de individuos son las que se recogen en la siguiente tabla: Lir-k; | om 300-500 | 20 2 OL 500-600 | 50 100 0,5, 600-750 30 150 02 750-1.000 10 250 0,04 110 El intervalo con mayor densidad de frecuencia es (500-600) y la moda serfa 04 Mo = 500 + ——— 100 = 557,14 euros 04 + 0,3 2.2.2. MEDIDAS DE POSICION NO CENTRAL Estas medidas, como su nombre indica, no reflejan ninguna tendencia central. Se denominan genéticamente cuantiles y son aquellos valores de 1a variable, odenados en sentido creciente, que dividen Ja distribuci6n en partes, de tal manera que cada una de ellas contiene el mismo néimero de frecuencias, Si la mediana divide la di tribucién en dos partes con idéntico néimero de observaciones, por extensién, los cuartiles (C,), deciles (D)) y percentiles (P;) dividen a la misma en 4, 10 y 100 par- tes, respectivamente, con ef mismo ntimero de frecuencias. A. Distribuciones no agrupadas en intervalos La explicacién se centraré en los cuartiles, si bien es ffcilmente generalizable a los deciles y percentiles. Los cuartiles quedan perfectamente determinados si el niimero total de observa ciones es inferior en una unidad a cualquier miltiplo de 4. Sin embargo, en otros casos es necesario recurrir a procedimientos que permitan determinar un valor con- creto, Los procedimientos que se proponen son los siguientes: a) Si el mtimero total de observaciones es miiltiplo de 4: el primer y tercer cuartil quedan perfectamente determinados; sin embargo, como segundo cuartil se tienen dos valores medianos, ya que el ntimero total de observaciones es par, optan- do por calcular la media aritmética de ambos. © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 37 N N-4 N-4 El primer cuartil ocupa el lugar: N Ca + t= 4 El segundo cuartil 0 mediana: media aritmética de los dos valores medianos. Los dos valores medianos ocupan los lugares: Me 24 N le MeN 4444874528 ay meg 4 “9 El tercer cuartil ocupa el lugar ee eee 3" 4 4 a b) Si el niimero total de observaciones es inferior en una unidad a un miltiplo de 4: N _ iN +1) 4 ©) Siel ntimero total de observaciones es inferior en 2 unidades a un miltiplo de 4: en este caso, existen dos valores para cada cuartil, por lo que se considera la media aritmética de ambos. +1 © ITES-Paraninto 38 ml ESTADISTICA DESCRIPTIVA EI primer y segundo valor del tercer cuartil ocupan los lugares =o New) 3N +2 +24 +15 +24 eal a7 0 Nise. +24 N C34 +2+ d) Si el némero total de observaciones es inferior en 3 unidades a un mUltiplo de 4: como el nimero total de observaciones es impar se tomara un valor mediano y dos valores para el primer y tercer cuartil, y se procede posteriormente a promediar éstos. 1] © ITES-Paraninto Capftulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 39 El segundo cuartil o mediana ocupa el lugar po 494 N54 NH 4 4 “3 El primer y segundo valor del tercer cuartil ocupan los lugares N-5 N-5 N 5 C9 +24 +14 + N-5S +24 +1 t+ B. Distribuciones agrupadas en intervalos Como en el caso anterior, se hard referencia a los cuartiles, si bien se puede proce- der de forma similar para la determinacién de deciles y percentiles. En primer lugar, hay que establecer el intervalo que contiene a cada uno de ellos y, posteriormente, asignar un valor de dicho intervalo al cuartil correspondien- te. De manera anéloga a como se procedia en la determinacién de la mediana, se puede tomar como cuartil cualquier valor del intervalo excepto el correspondiente al extremo inferior, por considerarse los intervalos abiertos por la izquierda, o bien aplicar la siguiente expresi6n: CG siendo N¢, el lugar que ocupa el cuartil i-ésimo. TS EJEMPLO 2.11 A partir de la siguiente distribucién de salarios mensuales (euros), determinese el primer cuartil: Linh xi my M 1.000-1.500 125.000 10 10 1.500-2.000 175.000 25 35 2.000-2.500 225.000 10 45 2.500-5.000 375.000 5 50 50 Como N es inferior en dos unidades a un miltiplo de cuatro, hay dos primeros cuartiles. Para el primero: _N-2 Ne=—G © ITES-Paraninfo 40m ESTADISTICA DESCRIPTIVA Y, para el segundo: es decir, 12 y 13, respectivamente. Por tanto, el primer y segundo valor del primer cuartil son 12 1,500 + Q 5.000 = 1.540 euros 13-10 Cy = 1.500 + 5.000 = 1.560 euros por lo que, promediando ambos, se considera como primer cuartil 1.550 euros. Supéngase, por ejemplo, que el coste extra salarial (en euros) que cuatro trabajado- res de una empresa A y otros cuatro de una empresa B les suponen a ambas un determinado mes es: Empresa A | 100 120 350 370 Empresa B | 225 230 240 245 # + + so. “ # 100 120 200 235 250 350 370 225 230 235 240 245 a a Empresa A Empresa B pudiéndose apreciar que en la empresa B los valores de la variable varfan poco y en la A mucho. Si se calcula el coste extra salarial medio de ambas distribuciones, el resultado obtenido es 235 euros. Sin embargo, estas dos distribuciones son bien dis- tintas, ya que a la empresa A ningdn trabajador Je supone un coste extra salarial proximo a 235 euros y a la B sf. Es decir, se puede considerar que el coste extra salarial medio de los cuatro trabajadores de la empresa B es més representativo que el de los cuatro de la empresa A. Esto indica que, para caracterizar una distribucién, ademds de calcular las medi- das de posicién, también resulta necesario analizar su variabilidad. Dicha variabili- dad, habitualmente, se mide respecto a una medida de posicién central, pretendien- do, de esta manera, conocer la representatividad de los valores centrales de la distribucién, es decir, si estos valores sintetizan de forma satisfactoria 0 no toda la informaci6n de la distribucién. © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 41 Existen dos tipos de medidas de dispersi6n: las absolutas y las relativas. Las primeras se utilizan cuando se trata de analizar la variabilidad de, tinicamente, una distribuci6n de frecuencias y, las segundas, cuando se pretende comparar la variabi- lidad de dos o més. 2.3.1. MEDIDAS DE DISPERSION ABSOLUTAS A. Medidas de dispersion obtenidas por comparacién directa entre los valores de la variable Recorrido o rango Se define como la diferencia entre el maximo y minimo valor de la variable: Re = Max (x) — Min(x)) En el ejemplo anterior, el recorrido de la distribucién de la empresa A es 270 euros y en la empresa B 20 euros. Al tener ambas el mismo mimero de observacio- nes y ser el recorrido de la distribucién de la empresa B mucho més pequefio, en principio, se puede suponer que esta distribucién est4 menos dispersa que Ja de la empresa A; 0 dicho de otra manera, las diferencias entre sus valores son menores. Esta medida tiene la ventaja de ser muy sencilla de calcular. Sin embargo, el inconveniente que presenta es que slo depende de los valores extremos, pot lo que éstos se encuentran alejados del resto de los valores de la distribucién (es decir, son valores anémalos) puede dar lugar a conclusiones erréneas. Recorrido o rango intercuartilico Para evitar el problema de los valores anémalos, se suele emplear el denominado recorrido 0 rango intercuartilico, que se define como la diferencia entre el tercer y primer cuartil donde el intervalo de longitud R, contiene el 50% de lo valores centrales de la dis- tribucién. Cuanto mayor sea el recorrido intercuartilico mayor sera la variabilidad 0 dispersion de la distribucién de frecuencias. Diferencia media de Gini Se define como _ Aaa DY ba alm, Sie © ITES-Paraninto 42m ESTADISTICA DESCRIPTIVA esto es, el promedio de las diferencias (en valor absoluto) entre cada par de valores de la distribucién. Su principal incoveniente radica en la tediosidad de su célculo. B. Medidas de dispersion obtenidas por comparacién entre los valores de la variable y una medida de posicién central Si lo que se pretende es analizar la mayor o menor representatividad de los valores centrales de la distribucién, es necesario utilizar otro tipo de medidas que hagan referencia a algtin promedio. De todos los promedios estudiados se ha elegido la media aritmética, porque es la medida de posicién central por excelencia habida cuenta de sus propiedades y ventajas. Dentro de las medidas de dispersién absolu- tas respecto a la media aritmética, la varianza y la desviacién tfpica son las mas utilizadas. Varianza Para determinar la mayor 0 menor separacién entre los valores de la variable y la media aritmética, se podrfan promediar las desviaciones de cada valor respecto a la media aritmética ¥ (9m & _ sin embargo, por la primera propiedad de la media aritmética, esta expresiGn es nu- la ya que las desviaciones positivas se compensan con las negativas. Una forma de evitar esta circunstancia es considerar las desviaciones elevadas al cuadrado, con lo cual tiene que y (x; — Pn, N Esta expresién se denomina varianza y se define como la media aritmética de los cuadrados de las desviaciones entre los valores de la variable y la media aritmé- tica, siendo, por la segunda propiedad de la media aritmética, una medida de disper- sién 6ptima. La varianza mide la mayor o menor dispersién de los valores de la variable res- pecto a la media aritmética. Cuanto mayor sea la varianza mayor dispersi6n existiré Y, Por tanto, menor representatividad tendr4 la media aritmética. Las propiedades de la varianza son las siguientes: 1. La varianza siempre es mayor o igual a cero. © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 43 2. La varianza se puede expres como: DY Oi Xm YP = 2k + Py 3. Si de un conjunto de valores se pueden obtener dos o més subconjuntos disjuntos, la varianza de todo el conjunto se encuentra relacionada con las varianzas de los subconjuntos disjuntos. Considérese la siguiente distribuci6n: x nm x ny * m xy ny Xper | yet Xpez | Meso n ny Seren | tee) Xms2 | Mms2 Xn My N de donde se han obtenido k subconjuntos disjuntos de tal manera que f = mA Yomn=Ne N+ Nate + NaN © ITES-Paraninfo 44m ESTADISTICA DESCRIPTIVA La varianza del conjunto total sera y (x = Pn, y xm =o oo N Ya se vio que X es la media total de los k grupos xiNi + Hs 1 De la misma forma se podria expresar J D x xin x xn; 1 fe x NN, Lm MF N _ (SE + XN + (S3 + X3)Ny + + (SE+ XD) - N Por tanto, VES} + X2] + NoLS3 + 3] +--+ NeCSE+ Xe] W _ [““ + N2X) tet wef NS} +N. : Nix} + N33 + _ St Nix + N33 . [“ Lt Nox) toe + “ay Pero los dos tiltimos términos de la expresién anterior no son sino la varianza de una distribucién cuyos valores son las medias de los grupos y sus frecuencias abso- Iutas los tamafios de los mismos. En consecuencia, la varianza global de la distribu- ci6n se puede expresar como la media ponderada de la varianza de los grupos mi Ja varianza de la distribucién de medias anteriormente citada. O, en otros términos, como yo y a z &- ey N ya que la media de la distribucién de medias grupales es la media de la variable. © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 45 Por consiguiente, la varianza global se puede obtener como una suma pondera- da de las varianzas de cada grupo (primer sumando) més una suma ponderada de las diferencias cuadraticas de las medias de cada grupo con respecto a la media global. En definitiva, la varianza global se puede descomponer en dos sumandos: el primero hace referencia a la variabilidad intrinseca de cada grupo (variabilidad in- tragrupos) y el segundo a la variabilidad de las medias de cada grupo (variabilidad intergrupos). 4. Sia todos los valores (x;) de una distribucién (x,; n) se les suma (resta) una constante b, la varianza de la nueva distribucién (y,; 7,) no varia, es decir, a la va- rianza no le afectan los cambios de origen (si por ejemplo a todos los trabajadores de una empresa les suben el sueldo mensual 100 euros, la variabilidad de los sala- rios sigue siendo la misma). x; + b, la varianza de la variable y sera Eo wm YS ortb-GtHPm Yow 3m Sk 5. Sia todos los valores x, de una distribuci6n (x; 1) se les multiplica (divide) por una constante a, distinta de cero, la varianza de la nueva distribuci6n (y,; n) queda multiplicada (dividida) por esa constante al cuadrado; es decir, a la varianza Ie afectan los cambios de escala. ax, la varianza de la variable y sera 2 it N N ¥ xan YO 3a, = @&S& 6. Teniendo en cuenta las dos propiedades anteriores, si a una variable se le aplica un cambio de origen b y un cambio de escala a, la varianza de la nueva varia- ble y= ax; + bes 5} = ats} Desviaci6n tipica o estandar La varianza viene expresada en las mismas unidades de medida que la variable ana- lizada pero elevadas al cuadrado, lo que dificulta su interpretacién (piénsese que en una distribucién de salarios la varianza vendré dada en euros”). Ante esta situacién, es necesario definir otra medida que venga expresada en las mismas unidades de medida que la variable. Esta medida es la desviaci6n tipica o estandar. @ITES-Paraninfo 46 wm ESTADISTICA DESCRIPTIVA Se define la desviacién tépica como la raiz cuadrada con signo positivo de la varianza, esto es, Cuanto mayor sea la desviaci6n tipica, mayor dispersi6n existira entre los valo- tes de la distribucién y la media aritmética y, por tanto, la media aritmética seré menos representativa. Las propiedades de la desviacién tipica se deducen directamente de las de la varianza: 1. La desviaci6n tipica siempre es mayor 0 igual que cero. 2. La desviaci6n tipica también puede expresarse como 3. A la desviacién tipica no le afectan los cambios de origen: si y; entonces 4. A la desviaci6n tipica le afectan los umbios de escala: si y; ~ ax, entonces Sy=lalSx 5. Sia una variable se le aplica un cambio de origen b y un cambio de escala a, la desviacién tipica pasa a ser Sy = al Sx 6. La desviaci6n tipica, igual que la varianza, es una medida de dispersién 6p- tima. ——— EJEMPLO 2.12 La siguiente tabla contiene la distribucién de altas diarias de afiliados a la Seguridad Social en Espafia durante el mes de enero de 2006 (en miles). Caleiilese la media diaria de dichas altas, as{ como su desviacién tipica, © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUGION DE FRECUENCIAS m 47 Alla: “ih x xn; xPn, 35-40 1 37,5 37,5 1.406,25 40-50 2 45 90, 4.050 50-60 4 55 220 12.100 60-70 3 65 195 12.675 70-80 4 15 300 22.500 80-90 2 85 170 14.450 90-120 2 105 210 22.050 120-200 2 160 320 51.200 200-300 1 250 250 62.500 21 1.792,5 202.931,25 Fuente: Ministero de Trabajo y Asuntos Sociales, El ndimero medio de altas diarias, en miles, sera ED ae = *~ = 85,3571 alta N ry 85,3571 altas ea 4 y su desviaci6n tipica, también en miles, ° 2 zim 202.931,25 QT (1:792,5)? = 2.377,5510 altas” + /2.377,5510 18,7601 altas 2.3.2. MEDIDAS DE DISPERSION RELATIVAS ‘Sup6ngase, por ejemplo, que se dispone de las distribuciones de edades de los tra- bajadores afiliados a la Seguridad Social en los regimenes especiales agricola y ma- ritimo: en el agricola la edad media es de 43 afios y la desviacién tipica de 5 aiios, y en el maritimo la edad media también es de 43 aiios pero la desviacién es de 8 afios. Evidentemente, puesto que la edad media es Ia misma en ambos regimenes, la di tribucién del régimen maritimo presenta mayor dispersin, ya que tiene mayor de: pica y, por tanto, la edad media es menos representativa que en el régimen Sin embargo, si las edades medias fueran distintas, no se podrfa utilizar la desviaci6n tipica para determinar la representatividad de las mismas, ni tampoco en © ITES-Paraninfo 48 Mm _ ESTADISTICA DESCRIPTIVA el caso de que las unidades de medida fuesen diferentes (por ejemplo, si se tiene una distribucién de salarios y otra de edades). Para evitar estos inconvenientes, hay que poner en relaciGn la medida de disper- sién con a de tendencia central, y ello en forma de cociente para que la medida resultante sea adimensional. Este tipo de cocientes son las denominadas medidas de dispersién relativas, de las que existen varias en Ia literatura estadistica, siendo la mis utilizada el coeficiente de variacion de Pearson. Este coeficiente se define como el cociente entre la desviaci6n tipica y el valor absoluto de la media aritmética Se puede apreciar que: ‘© Como las unidades de medida de la desviacién tipica y de la media aritmética son las mismas, este cociente es adimensional; por tanto, es ttil para compa- rar varias distribuciones. © Como el coeficiente de variacién representa el ntimero de veces que la des- ‘a contiene a la media, cuanto mayor sea este coeficiente, mayor dispersién existira (més veces contendré la desviacién tipica a la media arit- mética), por lo que menor seré la representatividad de la media aritmética y menor seré la homogeneidad de los valores de Ia distribucién. © El coeficiente de variacién utiliza toda la informacién de la distribucién. * El coeficiente de variacién se anula cuando la desviaci6n tipica es cero. En este caso no existiria dispersi6n y todos los valores de la distribucién son iguales. Cuando la media aritmética es cero, no tiene sentido su calculo. Este coeficiente puede expresarse también en porcentaje, simplemente multi- plicando la expresi6n anterior por 100. mmcorarancene nae EJEMPLO 2.13 En el Ejemplo 2.12 se ha procedido al célculo de la media y la desviacién tipica de las altas diarias de afiliados a la Seguridad Social en Espafia durante el mes de enero de 2006. Ahora, cen Ia tabla adjunta, se presenta la informaciGn relativa a las bajas diarias de afiliados en Espafia durante dicho mes (también en miles). {Cuél de las dos medias diarias, 1a de altas 0 la de bajas, es més representativa’? © IES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 49 Bajasl1—Li! piasn, x xin; Pn, (miles) 40-50 1 5 45 2.025 50-60 6 55 330 18.150 60-70 4 65 260 16.900 70-80 1 75 75 5.625 80-90 2 85 170 14.450 90-100 1 85 95 9.025 100-110 3 105 315 33.075 110-150 2 130 260 33.800 150-400 1 275 215 75.625 21 1.825 208.675 Procediendo de la misma manera que en el ejemplo anterior, el ntimero medio de bs en miles, serd y xin 8 Sy 7 86.9048 bajas y su variabilidad en torno a este valor medio, también en miles, 208.675 ~ (86,9048)? = 2.384,4671 bajas? 4671 = 48,8310 bajas Para determinar cudl de las dos medias es mas representativa, se procede al célculo de los coeficientes de variacién de ambas distribuciones de frecuencias, 48,7601 7 85,3571 S712 legandose a la conclusion de que, si bien ambos son muy similares, la media de las bajas diarias en los registros de afiliaci6n a la Seguridad Social es ligeramente mds representativa. © ITES-Paraninto 50 m ESTADISTICA DESCRIPTIVA 2.3.3. VARIABLE TIPIFICADA Supéngase que se dispone de una distribucién de frecuencias (x;; m) con una deter- minada media y desviaci6n tipica. Si a todos los valores de la distribuci6n se les resta la media y se les divide por la desviacién tipica, la variable resultante se deno- mina variable tipificada: y se caracteriza porque su media es cero y su varianza uno, como puede comprobar- se facilmente aplicando las propiedades de la media y varianza. = — EJEMPLO 2.14 Un individuo tiene que elegir entre dos ofertas de trabajo: una propuesta por una empresa espafiola y la otra por una americana. La empresa espaitola le ofrece un sueldo anual bruto de 53.000 euros, mientras que la oferta de la americana es de 50,000 $. Por otro lado, esta perso- na tiene informacién sobre ¢! sueldo medio y la desviacién tipica salarial de las distribucio- nes de ambas empresas: 40.000 euros; Sy = 3.500 euros 36.500 $; Sy = 1.725 $ y 4En cual de las dos empresas la posicidn relativa de este individuo es mejor respecto a los dems trabajadores? Como las unidades de medida de ambas distribuciones no son iguales, no se pueden com- parar las remuneraciones de las dos empresas, por lo que habré que transformar estos valores de manera que las distribuciones tengan la misma media y la misma desviacin tipica, es decir, habra que tipificar los salarios. En el caso de los salarios ofertados al individuo en cuestidn, se tiene que 53.000 — 40.000 3.500 Empresa espafiola: 371 _ $0,000 ~ 36.500 Empresa americana: ————— 1.725 Como las distribuciones de los salarios tipificados tienen media igual a cero y desviacién tipica igual a 1, se observa que en ambas empresas la remuneraci6n de ese individuo est por encima de la media, Sin embargo, en la empresa espaiiola estaria 3,71 desviaciones tipicas por encima de la media, mientras que en la americana su salario seria 7,82 desviaciones tipi- cas superior al salario medio, lo que refleja que su posicién relativa frente a los demas traba- jadores es mejor en la empresa americana. © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 51 2.3.4, DESIGUALDAD DE TCHEBICHEFF En caso de no disponer de la distribucién de frecuencias nada se puede saber sobre el niimero de frecuencias mayores que un determinado valor de la variable, o meno- res que él, 0 comprendidos entre dos valores de la variable. Sin embargo, si se co- nocen la media y la desviacién tfpica de dicha distribucidn es posible conocer el ndmero mfnimo de frecuencias contenidas en un intervalo simétrico respecto de la media, aunque no se disponga de la distribucién de frecuencias. Tal aportacién, sin duda importante, se debe al matematico ruso Tchebicheff. Sea una distribucién de frecuencias (x;; n). Se divide en dos clases: la primera, C,, contiene los valores de la variable que distan de la media de la distribucién (en valor absoluto) mas que una distancia k positiva. La segunda, C2, contiene el resto de valores. ym Media xg En consecuencia: 7 9 eee 9 Nj ony B= Di PLO ey tLe Pye ay y como en C, resulta que (x; — X) > k, se tiene que Sk > ¥ 4 — 9 E> RFit, ~ 81> KI) y despejando se obtiene que - S% Selly ~ 31> KI < 0 bien, Sk Sills 31S 1-7 2 file —kemcx+hat-3 © MTES-Paraninfo 52m ESTADISTICA DESCRIPTIVA En el caso particular en que k = k*S,, siendo k* una constante mayor que cero, se tiene que - = L SiL¥ ~ Sy 1 Te La interpretaci6n de este resultado es como sigue: el porcentaje del total de va- lores de la distribucién que se encuentran comprendidos entre la media aritmética +k* veces la desviacién tipica de la distribucién es, como minimo, 1 — 1/k*?. De este resultado se desprende que, para cualquier distribucién de frecuencias: — Entre x — 2S, y X + 2S, estén comprendidas, al menos, el 75% de las frecuencias de la distribucién. — Entre ¥ — 3Sy y X + 3Sy estén comprendidas, al menos, el 89% de las fre~ cuencias de la distribuci6n. — Entre ¥- 4Sy y ¥ + 4Sy estén comprendidas, al menos, el 94% de las frecuencias de la distribucién. Para realizar un resumen completo de la variable objeto de estudio se deben anali- zar, ademas de las medidas de posicién y dispersiGn, otra serie de medidas que ca- racterizan de forma més precisa el comportamiento de dicha variable, ya que pue- den existir distribuciones que presenten el mismo valor central e igual grado de dispersi6n, y diferir, sin embargo, en la forma aspecto de sus histogramas o dia- gramas de barras. Estas medidas se conocen con el nombre de medidas de forma y pueden ser de dos tipos: de asimetrfa y de apuntamiento o curtosis. 2.4.1. MEDIDAS DE ASIMETRIA. El objetivo de estas medidas es determinar, sin necesidad de dibujar la distribucién de frecuencias, la deformacién horizontal de los valores de la variable analizada respecto a un valor central, generalmente la media aritmética. Una distribuci6n es simétrica cuando a Ja izquierda y derecha de su media exis- te el mismo mimero de valores, de manera que equidisten dos a dos de la media y tengan, ademés, cada uno de ellos la misma frecuencia. Sin embargo, no siempre ocurre esto; por ello, resulta necesario el uso de medidas que determinen la mayor 0 menor asimetria de los valores de la variable respecto a la media aritmética, siendo deseable que estas medidas vengan dadas en forma de cociente y, por tanto, sean adimensionales. © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 53 Para ver el grado y la direccién de la asimetria de una distribucién se podrian promediar las desviaciones de los valores de la variable respecto a la media aritmé- tica, ya que podria pensarse que un promedio negativo implicarfa asimetria a la iz quierda, un promedio positivo asimetrfa a la derecha, un promedio grande mucha asimetria y un promedio pequefio poca asimetria. Pero, como ya se ha visto, dicho promedio es cero. Como interesa mantener los signos de estas desviaciones, no pue- den elevarse a un ntimero par pues se perderfan; por tanto, habré que elevarlas al nimero impar ms pequefio: 3. Por tiltimo, se dividen por la desviacién tipica al cubo con el fin de que la medida resultante sea adimensional, es decir, y (x; — Pn, La expresi6n resultante, la mas habitual por otra parte, es conocida como el coe- ficiente de asimetria de Fisher. Para calcular ms se utiliza la expresién del Apéndice del final de este capitulo: m3 = a3 — 3aya, + 2a} El Gréfico 2.3 recoge los tres casos posibles que pueden darse: Simétrica Asimétriea postiva o Asmétrica negativa > | > Me Mo Mo Me = % Grafico 2.3. © ITES-Paraninfo 54 mi ESTADISTICA DESCRIPTIVA @ Si la distribucién es simétrica: g, = 0. © Si la distribucién es asimétrica positiva 0 a la derech: n> 0. © Si la distribucion es asimétrica negativa o a la izquierda: g, < 0. También se puede sefialar que: = Me = Mo. © Si la distribuci6n es asimétrica posi © Si la distribucién es simétrica: iva oa la derecha: x > Me > Mo. « Si la distribuci6n es asimétrica negativa o a la izquierda: < Me < Mo. 2.4.2. MEDIDAS DE APUNTAMIENTO O CURTOSIS El coeficiente de curtosis de una distribucién determina el grado de apuntamiento que ésta tiene respecto a otra distribucién denominada distribucién normal', que, por otra parte, es la que sigue una gran mayorfa de distribuciones econémicas. Este coeficiente se utiliza cuando las distribuciones son simétricas o ligera- mente asimétricas, ya que en este tipo de distribuciones frecuentemente se da el caso de que las més altas que la normal en las colas también Io son en el centro. Igual que ocurre con el coeficiente de asimetria, el de curtosis también es adi- mensional y su expresién es la siguiente: Para calcular my, se utiliza la expresin del Apéndice del final de este capitulo: m4 = ag ~ 4a3a; + 6anat — 3at El coeficiente de curtosis de la distribucién normal es nulo, de tal forma que: © Si la distribucién es mesociirtica o igual de apuntada que la normal: g2 = 0. * Si la distribucién es platictirtica 0 menos apuntada que la normal”: g <0. ® Si la distribucién es leptocirtica o m4s apuntada que la normal: g, > 0. * La representacién gréfica de la distribucién normal es una campana (campana de Gauss) que se caracteriza por ser simétrica respecto al eje de abscisas. El coeficiente de apuntamiento de este tipo de distribuciones, tal y como se ha definido, es nulo. 2 No obstante, como se ver posteriormente, este coeficiente no puede tomar valores inferiores a ~ 2. © ITES-Paraninfo Capitulo 2, CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 55. f— | Leptoctitica ss N= Mesowitrtica ~ Platicirtica ¥ Xi Grafico 2.4. Las denominaciones de mesoctirtica, platictirtica y leptoctirtica fueron dadas originariamente porque entre ciertas distribuciones simétricas regulares se podia percibir que las que tenfan frecuencias relativas més elevadas en las colas eran tam- bién las que tenfan mayores frecuencias relativas en la parte central. Evidente- mente, esto no tiene por qué ocurrir para otro tipo de distribuciones simétricas 0 para las asimétricas y, aunque la nomenclatura anterior es titil, debe ser entendida como que describe el signo del coeficiente de apuntamiento més que la forma de la distribucién. Algunas particularidades importantes relativas al coeficiente de apuntamiento son las siguientes: 1. El coeficiente de apuntamiento es siempre mayor que — 2. Considérese la desigualdad de Cauchy (Ea) Ee)-Ga) mrs salvo que a; y b; sean proporcionales, en cuyo caso la relacién es de igualdad. Hagase Entonces, se tiene que (5 (x; > sy'n) (SE Pn) 2 (3 (x ~ x) it i= © ITES-Paraninfo 56m ESTADISTICA DESCRIPTIVA siendo sélo la relacién de igualdad cuando la distribuci6n de frecuencias se encuen- tra concentrada en dos valores. Es decir, ma el m, Y, por consiguiente, mg a 2. En distribuciones regulares, simétricas y unimodales el coeficiente de apun- tamiento es siempre menor que 1,2. 3. Existe una relacién entre los coeficientes de asimetria y apuntamiento, que viene dada por 2 > — aeseriensnesaE EJEMPLO 2.15 En una empresa con 150 empleados, el ntimero de horas extraordinarias/afio de los mismos sigue la distribucién expuesta en las dos primeras columnas de la tabla: Horas x} xin; apn; ‘n; 8-40 | 38] 24] 912) 21.888 525.312 12,607.488, 40-120 | 50] 80 | 4.000 | 320.000 | 25.600.000 | 2.048.000.000 120-240 | 30 | 180} 5.400 | 972.000 | 174,960.00} —3,14928 10'° 240-480 | 25 | 360 | 9.000 | 3.240.000 | 1.166.400.000 | 4,19904 10"" 480-720 | 7 | 600 | 4.200 | 2.520.000 | 1.512.000.000 9,072 10" 150 23.512 | 7.073.888 | 2.879.485.312 | 1,3606574 107 Determinense los coeficientes de asimetria y curtosis. ‘Los momentos m y m4 se calculan en funcién de los momentos respecto al origen, utili- zando las expresiones del Apéndice de este capitulo. © ITES-Paraninto Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 57 ms = as — 3aza, + 2a} = 4.722.783,542 mg = dg ~ 4a3a, + bana} — 3a} = 2.176.142.232 : Ex" 3510 — “ 1500 7.073.888 a = 47,159,253 150, 2879485312 9 196 569-95 cy > 1,3606574- 10? 150 .071.049.333 47,159,253 — (156,747)? = 22.589,631 Sy = JSR = ./22.589,631 = 150,298 El coeficiente de asimetria de Fisher es: ae 4.722.783,5¢ 2 139 9 ~~ as0298" y la distribucién es asimétrica positiva o a la derecha, Por otra parte, el coeficiente de curtosis resulta: Un box and whisker plot permite determinar fécilmente de forma visual la tenden- cia central, la variabilidad, la asimetria y la existencia de valores anémalos en una distribucién de frecuencias. © MTES-Paraninfo 58m ESTADISTICA DESCRIPTIVA Un box and whisker plot incluye las siguientes caracteristicas de la distribucién (véase Ejemplo 2.16): 1. Box (caja): 1a linea interior de la caja representa la mediana, la de Ia iz- quierda el primer cuartil y Ia de la derecha el tercer cuartil. La caja, que recoge el 50% de las observaciones centrales de la distribucién, se determi- na uniendo los extremos de estas tres lineas por dos segmentos paralelos. 2. Whiskers (bigotes): la observacién més grande (pequefia) que no se aleja més de 1,5 veces el recorrido intercuartflico (C, — C,) desde el tercer (pri- mer) cuartil se encuentra unida a la caja por el denominado whisker dere- cho (izquierdo). 3. Valores sospechosos de ser anémalos (0): los puntos que sobrepasan los extremos de los whiskers pero no estan a més de 3 veces el recorrido inter- cuartilico desde el lado derecho (izquierdo) de la caja. 4. Valores anémalos (*): puntos que se alejan del lado derecho (izquierdo) de la caja 3 0 mas veces el recorrido intercuartilico. ‘Como ya se ha visto, la mediana proporciona una idea de la tendencia central de la distribucién y el recorrido intercuartilico indica la variabilidad de la misma (a mayor/menor recorrido intercuartilico mayor/menor variabilidad).. La proximidad de la mediana a los extremos de fa caja y la longitud de los whis kers indicarén la asimetria de la distribuci6n: si la asimetrfa es a derechas la media- na estard préxima al extremo de Ja derecha de la caja y/o la longitud del whisker derecho ser mayor que la del izquierdo. Si la asimetrfa es a izquierdas, la mediana estard préxima al extremo izquierdo de la caja y/o la longitud del whisker izquierdo sera mayor que la del derecho. Si la distribucién es simétrica, la mediana se ubicaré en el centro de la caja y tos whiskers serdn simétricos respecto de la mediana. Los extremos de los whiskers representan los valores més grandes y més peque- jios de la distribucién que no son considerados anémalos. Los valores sospechosos de ser anémalos deberdn ser considerados con prudencia y los anémalos pueden no considerarse como pertenecientes a la distribucién en cuestiGn. asemancasnarconee EJEMPLO 2.16 Se dispone de la distribucién sobre las bajas laborales (en dfas) de los trabajadores de una empresa (véase la tabla de la pagina siguiente). Si se observa el Gréfico 2.5, la mediana es de 2 dias de baja laboral, no pudiéndose con- siderar excesiva la dispersién de la distribucién ya que el recorrido intercuartilico es tam- bién 2. La asimetrfa de la distribucién es hacia la derecha ya que la longitud del whisker derecho es mayor que la del izquierdo (gy = 1,506). La longitud de los whiskers es, como maximo, de 1,5 veces el recorrido intercuartilico (5 x 2 = 3) desde ambos extremos de la caja, es decir, los valores que no son considerados © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 59 Némero de trabajadores 7 BSeraurwnac Hee rnaa i | 30 | 3132 Bajas laborales if) : | Os | | -2-1012345678 9101 Grafico 2.5. Box and whisker plot. anémalos son los comprendidos entre —2 y 6. En este caso, como fa variable no toma valo- res negativos ni tampoco el valor 6, se consideran como minimo y maximo valor no anéma- los de la distribuci6n el 0 y el 5, respectivamente. Por otra parte, existe un valor sospechoso de ser anémato, el correspondiente a la obser- vacién 30 (x = 7), pues sobrepasa al whisker derecho y estd entre 1,5 y 3 veces el recorrido intercuartilico desde el extremo derecho de ta caja. Finalmente, existen dos valores anémalos, que son los comespondientes a las observacio- nes 31 y 32 (x = 9 y x = 10), ya que se alejan mas de 3 veces el recorrido intercuartilico desde el extremo derecho de la caja. Como ya se habia avanzado, el valor sospechoso de ser anémalo deberd ser considerado con prudencia, mientras que tos dos anémalos pueden ser considerados no representativos de Ja distribucién, © ITES-Paraninto 60 m ESTADISTICA DESCRIPTIVA APENDICE. Momentos potenciales Los momentos de una distribucién son valores caracteristicos de la misma deduci- dos a partir de todos los valores de Ia distribucidn, de modo que si dos distribucio- nes son iguales, todos sus momentos son también iguales. Los momentos potenciales se definen como: donde ¢ es un ntimero real cualquiera y r el orden del momento. En funcién de los valores que tome c, se pueden considerar dos tipos de mo- mentos: momentos respecto al origen y momentos respecto a la media aritmética 0 momentos centrales. A) MOMENTOS RESPECTO AL ORIGEN Generalmente se representan por a, y se obtienen cuando c = 0, es decir, YX @&- On, Yo xin = a, = TtL—__ = N N B) MOMENTOS RESPECTO A LA MEDIA ARITMETICA O MOMENTOS CENTRALES Se representan por m, y se obtienen cuando c = x, por lo que XO On, = N m, = © ITES-Paraninfo Capitulo 2. CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS m 61 Los primeros momentos centrales son YL Oi 3; y Noy A efectos practicos, una cuestién relevante de los momentos centrales es que se pueden expresar, utilizando el binomio de Newton*, en funcién de los momentos respecto al origen: LY &-xny , bel _ _ m ny a ( yaa Casos particulares m, =0 my = a) ~ ah my = a3 — 3aya, + 2ap mg = a4 — Aaya, + basa? — 3a an or=(j)e (De w+()e 2 oteu(Jo= 5 ut(ie yh, © ITES-Paraninfo

También podría gustarte