Está en la página 1de 245
estadistica descriptiva para economistas. Espafia: Universitat de les Illes Balears, pp.16-25; 07) Alegre Martin, J. (2002). "Diagrama de pareto"; "Medidas de dispersién: rango, rango os; intercuartilico, varianza, desviacién estdndar, coeficiente de variacién" en Introduccién a la leu 35° Universitat de les Illes Balears Col.leccié Materials Didactics INTRODUCCION A LA ESTADISTICA DESCRIPTIVA PARA ECONOMISTAS Joaquin Alegre Martin Magdalena Cladera Munar Palma, 2002 ne Anan en 11 12 14 15 16 19 19 19 19 35 3 35 INDICE INTRODUCCION: Qué {Qué es una variable? {Qué es la estadistica descriptiva? zCudi es el émbito de la estadistica descriptiva en el andlisis econémico? Qué son Ia poblacién y la muestra? Qué es un pardmetro? Qué es un estadistico? 2Qué es una muestra aleatoria? Estructura del libro. CAPITULO L Descripcién de Variables Cualitativas. Variables cualitativas nominales y ordinales. Distribucién de frecuencias. Frecuencia relativa y frecuencia relativa acumulada. Diagrama de barras. Moda. Mediana. Pictograma. Diagrama de Pareto. CAPITULO LL. Distribucién de Frecuencias e Histograma, Escala de intervalo y de cociente. Variables discretas y continuas. Distribucién de frecuencias. Diagrama de barras. Histograma. Cémo trabajar con los histogramas. CAPITULO III, Estadisticos Descriptivos de una Variable Cuantitativa. Medidas de posicién central, Moda y mediana. BRESSBBR vid 81 39 1 1 101 101 108 113 119 133 133 137 144 145 148 148 149 153 Media aritmética. Propiedades de la media. Media ponderada. Media ponderada y muestreos complejos. Representatividad de la media. Media cortada (trimmed mean). Media geométrica. Utilizacién de la media, moda y mediana para detectar la asimetrfa de una distribuci6n. Cuartiles, deciles y percentiles. Medidas de dispersién: rango, rango intercuartilico, varianza, desviaci6n esténdar, coeficiente de variacién. Discusi6n y propiedades de la varianza, desviaci6n estindar y coeficiente de v in, Relacién entre la media y la desviaci6n estdndar: Desigualdad de Chebychev. EI Diagrama de caja. Diagrama de caja. Ayudas para su interpretacién. Medidas de asimetria y curtosis. Medida de asimetria de Fisher. Medida de asimetria de Pearson. Medida de apuntamiento o curtosis. CAPITULO IV. Anilisis Bivariante de Variables Cualitativas. Distribucién conjunta de variables. Tabla de contingencia. Chi-cuadrado y C de contingencia. Lambda. Gamma, Tau-b y Tau-c. CAPITULO V. El Coeficiente de Correlacién. Asociaci6n lineal entre dos variables. Asociacién lineal positiva o negativa. Estadistico de covarianza. Propiedades de la covarianza. Coeficiente de correlacién lineal. Propiedades del coeficiente de correlacién. Matriz de correlaciones. Algunos errores en la interpretacién del coeficiente de correlacién. El coeficiente de correlacién de rangos de Spearman. 177 179 182 186 189 195 196 198 201 205 231 CAPITULO VI. Ajuste de una Recta. De la propuesta de causalidad a la recta de regresi Obtencién dea y b por minimos cuadrados ordinarios. Derivacién de las expresiones de mco paraa y b. Ejemplos de cAlculo de la recta de regresién. Ajustes no lineales. ¢Siempre es posible un buen ajuste? Algunas propiedades de! error del ajuste. Medida de bondad del ajuste: Coeficiente de determinacién R’. Limites del coeficiente de determinacién. Anilisis gréfico de los errores del ajuste. eExiste alguna relacién entre el coeficiente de correlacién y el Coeficiente de determinaci6n? Dos ejemplos numéricos sobre el coeficiente de determinacién. BIBLIOGRAFIA. INTRODUCCION: zQué es...? eQué es una variable? En estadistica, como en matemiticas 0 economfa, se emplea el concepto de variable para referirnos a cualquier caracteristica, que toma valores diferentes en un conjunto de observaciones. En economia, por ejemplo, definimos la renta como una variable. Al hacerlo podemos estar pensando en los ingresos anuales de las familias de una regi6n, en la que cada familia tendré un volumen de ingresos distinto. También podemos pensar en los ingresos agregados de la regi6n, medidos a lo largo del tiempo (cada trimestre 0 cada afio), y considerar que la regi6n es el individuo sobre el que se mide la variable. Las dos interpretaciones del concepto de renta que apuntamos son correctas, utilizndose en dmbitos distintos. Lo que es esencial en su definicién es la posibilidad de medir el nivel de ingresos de una manera sistemitica (sea para un conjunto de familias en un momento del tiempo, sea para un tinico individuo, familia o regin a lo largo de un periodo), obteniendo observaciones de una cantidad variable. En el caso de la renta estamos considerando una variable de tipo cuantitativo, Hablamos de una variable cuantitativa cuando la caracteristica que se mide toma valores numéricos. Muchas de las variables econémicas son de este tipo, pero también hay variables econémicas de tipo cualitativo. Entendemos por variable cualitativa aquella que toma valores no numéricos. La caracteristica que se mide en el individuo seria, en este caso, una cualidad (un atributo) del mismo, Por ejemplo, la distincién de los consumidores por sexo, el tipo de familia (su composicién), el nivel de estudios 0 la categorfa profesional son variables de tipo cualitativo que forman parte de los andlisis de los patrones de consumo. La pertenencia a un sector industrial concreto, el tipo de mercado (nacional o internacional) en el que se opera, la existencia de barreras de entrada son caracterfsticas que se estudian en economia industrial, La distincién entre variables cuantitativas y cualitativas es importante desde el punto de vista estadistico porque las técnicas que pueden emplearse en uno u otro caso son diferentes. eQué es la estadistica descriptiva? zCual es el ambito de la estadistica descriptiva en el analisis econémico? La estadistica descriptiva es un conjunto de métodos cuyo objetivo es ordenar las observaciones, resumir Ia informacién disponible y obtener las medidas cuantitativas que describen sus caracteristicas. La descripcién es cuantitativa y pretende ser lo mds sintética posible. La teorfa econémica se suele interesar por variables econdmicas en un nivel alto de abstraccién. Los campos de la macroeconomfa y microeconomfa, la economfa del consumo y economfa de la produccién, la economia financiera, etc. toman como referencia agentes econdmicos, sobre los que se definen modelos de comportamiento. Estos agentes, definidos como referencias abstractas tienen, sin embargo, su conexién con Ia realidad econémica. El Ambito de la estadistica se aplica a esos individuos reales, estudiando variables como el gasto familiar, los beneficios empresariales 0 el indice de paro de un pats. Las técnicas estadisticas también se aplican al control de calidad de la produccién, a la gestién de carteras de acciones, etc., campos de menor abstraccién, en los que las variables a estudiar pueden ser tan concretas como la produccién diaria de una maquina o el precio de una accién, En cualquiera de los campos en los que se aplique, la estadistica descriptiva pretende ayudar a plantear y resolver los problemas de la economfa. eQué son la poblacién y la muestra? Al conjunto de individuos objetivo del andlisis se le denomina poblacién. Una muestra es una parte de la poblacién. Cuando se trabaja con una muestra las conclusiones que se obtienen deben restringirse, inicialmente, a ésta. Extraer conclusiones mds generales, aplicables a toda la poblaci6n, s6lo puede hacerse de una manera limitada, siendo necesario entre otras cosas que la muestra sea representativa y que la generalizaci6n de las conclusiones se haga de una forma prudente y rigurosa, Las técnicas de la estadistica inferencial facilitan esa generalizacién desde la muestra a la poblacién. Las técnicas descriptivas se pueden aplicar a toda la poblaci6n, si esta se conoce, 0 a una muestra, En el caso de disponer tinicamente de informacion muestral se deberdn aplicar las técnicas de la estadistica inferencial si se quieren generalizar las conclusiones obtenidas. El trabajo con muestras es usual es economfa, Uno de los ejemplos més conocidos para justificar el uso de las muestras se encuentra en el terreno del control de calidad. Una empresa dedicada a la produccién de bombillas, las habré disefiado garantizando un tiempo de vida determinado. Antes de servir su producto la empresa desearé comprobar la fiabilidad real de su oferta realizando algin tipo de prueba, pero obviamente esto no lo podré hacer con toda la produccién, puesto que la destruirfa, Una muestra representativa permitiré a la empresa comprobar el tiempo de duracién real de sus bombillas, Ejemplos de situaciones similares no son dificiles de encontrar. Piense, por ejemplo, en las empresas de auditoria contable cuando acceden a la informacién de una empresa. Si la empresa auditora se viera obligada a seguir cada una de los procesos de la empresa (desde el primer movimiento contable al archivo de la tiltima factura) se verfa metida en una labor inabordable. La seleccién, al azar, de una muestra de algunos movimientos contables puede ser suficiente para verificar la correccién de la toda la gestién. La necesidad de trabajar con muestras responde en muchas ocasiones a un ahorro en los costes de obtencién de la informacién. Si puede obtenerse informacién esencial y generalizable a partir de una muestra no ser preciso acceder a toda la poblacién. En ocasiones, el recurrir a las muestras no obedece a una cuestién de costes, sino a la imposibilidad de acceder a todas las observaciones. Esta situacién es frecuente en economia cuando se recoge Ia evolucién temporal del valor de una variable. Algunos modelos econémicos consideran que, en un momento del tiempo, la poblacién de interés son todos los valores posibles que puede tomar una observacién, Por ejemplo, imagine que esté siguiendo la evolucién diaria del precio de una accidn en un mercado burstl a lo largo de un afio. Cada dfa usted observard el precio de la accién a la hora del cierre de la sesién de bolsa, de manera que si el mercado abre durante doscientos dfas, dispondré de doscientos precios. Respecto al afio, ese conjunto de doscientas observaciones, {se considera una poblacién o una muestra del precio de la accién? Se dispone de todos los precios de cierre observados a lo largo del afio, pero no de todos los precios que ha tomado la accién, En un dia concreto, el precio de la accién puede tomar distintos valores y es hasta cierto punto una cuestién de azar el que a la hora del cierre se observe un precio determinado. Las doscientas observaciones pueden entenderse como una muestra de todos los precios que puede haber tomado la accién (que definirfan la poblacién). En este caso, los posibles valores de una variable en un momento del tiempo definirian la poblacién, el valor observado se considerarfa una realizacién muestral. El empleo de informacién muestral obedece a veces a la imposibilidad de observar toda la poblacién. Qué es un paraémetro? ,Qué es un estadistico? Cuando queremos entender lo que ocurre con unos datos, lo més adecuado es resumir los valores individuales. Estaremos interesados en conocer cul es el valor representativo de un grupo o hasta qué punto las observaciones se alejan de ese valor. Cuando se esti estudiando una poblacién, estas medidas que describen las caracteristicas de los datos se denominan pardmetros poblacionales. El valor medio de una variable en una poblacién seria un pardmetro, también lo es la proporcién de individuos de la poblacién que tienen una caracterfstica. La discusién de algunos de estos pardmetros es parte de la estadistica, En general, daremos el nombre de estadistico a cualquier formula aplicada en la informacién muestral. Muchos de los estadisticos que se utilizan pretenden ser estimaciones de los pardmetros de la poblaci6n. Si sélo disponemos de una muestra, podemos calcular el valor medio de las observaciones y suponer que esa media muestral puede ser una buena aproximacién al valor del pardmetro, la media poblacional, La relacién entre el pardmetro y su estimacién en la muestra es parte esencial de la estadistica inferencial. No obstante, los términos pardmetro y esiadistico son palabras de uso frecuente también en la estadistica descriptiva. Qué es una muestra aleatoria? Para que las muestras sean titiles deben ser representativas de la poblacién, Una manera de garantizar la representatividad de una muestra consiste en obtenerla mediante procedimientos aleatorios. Los muestreos aleatorios garantizan la representatividad de la muestra al basarse en el azar. Si se desea extraer una muestra de cien observaciones de una poblacién de mil individuos, parece razonable seleccionar aleatoriamente los cien individuos entre toda la poblacién. La seleccién aleatoria mds sencilla es el muestreo aleatorio simple (m.a.s.) En su disefio ideal, el m.a.s. consistirfa en asignar un ntimero a cada uno de los elementos de la poblacién y seleccionar al azar (con igual probabilidad para cada ntimero) el conjunto de individuos que formardn parte de la muestra, Puede imaginar que este disefio “ideal”, para ser operativo necesita en ocasiones de otros criterios que 1o complementen (qué ocurre cuando la poblacién no puede numerarse, por ejemplo), pero queremos destacar ahora la idea de que mediante disefios muestrales aleatorios se pretende conseguir muestras lo més representativas posibles de la poblacién, Los disefios de obtencién de las muestras son a veces més complejos que el muestreo aleatorio simple. Si sabemos que una poblacién se distribuye aproximadamente igual entre los dos sexos, podria interesarnos que ese porcentaje se mantuviera en la muestra, Por azar, seria posible obtener una muestra en Ia que la mayoria de los individuos perteneciera a uno de los dos sexos. Un disefio muestral m4s rico podrfa dividir la poblacién en dos (segtin su sexo), realizando un m.a.s. en cada una de las partes, es decir, seleccionando al azar la mitad de la muestra entre la poblacién masculina y la otra mitad entre la poblacién femenina, El disefio ya no es puro azar, puesto que éste se sacrifica parcialmente para garantizar la méxima representatividad. La complejidad estadistica del disefio muestral puede aumentar répidamente, cuando se imponen més criterios. Lo que resulta esencial es que bajo disefios més 0 menos complejos, siempre aparece finalmente un procedimiento de seleccién basado en el azar. El estudio y disefio de los diferentes tipos de muestreo es una parte de la estadistica inferencial y no se discuten en este libro. S6lo en un punto del andlisis descriptivo se produce un cruce con la idea de poblacién y es cuando a cada individuo de la muestra se le asocia un factor de elevacién poblacional, E\ factor de elevacién poblacional el ndmero de individuos de la poblacién a los que representa cada uno de los individuos de la muestra. Imaginemos una poblacién con 1000 individuos, de la cual se quiere extraer una muestra de diez observaciones. A cudntos individuos de la poblacién representa cada uno de los individuos de la muestra? Si se trata de un m,a,s,, cada uno de los individuos de la muestra ha tenido igual oportunidad de ser elegido y cada individuo representard a 1000/10=100 individuos en la poblacién, El factor de elevacidn de cada elemento de la muestra seré igual a 100. El Instituto Nacional de Estadistica, por ejemplo, realiza gran parte de su trabajo basandose en muestras, aunque ofrece sus resultados al nivel de la poblaci6n, Para ello utiliza los factores de elevacién calculados previamente (en funcién del particular disefio muestral). Si se quiere “describir la poblacién” empleando la muestra, puede resultar ttil emplear estos factores. Estructura del libro El libro se estructura en seis capitulos. Los tres primeros tratan el andlisis descriptivo de una tinica variable (andlisis descriptivo univariante): se dedica un corto capftulo al tratamiento de variables cualitativas y dos capitulos a las variables de tipo cuantitativo. Los capitulos siguientes se centran en el andlisis de Jas relaciones entre dos variables (relaciones bivariantes), En el capitulo cuarto se estudian las relaciones bivariantes entre variables cualitativas, mientras que el quinto y sexto estén dedicados a las relaciones bivariantes entre variables cuantitativas. En cada capitulo los conceptos tedricos estan acompafiados de un niimero amplio de ejemplos. CAPITULO I. Descripcién de VARIABLES CUALITATIVAS En este capitulo se exponen las técnicas mas sencillas que se utilizan para describir una variable cualitativa. Definiremos las variables cualitativas nominales y ordinales, los conceptos asociados a la distribucién de frecuencia y los limitados estadisticos que pueden emplearse en la descripcién, El capitulo se cierra con algunos de los procedimientos gréficos empleados para representar las distribuciones de estas variables. Variables cualitativas nominales y ordinales, En una encuesta sobre el gasto turistico se pregunta a los visitantes de una autonomfa cudl es la impresién que han obtenido de su viaje. La pregunta y las posibles respuestas son las siguientes: = La impresi6n que ha tenido de su viaje ha sido: Muy buena. Buena. Normal. Mala. También se pregunta cudl es la categorfa socio-profesional en la que se sitvia el encuestado: = Su profesi6n es: Profesional liberal. Directivo o empresario. Administrativo. Trabajador manual. Trabajador Auténomo. Funcionario. Jubilado. Estudiante Otras. Las anteriores variables son de tipo cualitativo, calificdndose como de tipo ordinal (la primera) y nominal (la segunda), La distincién entre ellas es clara. En la pregunta sobre la impresién del viaje, la respuesta “muy buena” indica un nivel de satisfaccién mayor que “buena”, ésta ultima respuesta estaria a su vez por encima de “normal” y “mala” sefalaria en nivel minimo de satisfacci6n, Las respuestas pueden, en algtin sentido, ordenarse de menos a més. En cambio, no es posible ordenar de menos a més las respuestas de una variable como la categorfa profesional. Las variables cualitativas nominales Gnicamente ponen nombre a una caracteristica, las variables ordinales llevan asociadas un orden en las respuestas. Las categorias de una variable nominal, al contrario de las de una variable ordinal, no pueden ordenarse de menos a més, Distribucién de frecuencias. Frecuencia relativa y frecuencia relativa acumulada. La principal herramienta de andlisis de una variable de tipo cualitativo es el simple recuento del nfimero de los casos dentro de cada categorfa, Ademés de referimos a las categorias de una variable, emplearemos también el término “valores” de la variable, Supongamos que tenemos una variable A, que puede tomar las categorfas At Az. An El primer objetivo es conocer cuantos individuos tienen cada caracteristica, La principal herramienta de andlisis de una variable de tipo cualitativo es el simple recuento del néimero de los casos dentro de cada categoria. En estadistica, el ntimero de veces que se repite una de las categorias valores de la variable se denomina frecuencia 0, de manera més precisa, frecuencia absoluta (que denotaremos n,). Por distribucién de frecuencias se entiende el registro de todos las posibles categorias o valores de la variable, junto con sus frecuencias asociadas, Ademds de las frecuencias absolutas se suelen presentar las frecuencias relativas de cada categorfa, La frecuencia relativa se define como la frecuencia absoluta dividida por el total de observaciones: n, fi , n Cuando se trabaja con una variable de tipo ordinal (cuyas categorias se pueden ordenar de menor a mayor) se pueden calcular las frecuencias acumuladas. La idea de acumulacién facilita conocer répidamente el ntimero de observaciones que estin por debajo de un determinado valor o categoria, Se distingue entre frecuencias acumuladas absolutas y relativas. La frecuencia absoluta acumulada se define como: Recuerde que tiene sentido hablar de valores acumulados cuando las respuestas de la variable se han ordenado de menor a mayor, lo que sdlo es posible si la variable cualitativa es de tipo ordinal, La imagen estindar de una distribucién de frecuencias es tan sencilla como la que se muestra en el cuadro 1. En la misma aparecerfan, para el total de n observaciones, los / distintos atributos de la variable, sus frecuencias absolutas, las frecuencias relativas y las frecuencias relativas acumuladas. Cuadro 1 Distribucién de frecuencias 7, | Freeuencias | Frecuencias Frecuencias Categorias |" Absotwias | Relativas | Relativas acumuladas a ty jhe yl ‘Aa in s/h (artns)Tn ‘Ar ny rl (apt. tnph Ejemplo 1. Régimen de propiedad de ta vivienda. El régimen de propiedad de la vivienda familiar puede considerarse como una variable cualitativa, distinguiendo tres posibles categorias: la vivienda esta en alquiler, la vivienda es de propiedad con la hipoteca pendiente o la vivienda es de Propiedad sin hipoteca. Ante una muestra concreta de familias, podemos describir de una manera cuantitativa su relacién con la propiedad de su vivienda. En el cuadro 2 se muestra la distribucién de frecuencias de una muestra de 4791 declarantes de IRPF. Aunque no es estrictamente necesario suele ser c6modo, cuando se graban los datos, convertir las categorias en etiquetas numéricas. En nuestro ejemplo se ha definido una variable denominada “vivienda’ que toma un valor igual a 0 cuando la vivienda es de alquiler, igual a1 cuando la vivienda es de propiedad pero tiene la hipoteca atin vigente y valor 2, sila vivienda es de propiedad y sin hipoteca. Cuadro 2 VIVIENDA POSESIGN VIVIENDA HABITUAL(0,1,2) cun Value Label Value Frequency Percent Percent Alquiler ° 1764 36,8 36,8 Hipoteca vigente 2 960 20,0 56,9 Propiedad 2 2067 43,1,——100,0 Total 4791 100,0 Valid cases 4791 Missing cases ° En el cuadro 2 aparecen los siguientes conceptos: © Los valores que toma la variable (Value). Para esta variable los valores 0, 1 y 2 reflejan las categorias de alquiler, vivienda con hipoteca vigente y vivienda de propiedad (en la columna Value Label se muestran las “etiquetas” de la variable) * La Frecuencia absoluta (Frequency). El namero de individuos que tiene cada una de las categorias. * La frecuencia relativa (Percenf) . Detinida como el cociente entre la frecuencia absoluta y el nmero total de observaciones. * La frecuencia relativa acumulada (Cum Percent). La frecuencia relative acumulada se define como la suma acumulada de los porcentajes relativos de las categorfas anteriores y hasta la propia categoria. La vivienda en propiedad y ya pagada, con un 43.1% de los declarantes tiene el mayor porcentaje de individuos. La segunda es la categoria de vivienda en alquiler, con un 36.8% de declarantes. Finalmente, la categoria con menos individuos corresponde a la de deciarantes que viven en vivienda de propiedad, atin no pagada. La importancia de cada una de las categorias es facil de percibir cuando el nimero de categorias de la variable es muy pequerto. Los porcentajes acumulados no tienen una interpretacién “inocente” cuando se tratan variables de tipo cualitativo. La informacién de que el 56.9% de los individuos viven en régimen de alquiler 0 en vivienda propia con hipoteca puede ser una informacién sin sentido. © La frecuencia relativa se define como la frecuencia en cada clase dividida por el total de observaciones: © La frecuencia relativa acumulada en cada clase se define, una vez ordenadas las respuestas desde la categoria inferior a la superior, como: * En variables de tipo cualitativo nominal el porcentaje acumulado de frecuencias no debe leerse de manera automitica, puesto que al no existir un orden en las categorfas, el sentido de la acumulacién puede ser confuso, Diagrama de barras. Los resultados de la distribucién de frecuencias se pueden acompafiar de ayudas gréficas que facilitan la lectura de la informacién. EI diagrama de barras representa, para cada una de las categorfas de la variable (indicada en uno de los ejes de la grifica), su frecuencia absoluta o relativa (que se muestra en un segundo eje). Su objetivo es disponer de una visualizacién clara y rpida de la importancia de cada una de las categorias de la variable. En la gréfica | se muestra el diagrama de barras correspondiente al ejemplo anterior. EI diagrama de barras representa grificamente las frecuencias (absolutas relativas) de la variable. Grafica 1 Grafica de barras e266 6g 68 8 Frecuencia ° + 2 POSESION VENDA 0=Acuilert=Hipoleca2-Propiedad) Moda. En el Ejemplo 1 sobre el régimen de propiedad de la vivienda uno de los resultados obtenidos era que Ja categoria con un porcentaje mayor de individuos era la 2 (vivienda en propiedad sin hipoteca). Esta percepcién puntual puede convertirse en el primer estadistico de resumen, ya que saber cul es la categorfa més frecuente de una variable dice algo del comportamiento general del grupo de individuos. Conocer el valor con mayor frecuencia permite disponer de una medida sintética de cudl es la tendencia general de las observaciones. A este valor se le denomina moda de la distribucién, La moda de una distribucién es el valor de la variable con mayor frecuencia. En ocasiones, las distribuciones de frecuencias se pueden caracterizar en funcién de la moda, distinguiendo entre distribuciones con una tnica moda (distribuciones unimodales) y distribuciones en las que son dos o mas de dos los valores que alcanzan la méxima frecuencia (distribuciones bimodales 0 multimodales, respectivamente). Es dificil encontrar distribuciones empfticas que sean multimodales en el sentido estricto en que aqui se han definido, es decir, que de manera exacta varios valores tengan la misma frecuencia, Sin embargo, resulta interesante detectar distribuciones en las que dos o mds valores tienen frecuencias més altas que los demds, En la prictica estas distribuciones se denominan también multimodales, La explicacién de esta flexibilidad puede encontrarla en la comparacién de las gréficas 2 y 3. Ambas representan dos distribuciones ficticias de una variable que tomarfa ocho categorfas. En la primera distribucién se observa una doble moda, con las categorias A; y A, con superior e igual frecuencias absolutas. En la segunda distribucién la moda se encuentra en la categoria Aj, pero resulta obvio que cualquier comentario sobre la distribucién que ignorase la categoria Ay “falsearia” la imagen de conjunto que se desea transmitir, Hablar de una distribucién bimodal, con una primera moda situada en la categorfa Ay y una segunda moda en la categoria Ay resultaria ser un retrato mas fiel de las observaciones. Gréfica 2 Verable Cusiabia se 8M ee Variable Qualitative Mediana. En el caso de variables cualitativas ordinales la moda no es el nico estadistico con significado. Puesto que en las variables ordinales existe un sentido de orden en sus categorfas, si éstas se ordenan de “menos” a “més”, la distribucién de frecuencias acumuladas tendré una interpretaci6n. La mediana es aquella caracteristica de la distribucién que ocupa la posicién central de la misma, Ordenados los valores de Ja variable (de menor a mayor), la mediana define aquel punto que deja por debajo de si mismo el 50% de la distribucién, Ordenados los valores de la variable (de menor a mayor) la mediana es aquel valor de la distribucién que ocupa el valor central de la misma. Ejemplo 2, Investigacién comercial de un nuevo producto. Las empresas, antes de lanzar un producto nuevo, realizan pruebas para medir su aceptacién. Una practica habitual es ofrecer una muestra del producto a algunos consumidores potenciales. Una encuesta posterior permitiré conocer el nivel de satisfaccién del consumidor y las modificaciones que podrian resultar adecuadas. Supongamos que una empresa productora de un abrillantador de muebles reparte de manera aleatoria 236 unidades de un nuevo producto entre un némero igual de posibles consumidores, realizando después una encuesta sobre el nivel de satistaccién respecto al producto. En el cuadro 3 se reproducirian los resultados obtenidos. ‘Cuadro 3 Valid cum Value Labed Value Frequency Percent Percent Percent Nada satisfactorio 1 6 2.5 27 2,7 Poco gatisfactorio 2 31 13,4 13,9 16,6 Bastante satisfactorio 3 96 40,7 43,0 53,6 Muy satisfactorio 4 90 38,1 40,4 1000 No lo ha probado 5 13 5,5 Missing 100,0 10,0 La variable cualitativa presenta cuatro posibles respuestas, indicando cada una de ellas el nivel de satistaccién del consumidor. Existe una quinta copcién que recoge Ia categoria de aquellas personas que finalmente no han empleado el producto y que, en este ocasién, se han definido como ‘valores perdidos” (missing). En los resultados del programa aparecen dos columnas de porcentajes. En la primera, el total de observaciones (hayan empleado 0 no el producto) se recoge como referencia para calcular las frecuencias. En la segunda columna (valid percent) se calculan lo que se denominan “porcentajes vélidos", calculandose las frecuencias con referencia al numero de individuos que han empleado el producto. Las caracteristicas mas relevantes de la distribucién serfan una moda para la categoria de “bastante satistactorio” (43% de las respuestas validas) y un valor mediano en la misma categoria, al acumularse dentro de ella el 50% de consumidores. Ademas, en los porcentajes acumulados puede leerse que s6lo el 16,6% de los consumidores consideran el producto “nada” o “poco” satistactorio. EI diagrama de barras de la distribucion se representa en la gréfica 4, apareciendo esta vez en el ee vertical las frecuencias relativas. Destaque de los resultados anteriores el hecho de que la lectura de los porcentajes acumulados (y, por tanto de la mediana) tiene sentido al tratarse de una variable cualitativa de tipo ordinal. Grafica 4 Grafica de barras » © » a go BE. My safectato —Bstwtesasfact. _—Pecosaisteciafo Nada salstocoro Satistaocén con respect al producto Pictograma. Junto a los diagramas en barra es posible representar la importancia de cada una de las categorias usando otro tipo de grificas. El pictograma no es més que un circulo en el que se representan las categorias de la variable proporcionalmente a su frecuencia. La regla de proporcionalidad se consigue definiendo los éngulos proporcionalmente a las frecuencias. Asf, una categoria con una frecuencia relativa del 40.4% deberfa cubrir un dngulo igual a 0.404-360° =145.44°. En la gréfica 5 se representan las frecuencias relativas del ejemplo anterior por medio de un pictograma. Grafica 5 Frecuencias relativas Diagrama de Pareto. Si se quiere resaltar la distribucién de frecuencias acumuladas puede emplearse el denominado diagrama de Pareto. Este no es més que un diagrama en barras en el que las categorias se ordenan de mayor a menor frecuencia, dibujando sobre las barras una Ifnea indicativa de la frecuencia acumulada hasta esa categoria. La gréfica se puede realizar tanto sobre variables nominales como ordinales. EI diagrama de Pareto es un diagrama de barras en el que las categorias se ordenan de mayor a menor frecuencia, dibujando una Ifnea indicativa de la frecuencia acumulada hasta esa categorfa. Ejemplo 3. Contro! de produccién. Una empresa sutre continuas paradas en su cadena de produccién. Dada la importancia de las consecuencias econémicas de estas paradas se decide controlar durante un mes cules son las razones que las ocasionan. Para ello se solicita de los operarios que anoten el tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta hasta que se soluciona el problema. Las causas detectadas (seis causas particulares a este proceso de produccién) asi como su frecuencia y el tiempo de parada se reproducen en el cuadro 4. Cuadro 4 Causa Frecuencia | Tiempo de parada (en minutos) 1 Rotura de tornillos 10. 70 2__| Rotura de arandelas 10. 10 3__| Rotura o bloqueo de cintas 4 41 4 _| Rotura de aros de sujecién 2 20 5__[Rotura de otras piezas 2 10 6_[Desajustes de temperatura HW 33, En total, como consecuencia de 39 paradas, se han perdido 204 minutos en un mes de trabajo. El tiempo de parada y el nimero de paradas se pueden analizar a partir de los correspondientes diagramas de Pareto. En la grafica 6 se observa que las tres causas mas frecuentes de parada son la sexta, primera y segunda, por este orden. Estas tres primeras causas, tal como se observa en la linea continua del diagrama, representan un porcentaje alto del total de paradas, en conereto un 79,5% de éstas, (11+10+10/39. En la grdtica 7 se puede observar, sin embargo, que no todas las paradas tienen igual importancia en cuanto al tiempo de interrupcién. Las tres primeras causas (primera, sexta y tercera) suponen un 80,4% del tiempo de parada, (70+53+41)/204. Si el interés de la empresa se encuentra en reducit al maximo el tiempo de parada (y no tanto el numero de veces en que la produccién se detiene) deberia centrarse en los determinantes de la rotura de tornillos, los desajustes de temperatura y la rotura 0 bloqueo de cintas. Grafica 6 Causa dela parada Grafica 7 Ey 20 qi ;|\ Bc g J 5 ic Foo | 10 600 300 40 ‘Causa de a parada 20 50 ‘efeweciod, CAPITULO I, Distribucién de frecuencias e histograma Las variables de tipo cuantitativo son aquellas que toman, en lugar de categorias, valores numéricos. Las categorias de las variables cualitativas pueden telacionarse con valores numéricos, pero eso no las convierte en cuantitativas, puesto que el ntimero, en su caso, no es més que una “etiqueta”, careciendo de sentido operar mateméticamente con ellos, Escala de intervalo y escala de cociente. Desde un punto de vista tedrico se distingue entre variables cuantitativas medidas en eseala de intervalo y en escala de cociente, Las variables cuantitativas tienen una escala de intervalo si se pueden ordenar sus valores y, ademds, se pueden realizar con ellos las operaciones de suma y resta. La primera caracteristica la comparte con las variables cualitativas ordinales, pero al contrario que en aquéllas, en la escala de intervalo puede medirse la distancia entre distintas observaciones. Permite afirmar, por ejemplo, que un individuo tiene un valor que supera en diez unidades al que toma otro individuo, o que entre dos individuos hay una diferencia de veinte unidades. Las variables con escala de cociente aiiaden a estas caracteristicas la de incorporar un origen no arbitrario. La diferencia esencial es que este segundo tipo de variable admite un cero verdadero (toneladas consumidas o niimero de empleados, por ejemplo, donde el cero se entiende como inexistencia) y permite el célculo de proporciones entre los distintos valores (una observacién toma un valor que es el doble que el de otra). Normalmente, desde el punto de vista préctico, no siempre se realiza una distincién entre ellas. Variables discretas y continuas. También se suele distinguir en la estadistica descriptiva entre variables de tipo discreto (si la variable toma un ntimero finito © infinito numerable de observaciones) y de tipo continuo (infinito no numerable). De nuevo, desde el punto de vista prictico esta distincién no es importante en muchas ocasiones, Distribucién de frecuencias. Diagrama de barras. La idea de recuento, es decir, la idea de crear una distribucién de frecuencias debe ser, como en el caso de las variables cualitativas, el primer paso del andlisis, Observar los distintos valores que toma una variable, ordenarlos de menor a mayor y contar el némero de veces que aparece cada valor nos dard una idea de su comportamiento. El \inico problema que se plantea con una variable de tipo cuantitativo es que suele tomar un nimero de valores mucho mayor que las posibles categorias de una variable cualitativa, La imagen general que se pretende dar con la distribucién de frecuencias puede ser entonces poco util, porque la informacién est poco resumida. El trabajo con intervalos de la variable, en lugar de con cada uno de sus posibles valores, es el procedimiento normal para conseguir una imagen sintética de la distribucién, Ejemplo 1. Distribucién de frecuencias del mimero de hijos. En este primer ejemplo vamos a obtener la distribucién de frecuencias y el diagrama de barras del numero de hijos de una muestra de familias espafiolas. La muestra de 1254 familias esta formada por una seleccién aleatoria de declarantes del IRPF que ya hemos analizado anteriormente. La distribucién de frecuencias para una muestra de esta variable Numero de hijos del hogar aparece en el cuadro 1 y su representacion en un iagrama en barras en la grafica 1. Cuadro1 Mimero de hijes del hogar Cumulative Cumulative Nifos Frequency Percent Frequency Percent ° 362 44.8 362, 44.8 1 307 24.5 a9 69.3 2 301 24.0 1170 93.3 3 38. 47 1229 98.0 4 23 Le 1252 99.8 5 2 0.2 1254 100.0 Grafica 1 8 8 Frecuendias absolutes [Nimero de ios del hogar El primer resultado interesante de la distribuci6n es el disponer de los valores que toma la variable, informacién que a priori no conociamos. El numero de hijos en la muestra toma Gnicamente valores 0, 1, 2, 3, 4, 5. Se trata de una variable de tipo cuantitativo discreta. Como en el caso de una variable cualitativa podriamos detectar la moda y mediana de la distribucién. La moda corresponde al valor 0, ya que el 44.8% de las familias no tienen ningun hijo en el hogar. La mediana de la distribuci6én es el hijo unico, ya que es en el valor 1 en donde se acumulan el 50% de las observaciones. Se puede resaltar, ademds, la importancia de los tres primeros valores para describir el comportamiento de la muestra: el 93.3% de las familias tendria un nmero igual o inferior a dos hijos. Un problema diferente se enfrenta cuando la variable toma diversos valores numéricos, pero con un ntimero mayor de posibilidades. Pensemos en la distribucién de la edad del perceptor principal de rentas de una familia (sustentador principal) en la misma muestra de declarantes. En concreto, si solicitésemos la distribucién de frecuencias en una muestra de 1460 familias, para la variable Edad del sustentador principal, nos encontrarfamos ahora con la distribucién del cuadro n° 2. Cuadro 2 EDAD del auetentador principal Valid Cum Value Frequency Percent Percent Percent 16,00 1 a a a 17,00 ‘ 3 3 8 T0013 8 8 12 13,00 3 v6 v6 Le 20,00 20 14 a4 3,2 21,00 18 1,2 1,2 45 22,00 33 2.3 2,3 6.7 23,00 34 2,3 2,3 2,0 24,00 0 2,5 25 16 25,00 36 2,5 2,5 14,0 26,00 42 2,9 2,9 16,3 27,00 33 2,3 2,3 13,2 28,00 a1 2a 21 21,3 29,00 33 2,3 2,3 23, 30,00 32 2,2 2,2 28, 31,00 27 1,8 18 27,6 32,00 34 2,3 2,3 29, 33,00 45 3,2 3,1 33,0 34,00 a 2,2 21 35, 35,00 32 2,2 2,2 37,3 36,00 a1 2a 21 38, 37,00 26 18 18 41,2 38,00 31 2a 21 43, 39,00 a1 2,3 21 45,5 40,00 25 a7 17 41,2 (Continuacién Cuadre 2) 41,00 34 2,3 2,3 49,5 42,00 20 1,8 18 51,4 43,00 34 2,3 2,3 53,7 44,00 31 2a 2,1 85,8 45,00 40 2,7 2,7 58,6 46,00 32 2,2 2,2 60,8 47,00 35 2,4 2,4 63,2 48,00 23 1,6 16 64,7 49,00 20 1,4 1,4 66,4, 50,00 28 19 1,9 68,0 31001 Ca 52,00 34 23 23 Ta 53,00 32 22 2,2 73,3 54,00 28 19 1,9 75,2 55,00 21 14 14 76,6 56,00 25 a7 17 78,4 57,00 30 2a 2,1 80,4 58,00 38 26 2,6 83,0 59,00 25 a7 1,7 84,7 60,00 45 2,0 1,0 85,8 61,00 45 2,0 1,0 86,8 62,00 a2 18 18 87,6 63,00 ae 3,2 1,2 88,8 64,00 a 18 18 89,6 65,00 uv 2,2 1,2 90,8 66,00 14 2,0 1,0 91,7 67,00 2 18 1B 92,5 68,00 20 a4 14 93,9 69,00 10 a 17 84,6 70,00 8 16 16 95,2 74,00 6 4 14 95,6 72,00 8 15 15 96,2 73,00 5 B 13 96,5 74,00 7 15 13 97,0 75,00 8 15 13 97,5 76,00 4 B 13 97,8 77,00 1 a Wl 97,9 78,00 5 B 13 98,2 73,00 5 3 13 98,6 80,00 5 B 13 98,9 81,00 5 B 13 992 82,00 5 B 13 99,6 83,00 1 a (1 99,7 24,00 1 na pL 93,7 85,00 1 a rl 99,8 86,00 1 na pL 99,9 87,00 1 n rl 99,9 88,00 1 na 1 100,0 Total 1460 10,0 100,0 Grdfica 2 6 2 a 2 2 6 0 Me 2 6 wo ee we ee were nnen oe nt BS RSD KR Dw EDAD del sustentador principal La lectura de esta distribucién ya no resulta tan c6moda como cuando la variable toma un ntimero escaso de valores. La creacién de la tabla sigue siendo una ayuda para comprender el comportamiento de la variable (moda, mediana, porcentajes acumulados hasta un determinado valor), pero resulta algo mas dificil hacerse una idea general de la distribucién. La representacién gréfica del diagrama en barras (gréfica 2) nos ayuda a simplificar la imagen, pero también presenta un exceso de informacién. Uno de los principales objetivos de las técnicas estadisticas es facilitar la comprensién de la informacién numérica, sacrificando volumen de informacién (menor precisién) por una mejor comprensi6n de la misma (mayor eficiencia). Histograma. Para tratar variables que toman gran cantidad de valores el procedimiento usual es el de agrupar los valores en intervalos, Tomemos la variable edad del sustentador principal con la que hemos trabajado en el apartado anterior. De una manera arbitraria, podemos pensar en crear intervalos de edad de 8 afios: de los 16 a los 24 afios, de los 24 a los 32, ete. En el cuadro 3 se recoge el resultado de esta agrupacién de la variable y en la grifica 3, la representacién correspondiente de las frecuencias relativas de cada intervalo. Aunque ahora no dispone de informacion sobre el ndmero de individuos de la muestra que tienen una edad concreta, los rasgos generales de la distribucion de la edad es més clara. Cuadro 3 valid com EDAD Frequency Percent Percent Percent 16a2 169 1,6 1,6 a6 232 268184 18,4 29,9 32040 282017731342 4oase 256 017,517,587 4aas6 199 © 13,6 «13,6 78,6 seact lee 91,2, a2 86 66a72 96 66 66 96,2 72080 © 40 2727 98,9 sone 16 a1 11 09,0 Total 1460 ___100,0__200,0 Grafica 3 tet ate MOMS EDAD del sustentador principal La representaci6n realizada para la variable “Edad del sustentador principal” se denomina Histograma. Aunque se parece al diagrama de barras, se diferencian en que en el diagrama, la altura de la barra es proporcional a la frecuencia, mientras que en el histograma es el area del rectdngulo la que es proporcional a la frecuencia. Formalmente pueden establecerse otras diferencias entre el diagrama en barras y el histograma. En el diagrama, cada barra representa la frecuencia de un atributo de la variable, mientras que en un histograma, cada uno de los recténgulos representa las frecuencias de diversos valores de la variable (intervalos de valores). Ademds, debe tenerse en cuenta que en los histogramas, cuando aparece un intervalo con frecuencia cero, no se omite por ello su representacién, mientras que en un diagrama de barras no se incluye ningiin espacio para aquellos valores con frecuencia nula. En el histograma se representan las frecuencias de la variable definida en intervalos. El 4rea del recténgulo es proporcional a la frecuencia en el intervalo. EL histograma se construye de manera que el érea correspondiente al recténgulo que se dibuja sobre el intervalo sea proporcional a su frecuencia, Careceria de sentido proceder como en el diagrama de barras. Puesto que los intervalos en los que se puede dividir cualquier variable continua son de una amplitud y nimero arbitrario, si dibujésemos barras con alturas proporcionales a las frecuencias para cada intervalo, los resultados serian absurdos. Haciendo el érea proporcional a la frecuencia relativa para el intervalo i- ésimo se tendra; donde la base es la amplitud del intervalo y, por tanto, la altura del recténgulo es igual a: urate! altura, === hn base, Si un intervalo tiene una gran amplitud tenders en principio a ofrecer un mayor mimero de frecuencias, no obstante en el histograma se seguird manteniendo un 4rea total proporcional. La altura del recténgulo, de acuerdo con su definicién, se conoce como densidad de frecuencia. Para identificar cada intervalo se emplea en ocasiones sus puntos medios, denominados marcas de clase: Limite superior del intervalo+ Limite inferior del intervalo marca de elase=3S$£NM#$$$#$# 2 En muchos histogramas es la marca de clase el valor que identifica los intervalos, En general, se emplea el histograma: (i) cuando se trata de variables que contienen muchos valores diferentes; (ii) cuando tiene sentido construir intervalos, agrupando valores adyacentes. Cémo trabajar con los histogramas. El histograma pretende facilitar la comprensi6n de la forma de la distribucién de la variable, Al estudiar un histograma se debe estar dispuesto a descubrir cuales son los valores més frecuentes, los valores que ocurren con poca frecuencia, la simetria 0 asimetria de la distribucién, su dispersi6n y forma. La moda y la mediana que utilizébamos para describir una variable cualitativa pueden usarse con la misma definicién sobre las variables cuantitativas, La moda es el valor con mayor frecuencia, La mediana es aquel valor que (ordenada la variable de menor a mayor) deja por debajo de si mismo el 50% de las observaciones. Estos estadisticos pueden calcularse sobre la distribucién original de 1a variable, aunque puede ser recomendable obtener la moda y la mediana en los intervalos de la variable, Existen formulas para obtener la moda y la mediana a partir de la informacién agregada en intervalos, pero es también correcto detectar la moda y mediana en el propio intervalo y hablar, por ejemplo, del intervalo modal cuando en una distribucién se detecta un intervalo con un érea (una frecuencia) mayor que los restantes. Uno de los problemas de los histogramas es decidir con cudntos intervalos construirlos y si los intervalos deben ser todos de la misma amplitud, Normalmente los histogramas se construyen con intervalos de igual amplitud, de manera que o bien se define el némero de intervalos y de ahi se deduce (a partir del rango de Ja variable) la amplitud de cada intervalo, o bien se decide arbitrariamente la amplitud del intervalo y luego se deduce el mimero de intervalos, Estas decisiones estén sujetas a una cierta arbitrariedad. Una regla frecuentemente utilizada es la de definir intervalos de la misma amplitud, en un nimero igual al entero més préximo a Vn Es normal definir intervalos de diferente amplitud en las colas de la distribucién (valores superiores e inferiores de la distribucién), en donde ademés se suelen emplear intervalos abiertos. El intervalo inferior se define tomando los valores por debajo de una cantidad (menos de __ ) y el intervalo superior, por encima de una cantidad (mds de __ ). El propésito de estos intervalos abiertos es evitar histogramas en los que “pesen” demasiado la representacién de los valores extremos, que pueden estar muy alejados del comportamiento comtn. Ejemplo 2. Efecto del niimero de intervalos en la construccién det histograma, La decisién sobre el nimero de intervalos que deben tomarse para construir un histograma puede ser decisiva para la comprensién de la distribucién. Como ejemplo se ofrecen en los graficos 4 a 7 cuatro histogramas de la variable ingresos familiares de una muestra de familias de la Encuesta de Presupuestos Familiares (EPF-90). En la grafica 4 se ofrece un histograma basado en 27 intervalos (numero seleccionado segiin criterios formales por un programa informatico de estadistica), siendo la amplitud de cada intervalo de 20000 ptas. La grafica 5 se basa en 10 intervalos (amplitud 54000), la grafica 6 en 25 intervalos (amplitud 21600) y, finalmente, la grafica 7 con 50 intervalos de amplitud igual a 10800, cada uno de ellos. Grafica 4 Grafica 5 Grafica 6 Grafica 7 Observe que ni siquiera las graficas 4 y 6 (con 27 y 25 intervals) proporcionan una imagen idéntica, detectandose una moda mds sefialada en el Primer histograma. En la grafica 5 (con 10 intervalos) se recoge la imagen basica de la distribucién, siendo incluso suficiente para captar las grandes lineas de la misma, caracterizada por ser una distribucién asimétrica hacia la derecha. Sin embargo, si uno esta interesado en detectar posibles modas y submodas (0 modas relativas) pareceria mas adecuado el histograma basado en 50 intervalos. ‘Cuando se trabaja con histogramas, resulta recomendable experimentar| [con el mimero de intervalos. Ejemplo 3. Distribucion de los porcentajes de gasto en alimentacién y vestido. En este ejemplo se consideran dos parlidas del gasto en consumo de una muestra de familias espafiolas. Se van a analizar los histogramas y las distribuciones de frecuencias de las proporciones de gasto del consumo en alimentos y en vestido y calzado. Cada uno de estos agregados tienen caracteristicas distintas, que se reflejan en las formas de sus distribuciones. La muestra que seleccionamos corresponde a 271 hogares, provenientes de la Encuesta Continua de Presupuestos familiares (ECPF). La ECPF es una encuesta realizada por el INE desde el primer trimestre de 1985, efectudndose cada trimestre desde ese afio. La encuesta recoge el origen y cuantia de las rentas familiares y su concrecién en gastos de consumo (gastos trimestrales de mas de 200 bienes). La unidad basica de la encuesta son los hogares, de los que se seleccionan alrededor de 3200 de manera aleatoria, renovandose cada trimestre el 12.5% de la muestra (como consecuencia de ello, un hogar permanece en la encuesta como maximo ocho trimestres). Las 271 familias de nuestro ejemplo son las que cumplen su ultimo trimestre en la encuesta en el cuarto trimestre de 1991. Las variables son proporciones de gasto (en alimentacion, y en vestido y calzado). Estas se han calculado, para cada bien y en cada familia como: + gasto del hogar enel bieni proporcion del gasto en el bien i= SE SO NOBar en Den consumo total del hogar En las gréficas 8 y 9 (alimentacién y vestido y calzado, tespectivamente) aparecen conjuntamente las distribuciones de las proporciones de gasto y sus histogramas. Estos resultados se han obtenido utilizando un programa informatico de estadistica y el numero de intervalos en los que debian dividirse las variables ha sido calculado por el propio programa. En los resultados se ofrecen el histograma (con las frecuencias relativas en el eje horizontal) y la distribuci6n de frecuencias: FREQ. es la frecuencia absoluta, CUM. FREQ, la frecuencia absoluta acumulada, PCT. la frecuencia relativa y CUM. PCT. la frecuencia relativa acumulada. Los intervalos se definen por medio de su marca de clase; recuerde que la marca de clase de un intervalo es su punto medio, de manera que un valor de 4 al lado de uno de los rectangulos del histograma indica que el interval correspondiente esta entre 0 y 8. La primera impresién que se obtiene de los dos histogramas es la de su diferente forma. Ambas son distribuciones unimodales (con un intervalo definiendo la maxima frecuencia), aunque la distribucién correspondiente a alimentacién presenta esa moda en el centro de los valores que toma la variable, mientras que vestido y calzado tiene la moda bastante desplazada del centro de la variable, muy cerca de sus valores minimos. Las distintas formas de las distribuciones son importantes cuando se trata de describir el comportamiento de una variable. Aunque mas adelante volveremos sobre ello, puede ya retener que un tipo de distribucién como la de alimentos se conoce en estadistica como disiribucién simétrica, mientras que la de vestido y calzado se conoce como distribucién asiméirica por la derecha, al tener muchos mas valores alejados de la moda por la parte superior de la variable (una distribucién asimétrica por Ia izquierda tendria la imagen contraria). Qué nos aporta la informacién de las distribuciones? Centrémonos en el gasto en alimentaci6n. El intervalo minimo de la variable tiene una marca de clase del 4% y el intervalo mas alto es igual al 84%. El intervalo mas frecuente, que definiria la moda, se sitia en el 28% del gasto, cifra que identificaria el 23.99% de las familias de la muestra. Al tratarse del consumo de alimentos, parece que seria ldgico esperar que el porcentaje de gasto que éstos representan en un hogar no fuera muy elevado. La moda, con un valor alrededor del 28%, nos ofrece una buena referencia de cual puede ser la proporcién esperada. Sin embargo, en la distribucién destacan las observaciones que se sitdan en la parte superior de la variable. El porcentaje de familias que dedican algo m&s del 50% de su presupuesto a la alimentacién resulta significativo. En concreto, por encima del intervalo cuya marca de clase es 44 (40% a 48%) se situa el 100-90.04=9.96%, es decir que alrededor de un 10% de las familias, consumen mas del 48% de su gasto total en alimentacién. La mayoria de hogares, sin embargo, limitan este porcentaje, destacando que el 60.52% de los hagares tiene un porcentaje de gasto inferior al 32%. La descripcién de la segunda variable puede hacerse en términos parecidos. La moda, con un valor del 5%, nos define el valor mas frecuente. La distribucién de este tipo de gasto es diferente a la de alimentaci6n. El recorrido de la variable es bastante menor, situandose tedricamente entre el 0 y el 47.5% (valores inferior y superior del primer y Ultimo intervalo, respectivamente). El intervalo inferior tiene como punto medio 0, y debe interpretarse como definido entre 0 y 2.5%, al no ser posible definir un porcentaje de gasto negativo {intervalo entre -2.5 y 2.5). En este intervalo se sittia el 22.88% de los hogares, de manera que destaca de la distribucién el que el 50.18% de los hogares gasten menos del 7.5% de su consumo trimestral en vestido y calzado. Los valores superiores de la variable, sin embargo, no muestran frecuencias tan altas. Por encima del 25% del gasto (y hasta un maximo del 47.5%) se encontrarian nada mas que alrededor del 7% de los hogares, Gréfica 8 oporcién de guste en allmentact on ae oe Gréfica 9 Ejemplo 4. La influencia del salario minimo en la desigualdad salarial, El impacto que tiene el salario minimo sobre la distribucién de los salarios ha sido analizado con datos de la economia portuguesa por Rute (1997). La legislacién sobre salario minimo impone un efecto de tipo igualitario en la estructura de salarios, al imponer restricciones en los salarios pagados por los empleadores. En su trabajo discute diversos histogramas que muestran la distribucién de los salarios en distintos afios. El analisis de los mismos se dirige especialmente a la detecci6n de los picos (modas o submodas) del salario minimo, clarificando ademas la estructura de salarios que quiere describirse. En todos los histogramas se sefiala la posicién de los salarios minimos correspondientes a la agricultura y al conjunto de actividades econémicas, excluyendo en este caso la agricultura y el trabajo doméstico (estas posiciones se identifican en el eje horizontal con las letras A y M, respectivamente). En la grafica 18 se muestra el histograma de los salarios del afio 1983. En el mismo puede detectarse una moda en el salario minimo agricola y una moda, mas importante, en el salario minimo del resto de la economia. Hasta 1986 (grafica 19), las relaciones econédmicas se endurecieron, contrayéndose el nivel de empleo y aumentando el cierre de empresas. La legislacién sobre salario minimo hizo que éste fuera mayor en relacién al salario medio en la economia. Esto tuvo un efecto igualitario sobre la distribucién, al acercar los salarios mas bajos a los del resto de trabajadores. Este efecto se dio también sobre los salarios inferiores al minimo legal, que se vieron arrastrados por el aumento del salario minimo. El histograma de los salarios del afio 1992 se muestra en la grafica 20. En ese ario no se permitieron salarios legales por debajo del minimo, el pico correspondiente todavia se detecta, pero la concentracién por encima del minimo aumenta. Los picos detectados en las distribuciones ilustran la importancia de la legislaci6n sobre salario minimo y, en consecuencia, la importancia de los factores institucionales en la distribucién de los salarios. Grafica 18 078047 | Fraction salarios base 1983 Grafica 19 to2ae4 | Fraction salarios baso 1986 Grafica 20 salarios base 1992 Las variables de tipo cuantitativo permiten un tratamiento mas completo que el visto para las variables cualitativas. Ademas de las distribuciones de frecuencias, sus representaciones gréficas y estadisticos como la moda y la mediana, es posible calcular otras medidas numéricas que de manera sencilla y sintética faciliten informacion de la distribucién de la variable. En el siguiente capitulo se van a discutir algunos de estos estadisticos. CAPITULO II. ESTADISTICOS DESCRIPTIVOS de una VARIABLE CUANTITATIVA De manera tradicional se distingue entre los estadisticos bésicos que intentan describir la posicidn de la variable y los que miden su dispersién. También se presentan en un grupo diferenciado los estadisticos de forma, que describen la asimetria o apuntamiento de la distribuci6n, Mantendremos aqui esta distincion, Denotaremos la variable a describir como X y a las observaciones de la misma, desde i igual a | hasta n, como X;. Medidas de posicién central Moda y Mediana, Entre las medidas basicas de posicién central se encuentran la moda y la mediana, que ya han sido utilizadas en el anterior capftulo. La moda es aquel valor que presenta una frecuencia mayor. La mediana es aquel valor que se sitda en el punto medio de la distribucién, cuando los valores estdn ordenados de menor a mayor. Supongamos que disponemos de los dias de vacaciones que han disfrutado nueve turistas: 16, 29, 13, 15, 25, 14, 26, 17, 26, Para calcular la mediana de estas observaciones, primero deben ordenarse los valores de menor a mayor: 13, 14, 15, 16, 17, 25, 26, 26, 29. En segundo lugar, debe localizarse el valor que se sitéa en el centro de la distribucién, que en este caso seria el valor 17, que deja cuatro observaciones por debajo de él y cuatro observaciones por encima. Si n, el ntimero de observaciones, es impar, como en este ejemplo, siempre ser inmediato detectar el valor de la mediana; bastard con localizar el valor situado en el lugar (n+1)/2. En el ejemplo anterior, con nueve observaciones, la mediana es el valor situado en el quinto lugar. Si el ntimero de observaciones es par esta regla necesita modificarse. Supongamos que tenemos diez observaciones: 13, 14, 15, 16, 17, 25, 26, 26, 29, 31, Ninguna de ellas queda ahora exactamente en el centro de la distribucién, El valor 17 deja por debajo cuatro observaciones y por encima cinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En el caso de tener un niimero n de observaciones par, se puede considerar que la mediana es el promedio de estos dos valores: (17+25)/2=21. Una posible regla, cuando el ntimero de observaciones es par es promediar los valores situados en las posiciones n/2. y (n/2)+1. No obstante, existen también otras formas de determinar el valor concreto de la mediana. Otras medidas de uso comin son la media (aritmética y geométrica) y los cuartiles y percentiles (éstos dltimos como medidas generales de posicién). Media Aritmética: Como estadistico de posicién central se distingue de la mediana en que utiliza en su célculo todas las observaciones de la muestra, Su férmula para una variable X es la siguiente: ux, n Es decir, la suma de los valores de todas las observaciones de la variable dividida por el ntimero total de observaciones. La formula de la media se modifica si de trabaja con datos agrupados, que provienen de una distribucién de frecuencias. Entonces se tienen los distintos valores que toma la variable y la frecuencia con la que lo hacen: XL X2 | X [rs % | En estas circunstancias, la media se expresa (para p valores diferentes) como: Las dos expresiones de la media son equivalentes, puesto que en ambos casos en el numerador aparece la suma de todos los valores de la variable. Ejemplo 1. A una muestra de 100 turistas de una zona se les pregunta cuanntas veces la han visitado. La distribucién de la variable se muestra en el siguiente cuadro. Se desea calcular el valor medio y la mediana de la distribucién. Numero visitas 1 2/3 |)]4/51/6 Frecuencia absoluta | 48 | 30 | 15 | 4 | 0 | 3 Frecuencia 48 | 78 | 93 | 97 | 97 | 100 acumulada El valor medio sera: 48-1430-2415-344-44+0-54+3-6 48+30+154+4+04+3 =1,87 Dado que hay 100 observaciones {nimero par), la mediana sera el promedio de los valores en las posiciones 50 y 51. En la distribucién de frecuencias acumuladas las dos posiciones corresponden a 2 visitas, que sera por tanto la mediana de la distribuci6n. Ejemplo 2. En ocasiones la informaci6n disponible de una variable est4 Unicamente en intervalos. Por ejemplo, la informacién sobre el ndmero de dias de estancia en el lugar de vacaciones puede presentarse agrupada en intervalos: Dias de estancia 1-7 | 8-14 | 15-21 | 22-30 Frecuencia absoluta | 1991 |2422| 172 | 24 Si se desea conocer los dias medios de estancia, se calcula la media tomando como valores de la variable las marcas de clase (los puntos medios de los limites de cada intervalo: 4, 11, 18 y 26): 1991-4+2422-114172-18+24-26 1991+2422+172+ 24 8,3 También para la mediana debe aplicarse alguna regla especial. La mediana debe estar en el intervalo 8-14. Si se quiere dar un valor conoreto se aplica la siguiente formula: NN, inferior Mediand=Lipgrg, + -amplitud inferior Rinerato donde: Lieror = limite inferior del intervalo que acumula el 50% de observaciones. Niyeior = frecuencia acumulada hasta el intervalo anterior al que contiene la mediana. Tizenate = fecuencia absoluta del intervalo que contiene la mediana. amplitud = amplitud del intervalo que contiene la mediana. En nuestro ejemplo: 4609 1991 Mediana=8+—2__—. 2422 Propiedades de la media (1) Como estadistico de posicién central 1a media tiene como principal caracteristica la siguiente: Es decir, la suma de las desviaciones de los valores con respecto a la media es igual a cero. (2) Si alos valores de la variable se les suma una constante (c+ X; ), la media de los valores transformados se incrementa en esa cantidad: x, =c+5| n n n n (3) Silos valores de la variable se multiplican por una constante(c X,), la media de los valores transformados es la media de la variable original multiplicada por la misma constante: Bex, ox, Media ponderada, Es frecuente trabajar también con la media ponderada, en la que los valores promediados son ponderados mediante un peso determinado. Si tenemos p valores distintos de la variable X; y a cada uno de ellos se le da un peso Wa la media ponderada se define como: Si, por ejemplo, las observaciones de una variable se ponderan por sus frecuencias relativas: w,=n,/n, es decir, por la importancia relativa de cada valor en la distribucién, se tendrfa (suponiendo p valores distintos): iy, Vaux, Yn, x, que es la férmula que hemos empleado para la media en el caso de datos agrupados, En ocasiones, la ponderacién tiene que ver con el peso en la poblacién de las distintas observaciones. Suponga, por ejemplo, que dispone de Ja renta familiar per capita mensual de tres familias pertenecientes cada una de ellas a uno de los tres municipios de una regién. Las rentas son de 2000, 2000 y 1000 euros y los tamafios de los municipios son: 10000, 20000 y 1000000 habitantes, respectivamente, Si se le pidiese estimar la renta familiar per capita media para toda la regin una opci6n directa serfa la siguiente: = 2000+ 200041000 _ 1 666 67 3 El inconveniente de este célculo es que no tiene en cuenta que cada familia representa un municipio de diferente tamafio. Resultarfa légico utilizar una media ponderada, donde la renta de cada familia fuera representativa de todas las familias de su municipio: —_ 2000-10000+2000-20000+1000-1000000 10000 + 20000 + 1000000 =1029,13 Tiene sentido ponderar, porque cada observaci6n es representativa de un ntimero de familias distinto. Imagine, por ejemplo, que la informacién censal le permite conocer la distribuci6n de una poblacién en zonas rurales y urbanas (60% y 40%), El resultado de una muestra aleatoria simple no tiene por qué respetar esta distribucién, especialmente si el tamafio muestral no es muy elevado, Una alternativa podria ser seleccionar una m.a.s. y ponderar las observaciones segdin provengan de una zona rural o urbana, Lo normal, en este caso, seria calcular dos medias, una con 125 Py Observaciones rurales y otra con 18S Ryton observaciones urbanas, calculando 1a media global como: ¥=0,60 Xp +9,40 Xarsana Esto serfa lo mismo que ponderar las observaciones de manera diferente, segtin sea su origen rural (2tj)q)) © UtbaNO (7ypoa)» empleando como ponderaciones de la zona rural 0,60/ May ¥ de las urbanas 0,40/ Pyrsen! at +8 ant te Eat OO a Hans H+ Ke) Prurat Narbana = 0,60 0,40 ~ Prarct Marbana Praral Marinas 0,60 0,40 2 att ee Sapte 6 Hat a bana rural rurat +2 set Xp raat =0,60| = }+0,40| erat 0,60 Xjrat +O,40 Xartona Media ponderada y muestreos complejos. Comentaremos a continuacién el empleo de la media ponderada cuando se dispone de informacién proveniente de muestreos complejos. Cuando se trabaja con informacién muestral se dispone, por ejemplo para una variable, de los valores de n individuos, Si el muestreo realizado es del tipo denominado muestreo aleatorio simple (m.a,s.) cada uno de los individuos de la poblacién ha tenido igual probabilidad de ser seleccionado para formar parte de la muestra. Supongamos que el tamafio de la poblacién es de N =100 y se toma una muestra aleatoria simple de 20 observaciones, La probabilidad de aparecer en la muestra es la misma para todos los individuos e igual a 20/100. Otra manera de expresar esta informacién es decir que cada individuo de la muestra, al ser seleccionado, representa a cinco individuos de la poblacién (100/20, ya que cada uno de los 20 elementos de la muestra representa por igual a 5 individuos de la poblacién), Si queremos calcular la media de la variable podriamos plantearnos ponderar cada observacién por el nimero de elementos a los que representa en la poblacién: +5X, Xi+X,+Xyt..+ Xp Sox Wt 5X,+5X,45X. 20-5 20 EL resultado, como puede comprobarse, no modifica el que se obtendria si empledramos la fOrmula de F , sin ponderar las observaciones, ya que al ser las ponderaciones iguales las férmulas son equivalentes. Sin embargo muchas muestras se elaboran de manera que cada elemento representa un ndmero distinto de individuos en la poblacién, Para mejorar la representatividad de la muestra y también para reducir los costes, muchas encuestas modifican el esquema de m.a,s. de manera que los individuos de la poblacién ya no tienen la misma probabilidad de ser seleccionados. La existencia de diversas categorfas (conglomerados 0 estratos) en la poblacidn, se suele aprovechar para seleccionar las muestras con el minimo nimero de individuos y la maxima representatividad, Es normal que las grandes encuestas ofrezcan junto a la informacién de interés de los individuo un factor de elevacién poblacional, que indica a cudntos elementos representa ese individuo a nivel de la poblacién. El factor de elevacién poblacional indica a cudntos individuos de la poblacién representa cada uno de los individuos de la muestra, El factor de elevacién poblacional se calcula como la inversa de la probabilidad de ser seleccionado en la muestra y deberfa utilizarse como peso del individuo al calcular los estadisticos representativos de la poblacién. Si se trabaja con un muestreo aleatorio simple, para una poblacién de N individuos y una muestra de tamafio n, cada uno de los elementos muestrales serd representativo de N/n individuos en la poblacién. Por tanto, cada individuo muestral tendria el mismo factor de elevacién poblacional. Si el disefio muestral es més complejo, cada uno de los individuos tendré un factor de elevacién poblacional distinto. Suponga, por ejemplo, que debe extraer una muestra de tamafio 10 de una poblacién dividida en dos clases, la primera consta de 100 individuos y la segunda de 40, Rechaza hacer un m.a,s, puesto que en ese caso podrfa ocurrir que las diez observaciones correspondieran a individuos de la primera clase, perdiéndose con ello la informacién del segundo grupo, Decide hacer dos selecciones aleatorias, una en cada grupo. Por cuestiones de coste se seleccionan 6 elementos en la primera subpoblacién y 4 en la segunda, Supongamos que los resultados son los que aparecen en el cuadro 1. En la primera fila aparece la clase a la que pertenecen las observaciones, en la segunda los valores que ha tomado la variable. Cuadro 1 Muestra: Clase 1 Clase 2 Variable: | 110 | 120 | 130 | 140 | 150 | 160} 70 | 80 | 90 | 95 Si caleulase la media tnicamente a partir de los valores muestrales, el resultado es el siguiente: L*% 11041204 130...+90+95 n 10 =1145 La alternativa es ponderar las observaciones teniendo en cuenta la probabilidad de seleccién. Cada uno de los elementos del primer grupo tenfa una probabilidad igual a 6/100 de ser seleccionado, mientras que los del segundo grupo tenian una probabilidad de 4/40, La propuesta es multiplicar cada valor por la inversa de esa probabilidad (16,67 y 10, respectivamente), con el siguiente resultado: ‘ 16,67-(110+120+...+160)+10-(70+80+...+95) =120,36 140 Cuando se pondera una observacién por la inversa de la probabilidad de selecci6n, se est4 multiplicando esa observacién por lo que representa al nivel de la poblacién, Ejemplo 3. Los resultados que se obtienen segiin se utilicen o no los factores de elevacién pueden implicar una diferencia relevante. Basandonos en informacion de 21155 familias de la EPF-90 se ha calculado la media del gasto familiar, empleando y sin emplear los factores de ponderacién que elabora el INE y que acompafian a los resultados de la encuesta. En el primer caso, la media es igual a 2527105, mientras que sin ponderar las observaciones, la media es de 2419553. Si al analizar una encuesta no dispone de los factores de elevacién o desconoce las probabilidades de seleccién de los individuos, puede calcular la media no ponderada. No obstante, si su andlisis queria teferirse a toda la poblaci6n, sus conclusiones pueden verse limitadas. Representatividad de la media, La media es muy sensible a la presencia en la muestra de observaciones extremas, Cuando existen observaciones extremas (también Hamadas atipicas), la mediana 0 la moda son buenas altemativas al empleo de la media, al tratarse de estadfsticos que no son tan sensibles a la presencia de valores en los limites de la distribucién. La siguiente representaci6n ejemplifica de una manera visual y clara el impacto de una sola observacién extrema sobre la media. Xi, X2_X3. Xs_X Xs__Xe Xz. _X,__X,_X_X X, La media es el centro de gravedad del conjunto de valores, por Io que el desplazamiento de una nica observacién hacia la derecha arrastra el valor medio en esa direccidn. Sin embargo, la mediana de la distribucién no se alteraré. En ambos casos X, seria la mediana, el valor que deja por debajo igual ntimero de observaciones que por encima de él. La media es un estadistico muy sensible a la existencia de valores extremos. La moda y la mediana son una buena alternativa cuando existen observaciones atipicas, al verse menos afectadas por su presencia, Media cortada (Trimmed Mean), Algunos programas estadisticos incorporan un célculo de la media menos sensible a las observaciones extremas. La media cortada es un cAlculo mAs “robusto” de la posicién central de las observaciones. EI calificativo de “robusto” debe entenderse en este caso como una menor sensibilidad, como medida de posicién, a los valores atipicos, La media cortada se calcula segtin la expresi6n conocida de la media, pero suprimiendo un némero previo de observaciones en las colas superior e inferior de la variable, Pueden suprimirse bien un ntmero conereto de observaciones (1, 2, 3, .... en cada una de las colas) o bien un porcentaje del tamaiio de la muestra (0,5%, 1%, ..., en cada cola). Si existen observaciones atipicas que “corrompen” el célculo de la media, el empleo de la media recortada puede ser una solucién. Ejemplo 4. Gasto familiar medio en energta eléctrica. Una muestra del impacto que tienen las observaciones extremas nos lo ofrece el andlisis de una variable que puede obtenerse de la EPF-90. Se ha construido una variable que pone el gasto en energia eléctrica en relacién al gasto familiar total. La variable, que denominaremos intensidad del consumo eléctrico (ice) se calcula como: Gasto familiar en electricidad ice Gasto familiar total La variable se ha construido como un porcentaje, multiplicando el cociente de ambas cantidades por 100. En la grdfica 1, ademas del histograma aparecen las frecuencias, frecuencias acumuladas, frecuencias relativas y frecuencias relativas acumuladas. La mayor parte de la distribucién se acumula en los intervalos con puntos medios de 1.25 y 3.75, presentandose en ellos practicamente el 90% de las ‘observaciones. El histograma queda sin embargo distorsionado por la necesidad de representar valores extremos, del orden del 20% hasta el 46% de gasto. Grffica 1 aM aM — mo FP OT ae 0 0 om om a3 0 a wm 1B _ wr my a wat 35 22 igo m0) met «a [Fo 3 me ee OD a5 © Do 2 GZ 13 1 or 0S a5 2 of aD 8S 22 w) aD 23 2 ma as 4 205 og? es an 2 200 of am aa 8 72 ot a aS 7 2p 00 an 0 2D om a a3 2 2s oD BB 2 2 oo ww a5 0 7 om a@ a5 2 206 ot ma an 1 208 =o mam “5 0 208 a0 aD bee 0 2 om am am mm am mm FEIBOr Vamos a comprobar el efecto que las observaciones extremas. tienen en la media. En el cuadro 2 aparece, en primer lugar, la media calculada para todas las observaciones (21066 familias) y a continuacién diversas medias cortadas: suprimiendo 1 observacidn, 2, 3, 10 (en cada una de las colas) y 105 (el 0.5% de cada una de las colas). El porcentaje de gasto pasa de un 2.6% a un 2.52% cuando en el calculo se suprimen 210 individuos con valores extremos. Aunque el efecto no es importante, muestra la influencia de unas pocas observaciones en la descripcién del conjunto. Cuadro 2 Media 2.6010 Medias cortadas ‘Observaciones suprimidas (en eada cola): 1 2.5992 2 2.5974 3 2.5957 10 2.5867 105: 2.5219 Media Geométrica, La media geométrica de n observaciones se define como: fX, X,..X, Si se emplea la notacién para valores agrupados segin su frecuencia, la media geométrica se define como: ea Xp XP AXE La media geométrica debe emplearse cuando se quieren promediar porcentajes, tasas, tipos de interés, ntimeros {ndices, ete., es decir valores que representan variaciones acumulativas, de un perfodo respecto al anterior. (Como medida de posicién central, la media geométrica es mas representativa que Ia m ética cuando Ia variable se define como variaciones acumulativas. Para valorar la importancia de este criterio vamos a discutir un ejemplo basado en tasas de variacién, Supondremos que las observaciones de la variable se realizan para un individuo a lo largo del tiempo, midiéndose el valor de la variable en el momento 0, en el momento I, ..., hasta el final del periodo, en el momento T, Dada una serie de valores de base temporal: X,,X,,X),...,X7, la tasa de variacién de un perfodo a otro se define como: X,- Xi x, Xr) = De manera que los valores de X, verifican: X= (14%) Xa denominéndose a[I+ x,y] factor de variacién unitaria. La relaci6n entre el tiltimo valor, Xz, y el primero, Xo, se puede obtener si sustituimos de manera recurrent Xx, (Map, pay) Xp = C4 Mr.) FH r-ay) Xr HCL Xp, 1 OF ps. p-ay)- 14 52.) 1+. 01) Xo Si quisiéramos definir una tasa media de variaciOn, Xjryy), ésta deberia satisfacer también la anterior relacion: Xp (U4 Xm 04 pny) Aye) Xo = = (1+ Xv)" Xo La conclusion es, por tanto, que la tasa media debe verificar: (Lt xy)” C14 Xr, 2) 1 Xray) 1+ 2%p,0)) O, en otros términos, la tasa media de variacién debe ser igual a la media geométrica de los factores de variacién unitarios, menos la unidad: Xn (4X7, +x, =] eee Tenga en cuenta que este mismo valor puede obtenerse més ficilmente cuando se dispone de los valores inicial y final de la serie, ya que a partir de la relacion: Xp =(1+ Xm)" Xor se tiene: Xr = Ejemplo 5, Tasa media de variacién, En el cuadro 3 aparecen el ndmero de horas trabajadas en la industria espafiala de extraccién de hullas, en el periodo 1987-1992. Se han calculado también las tasas de variacién anuales y los factores de variaci6n unitaria y se desea obtener la tasa de variaci6n media acumulativa. Cuadro 3. Foras Factor de Afio | Trabajada| 725842 | variacién s tunitaria 1987 43088 - - 1988. 43387 0,0069 1,0069 1989. 42222 -0,0268 0,9731 1990 40453 0,0419 0,9581 ig9i_| 33936_[-0,1611 0,8389 1992 | 32126 0,0533 0,9467 Media Geométrica (factores de variacion unitaria) Media Aritmética (tasas de variaci6n): -0,055 Dado que se dispone de los valores inicial y final de la serie, el céleulo puede basarse en la expresi6n: Xm VX ° En nuestro caso: Siow a3088 Si calcula la media aritmética de las tasas de variacién el valor que obtiene es igual a -0,055, algo diferente del valor buscado. =- 0,057 [Si s6lo dispone de informacién de las tasas de variacién o de los factores de variacién unitaria y debe calcular Ja tasa media de variacién lo correcto es emplear la férmula de la media geométrica sobre los factores de variacién unitarios (sin olvidar ademés restar la unidad), Ejemplo 6. Rentabilidad media de una accidn, Veamos otro caso en el que también resulta adecuado el empleo de la media geométrica. En el cuadro 4 se recoge la rentabilidad mensual de una accién, definida como una tasa de variacién mensual del precio de la accién: Cuadro 4 Ms [iT 2/3][4[s]e[7][s]o]um[ul[r Rentabilida d -0,13| 0,00] 0,29 | 0.06 | 0.19 | 0.03 0,05 | 0,04 | 0,00 | 0.04 | 0.00 | 0.04 La caracteristica acumulativa de los datos hace que de nuevo para obtener un valor promedio, sea mds adecuado el empleo de la media geométrica: La rentabilidad media de ese ajio sera, por lo tanto, igual a un 413%: Fauv =f 00,13) 0,00)(1-+ 0,29)...A1+ 0,04) —1=4,13% moda y mediana para detectar Ia asi distribucién. Las distribuciones de frecuencias se pueden caracterizar por su forma, distinguiéndose bajo un criterio de simetrfa entre distribuciones simétricas (como la representada en la gréfica 2), asimétricas por la derecha (gréfica 3) y asimétricas por la izquierda (gréfica 4). Las distribuciones representadas muestran un Gnico intervalo modal, aunque también podrfamos contemplar 1a simetria (asimetria) en distribuciones con ms de una moda, Se entiende que la distribuci6n es simétrica si respecto a un eje vertical situado sobre la mediana de la distribucién, su figura puede doblarse coincidiendo ambas partes, La distribucién es asimétrica por la derecha si aparecen un ntimero mayor de valores de la variable en ese lado, mientras que la asimetrfa por la izquierda acumularia un nimero mayor de valores en el lado izquierdo de la distribucién. Grafica 2 Grafica 3 Grafica 4 Segin su forma, las distribuciones pueden dividirse en simétricas, asimétricas por la derecha y asimétricas por la izquierda. Las distribuciones simétricas tienen Ia misma forma a izquierda y derecha de la mediana. Las distribuciones unimodales asimétricas por la derecha tienen més valores a la derecha del intervalo modal que a su izquierda. Una distribucién con la forma contraria es asimétrica por la izquierda. Como veremos, aunque existen estadisticos que describen la simetria (0 asimetrfa) de la distribucién, los valores de la media, mediana y moda de la variable facilitan también esta informacién. En una distribuciGn simétrica la media, la mediana y la moda tienden a coincidir, mientras que en las distribuciones asimétricas se dispersan, Cuando la distribucién es asimétrica por la derecha la relacién entre los estadisticos es la siguiente: Modas Medianas Media Y cuando la distribucién es asimétrica por la izquierda: Media < Mediana< Moda En funcién de su simetria o asimetrfa en las distribuciones unimodales se verifican las siguientes relaciones: * Distribucién simétrica: Moda = Mediana= Media . * Distribucién asimétrica por la derecha: Moda < Mediana< Media . © Distribucién asimétrica por la izquierda: Media S$ Mediana$ Moda . Ejemplo 7. En el cuadro 5 se muestran la media y la mediana de tres distribuciones. En la distribucién A coinciden el valor de la media y Ia mediana, por lo que puede suponerse que se trata de una distribucién simétrica. La distribucién B tiene la media a la derecha de la mediana, por lo que en principio puede ser una distribucin asimétrica por la derecha. La ‘iltima distribucién es también asimétrica, al no coincidir media y mediana, y por sus posiciones, la asimetria se produce por Ia izquierda. Cuadro 5 Distribucién | Media _| Mediana A 4 43 B 101 7 Cc -212 62 Cuartiles, Deciles_y Percentiles. Se ha definido la mediana como una medida de posicién: se trata de aquella observacién que (cuando los valores se ordenan de menor a mayor) se sitda en el centro de la muestra. La mediana es, por tanto, el valor que en la distribucién acumulada de frecuencias se sittia en el 50%. Al analizar una distribucién también se leen otros valores definidos por intervalos de frecuencias distintos al 50%, Los cuartiles (primer, segundo y tercer cuartil) son los valores que (con la variable ordenada de menor a mayor) dejan por debajo de su posicién el 25%, 50% y 75% de las frecuencias acumuladas, respectivamente. Los cuartiles dividen la variable en cuatro grupos con igual nimero de observaciones (el 25% de valores més bajos, el 25% siguiente,...). Para obtener los valores nos basariamos en una regla semejante a la aplicada para la mediana, Asf, si el ntimero de observaciones es impar, el primer cuartil ocupard la posicién (n-+1)/4; el segundo cuartil ocuparé la posicién 2-(n+1)/4;y el tercer cuartil la posicién 3-(n+1)/4. Con los siguientes siete datos (ya ordenados de menor a mayor): 9, 23, 25, 28, 32, 47 y 50, obtendremos los tres cuartiles. El primer cuartil es igual a 23 (el valor en el lugar 8/4=2); el segundo cuartil es 28 (ocupa la posicién 16/4=4 ); y el tercer cuartil es 47 (posicién 24/4=6). Con los siguientes ocho datos (un numero par de observaciones): 9, 23, 25, 28, 32, 47, 50 y 51 obtendremos de nuevo los cuartiles. El primer cuartil sera el promedio de las posiciones n/4 y (n/4)+1, en este caso el promedio de las posiciones 2 y 3, que serd el valor 24, El segundo cuartil sera el promedio de las posiciones 4 y 5, siendo igual a 30. El tercer cuartil promedia los lugares 6 y 7, siendo igual a 48,5. Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90 por ciento. El primer decil ocupard la posicién 7/10; el segundo decil ocuparé la posicién 2+1/10 ;... y el noveno la posicién 9+ 7/10. Los percentiles amplian esta idea para definirse sobre porcentajes del 1, 2, 3, ..., hasta el 99 por ciento. El primer percentil ocupard la posicién n/100; el segundo percentil la posicién 2-n/100; ... y el 99 percentil la posicién 99-n/100. Dadas las definiciones anteriores, en el cuadro 6 se ofrecen las obvias equivalencias de definicién entre cuartiles y percentiles. Cuadro 6 Mediana = Segundo Cuartil = 50 Percentil Primer Cuartil = 25 Percentil Tercer Cuartil = 75 Percentil Ejemplo 8. Distribucién de la renta en Espafia. Pena et al. (1996) son autores de un estudio sobre la distribucién personal de la renta en Espafia en el que analizan los niveles de renta, su distribucién y la desigualdad de la misma. De este estudio, en el cuadro 7 se recogen los cAlculos de algunos percentiles de la renta per capita disponible para toda Espajia en el afio 1990/1991 (Pena et al., 1986, pag. 503). En la grafica 5 se representan los percentiles de la renta per capita. Excluyendo la renta minima, desde el 5° percentil hasta el 60° se tiene una relaci6n de acumulacién de la distribucién distinta de la que se observa a partir de ese tramo, en el que para acumular iguales porcentajes de poblacién los incrementos en los valores de las rentas son mucho mayores. Una distribucién asimétrica por la derecha acumula mas observaciones en los valores inferiores de la variable, mientras que los valores superiores serian menos frecuentes. Cuadro7 Percentil Renta p.c. disponible Renta minima 0 5 270903 10 345497 15 403034 20 454221 25 501457 30 542498 35 585791 40 631359 45 681373 50 732524 55 781361 60 839756 65 904918 70 974001 75 1061552 80 1173166 85 1322099 90 1544322 95 1992821 Renta maxima 168572662 Fuente: Pena et al. (1996) Grafica 5 sass En ocasiones los percentiles de una variable se utilizan como referencia sobre la que analizar el comportamiento de una segunda variable. Los percentiles no se emplearian propiamente como estadfsticos descriptivos de una variable, sino que servirfan para seguir el comportamiento de otra variable. Se trata, por tanto, de definir relaciones bivariantes entre los percentiles (de una variable) y otras variables, Los dos ejemplos siguientes ilustran este empleo de los percentiles. Ejemplo 9. La teoria de Keynes sobre el consumo plantea una telacién positiva entre el consumo y la renta disponible; esta relacién deberia cumplir diversas restricciones, entre ellas que la propensién marginal al consumo (variaciones en el consumo consecuencias del incremento en la renta) sea inferior a la unidad: ac O<3y at 2 Sone = = a n (4) Al multipticar los valores de una variable por una constante, cX,, la nueva varianza se ve multiplicada por la misma cantidad elevada al cuadrado, c*s? (y la desviacién estdndar se multiplica por la misma constante, ¢ 8, ). Esta propiedad es facil de demostrar, teniendo en cuenta que al multiplicar por una constante, la media de la variable transformada es la media original multiplicada por la misma constante. Y, por tanto, para la desviaci6n esténdar: =cs, (5) La varianza puede escribirse de manera equivalente como: bx La demostracién se basa en la siguiente equivalencia: HS 00245?-2X 3) =P XP? 2EP X= a a = Yoxt4n3?-2nz? =X? nF? i= i Con lo que se tiene: Yaw? Pxtn sist a n a n (6) La varianza cumple: Lu / 7 para cualquier otro valor de k # ¥. (7) Como en el caso de 1a media puede definirse una varianza ponderada, en a que se de una mayor o menor importancia a las observaciones. (* La varianza siempre es un numero no negativo. © Al sumar a los valores de una variable una constante, su varianza no se modifica. © Al multiplicar los valores de una variable por una constante, su varianza se multiplica por el cuadrado de esa constante. © La desviacién esténdar es la rafz cuadrada de la varianza, Bjemplo 11. Con los siguientes datos: {9, 23, 25, 28, 32, 47, 50} calcularemos las diversas medidas de dispersid: Rango=X yay —X sy, =50— Rango,9=0,-Q, =47-23=24 Para calcular la varianza emplearemos los datos de la siguiente tabla, y Nos basaremos en su expresion: 7 x, xP 1 9 81 2 23 529 3 25 625 4 28 784 5 32 1024 6 47 2209 7 50. 2500. Y el coeficiente de variacin: 5. _ 13147 _ ® 30,571 CV: 0,43 Bjemplo 12. En el siguiente cuadro se muestran los valores de algunos percentiles de la distribucién del gasto per capita realizado por los visitantes de dos regiones turisticas: Regién | Regién 1 2 Percentl75 | 235 290 Mediana 100 100 Percentil 62 72 25 En funcién de estos resultados se puede afirmar que la dispersién de la variable en las dos zonas es mayor en la segunda regién que en la primera (rangos intercuartilicos iguales a 235-62=173' y 290-72 =218, respectivamente). Ademas, puede observarse que el 25% de los turistas que gastan més, en la regién 1 lo hacen por encima de los 235 euros, mientras que en la regién 2 lo hacen por encima de los 290. Todo ello indica que aunque la medida representativa del gasto pueda ser similar en ambas zonas (ya que tienen idéntico valor de la mediana) en la regién 2 existe una presencia de turistas con mayor capacidad de gasto. Ejemplo 13. El coeficiente de variacidn como medida de dispersidn. En el cuadro 9 se muestran los datos de una variable X; y las transformaciones necesarias para calcular la varianza. Si los valores de la variable se multiplican por cien, la media y la desviacién estandar de la variable transformada se multiplicaran también por cien (ver cuadro 10). Cuadro 9 i x, x 1 27 7,29 2 1,2 1,44 3 3,45 11,9025 4 4,03 16,2409 5 4,32 18,6624 6 5.4 29,16 7 3,5 12,25 yx,=246 | Px? =969458 yx = 3,514 =13,85 n x at n Cuadro 10 Xy o 27 270 1,2 120 3,45 345 4,03 403 4,32 432. 5.4 540 3.5 350, [Media 3.514286 | 351.4286 Desviacién Estandar 1,322521 | 132,2521 El coeficiente de variacién en ambas variables proporcionaria el mismo valor: 0,3763, reflejando que la dispersi6n en términos relativos es idéntica. En las graficas 11 y 12 se muestran las dos series de valores, dibujandose una linea de referencia sobre el respectivo valor medio. Advierta que los ejes verticales de las dos graficas no son iguales, ya que en la segunda grdfica los valores estan multiplicados por 100 y, por tanto, la dispersion numérica respecto a la media es mucho mayor en esta variable. Sin embargo, las dos series presentan una imagen idéntica. Gréfica 11 Ejemplo 14. En una regién turlstica se dispone, para cuatro nacionalidades, de los valores medios y la desviacién estandar de su gasto turistico per capita y dia (en euros). Se esta interesado en detectar cual es la nacionalidad que presenta mayor dispersion en el gasto realizado. Desviacié | Coeficiente Media in de estandar | variacion % Alemana 60. 22 Britanica 75, 30 40 Espanola 60 31 51,67 Nordicos 75 36 48 Si se juzga por el valor directo de la desviacién estandar la nacionalidad con mayor dispersién en el gasto corresponde a los paises ndérdicos, seguida de la espafiola y la britanica, sin embargo si se juzga por el coeficiente de variacién la nacionalidad que presenta mayor dispersion es la espafiola, con una desviacién estandar igual al 51,67% de su gasto medio. Bjemplo 15. Una variable X tiene una desviacion estandar igual a 9 y una media igual a 10. Determine la media y desviacién estandar de la variable Y, definida como: x-5 ye La nueva variable también puede expresarse como: Y= a+ 7p * » Presenténdose como fa variable original mutipicada por una constante y a la que se le suma una cantidad (en este caso negativa). La media de la nueva variable sera (teniendo en cuenta que la media de X es igual a 10): - 24110205 10°10 10°10 La varianza de la nueva variable ig 51. ax.-(-3+ Yw-3F Xt 710" 10" a a 2 Sina} (A) Boar ‘= n n =1o =0,81 100 Y, por tanto, la desviacién estandar ser igual a 0,9. Bjemplo 16. Una variable X tiene una desviacién estandar igual a 9 y una media igual a 10. Determine la media y desviacién estandar de la variable Y, definida como: _10-5X 4 La media de la nueva variable sera: y= _319--10 44 44 Y la desviaci6n estandar: Sy as, =S9-1 1,25 ¥: Ejemplo 17. Distribucién de los ingresos en las Comunidades Auténomas. En el cuadro 11 aparecen la media, desviacién estandar, y coeficiente de variacién (en porcentaje) de la renta per capita de las Comunidades Auténomas en 1990/1991 (se excluyen Ceuta y Melilla. Fuente: Pena, 1996, pags. 502-503). Las comunidades han sido ordenadas en funcién del valor de su desviacién estandar. La dispersién de la renta serla utilizada como una medida de desigualdad: cuanto mayor es la dispersién, mayores diferencias se daran en los ingresos. En el cuadro 12 se muestran las posiciones (de mayor a menor: 1 indica la cifra mas alta, 17 la cifra mas baja) que toman las Comunidades segun se ordenen por su renta, su desviacién esténdar o su coeficiente de variacién. Como medida de dispersién podemos utilizar la desviacién estandar, pero también el coeficiente de variacién, La desviacién estindar se relativiza al ponerla en relaci6n con la media, Los coeficientes de variaciOn que se recogen en el cuadro 11 indican que la desviacién estindar de la Comunidad extremefia es 0,76 veces su media (0 en porcentaje, el 75,90%), la de Catalunya 0,72 veces su media, la de Madrid 1,85 y la de Castilla-La Mancha 3,96. Cuadro 11 ¥ 3, | cv-100 Extremadura 659507| 500588] 75,90 Asturias 392325] _535773| 60,04 Cantabria 829755| 548971 66,16, Canarias 767552| _556265| 72,47 Navarra 1051310] 610642| 58,08 ‘Com. Valenciana 833886| 612423| __73,44 Baleares 975140| 630351 64,64 Castilla-Leén 866326] 654448| 75,54 Aragon 843630 659440 78,17, 870680| _ 674107 797931 | 732694] 91,82 1091739 _795740|___72,89 990671 | 827134| 83,49 787525| _961635| 122,11 744389| 1082408] 145,41 1130089] 2099119| 185,75 724065| 2868372] 396,15 Cuadro 12 ¥ S| €v-100 Navarra 3 13 17 Asturias 6 16 16 Baleares 5 i 15 Cantabria, i 15, 14 Canarias 14 14 13 Catalunya 2 6 12 ‘Com. Valenciana 10 12 I Castilla-Leon 8 10 10 Extremadura 7 17 9 Rioja 7 8 8 “Aragon 9 9 7 Pais Vasco 4 3 6 Galicia 12 7 5 Murcia, 13. 4 4 Andalucia 15 3 3 Madrid 1 2 2 Castilla-La Mancha, 16 1 1 En un analisis comparativo de la distribucién de la renta puede tener mas sentido emplear el coeficiente de variacién si se quiere discutir, sobre niveles dados de renta, qué comunidad presenta mayor 0 menor dispersion en esa variable. Observe que el orden de las comunidades en funcién de la desviacién estandar o del coeficiente de variacién no son totalmente coincidentes. Bjemplo 18. Distribucién de ingresos de pensionistas, asalariados, profesionales y empresarios. En el cuadro 13 aparecen la media, desviacién estandar, varianza y coeficiente de variacién de la variable ingresos familiares de cuatro colectivos (pensionistas, asalariados, profesionales y empresarios) de una Comunidad Autonoma (Fuente: muestra IRPF-1990). Cuadro 13 Pensionistas | Asalariados | _Profesionales_| Empresarios = 1375919,81 | 1872897,97 2221962,38 |_2067427,89 re 393701,38 | 900167,565 1471118,41] 1279698,30 s 1,550E+11| 8,103E+11 2,1646+12) 1,638E+12 CV -100 28,6137 48,0628 66,2081 61,8981 Los pensionistas son el colectivo con menores ingresos, seguido de los asalariados, empresarios y profesionales, en este orden. Los ingresos de los pensionistas muestran la menor dispersién, seguido de los ingresos de los asalariados, empresarios y profesionales. La desviacién estandar en el grupo de los pensionistas es 0,28 veces la media, en el grupo de los asalariados 0,48 veces, en el de profesionales el 0,66 y en el de los empresarios 0,62. Como medida sintética de dispersi6n permite ignorar cual es el valor medio de los ingresos al hacer la comparacién de las dispersiones. La medida de dispersi6n confirma lo que a priori podiamos esperar: escasa dispersion en los colectivos cuyos ingresos son fijos, con una mayor dispersi6n en los grupos con ingresos flexibles. Ejemplo 19, Volatilidad del precio de una accién. En el cuadro 14 se presenta la evolucién del precio de dos acciones (A y B). ¢Seria capaz de decidir, simplemente con esta informacién, la compra de una de las dos acciones? A partir de las dos series de precios se han calculado las rentabilidades periodo a perfodo. La rentabilidad media de la primera acci6n es algo menor que la de la segunda, por lo que si la evolucién que usted espera que siga el mercado es la de mantener la misma tendencia, podria ser més atractiva la compra de la primera accién, En la representacién de las. series de rentabilidad (gréficas 13 y 14) no se observa que ninguna de ellas crezca (0 decrezca) de manera sistemética, :Pero qué pasa con la diferente dispersién? Cuadro 14 Periodo |Precio A] Rentabilidad |Precio B] Rentabilidad A B 0 10 12 1 10 0,00 12 0,00 2 12 20,00 14 16,67 3 13 8,33 12 -14,29 4 13 0,00 ai -8,33 5 14 7,69 ci 0,00 6 14 0,00 12 9,09 7 12,5 -10,71 9,5 -20,83 8 12 -4,00 9 -5,26 9 14 16,67 14 55,56 10 12 -14,29 13 7,14 4 13 8,33. 14 7,69 12 14 7,69 17 21,43 Media Aritm. 3,31 4,55 Tasa Media 2,84 2,95 Desv. 10,17 20,23 Estandai En bolsa, cuando se invierte en un activo se valoran varios factores, uno de ellos es la variabilidad que el precio del activo tiene con respecto al valor medio. Este concepto es una medida de riesgo, puesto que a para una misma rentabilidad media esperada sera preferible aquella accién que se desvie lo menos posible de la misma. Una buena aproximacién a esta varianza esperada es el comportamiento hist6rico de la varianza. El calculo de la varianza con datos de un perfodo de tiempo anterior puede ser una buena medida del riesgo que afronta al adquirir una accién. El concepto de volatilidad es el empleado por los técnicos bursatiles en lugar del de varianza. A igual valor esperado en el precio de la accién sera mas deseable aquella accién con una menor varianza, puesto que el riesgo de que el valor esperado se incumpla sera menor, al oscilar en un recorrido menor sobre el valor medio. Dada la poca diferencia que existe en las rentabilidades medias, la menor desviacién estandar de la rentabilidad de la accién A hace que esta resulte mas atractiva si se quiere enfrentar un menar riesgo. Grafica 13 60,00 40,00 20,00 0,00 29456 8 9 -20,00 -40,00 60,00 4 Gr&fica 14 60,00 40,00 20,00 0,00 2 5 6 @ 9 10 11 1 -20,00 -40,00 -60,00 Ejemplo 20. Indice de Sharpe. Cuando se invierte se intenta valorar cual es el rendimiento esperado, resultando mas atractiva aquella inversin que proporciona unos ingresos futuros mayores. El riesgo de la inversién es, sin embargo, un pardametro que también debe tenerse en cuenta, ya que, normalmente, sera preferible una cantidad segura a la promesa de una cantidad aproximadamente igual, pero no garantizada (en economia se habla de esta actitud como de “aversién al riesgo”) Para valorar un conjunto de inversiones se han definido diversos indices. Uno de los indices de rentabilidad-riesgo utilizado es el propuesto por Sharpe (1966): E-R Indicede Sharpe=—— donde: E, es la rentabilidad media de la cartera en un periodo determinado. R, es la rentabilidad media de los activos considerados sin riesgo. G , es la desviacién estandar de la rentabilidad de la cartera. La desviacién estandar de la rentabilidad es una aproximacién al tiesgo asumido. La anterior expresién mediria la prima de rentabilidad que ofrece una cartera de valores por unidad de riesgo. Aunque en teorfa el calculo de este indice deberia realizarse sobre valores esperados, su calculo real se efecttia a posteriori sobre los valores observados, empleando para ello las expresiones de la media y de la desviacién estandar. Ferruz y Sarto (1997) analizan las rentabilidades trimestrales de 123 fondos de inversién en Espafia entre enero de 1990 y diciembre de 1995. Los resultados que obtienen para los diez fondos mejor clasificados segiin el indice de Sharpe se ofrecen en el cuadro 15. El activo que los autores han considerado sin riesgo (necesario para poder calcular el indice) ha sido el rendimiento efectivo trimestral promedio de las Letras del Tesoro (rentabilidad media igual a 2,65%). Cuadro 15 Fondo de Inversién | Indice de | Clasificaci| © o Mobiliario. Sharpe n AB Fondo. 0,07142 1 2,79 1,93 Fondonorte 0,03420 2 2,71 1,91 BSN Acciones 0.02936 3 2,93 | 9,50 Mutuafondo_ 0.02379. 4 2,69 1,76 Baskinver 0.00604 5 2,66 | 1,80 BSN Renta Fija -0.00947. 6 2,63 | 2,61 Fondpostal -0.00975 7 2,62 | 3,57 Segurfondo Divisas 0.01193 8 2,54 | 2,53 AB Ahorro -0.01309 9 2,63 | 1,87 BK Fondo. -0.02220 10 2,61 1,89 Ejemplo 21. Evolucién de la desigualdad salarial. En muchas economias industrializadas se ha producido un incremento de la desigualdad en la distribucién de los salarios desde los afios ochenta, especialmente con un incremento mas fuerte en los salarios mayores. Para mostrar esta evolucisn pueden emplearse el coeficiente de variacién y la posicién de algunos percentiles. Para un pafs europeo, en la gréfica 17 se ofrecen los coeficientes de yariacién de los salarios entre 1983 y 1992, que han aumentado un 26% en el perfodo y son, por tanto, un claro s{ntoma del crecimiento de la desigualdad salarial. Para describir si la desigualdad crece més en la parte baja o en la parte alta de la distribuci6n, se utilizan el cociente entre el percentil 90 y la mediana (Q90/Q50) y la mediana y el percentil 10 (Q50/Q10) (representados también en la grafica 15). Mientras que el cociente Q90/Q50 pasa de un valor igual a 2.35 a 2.7 (un incremento del 14,8%), el cociente Q50/Q1O se mantiene estable, suftiendo incluso una pequefia disminuci6n entre 1983 y 1986. Ello indicarfa que la dispersién en la parte superior de la distribucién se ha ampliado en una proporcién importante, manteniéndose estable la dispersién en la parte inferior. Gréfica 15 © GoaTETonTe Jo VaracoR BOBO 8 QB0/50 Ejemplo 22. Convergencia econdémica en la OCDE entre 1950 y 1988 (c-convergencia). Friedman (1992) sugiere que la evolucién de la renta de un conjunto de paises puede seguirse analizando las transformaciones del coeficiente de variacién a lo largo del tiempo. El coeficiente de variacién es una medida de dispersion. Si se calcula para un conjunto de paises en distintos momentos del tiempo y se detecta que su valor disminuye, se tendrd un indicador de convergencia en sus niveles de renta. En el caso de que este coeficiente aumentara en el tiempo, se detectaria la divergencia de las economias. Este tipo de convergencia se denomina o-convergencia. En Boyle y McCarthy (1997) se analiza la convergencia de la renta per capita en los paises de la OCDE. Para seguir su evolucién emplean el concepto de o-convergencia, calculando los coeficientes de variacién del PIB per capita en estos paises. En el cuadro 16 se reproducen los resultados de su trabajo (tomando como referencia el valor 1 para el afio 1950, es decir, que todos los coeficientes se han dividido por su valor en 1950). La representacién de la serie de coeficientes de variacién (grafica 16) permite detectar que se ha producido un proceso continuado de convergencia entre 1950 y los primeros afios de la década de los setenta. Alrededor de 1972 el proceso se estabiliza, pudiéndose concluir que en los dltimos afios del periodo analizado la convergencia del PIB per capita practicamente se habia detenido. Cuadro 16, Alto | s,./x | Afto | 5 /x | Afto | s,/x 41950 | 1,0000 | 1963 | 0,7616 | 1976 _| 0,5753 A951 | 0.9598 | 1964 | 0.7545 |1977_| 0,5807 1952 | 0,9491 | 1965 | 0.7458 |1978 | 0,5840 1953 | 0,9331 | 1966 | 0.7349 |1979 | 0,5841 1954 | 0,9004 | 1967 | 0.7194 | 1980 | 0,5806 A955 | 0,8942 | 1968 | 0.7071 | 1981 | 0,5874 1956 | 0,8879 | 1969 | 0.6896 |1982_| 0,5700 1957 | 0,8600 | 1970 | 0,6634 | 1983 _| 0,5870 1958 | 0,8257 | 1971 | 0,6511 | 1984 _| 0.6037 1959 | 0,8326 | 1972 | 0,6273 | 1985_| 0.6037 1960 | 0,8204 | 1973 | 0,6116 | 1986 _| 0,6146 1961 | 0,7896 | 1974 | 0,5966 | 1987_| 0,6116 1962 | 0,7828 | 1975 | 0,5799 | 1988 | 0,6091 Grafica 16 &&S SS TBSESRDEBB®RYEE YY Ejemplo 22. Efectos intradia y dia de la semana en la Bolsa de Madrid. El efecto del dia de la semana en los mercados financieros es una regularidad empirica estudiada en economia financiera. Los tendimientos de los activos que cotizan en bolsa son distintos segtn el dia de la semana que se considere, se habla, por ejemplo, del “efecto lunes” para referirse a los rendimientos negativos observados en este dia de la semana. Camino (1997) estudia las pautas diarias de la Bolsa de Madrid, utilizando para ello las cotizaciones del indice /BEX-35 entre febrero de 1992 y diciembre de 1993. Para cada uno de los dias de la semana ha calculado la rentabilidad media del indice. En la grafica 17 se ilustra la informacién del cuadro 18. Cuadro 18 Rendimientos Medios IBEX-35 Dia Cierre- Apertura- Cierre-Cierre Apertura Cierre Lunes -0,1933 0,0015 -0,1908 Martes ~-0,0457 0,1578 0,1127 Miércoles -0,1670 0,0863 -0,0803 Jueves -0,0522 0,2733 0,2235 Viernes: -0,0424 0,2617 0,2192 Grafica 17 a ES : ui | , i be Bisrecin ; Whecincorn ot Mh ccrocione we a a Las conclusiones que se obtienen son las siguientes: * Las cotizaciones del /BEX-35 son efectivamente diferentes en los distintos dias de la semana. * El ‘efecto lunes” queda claramente detectado, ya que los rendimientos del IBEX-35, desde el cierre del viernes al cierre del lunes son negativos (-0,1908). * Como un resultado distinto al encontrado en estudios con otros mercados, se destaca la presencia de rendimientos negativos entre el cierre del martes y el cierre del miércoles. ¢ En los resultados destaca también cémo entre el cierre de un dia y la apertura del siguiente aparecen rendimientos negativos, al contrario que en horas de mercado, en donde los rendimientos son positivos todos los dias de la semana. * El rendimiento positivo en horas de mercado es suficiente para que los resultados de cierre a cierre sean positivos, excepto los lunes y miércoles. Las explicaciones sobre el “efecto lunes” no estan claras. Se ha sugerido, por ejemplo, que puede existir un sistematico cierre al alza los viernes, que se compensaria con la bajada de los lunes. También se ha discutido la existencia de informacién no publica, que se difundiria fuera de horas de mercado. Respecto a la volatilidad, medida por la desviacién estandar del indice /BEX-35, también presenta unas pautas sistematicas. En la grafica 18 se representan las desviaciones estandar, calculadas en tramos de 15 minutos, para cada dia de la semana. Veamos algunas de las conclusiones: « La forma que muestran las volatilidades tiene forma de U, con una reduccién muy importante en la volatilidad en la primera hora que transcurre desde la apertura. « Las desviaciones estandar toman a continuacién un valor de alrededor del 10%, incrementandose ligeramente antes del cierre. * El comportamiento de la volatilidad es similar en todos los dias de la semana. Camino apunta como explicacién al exceso de volatilidad en la primera hora del dia a la llegada de informacién acumulada durante la nache, es decir, seria consecuencia de la informacién que fluye durante el periodo en el que el mercado permanece cerrado, manifestandose en las primeras dos horas de la apertura. Las razones de una mayor volatilidad al final de la jornada deberian buscarse, segin Camino, en la necesidad de algunas grandes empresas por “maquillar” artificialmente sus cotizaciones. 1100 HORA Wm an ue ee uw us a wm ww 1 10 Relacién entre media y desviacién esténdar: Desigualdad de Chebychev. La desigualdad de Chebychev afirma que, para cualquier variable, la proporcién de observaciones situadas en el intervalo:[¥—k 5, ,F+k 5, ] es como minimo: 1 1 Aplicado el teorema a distintos valores de k tendremos, por ejemplo: ¢ La proporcién de observaciones en el intervalo [¥—25, ,¥+23, ] es, como mfnimo del 75% de los datos. ‘* La proporcién de observaciones en el intervalo [F—3s, ,¥+35, ] es, como minimo del 89% de los datos. © La proporcién de observaciones en el intervalo [F-4, .F+45, ] es, como minimo del 93,75% de los datos. Por tanto, si se quiere definir un intervalo centrado en la media que comprenda, como minimo, el 75% de las observaciones de la variable deberd calcularse ¥£2.5, . Si el intervalo debe comprender como minimo el 89% de las observaciones se construird como ¥35,. Este tipo de célculos se puede realizar de manera exacta cuando se conoce la distribuci6n de la variable, sea utilizando la distribucién de frecuencias empfrica sea a partir de una distribucién terica. El interés de la desigualdad de Chebychev es que no precisa del conocimiento de la distribucién, siendo validos los intervalos construidos para cualquier variable. Tiene el inconveniente de ser una aproximaciGn que define los intervalos de una manera conservadora (“...como minimo...”). Desde el punto de vista del andlisis descriptivo la desigualdad de Chebychev proporciona una nueva perspectiva al concepto de desviacién esténdar, Ejemplo 23. Se desea detectar, empleando la desigualdad de Chebychev, la existencia de observaciones atipicas en una variable X, que toma los siguientes valores {27 25 26 28 25 24 27}. La media de la variable es: L* 182_ ——=26 n 7 Y su desviacién esténdar: Puesto que como minimo un 75% de las observaciones estaran en el intervalo x+s,, podemos considerar observaciones extrafias aquellas que superen esos limites. En este caso: 28,62 2642-131 6213 ese Por lo que puede considerarse que no hay observaciones extremas. Bjemplo 24. Dispersién de los ingresos. En el cuadro 19 se tecogen los ingresos anuales (en euros) de tres colectivos (pensionistas, asalariados y empresarios). Empleando la desigualdad de Chebychev calcularemos para cada colectivo el intervalo que comprenderia, como minimo, el 75% de las observaciones. Cuadro 19 paar Depa Hagin = 9735 12236 13150 Se 2300 5400 5537 La proporcién de observaciones en el intervalo [¥-2s, ,¥+25,] es, como minimo del 75% de los datos. Para cada categoria tendremos, por tanto: 14335, 5135 24224 2076 range. sano= [30S : 1735+ 2-2300=- 9735+ 2- 2300: { 1436 ssisosa-ssa7-{ Para los pensionistas, con una media de ingresos de 9735 euros podemos afirmar que, como minimo, el 75% de los pensionistas ingresan entre 5135 y 14335 euros. En los restantes grupos los resultados pueden leerse de manera similar. Ejemplo 25. Control de calidad. En \a ultima etapa de control de calidad de una empresa se quiere analizar el comportamiento de sus cadenas de produccién. Durante un periodo de una semana se recoge en las cinco cadenas de produccién existentes en la empresa, informacién del numero de unidades defectuosos detectadas sobre el total producido. En el cuadro 20 se recoge la informacién del numero de unidades defectuosas, la cadena de produccién y el dia de la semana. Cuadro 20 ca Cadena A _| Cadena B | Cadena C | Cadena D | Cadena E Lunes 160 158 170. 160 149 Martes 159 157 150 158 150 Miércoles 158 150. 159 157 152 Jueves 160 150 180 156 157 Viernes 159 157 150 158 158 Sdbado 158 156 140 149 159 Domingo 160 158 170 160. 160 La desigualdad de Chebychev puede emplearse para detectar en qué dia o en qué cadena se produce un numero de piezas defectuosas especial. Sabemos que como minimo el 75% de los casos estara comprendidos en el intervalo ¥+25,. Las observaciones que superen estos limites se considera que toman valores relativamente extremos. La representaci6n grafica de los valores de la variable y los limites basados en la desigualdad facilita su deteccién. El numero medio de piezas defectuosas es: X, x * 5502 = 157,2 n 35 Y la desviaci6n estandar: Los limites de la desigualdad seran: israsane{ 171 143 En la grdfica 19 aparecen en el eje vertical el numero de unidades defectuosas y en el eje horizontal los siete dias de cada una de las cadenas, destacando el comportamiento de la cadena C, en la que se producen fuertes oscilaciones en el numero de piezas anémalas. Grafica 19 * DEFECTS Ute bass ental so Oetychov El Diagrama de Caja. Los diagramas de cajas son representaciones grificas que muestran la mediana, el rango intercuartilico, los valores atipicos y los casos extremos de la variable. Son especialmente ttiles cuando se trata de comparar distintas variables 0 el comportamiento sobre una misma variable de distintos grupos. El diagrama de caja aporta informacién conjunta de medidas de posicién y de dispersién, En la grdfica 20 se muestra un ejemplo de diagrama de caja correspondiente a una variable con 25 observaciones, El diagrama de caja presenta las siguientes caracteristicas; * Eleje vertical corresponde a los valores de la variable. * Enel interior del recténgulo (con una Ifnea mas gruesa) se sefiala la mediana de la variable. * Los bordes superior e inferior del recténgulo coinciden con el tercer y primer cuartiles, respectivamente (75 y 25 percentiles), La amplitud de ese intervalo define el rango intercuartilico (rangoi), que coincidiré visualmente, por tanto, con a altura del rectingulo (el 50% de las observaciones centrales se encuentran dentro del rectngulo; un 25% de las observaciones restantes estarn por encima y el otro 25% por debajo). * Para detectar la existencia de observaciones atipicas, desde las cajas se definen, tanto por arriba como por abajo, dos limites formales (que no se representan), ambos basados en la amplitud del rectingulo, es decir en el rango intercuartilico de la distribucién. El primer limite se obtiene como 1,5 veces el rangoig, el segundo limite se sitia en 3 veces la amplitud del rectingulo, En la gréfica se sefialan como observaciones atipicas (outliers) aquellas que superan el limite de 1.5 veces el rangoig sin exceder el I{mite superior de 3 veces el rangoig (observacién 18 en la gréfica). Si la observacién supera el limite superior se sefialan con otro simbolo, considerindose observaciones extremas (observacién 19). No todos los programas estadisticos distinguen entre observaciones atfpicas y extremas, seftalindose en ocasiones de manera general aquellas que superan 1,5 veces el rangorg * Los limites a los que se ha hecho referencias no son visibles en las gréficas, por lo que si no existen observaciones que los superen no se visualizaré ninguna sefial. * Se representan en las grificas dos Iineas perpendiculares a los bordes del recténgulo, que Hegan hasta la observacién més alejada (en ambas direcciones) pero que no puede definirse como outlier (inferior a 1,5 veces el rangoig). * En comparaciones entre diferentes variables o, especialmente, de la misma variable en diversos grupos, resulta interesante disponer de una referencia visual del nimero de observaciones implicadas (el ntimero de individuos que forman parte de cada grupo). Esto se consigue haciendo que el rea de los rectngulos sea proporcional al tamafio del grupo. En un diagrama de caja deben visualizarse la mediana, la amplitud (rango y rango intercuartflico) y la existencia de observaciones atipicas y/o extremas. Grafica 20 Ey «0 10! oe ° 40 = DINGRANA DE GAIA Diagrama de caja. Ayudas para su interpretacién: * La linea que sefiala la mediana no tiene por qué aparecer en el centro del recténgulo. Apareceré en el medio cuando la distribucién sea simétrica, mientras que si es asimétrica por la derecha apareceré més cerca del limite inferior que del superior. Al contrario ocurriré en una distribucién asimétrica por la izquierda, © Si se comparan distribuciones, aquella que muestre un recténgulo de mayor amplitud corresponder4 a la distribucién con mayor dispersion (medida por el rangoig). * Si no existen outliers u observaciones extremas los limites inferior y superior vendrén sefialados por las Iineas externas al recténgulo.

También podría gustarte