Está en la página 1de 8

IV. MEDIDAS DE DISPERSIN MEDIDAS DE DISPERSIN BASADAS EN LA FRECUENCIA.

La dispersin puede medirse para variables nominales en trminos del grado de heterogeneidad de la variable. Dispersin 0 denota homogeneidad completa (todos los casos caen en la misma categora), mientras que valores mayores indican mayor heterogeneidad. Las medidas de dispersin para variables nominales estn basadas en las frecuencias de las categoras. Al leer esta seccin deber tenerse en mente que no existe un acuerdo simple sobre las medidas de dispersin para datos nominales. Razn de variacin. La medida de dispersin ms simple para datos nominales se llama razn de variacin. Es precisamente la proporcin de casos que no caen en la categora modal:

RV = 1donde se usa f para denotar la frecuencia, por lo que f modal es la frecuencia de la categora modal y n es el nmero total de casos. sta es una medida de dispersin til porque muestra qu tan descriptiva es la moda de sus datos. Para un ejemplo de la razn de variacin ver los datos de la afiliacin religiosa en la tabla 4.4. La religin modal para la columna 2 es protestante, con 40% de la muestra. La razn de variacin es 0.6.
Tabla 4.4. Distribuciones de religiones. __________________________________________________________________ Religin Protestante Catlica Juda Musulmana Otra Ninguna Total Moda Real 80 60 10 -20 30 200 Protest. Unanimidad 6 0 0 0 0 0 6 Protest. no nica Polarizada 3 3 0 0 0 0 6 no nica Individualidad 1 1 1 1 1 1 6 no nica Uniforme 2 2 2 0 0 0 6

__________________________________________________________________ Religin Real Unanimidad Polarizada Individualidad Uniforme

__________________________________________________________________

Razn de var. 0.6 ndice div. 0.715 IVQ Entropa 0.894 2.009

0.0 0.0 0.0 0.0 0.0

0.5 0.5 1.0 1.0 1.0

0.83 0.83 1.0 2.58 1.0

0.67 0.67 1.0 1.58 1.0

Entropa est. 0.865

La razn de variacin sera 0 si todos los casos cayeran en la misma categora. Su mximo valor depende del nmero de categoras de la variable. Si hay k categoras y cada una ocurre con igual frecuencia n/k ( una distribucin uniforme ), entonces la razn de variacin es 1-(1/k), que se aproxima a 1 cuando el nmero de categoras tiende al infinito. As, su mximo valor es bajo individualidad cuando cada caso est en una categora separada. La razn de variacin es simple de calcular, pero tiene la desventaja de estar basada slo en la proporcin de casos de la categora modal. Otras medidas de dispersin nominales toman en cuenta a todos los casos.

ndice de diversidad. Una segunda medida de dispersin para variables nominales es el ndice de diversidad (ID). sta es una medida de dispersin basada en la proporcin de casos en cada categora. Eleva al cuadrado cada una de estas proporciones, suma los cuadrados y sustrae esta suma de cuadrados de 1:

donde p, es la proporcin de casos en la categora i, k es el nmero de categoras y se utiliza para la suma de los trminos p para cada categora. Este ndice muestra el grado de concentracin de los casos en unas cuantas categoras, dado que al elevar al cuadrado las proporciones, se enfatizan ms las proporciones grandes que las pequeas. En el ejemplo de las religiones (Tabla 4.4), con 40% de protestantes, 30% de catlicos, 5% de judos, 10% de otra y 15% de ninguna, la suma de las proporciones cuadradas es 0.16 + 0.09 + 00025 + 0.0225 = 0.285, por lo que ID = 1 0.285 = 0.715. El ndice de diversidad ha sido desarrollado de manera independiente en muchos campos como una medida de heterogeneidad. Por ejemplo, es lo mismo que la medida de fraccionalizacin desarrollada por Taylor y Hudson y tambin Waldman, para resumir la dispersin entre los nmeros de votos recibidos por los partidos polticos en elecciones con varios partidos.

El ndice de diversidad se aproxima a 0 si casi todos los casos caen en la misma categora y es mximo bajo individualidad, cuando cada caso est en una categora separada. Sin embargo, su mximo valor depende del nmero de categoras, por lo que el ID no puede ser comparado entre distribuciones con diferente nmero de categoras. Si hubiera k categoras con igual proporcin de casos en cada una, el ID tendra el valor mximo de (k-1)/k. As, en el ejemplo de las religiones, la diversidad mxima es 0.8 (=4/5), dado que hay 5 grupos religiosos. Lo que hace esto inusual es que el valor mximo se incrementara si el nmero de categoras fuese mayor. Por ejemplo, si subdividiramos a los protestantes en bautistas, presbiterianos, metodistas, luteranos y otros protestantes, tendramos 10 categoras, con una diversidad mxima de 0.9 (=9/10). Para muchos propsitos es ms til que el ndice de diversidad sea normado para ir de 0 a 1, independientemente del nmero de categoras.

ndice de variacin cualitativa. Una tercera medida de dispersin para datos nominales, el ndice de variacin cualitativa (IVQ), norma el ndice de diversidad, por lo que el valor 1 siempre representa la mxima dispersin. Para hacer esto, simplemente se divide el ID entre su mximo valor para el nmero de categoras que se tengan. (k-1)/k. La frmula es:

En el ejemplo de las religiones de la tabla 4.4 con 5 categoras, el ndice de variacin cualitativa es 0.715/0.8 = 0.894. Este valor alto del IVQ indica que hay una considerable dispersin entre las religiones en esta muestra. El IVQ es 0 cuando todos los casos caen en una sola categora y 1 bajo uniformidad, cuando los casos estn repartidos uniformemente entre todas las categoras.

Cul de las medidas de dispersin nominales es ms til depende en parte de cmo se defina la dispersin nominal. Digamos que comparamos la competencia de partidos polticos en dos naciones: un sistema bipartidista en el que cada partido gan el 50 % de los votos y un sistema multipartidista en el que cada uno de los 10 partidos obtuvo el 10 % de los votos. El IVQ sera 1 en cada caso, dado que la diversidad es mxima dado el nmero de categoras. Todava hay un sentimiento real de que existe ms dispersin en el sistema con 10 partidos respecto al bipartidista. Si sentimos que es importante capturar esta dispersin, deberamos regresar al ndice de diversidad, donde encontraramos un valor de 0.9 para el sistema multipartidista, respecto a 0.5 para el bipartidista. As, la correccin por el nmero de categoras seria inapropiada cuando la existencia de ms categoras, por si misma, significa mayor diversidad.

Entropa. Una cuarta medida de dispersin para variables nominales est basada en la teora de la informacin. Los estadsticos basados en esta teora calibran cunta informacin es transportada por una distribucin. No hay incertidumbre cuando todos los casos caen en la misma categora y a mayor dispersin de los casos entre las categoras, mayor incertidumbre.

Se cuentan los distintos bits o trozos independientes de informacin. Por definicin, hay exactamente un bit de incertidumbre en una eleccin entre dos alternativas iguales. Menos incertidumbre existira si una alternativa fuera ms popular que la otra. Una eleccin equitativa entre dos opciones provee un bit de incertidumbre, una eleccin nivelada entre 4 (2 2) alternativas proporciona 2 bits de incertidumbre, si la eleccin fuese 8 (2 4) opciones, se produciran 3 bits, y as sucesivamente. As, el nmero de bits independientes de informacin puede ser calculado mediante el logaritmo, de base 2, del nmero de alternativas, ajustado por sus popularidades diferenciales. La entropa (o incertidumbre) se mide al tomar en cuenta la proporcin de casos en cada categora. Esta proporcin se multiplica por el negativo de su logaritmo ( usualmente de base 2 ), lo cual da: -p1log2 (p1). La incertidumbre de una distribucin es definida como la suma de estos valores para todas las categoras:

La segunda versin de la frmula para la entropa est en trminos de los logaritmos comunes de base 10. En el ejemplo de las religiones de la tabla 4.4, la entropa es 2.009, esto puede ser interpretado diciendo que la dispersin entre las categoras es aproximadamente igual a la incertidumbre al escoger entre 4 religiones de igual prevalencia. No hay incertidumbre cuando todas las observaciones estn en la misma categora, en tal caso p1= 1. Por definicin, el logaritmo de 1 es 0, por lo que la entropa vale 0 en estas circunstancias. En contraste, si hay una distribucin uniforme entre todas las categoras, entonces la entropa es (1/k) log2(1/k) = -k (1/k)[log2(1) log2 (k)] = -1 [0-log2(k)] = log2 (k). En otras palabras, a mayor nmero de categoras, mayor ser la incertidumbre; as, su mximo valor depende del nmero de categoras, con el valor ms grande bajo condiciones de individualidad. El estadstico entropa puede normarse, de tal suerte que su mximo valor sea 1, independientemente del nmero de categoras que tenga la variable. La frmula de entropa se puede modificar para tener esta caracterstica al dividirla entre su valor mximo y obtener as lo que se conoce como entropa estandarizada:

J1=
En el ejemplo de las religiones, la entropa estandarizada es 0.865 El estadstico entropa es poco usado porque los logaritmos de base 2 son tediosos de calcular y porque la mayora de los investigadores no se sienten cmodos con los logaritmos. Sin embargo, las bases tericas de este estadstico son muy fuertes. Otras medidas de dispersin nominales tienen una base ad hoc para ellas, en tanto la entropa est elegantemente basada en la teora de la informacin. Una ventaja adicional es que la entropa se generaliza fcilmente a varias variables, por lo que las medidas de asociacin, basadas en la incertidumbre, entre dos variables pueden usarse para determinar cunto una variable explicativa ayuda a reducir la incertidumbre de la categora de la variable dependiente a la cual pertenece un caso.

Otras medidas. Se han ideado otra serie de medidas de dispersin para datos nominales, usualmente por investigadores al resolver sus propios problemas. As, los cientficos del rea poltica desarrollaron una serie de medidas de dispersin para las curules ganadas por diferentes partidos en legislaturas multipartidistas. Un ejemplo es el estadstico de fragmentacin de Rae y Taylor, que es la proporcin de pares de casos que no estn en la misma categora; es aproximadamente igual al ndice de diversidad para un nmero grande de casos. De manera similar, los bilogos construyeron una serie de ndices de diversidad ecolgica, donde la existencia de un nmero grande de especies muy semejantes en cantidad es considerada como alta diversidad. Tambin otra serie de disciplinas desarrollaron medidas de equidad o integracin, tales como 1- |pk (1/k)|, que est basado en la diferencia entre las partes proporcionales y la parte proporcional promedio.

Resumen. No hay un acuerdo comn sobre cul de las medidas de dispersin basadas en frecuencias es la mejor. En efecto, los programas de cmputo rara vez proporcionan alguna de stas. Cada una tiene un valor de 0 cuando todos los casos estn en la misma categora. A mayor heterogeneidad en las observaciones, ms grande es el valor de estos estadsticos. Como se muestra en las ltimas cuatro columnas de la tabla 4.4, entre ellos difieren en su valor mximo. El ndice de variacin cualitativa y la entropa estandarizada tienen valores mximos de 1 cuando la distribucin es uniforme, las otras son mximas cuando cada caso est en una categora separada, con su valor mayor dependiendo del nmero de categoras.

DISCUSIN. Comparaciones entre las medidas de dispersin. Todas las medidas de dispersin aceptan la misma definicin de 0 variacin, pero usan diferentes interpretaciones de lo que es mxima dispersin (ver tabla 4.5). Las medidas mtricas y ordinales son mximas cuando la variable est polarizada, con la mitad de los casos en el valor mximo y la otra mitad en el valor mnimo. Las medidas basadas en las frecuencias, en cambio, son mximas cuando hay una distribucin uniforme de casos entre las categoras o cuando hay

tantas categoras como nmero de observaciones. Tambin, algunas medidas de dispersin estn normadas, ya sea para tener un valor mximo de 1 o mediante la divisin entre un valor de tendencia central para controlar el efecto de la unidad de medicin de la variable. Los valores normados son generalmente ms interpretables, aunque con los valores crudos las medidas de dispersin ser puras.
Tabla 4.5. Condiciones de valor mximo para medidas de dispersin. Medida Valor Cond. Mx. Mx. depend. Normada

Mximo

p/nm. De Casos fijo

del nm. De categoras. no no no no no no no si no no no no no si no no si no no no 0-1 no

Desv. Media Varianza Desv. Estndar Coef. De variac. Dif. Media de Gini Rango Rango intercuart. Desv. Cuartlica Coef. Var. Cuart. Desv. Med. Absol. Coef. De dispers. D de Leik Razn de variac. ndice de divers. ndice var. Cualit. Entropa Entropa estndar

ilimitado ilimitado ilimitado ilimitado ilimitado ilimitado ilimitado ilimitado ilimitado ilimitado Ilimitado 1 1 1 1 ilimitado

polarizado polarizado polarizado

polarizado

no

polarizado polarizado

no no no

polarizado

no

polarizado individualidad individualidad uniformidad individualidad uniformidad si si

si

no si no

0-1

La tabla 4.6 compara las principales medidas de dispersin descritas en este captulo respecto a los criterios deseables para estadsticos descriptivos listados en el captulo 1. Algunas de las evaluaciones de la tabla son debatibles, pero proporcionan un punto de inicio til para la consideracin de los estadsticos. Las ventajas de la desviacin estndar ( y la varianza) son el ser algebraicas, estables bajo el muestreo y generalizables a dos o ms variables. El rango intercuartlico es ms fcil de entender y de calcular, ms resistente a valores extremos y con frecuencia puede ser calculado para variables con extremos abiertos. Las medidas basadas en frecuencias generalmente no cumplen con los criterios, pero son las apropiadas para datos nominales. Ms que escoger una sola medida de dispersin, con frecuencia es ms apropiado usar varias de ellas al mismo tiempo para resaltar diferentes aspectos de la dispersin.

Tabla 4.6. Propiedades de las medidas de dispersin. Propiedad ndice de diversidad Rango Inter.Desviacin estndar

Cuartlico

Nivel de medicin Rgidamente definido Basado todos los casos Simple de entender Fcil de calcular Algebraico Estable bajo muestreo Valor nico Resistente a extremos Generalizable a 2 var. Insensible a combinar cat. Calculado p/ var. abiertas

Nominal o > si si medio si si desconocido si si no no no

Ordinal o > si si si si no desconocido si si no si si si

Mtrico si si no medio si si si no si si no si

Mismas unidades que datos no

Los valores de estas medidas pueden compararse con algunas distribuciones conocidas. En particular, digamos que la variable tiene una distribucin normal, la distribucin acampanada mostrada en la figura 4.1. Esta distribucin tiene propiedades matemticas bien conocidas que han sido extensamente estudiadas a travs de los aos. Para tal distribucin, el rango intercuartlico es 1.349 veces la desviacin estndar y la desviacin promedio es 0.7979 veces la desviacin estndar. Esto sugiere que la desviacin estndar generalmente ser ms grande que el promedio de las desviaciones sin signo respecto a la media ( medidas por la desviacin promedio ) y ms pequeas que el rango intercuartlico. Estos valores podran diferir considerablemente respecto a otras distribuciones, aunque el valor 1-349 para el rango intercuartlico no debera ser exageradamente sensible a la distribucin exacta, dado que esta medida est medida est basada en los cuartiles.

Propiedades matemticas de las medidas de dispersin Una medida de dispersin debe tener dos propiedades matemticas cuando se aplica a datos mtricos. Primero, si una constante k es sumada a cada uno de los valores de la variable, el estadstico de dispersin debe mantenerse sin cambio. Sumar tal constante cambia la localizacin de los nmeros, pero no la dispersin entre ellos. Segundo, si un factor m multiplica a cada uno de los valores de la variable, entonces la dispersin debe ser multiplicada por el valor absoluto de m. Poniendo estas dos propiedades juntas, la medida de dispersin de una variable transformada en forma lineal debera ser: Dispersin ( k + mxi ) = | m | x Dispersin (xi)

El rango, el rango intercuartlico, la desviacin media y la desviacin estndar satisfacen estas condiciones. Las transformaciones lineales de los valores incrementan estas medidas de dispersin en forma lineal. Considrense, por ejemplo, una variable medida en una escala de 0 a 100, con 50 como el punto neutral; si un investigador quisiera convertir esta variable a una escala de 100 a 100, con 0 como punto neutral, la regla de conversin sera 2x 100, por lo que su dispersin se doblara. Ntese que la varianza no satisface estas condiciones, su valor debera ser multiplicado por m2, el cuadrado del factor. Resumen. Las medidas ms comunes para datos mtricos son la varianza y su primo sin el cuadrado, la desviacin estndar. Estas dos medidas debern ser bien comprendidas si han de entenderse adecuadamente los estadsticos de relaciones entre dos o ms variables. Existen medidas de dispersin para otros tipos de datos, algunas (particularmente el rango intercuartlico ) basadas en las propiedades de orden de los datos y otras basadas en las frecuencias de las categoras. La mayora de estas medidas no son generalizables a ms all de un variable, pero son efectivas al calibrar la cantidad de dispersin cuando la variable no es mtrica.