Está en la página 1de 8

ESTADISTICA DESCRIPTIVA (Distribuciones de frecuencias)

Variables, atributos y escalas


Como el lenguaje que utiliza la Estadstica es el matemtico, la primera abstraccin con que nos encontramos es la de asignar la idea de variable al carcter o fenmeno que estemos estudiando en la realidad. Sin embargo, no todos los caracteres que nos puedan llegar a interesar tienen concreciones de naturaleza cuantitativa, como puede ocurrir cuando investigamos, por ejemplo, el nivel de estudios de un colectivo, su sexo, las ramas de actividad econmica, etc. A estas variables no cuantitativas se las suele designar con el nombre de atributos. Muchas son las clasificaciones que se suelen efectuar respecto a las variables utilizadas como, por ejemplo, la de considerar la diferencia existente entre variables continuas o variables discretas, o bien, en funcin de su referencia temporal, la de distinguir los datos histricos, cuando las observaciones del carcter estudiado se efectan secuenciadas en el tiempo, de los datos crosssection o de corte transversal, que se refieren a observaciones en un mismo instante o perodo de tiempo de un carcter en diferentes sujetos (por ejemplo, los datos referentes a la produccin, en un mismo ao, de los diferentes sectores econmicos, o de las diferentes regiones econmicas). Si se combinan ambos tipos de datos, histricos con los de corte transversal, se dice que se tiene datos panel. Sin embargo, desde el punto de vista estadstico quiz adquiera mayor relevancia aquella clasificacin que hace referencia a las propiedades mtricas de las escalas bajo las cuales pueden aparecer nuestras observaciones, distinguiendo as: (a) Escala nominal Se dice que la informacin sobre un determinado carcter viene dada en escala nominal cuando sta se puede clasificar en categoras no numricas mutuamente excluyentes, entre las cuales no se puede establecer ninguna relacin de orden, no pudindose fijar, por tanto, ningn origen que sirva de referencia. Pertenecen a esta categora las observaciones correspondientes, por ejemplo, a las distintas ramas de actividad econmica, profesiones laborales, ideologa poltica, estado civil, sexo, etc. (b) Escala ordinal Las medidas en escala ordinal son aqullas que participando de las propiedades de la escala nominal, se diferencian de stas en que s se puede establecer algn tipo de orden, existiendo, pues, algn origen de referencia para tal ordenacin. Las observaciones que se puedan obtener sobre niveles de estudios (primarios, medios, superiores, y otros), estratificaciones de familias por su capacidad de consumo (bajo, medio, alto, etc.) pertenecen a este tipo de escala ordinal.

(c) Escala de intervalos En este caso puede establecerse de antemano algn tipo de unidad de medida, pudindose cuantificar numricamente la distancia existente entre dos observaciones cualesquiera. sta es una escala verdaderamente cuantitativa, encontrndose numerosos ejemplos de ella en Economa, tales como datos referentes a salarios, presupuestos, gastos, volmenes de ventas, pasivos financieros, etc. (d) Escala de proporcin En esta categora se incluyen aquellas mediciones en las que adems de ser relevantes las propiedades de la escala de intervalos, tiene pleno sentido la fijacin de un punto de origen que marque un cero absoluto, como puede ocurrir con la edad de los individuos o el nmero de unidades fsicas de un stock inventariado, entre otros. La importancia de la distincin entre estos cuatro tipos de escalas proviene de su influencia en la eleccin de los mtodos de estadstica ms adecuados, en cada caso, para el anlisis de los datos. En Economa, en general, nos encontraremos con caracteres cuya concrecin vendr dada en trminos de escala de intervalos o de proporcin; no obstante, en el captulo 14 se hace referencia a los mtodos ms elementales que se pueden utilizar en el caso de que nuestras observaciones sean nominales u ordinales.

DISTRIBUCIONES DE FRECUENCIAS
1. VARIABLE DISCRETA Y VARIABLE CONTINUA
Dentro de las variables existen dos tipos: discretas y continuas. Variable discreta. Se define como aquella variable que, entre dos valores prximos, puede tomar a lo sumo un nmero finito de valores. Por ejemplo: nmero de hijos de una familia, nmero de obreros de una fbrica, nmero de accidentes de trabajo etc. Variable continua. Es aqulla que puede tomar los infinitos valores de un intervalo. Ejemplos: el peso, la estatura..., ya que, entre cada dos valores, puede tomar los infinitos intermedios que existen entre ambos. La distincin que acabamos de hacer es ms terica que prctica, puesto que la limitacin de los aparatos de medida hace que todas las variables, prcticamente, se comporten como discretas cuando se pretende observarlas. Por otra parte, y haciendo extensiva la nocin de variable estadstica continua, una magnitud que pueda tomar un gran nmero de valores y muy prximos aunque sean valores aislados ser considerada como una variable continua. As ocurre con magnitudes monetarias como el salario mensual de un obrero, el beneficio anual de una empresa, y otras. No obstante, no hay que olvidar la naturaleza discreta o continua de la variable, ya que en los modelos tericos de la Estadstica dicha distincin tiene gran importancia. Dado que la variable es un smbolo matemtico que representa a un conjunto de valores, establecemos que si este conjunto toma un nmero infinito de valores, la variable se representa por el smbolo X, Y, Z,... Si, por el contrario, tenemos un conjunto finito representaremos la variable por Xi, Yi, Zi ,...

2. DISTRIBUCIONES DE FRECUENCIAS 2.1. Frecuencia absoluta y relativa


Consideremos, para la descripcin de las mismas, la tabla siguiente donde se recogen los ingresos diarios percibidos por 20 personas. Frecuencia absoluta. Es el nmero de veces que se repite cada valor o dato de la variable. En general, se representa por f1. En nuestro ejemplo, f5 = 5, es decir, el valor x5, que es 22.000 pesos, se repite 5 veces.

Frecuencia relativa. Es igual a la frecuencia absoluta dividida por el nmero total de datos. Se representa por hi. Si n es el nmero total de datos hi = Por ejemplo, en nuestra tabla estadstica, h5 = f5 = 5 = n 0.25 20 = 25%

es decir, que la frecuencia relativa tambin puede interpretarse como una participacin porcentual.

Ingresos diarios ($) xi 1230 18000 19000 20000 22000 24300 27800 34200 45500 54800

Frecuencia absoluta fi 1 3 2 3 5 1 1 2 1 1 n = 20

Frecuencia Relativa hi 1/20 3/30 2/20 3/20 5/20 1/20 1/20 2/20 1/20 1/20 1

Frecuencia acumulada Fi

Frec. relativa acumulada Hi 1 4 6 9 14 15 16 18 19 20 20/20 1/20 4/20 6/20 9/20 14/20 15/20 16/20 18/20 19/20

2.2. Frecuencias acumuladas


Frecuencia absoluta acumulada. Nos dice el nmero de datos que hay igual al considerado e inferiores a l Su smbolo es Fi. As, por ejemplo, F7 = 16, nos dice que valores iguales o inferiores a x7 = 27.800 hay 16. Frecuencia relativa acumulada. Es el resultado de dividir cada frecuencia acumulada por el nmero total de datos. Se designa por Hi. En nuestro ejemplo,

H7 = F7 n Es evidente que:

16 20

(a) La suma de todas las frecuencias relativas es igual a la unidad. (b) La ltima frecuencia relativa acumulada es la unidad.

2.3. Distribucin de frecuencias de una sola variable


Llamaremos distribucin de frecuencias al conjunto de valores que ha tomado una variable con sus frecuencias correspondientes una distribucin de frecuencias debemos conocer los diferentes valores de x1 y cualquiera de las columnas de frecuencias, ya que el paso de una a otra es inmediato. Como normalmente la primera columna que obtenemos es la de las fi, representaremos una distribucin de frecuencias como los diferentes valores que, en cada caso, toma el par (xi ; fi). Para que dos distribuciones de frecuencias sean iguales han de ser iguales los diferentes x1 y sus frecuencias relativas hi.

2.4. Agrupacin de datos


Vamos a distinguir, por otra parte, dos tipos fundamentales de distribuciones de frecuencias: las no agrupadas en intervalos y las agrupadas en intervalos. Una vez recogida y tabulada la informacin, sta se dispone asociando a cada valor su frecuencia. En este caso, tendremos una distribucin no agrupada en intervalos. Si las frecuencias son todas iguales a 1, la distribucin se denomina de frecuencias unitarias. Pero si el nmero de valores distintos que ha tomado la variable es suficientemente grande parece aconsejable, para mayor comodidad en el tratamiento de la informacin, agrupar estos valores en clases o intervalos, teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en informacin. En la agrupacin hay tres aspectos que debemos contemplar: Primero, que el mximo de informacin lo tenemos al recogerla, disminuyendo al realizar la operacin de agrupacin por intervalos. Segundo, que en las distribuciones agrupadas en intervalos, estos intervalos no se presentan realmente as, sino que es el investigador el que los crea para manejar los datos ms fcilmente.

xi =

Tercero, que al agrupar hay que tener en cuenta las frecuencias. En general, representaremos una distribucin de frecuencias agrupada en intervalos por el par (li-1, - li.; fi), donde Li es el extremo o lmite superior del intervalo y Li-1 su lmite o extremo inferior. Para agrupar los datos en intervalos o clases, debemos comenzar determinando el rango o recorrido de la variable, que se define como la diferencia entre el mayor y el menor valor de la variable. Es decir, R = mximo xi Este recorrido se divide entonces en intervalos. Si denominamos amplitud de un intervalo a la diferencia entre los extremos superior e inferior del mismo, o sea, Ai = L i - Li-1 Los intervalos pueden ser de amplitud (o longitud) constante o variable. (Para el mejor tratamiento de la informacin, es ms cmodo que sean de amplitud constante). Si la amplitud es constante se verificar que R = Nmero de intervalos Ai Esta relacin nos permite deducir el nmero de intervalos si fijamos la amplitud, o esta ltima si fijamos el nmero de intervalos. En la fijacin del nmero de intervalos no existen reglas fijas (suelen oscilar entre 5 y 15), hasta el punto de que a veces se hacen varios ensayos. Un intervalo queda especificado por sus extremos; en general, para el intervalo i-smo se representar por Li-1 - L1. Aparece un problema cuando un valor de la variable coincide exactamente con un extremo de intervalo, con lo que hay dudas sobre su inclusin o no en un determinado intervalo. Por esto se establece, como regla general, que los intervalos son abiertos por la derecha y cerrados por la izquierda, es decir, del tipo [a, b), lo que quiere decir que el intervalo se compone de todos los puntos comprendidos entre a y b, incluido b y excluido a. Por ltimo cabe sealar que, como representante de cada intervalo o clase, elegimos su punto medio al cual denominamos marca de clase (x1). As, en el intervalo i-simo la marca de clase ser Li-1 - Li
2

mnimo xi

2.5 REPRESENTACIONES GRFICAS


Aunque el par de columnas (xi; fi) encierra toda la informacin disponible, parece til traducirla en grficos, de modo que la referencia visual sirva de punto de partida para el anlisis estadstico. Como habamos dicho, las distribuciones de frecuencias pueden ser de datos sin agrupar y de datos agrupados, presentando estas ltimas la particularidad de que los valores de la variable no aparecen individualizados, sino agrupados en intervalos. En general, como ya advertirnos anteriormente, consideraremos los intervalos abiertos por la izquierda y cerrados por la derecha. Existen diferentes tipos de grficos segn el software empleado para procesar los datos. En nuestro caso, Statgraphics, ofrece varias alternativas sobresaliendo, para variables numricas el diagrama de caja y bigote.