Está en la página 1de 42

DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA DANE

SISTEMA ESTADISTICO NACIONAL Y TERRITORIAL - SENT


DIVISION DE CALIDAD E INTERVENTORIA ESTADISTICA

ESTADISTICA DESCRIPTIVA

Santaf de Bogot, febrero de 1998

Crditos:
Calidad Estadstica: Myriam Raquel Cifuentes R Luis Alejandro Montenegro R.

Divisin de Ediciones: Eduardo Alvarado Nez Cartula: Mario Guevara M. Correccin: Hilda Baquero, Miguel Acosta. Fotomecnica: Luis Alirio Rodriguez. Impresin: Juan Carlos Snchez.

INTRODUCCION
Que es la estadstica? Cmo funciona y de qu manera se involucra en nuestro contexto laboral?.

El DANE. como rector de la produccin estadistica del pais, se ve abocado a resolver problemas relacionados con todos los aspectos que involucra el desarrollo de una encuesta (investigacin), desde su planificacin, diseo y ejecucin hasta la produccin y anlisis de resultados; por esto, se hace necesario que todo fimcionario que est directa o indirectamente relacionado con los procesos de produccin de informacin, tenga

conocimiento sobre algunos mtodos y procedimientos tiles en el desarrollo de la actividad estadstica y es hacia all que se enfoca el presente documento.

Antes de definirla, es conveniente examinar algunos problemas que pudieran presentarse e ilustrar a travs de ellos los aspectos estadsticos esenciales.

Tmese por ejemplo, un comercio pequeno en el que cada da se debe decidir la cantidad de unidades de determinado artculo de venta perecedero que hay que ordenar. La decisin puede basarse en las ventas observadas de este artculo en el pasado, as como en los costos en que se incurre por quedar con un remanente almacenado al final del da, o no satisfacer completamente la demanda por haberse agotado el artculo en mencin.

Considrese por otro lado, los planes de inspeccin para los artculos comprados por una
planta manufacturera. Sobre la base de una mspeccion, cada lote de artculos recibido debe ser aceptado, si se considera que satisface los requerimientos establecidos por el contrato, o rechazado y devuelto al proveedor. El plan posiblemente consista en la inspeccin de solo 10% de artculos de cada lote, observando cuantos de estos estn defectuosos por no satisfacer los mencionados requerimientos. La decisin, entonces se

basara en el nmero de artculos defectuosos de una muestra del lote.

Supngase de igual manera, que se desea obtener informacin acerca del sector agrcola, con el fin de que los encargados de la planeacin y formulacin de polticas tengan una gua en la toma de decisiones; para ello se realiza una encuesta. La metodologa del estudio debe ser cientifica, las definiciones deben ser claras y no ambiguas, los procedimientos eficientes y libres de error, el personal debe ser experto o capacitado.

Dadas las restricciones interrelacionadas de personal, presupuesto y tiempo, el diseo de dicha encuesta se realiza por muestreo, esto es, el estudio no involucrar una completa enumeracin de la poblacin. El planteamiento anterior exige el uso adecuado de mtodos
estadsticos, que tienen que ver con la planificacin de la encuesta, el diseo del cuestionario, el diseo del plan de muestreo, diseo del mtodo de control y

aseguramiento de la calidad de la informacin recopilada, calidad de las estimaciones


realizadas, etc.

Este documento, resume brevemente, algunos mtodos utilizados en la realizacin de anlisis descriptivo y puede servir de gua para quienes no poseen conocimiento acerca del tema.

CONTENIDO
Introduccin

Pag. No. 3 ,
15

Generalidades
Distribuciones unidimensionales de frecuencias

\1edidas descriptivas numricas


\ledidas de localizacin

18
19

Medidas de variabilidad
Dispersin relativa 3

Eiercicios de aplicacin
Ejercicios propuestos

30
39

Bibliografia

42

GENERALIDADES
Estadistica: es la ciencia que crea, desarrolla y aplica mtodos que ayuden a tomar decisiones frente a la incertidumbre. La estadstica, es un campo del conocimiento humano que permite al investigador deducir y evaluar conclusiones acerca de una poblacin a partir de informacin proporcionada por una muestra. Ms especficamente, la estadstica trata de mtodos y tcnicas que pueden
usarse en:

1. Recoleccin y clasificacin de datos 2. Interpretacin y anlisis de datos 3. Deduccin y evaluacin de conclusiones y de su confiabilidad con base en datos muestrales. Inferencia estadstica: es un proceso de induccin lgica que partiendo de los datos de una parte establece un juicio sobre todo el conjunto, obtenindose una medida de la incertidumbre para la consecuencia que se infiere. Poblacin: es un conjunto completo de individuos, objetos que poseen alguna caracterstica comn observable. As, todos los establecimientos industriales de Colombia, constituyen una poblacin; cuando interese conocer por ejemplo, la tendencia
y estructura de la actividad industrial colombiana.

Los datos individuales de una poblacin se llaman unidades elementales. Definir una

poblacin es, en un sentido, limitar el contenido de las unidades elementales. Estas


poseen ciertas caractersticas, conocidas a veces como rasgos o propiedades, que pueden

ser de naturaleza cualitativa o cuantitativa. El resultado de observar una unidad elemental se llama observacin. Puesto que, en una investigacin, se hace una observacin de cada unidad elemental escogida, podemos considerar una, poblacin como la totalidad de todas las observaciones pertinentes que podran hacerse en un problema de decisiones dado.

La definicin de una poblacin y las caractersticas de sus unidades depende de la naturaleza del problema de decisiones que se plantea. Por lo tanto la poblacin est definida por: Unidades que la constituyen -(personas, hogares, establecimientos, etc.) Caractersticas que la definen (es decir las caractersticas que permiten identificarla).
Localizacin geogrfica (es decir en dnde estn ubicadas)

Perodo de referencia o tiempo bajo consideracin (ltimos meses, a partir de...) Es preciso distinguir entre poblacin objeto y poblacin sujeto; la primera, es aquella para la que se desea obtener la informacin, la segunda, es la poblacin encuestada - es la
poblacin realmente representada en la encuesta.

Ejemplo:

Encuesta sobre gastos de los hogares Poblacin objeto: residentes de Cundinamarca

Poblacin sujeto: residentes de Cundinamarca excluyendo: poblacin institucionalizada, personas sin lugar de residencia fijo.

Encuesta sobre los graduados: Poblacin objeto: personas que cumplieron con todos los requisitos para graduarje de un
programa universitario, de enfermera u otro programa postsecundario durante 1996, excluyendo seminarios religiosos, escuelas militares y colegios empresariales.

Poblacin encuestada: la misma. En la realidad, la poblacin objeto y la poblacin encuestada pueden ser bastante diferentes. En muchos casos, se redefine la poblacin objeto para que sea la poblacin realmente encuestada; para hacerlo, hay que reconocer las diferencias. Las unidades estadsticas se clasifican como: Unidad de muestreoi: unidad seleccionada o a seleccionar Unidad de anlisis: unidad hacia la cual se hacen las inferencias Unidad informante: unidad que suministra la informacin Unidad de referencia: unidad acerca de la cual se obtiene la inforinacin Ejemplos: - Se desea conocer informacin trimestral sobre mercado laboral de personas mayores de 15 aos.
Unidad de muegreo: hogares Unidad de anlisis: personas econmicamente activas Unidad informante: personas adultas (>15 aos) pertenecientes al hogar Unidad de referencia: personas dentro del hogar.

- Se desea conocer la percepcin que tiene la poblacin de Santaf de Bogot con edades entre 15 y 45 aos en materia de educacin superior

Unidad de muestreo: hogares


Unidad de anlisis: personas con edades entre 15 y 45 aos
! Las unidades de muestreo contienen los elementos y se usan para seleccionarlos en la muestra. En el muestreo de . elementos. cada unidad de muestreo contiene solamente un elemento: pero en el muestreo de conglomerados cualquier unidad de muestreo llamada conglomerado puede contener varios elementos. Kish. pg. 28

Unidad informante: personas con edades entre 15 y 45 aos

Unidad de referencia: personas con edades entre 15 y 45 aos Cuando las caractersticas son cualitativas, las unidades elementales pueden ser clasificadas slo como posedoras o no poseedoras de cierta cualidad o propiedad. Las observaciones cualitativas de unidades elementales, llamadas variables categricas, a menudo pueden ser expresadas numricamente. Esto se hace contando las unidades elementales que tienen cierta propiedad. En el proceso de enumerar, se asigna 1 a un elemento que tiene el atributo, y 0 al que carece de ste; Al terminar la cuenta se obtiene el total sumando los unos tenindose entonces un resultado numrico. Esta expresin cuantitativa de datos cualitativos abre al tratamiento estadstico muchas reas inalcanzables por medicin directa. Al medir las unidades eletrientales se debe definir cuidadosamente la unidad elemental y su caracterstica observada. Aunque en muchos casos es sencillo y fcil identificar la unidad elemental en la poblacin, en otros resulta muy dificil, a menos que se defina con precisin la unidad elemental. Por ejemplo, en los problemas de toma de decisi nes referentes a situacin de una vivienda, a menudo se necesita conocer el nmero de habitaciones en una zona determinada. Pero, qu es una habitacin? Un cuarto de bao, una cocina, una terraza o un saln de entrada, se puede considerar como tal? Tatnhin se produce confusin cuando se carece de una definicin precisa de la caracterstica. La
ilustracin ms obvia es la edad. Cmo registrar la edad de una persona? En su ltimo

cumpleaos? En su prximo cumpleaos?. La respuesta depende de la forma como se


haya definido la unidad elemental.

Se evita usar la palabra universo como sinnimo de poblacin. El universo es un conjunto hipottico infinito de elementos generado por un modelo terico, ejemplo: lanzar al aire una moneda un nmero infinito de veces.

Parmetro: es un valor (o constante) que caracteriza a una poblacin; es cualquier

caracterstica de una poblacin que sea medible, por ejemplo la media , la desviacin estndar o., la proporcin P, etc.

10

Muestra: es un subconjunto de la poblacin o universo. La muestra, cuando es

probabilstica, permite realizar inferencia estadstica de la poblacin de la encuesta.


Estadstico: es el nmero resultante de la manipulacin de ciertos datos iniciales de acuerdo con determinados procedimientos especficos; comnmente, usamos un estadstico que se calcula a partir de una muestra para estimar el parmetro de una poblacin. Se representan con letras comunes: x, s.

Encuesta: es la recoleccin de informacin acerca de caractersticas de inters de algunas o de todas las unidades de la poblacin, usando conceptos bien definidos, mtodos, procedimientos, y la compilacin de tal informacin en formatos de resumen tiles.

Las encuestas se realizan con diferentes propsitos. Cuando el propsito principal es


estimar ciertas caractersticas o atributos de la poblacin, se habla de una encuesta

descriptiva; cuando el principal propsito es la verificacin de hiptesis estadsticas o la exploracin de relaciones entre las caractersticas con un enfoque ms explicativo que descriptivo, se dice que la encuesta es analtica.
Variable: caracterstica o fenmeno que puede tomar diferentes valores. ej: peso, estatura, nmero de hijos de las familias de un barrio, etc. Generalmente se representa con las letras X, Y.

Los valores que toma la variable se notan con minscula; ejemplo:


X: edad de 15 personas ( aos )
xi = 20
x, = 22

x2 =25
xio=34

x3 = 27
xii = 21

x4 = 9
xi2 = 26

X5 = 32
xis = 34

X6 = 30
xi4= 30

x, = 32
xi,= 23

x, = 23

xi = 20 ( la edad de la primera persona observada, es 20 aos)

11

El total. se calcula como la suma de las edades de las 15 personas:

T = 20 + 25 + 27 + 19 +...+ 23

De manera ms general,
T = xi + x2 + x3 +...+ xis o. en notacin abreviada,
15

T=fx,
i=1

La letra griega sigma E indica la suma de los valores.


Recapitulando:

Poblacin es un conjunto completo de individuos, objetos, que poseen una caracterstica comn observable. Todos los ciudadanos en edad de votar de un pas, por ejemplo, constituyen una poblacin. Son ejemplos de poblaciones estadsticas:
- Supngase que se desea determinar el ingreso familiar anual medio de una comunidad de 10.000 familias. La poblacin consta entonces de 10.000 nmeros ( $5.000.000, $6.500.000, 9.000.000,.......) cada uno de los cuales representa el ingreso anual de una determinada familia. La unidad elemental es una familia en la comunidad y la caracterstica a medir, es su ingreso anual.

- Se desea determinar la edad media de los estudiantes de una universidad, cuyo total de alumnos matriculados es de 15.000. La ppblacin consta de 15000 nmeros (18, 23,. )
cada uno de los cuales indica la edad de un estudiante. La unidad elemental es un estudiante de dicha universidad y la caracterstica a medir, es su edad.

12

- Se pretende determinar el lugar de nacimiento de los empleados de una empresa que consta de 9.000 empleados. La poblacin consiste de 9.000 trminos (Santaf de Bogot, Cali, Ibagu,...) cada uno de los cuales describe un lugar de nacimiento. Una poblacin estadstica es entonces un conjunto de observaciones medidas o descritas, para cada una de sus unidades elementales. Las observaciones medibles se denominan observaciones cuantitativas (ingresos, edad, nmero de hijos). Las observaciones no medibles se denominan cualitativas (estado civil de una persona, marca de un automvil). Los valores asumidos por las observaciones cuantitativas se llaman valores de la variable. Las variables pueden clasificarse como discretas o continuas. Una variable discreta puede tomar solo un nmero limitado de valores en una escala de medida. De otra manera, puede tomar solo valores enteros ej: nmero de personas, tamao de una familia, etc. Una variable continua es aquella que puede tomar un nmero infinito de valores en una escala de medidas. Ejemplo: edad, peso, etc. Las observaciones cualitativas no pueden ser medidas; slo pueden ser descritas. Estas se llaman variables categricas ( estado civil: soltero, casado, viudo o divorciado).
Es importante enfatizar la diferencia entre una poblacin de variables cuantitativas y una

poblacin de variables categricas. En las primeras por ser medibles, puede calcularse por ejemplo, su media: ingreso familiar medio; en el caso de las segundas, se pueden calcular razones o porcentajes, ejemplo: porcentaje de artculos defectuosos en un determinado lote, etc. .
Debe destacarse que si bien la decisin de un problema dado puede depender, por ejemplo, del valor de la media aritmtica de una poblacin, este valor rara vez se calcula utilizando la informacin acerca de toda la poblacin, sino que habitualmente se estima a partir de una muestra seleccionada adecuadamente.

13

En muchas investigaciones, la poblaciti estadstica es infinita y, por lo tanto resulta

imposible tener informacin completa sobre ella; por lo dems, aun cuando esto fuera
posible, el gasto y el tiempo que habra que invertir en recolectar informacin pueden resultar muy altos. En tales casos, debe utilizarse proveniente de una muestra. Se ve as que el problema de decisin poblacin a partir de la informacin proporcionada por una muestra problema fundamental en estadstica. y organizar la la informacin acerca de una resulta ser un

El diseo estadstico de una investigacin: consiste en identificar o determinar el conjunto de tcnicas estadsticas que permitan la observacin y anlisis de la poblaci a objeto de estudio. Entre estos tenemos:

Censo: procedimiento mediante el cual se estudia la totalidad de la poblacin objetivc. Algunos ejemplos de encuestas censales: censo de poblacin y vivienda, censo minero nacional, censo de sacrificio de ganado, censo econmico.

Muestreo: aplicacin de una serie de tcnicas que permiten seleccionar una parte de 104 elementos de una,poblacin para someterlos a estudio.

Al realizar una investigacin por muestreo es preciso escoger el tipo de muestreo a utilizar teniendo en cuenta aspectos como el nivel de confianza y el error mximo permisible entre otros y de manera analoga determinar el tamao ptimo de muestra acorde con los objetivos determinados previamente. Algunos ejemplos de encuestas por muestreo: encuesta nacional de hogares, encuesta nacional de calidad de vida, encuesta nacional agropetuaria, muestra mensual manufacturera, encuesta de ingresos y gastos.

Registros administrativos: datos recogidos con un fin administrativo y que no pueden servir para anlisis estadsticos generales sino para aplicaciones particulares. Algunas fuentes de datos administrativos: estadsticas vitales (nacimientos y defunciones),salud (admisin en hospitales, enfermedades, costos), educacin (estudiantes matriculados costos), justicia (crmenes reportados, costos o montos), importaciones y exportaciones.

14

Recuerde que el objetivo de la estadstica es hacer inferencias acerca de un conjunto de elementos o unidades (poblacin) con base en la informacin contenida en una muestra.

Los mtodos usados para describir conjuntos de datos numricos pueden ser clasificados en dos tipos: grficos y numricos. A continuacin se presentan algunos de ellos.

DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIAS


La informacin estadstica puede constar de un gran nmero de observaciones y, mientras mayor sea su nmero, mayor puede ser la conveniencia y necesidad de presentarla en

forma resumida, la cual puede omitir algunos detalles pero en cambio puede revelar la naturaleza general de la informacin. Un resumen de tal informacin se denomina distribucin de frecuencias. Ejemplos de ellas son:

Establecimientos econmicos de la ciudad de Pramo,


segn actividad

Actividad

No. de establecimientos
1.200 30.500
I 1.895

Industria Comercio
Servicios

TOTAL

43.595

15

Aos de estudio terminados y aprobados por un grupo de personas residentes en el barrio Galn, de Santaf de Bogot

Aos
3 4 7 8
9

No. de personas
18 20 12 21
14

TOTAL

85

Fuerza laboral masculina de una ciudad, clasificada por edades Edad


( aos )

No.devarones 218.000 313.000 977.000 255.000 1.763.000

14 - 19 20 - 24 25 - 55 > de 55 TOTAL

I
Los grupos o categorias que van de 14 - 19, 20 - 24, etc. . se llaman intervalos de clase. Los valores 14, 20,....etc. .se llaman lmites inferiores y 19. 24.. .. etc. .son lo limites superiores de los intervalos de clase.

Principios para la construccin de una distribucin de frecuencias

Para variables continuas, deben observarse los siguientes aspectos relacionados con la construccin de los intervalos:

1. El nmero de intervalos depende del nmero de datos y de su dispersin. Si el nmero de intervalos es demasiado pequeiio pueden estarse ocultando caractersticas importantes de los datos en esta agrupacin, si se tienen demasiados intervalos se

16

pueden presentar muchos intervalos de clase vacos que resten significado a la distribucin. Entonces el numero de intervalos de clase ser determinado por el nmero de datos considerando tambin qu tan uniformes sean los datos. Una rmestra pequea requiere en general pocos intervalos de clase.

2. Como regla general para encontrar la longitud de los intervalos debe dividirse la diferencia de la mayor y la menor de las observaciones entre el nmero de intervalos de clase. modificando este cociente para tener intervalos de clase de longitud conveniente. cercana al cociente obtenido. Todas las clases deben tener la misma longitud, con posible excepcin del primer y ltimo intervalo; esto con el fin de permitir uniformidad en las comparaciones de frecuencias de clase.

3. Se debe comenzar por el primer intervalo, estando seguro de que incluye a la minima de las observaciones. Se aaden los dems sumando la amplitud escogida.

4. El punto medio (marca de clase) de un intervalo de clase, se obtiene sumando los limites inferior y superior de la clase y dividiendo por dos.

5. La tabla de frecuencias indica la distribucin de las frecuencias de los valores de la variable X dentro de varias clases. El trmino distribucion de frecuencias se abrevia

normalmente como distribucin: por ejemplo, se dice distribucion de consumidores por niveles de ingreso, distribucin de calificaciones, etc .
REPRESENTACION GRAFlCA

La representacin grfica de una tabla de frecuencias da una informacin concisa y clara acerca de una distribucin de frecuencias. Veremos dos tipos de representaciones grficas: histogramas y polgonos de frecuencias.

17

HISTOGRAMA Es un grfico de barras,que se construye llevando sobre las abscisas los lmites reales de clase para el caso continuo, o los valores de la variable en el caso discreto y sobre las ordenadas las frecuencias observadas, para ambos casos..Se emplea especialmente cuando se desea observar el comportamiento de la variable (identificando puntos de mayor o menor frecuencia) o cuando se desea comparar dos variables. Ver ejemplo, pg. 33 POLIGONO DE FRECUENCIAS Es un grfico de lnea, que se construye llevando sobre el eje de las abscisas las marcas de clase y sobre las ordenadas las frecuencias observadas. Uniendo los puntos resultantes y cerrndolo en la marca de clase del intervalo anterior al primero y posterior al ltimo. Se
utiliza preferencialmente cuando se desea comparar dos o ms variables.
I

Un caso particular, es el polgono de frecuencias acumuladas u ojiva, en el cual se lleva sobre la abscisas los lmites reales de clase y sobre las ordenadas las frecuencias acumuladas (N, o H, ). Ver ejemplo, pg. 33

MEDIDAS DESCRIPTIVAS NUMERICAS


Los mtodos grficos son tiles para lograr una descripcin de los datos que sea rpidamente captada por el lector. Sin embargo, las tcnicas grficas presentan limitaciones para la descripcin y anlisis de conjuntos de datos.

Las limitaciones pueden superarse con el uso, de inedidas descriptivas numricas. Con base en los datos muestrales es posible calcular un conjuitto de nmeros que proporcionen una buena imagen de la distribucin de frecuencias de la poblacin y que resulte til para hacer inferencias acerca de las caractersticas de la poblacin.

18

Las medidas descriptivas numricas calculadas a partir del total de observaciones de la

poblacin se denominan como ya se dijo anteriormente parmetros y aquellas calculadas a partir de una muestra se llaman estadsticos. MEDIDAS DE LOCALIZACION (POSICION)
Objetivo: establecer unas medidas que caractericen lo mejor posible una serie de datos. Pueden ser de posicin central o no; las medidas de posicin central son: la media aritmtica, la mediana y la moda. Otras medidas de posicin son los percentiles.

Usos: en muchos problemas estadsticos la eleccin entre media, mediana y moda puede no ser obvia; por lo tanto, pueden ser de utilidad algunos comentarios generales acerca de las ventajas y desventajas de cada una de las tres medidas. Primero, debe destacarse que la media aritmtica es la medida ms conocida y mejor comprendida por el pblico en general. Segundo, la media aritmtica permite en general, en forma mucho ms expedita, el anlisis estadstico posterior; adems, se puede obtener an en el caso de no conocer los valores individuales de la serie, por ejemplo: si 10 familias consumen 20 litros de leche, el promedio aritmtico ser de 2 litros por familia. Por estas razones, puede considerarse la media aritmtica o el promedio la medida mas comnmente usada

Sin embargo, la media aritmtica tiene la desventaja de ser muy afectada por valores extremos, lo cual no ocurre para la mediana y la moda. Por lo tanto, cada vez que existen valores extremos, la mediana y la moda son preferidas a la media aritmtica. Ingreso familiar en una ciudad, salarios por hora en una industria, ventas al detal en los almacenes de una ciudad, son ejemplos de este caso.

La mediana: es una medida de localizacin adecuada cuando se tiene una distribucin de frecuencias asimtrica y que presenta valores extremos. Hay situaciones en que la nica medida de posicin central que puede calcularse es la mediana, tal como sucede en el caso de una distribucin cuyos intervalos extremos no estn definidos.

19

La moda: se caracteriza por la facilidad de su clculo y su aplicacin tanto a datos cuantitativos como a los cualitativos por ejemplo, se desea determinar la talla de camisa ms usada por los hombres, la preferencia de las amas de casa por un determinado tipo de jabn, el nmero de pasajeros que usan el bus ejecutivo, etc. . Puede encontrarse que existen dos modas, una por la maana alrededor de las ocho y otra por la tarde alrededor de las 7. La distribucin es pues, bimodal. Tanto la media como la mediana tienen un inters especial en la representacin de una distribucin. El inters radica en que caracterizan a la distribucin. La moda, como se ha visto en los ejemplos anteriores, tiene inters por s misma por ser el valor ms tpico o predominante, de una distribucin. Las ecuaciones comnmente usadas para el clculo de las medidas de localizacin son las siguientes: Para datos brutos
n

Media aritmtica:

i =1

Mediana (Me):

n impar es el valor central de la variable ordenada. n par es el promedio de los valores centrales de la variable ordenada.

Moda: (Mo) Valor que presenta la mayor frecuencia.

Para datos agrupados

20

yg. n,

Media aritmtica

,tanto para variable discreta o continua.

Mediana (Me): variable discreta

Caso a cuando N.i < n/2 Me = Y;

Caso b

cuando Nj_i = n/2

Me =

Yi - i +Yj

Variable continua

Caso a cuando Nj., = n/2 la mediana se obtiene mediante la frmula: Me = Y'.1 Caso b cuando Nj., < n/2 la mediana se obtiene mediante la frmula

Me = Y')., + C

* ''

Los pasos a seguir para el clculo de la mediana se pueden resumir, asi:

1. Obtener las frecuencias absolutas acumuladas. 2. Buscar la mitad de las observaciones, por medio de n/2

3. Localizar el resultado anterior n/2 en la columna de las frecuencias absolutas acumuladas; si no aparece, al valor inmediatamente anterior se le denomina Ng_, y al inmediatamente superior se le denomina Nj 4. Si N _i es menor que n/2, se dice entonces que la mediana es igual a Y;
21

Referirse a las ecuaciones anteriores a ob segn el caso

Moda Mo En el caso de variable continua corresponde a la marca de clase del intervalo que presenta la mayor frecuencia; en el caso discreto simplemente es el valor de la

variable que presenta la frecuencia ms alta.


Otra medida de localizacin es la media aritmtica ponderada. Se utiliza cuando se asocia a los nmeros xi, x2, ..., Xk CICTtOs factores o pesos wi, w22 , wy que dependen de la significacin o importancia de cada uno de los nmeros. En este caso:
-

X=

X, + w2X2+...+wkX,

w, + w +...+wk

Ejemplo:
Si un examen final de curso se valora como tres veces los exmenes parciales y un estudiante tiene una nota de examen final de 8 y notas de exmenes parciales de 7 y 9, su nota final ser:
- 1(7) + 1(9) + 3(8) X = =8 1+1+3
Propiedades de la media aritmtica

La suma algebraica de las desviaciones de un conjunto de nmeros de su media aritmtica es cero.

Ejemplo:

XI
8 3
5

(X, - T )
0.4 -4.6
-2.6

12 10 E

4.4 2.4 0

22

X = 38/5 = 7.6

Si f, nmeros tienen media mi, f2 tienen media m2, f3 nmeros tienen media m3,...,fx tienen media me entonces la media de todos los nmeros es

- _ f m, + f2m,+...+fem, X . f + f, +...+f,

Es decir, una media aritmtica ponderada de todas las medias.

Ejercicio
En una compaa con 80 empleados, 60 ganan 9.000 pesos por hora y 20 ganan 11.000 por hora.

a) Determinar la media del salario por hora

b) Seria la respuesta de a) la misma si los 60 empleados ganaran un salario medio por hora de 9.000 pesos y los 20 empleados ganaran un salario medio por hora de 11.000? Probar la respuesta c) Es el salario medio por hora representativo?
NOTA: en general, la media de una muestra es igual a la media ponderada de las submuestras, tomndose como ponderacin los tamaos de esas submuestras

n=20

ni=12

Y, =1.333

i=2.15

n2= 8

Y, =3.375

23

- _ X,n, + Xn A -

y +Y2n2

Muestra Y, ni Y ni 020 144 2 6 12 3 5 15 4 3 12 i . 20 43


Y =43/20 =2.15

Submuestra 1 Yi n, Ying 020 144 2 6 12 I 12 16

Submuestra 2 Yi ni Yin, 3515 4312 1 8 27

I; = 16/12 =1.333

Y, = 27/8 =3.375

La media aritmtica de las dos submuestras en conjunto ser igual:

- 1,n, + (n Y = n, + n

- (1.333) + 3.375(8) Y = = 2.15 20

La media aritmtica de una constante por una variable es igual al producto de la constante por la media aritmtica de la variable

M(KY) = kY
La media aritmtica de una constante ms una variable, es igual a la constante ms la media aritmtica de la variable M(Yi+K) = Y+K

La suma de los cuadrados de las desviaciones, es mnima cuando dichas desviaciones


se tomen respecto a la media aritmtica.

24

La media de la suma de dos variables, es igual a la suma de las medias de dichas variables ; esta propiedad puede extenderse a las diferencias entre variables

M(Xi+Y,) = M(Xi) + M(Yi) = X + Y


Observaciones

En una variable discreta el resultado obtenido al aplicar la media aritmtica debe ser el mismo, cualquiera que sea el mtodo, tanto para datos agrupados como para no agrupados En la variable continua, el resultado obtenido al aplicar la frmula para datos no agrupados difiere del resultado obtenido aplicando la frmula para datos agrupados, debido a la prdida de informacin primero por agmparse los datos en intervalos y segundo por calcularse la media utilizando las marcas de clase.

MEDIDAS DE VARIABILIDAD (DISPERSION)


Objetivo: medir la distancia promedio entre los valores de la variable y su media aritmtica. Son utilizados para indicar el grado de uniformidad de los datos. La dispersin puede ser medida mediante el recorrido o rango, la desviacin media, el recorrido intercuartlico, la varianza y la desviacin estndar. Trataremos nicamente la
desviacin estndar.

La desviacin estndar, en un sentido amplio, mide la desviacin promedio de cada valor de la variable respecto de la media aritmtica. Esto es, la desviacin estndar es la raiz cuadrada del promedio de los cuadrados de las diferencias entre los valores de la variable y la media aritmtica. Tiene como ventaja que permite un mejor desarrollo para un anlisis estadstico posterior.

25

La razn por la que se prefiere la desviacin tpica a otras medidas radica en sus

propiedades matemticas. A continuacin se define el trmino desviacin, despus el concepto de varianza y, por ltimo, la desviacin tpica o estndar. Por desviacin se entiende la diferencia entre un valor individual xi y la media (x, - x). La varianza de una poblacin de N observaciones se define como el promedio del
cuadrado de las desviaciones con respecto a su media . La varianza de la poblacin se denota por o 2 y est dada por la frmula :

La varianza de una muestra de n observaciones se define como la suma de los cuadrados


de las desviaciones de las observaciones respecto de su media, X dividida esta suma entre (n-1). La varianza de la muestra se denota por S2 y est dada por la frmula.

n- l

i=l

La desviacin estndar de un conjunto de n observaciones xi, x2, X3, ..., Xn, CS igua 8 8
raz cuadrada positiva de la varianza.

La varianza se mide en trminos del cuadrado de las unidades originales. Si las observaciones estn medidas en centmetros la varianza est dada en centimetros cuadrados. Al tomar la raz cuadrada de la varianza, se obtiene la desviacin estndar, cn lo que se regresa a las unidades originales de las observaciones.

26

INTERPRETACION DE LA DESVIACION ESTANDAR


Una buena comprensin del significado de la desviacin estndar depende del conocimiento de la relacin existente entre la desviacin estndar y la distribucin normaf.;ya que cuando los datos obedecen a esta distribucin, tomando unidades de desviacin tpica a lo largo de eje horizontal con origen en la media, resulta la superficie encerrada por la curva, dividida en zonas de rea bien determinada. Este tema a pesar de su importancia no se profundizar por no estar dentro de los objetivos del presente escrito.

DISPERSION RELATIVA Se utiliza cuando se quiere comparar la variabilidad entre dos o ms conjuntos de datos. Esto puede hacerse fcilmente con sus respectivas varianzas o desviaciones estndar cuando las variables se dan en las mismas unidades y cuando sus medias son aproximadamente iguales. Cuando faltan estas condiciones, puede usarse alguna medida relativa de dispersin. Una medida relativa de variabilidad frecuentemente usada es el coeficiente de variacin, CV, que es simplemente la razn de la desviacin estndar a la media y est generalmente expresado como un porcentaje.
El coeficiente de variacin es independiente de las unidades utilizadas, por esta razn es

til para comparar distribuciones donde las unidades pueden ser diferentes.

CV = X

Ejemplo: considrese que un grupo de estudiantes realiza dos pruebas. La primera resulta con una media de 60 puntos, una desviacin tpica de 6 puntos y un mximo de 100 puntos. La segunda tiene una media de 700 puntos y una desviacin tpica de 7 puntos con un mximo de 1.000 puntos. Cul de las dos pruebas tiene una variacin mayor ?

2 Distribucin de probabilidad continua: ver Mendenhall, pg 161.

27

Prueba

Media

Desviacin

tpica A B 60 700 6 7 100 1.000

Desde un punto de vista absoluto, se observa que los 7 puntos corresponden a una variacin mayor que la de 6 puntos, pero desde un punto de vista relativo, mediante el S
(T = - tenemos:
X

Primera prueba, CV = 6 / 60 = 1/10 Segunda prueba, CV = 7/700 = 1/100

Como se ve, la dispersin relativa de la segunda prueba es 1/10 de la primera. Otra aplicacin del CV es su empleo para comprobar resultados experimentales y para la estimacin de la desviacin tpica. Supongamos que un cientfico ha obtenido los siguientes datos referentes a los pesos de elefantes y ratas:

Animales
Elefantes Ratas

Media (X) libras 24.000 1.05

Desviacin tpica (s) libras 1.285 0.16

Claramente se observa que los pesos de los elefantes varan mucho ms que los pesos de las ratas. Sin embargo, los pesos de los elefantes pueden variar menos como un porcentaje

de su propia media que los pesos de las ratas. Si calculamos sus respectivos coeficientes de variacin tenemos:
I

CV (ELE). = 1285 / 24000 = 0.054 (5.4%)


( \ (RAT.) 0.16 / l.05 0 152 (l5.2o)

28

Asi. , emos que la variabilidad de los pesos de las ratas es casi tres veces mayor, sobre una base relativa. que la variabilidad de los pesos de los elefantes. La desviacin estndar de los primeros es 15.2% de su media, mientras que la de los ltimos slo es 5.4% de su
media

Utros ejemplos del empleo del CV pueden encontrarse en el muestreo donde se utiliza para comprobar el grado de confianza de una varianza estimada.

29

EJERCICIOS DE APLICACION 1. Leer el siguiente texto: " Una vez recolectados los datos en forma ordenada, es necesario presentarlos en forma tal que se facilite su comprension y su posterior anlisis y utilizacin. Para ello se ordenan en cuadros numricos y luego se representan en grficos para variable discreta mediante diagramas de frecuencias tanto para absolutas o relativas." a) Construir una tabla de frecuencias absolutas, segn el nmero de letras que componen cada palabra ( rr y 11, debe considerarse una sola letra). b) Considerando el nmero de letras por palabra, qu valor tienen: x4, x27. XI2, X34, X2 c) Calcular las frecuencias relativas, relativas acumuladas y absolutas acumuladas. d) Puede ocurrir que h4 > h, e) Graficar: n, H,
Desarrollo

(en general)

Que H4 < Hy ?

Sea X: nmero de letras que componen cada palabra.


=3 =3
x,=12

xo =12 x =2
xis =5

x: =2 x2 =9
x2,=8

x,, =7 x,2 =9
x,,=1

x41 x42
x43

x, =3
x, =5

x, 4 =3
x, =3

x24= 1
x2, =11

X34 =5
x3s =2

x44 =2
x45

x,=2 x,=5 x, =8 xs =2
x, =9

xl6=2 x,-,=8 x,, =2 xio = ll


x2e=l

x26 =4 x2, ==3 x2, =2 x2, =7


xxo=2

x,s=11 x,,=2 x,, =8 x, =4


x4e=8

xx =5 x47=4 x48 x49


xso =9

30

Tabla de frecuencias

Y,
1 2 3 4 5 7 8 9 11 12 1

n,
4 11 6 3 5 2 7 6 4 2 60

4
0.08 0.22 0.12 0.06 0.1 0.04 0.14 0.12 0.08 0.04 1.00

N,
4 15 21 24 29 31 38 44 48 50

H,
0.08 0.30 0.42 0.48 0.58 0.62 0.76 0.88 0.96 1.00

x4,=3 , xe, =3 , x,2 =2 , x34 = 5 , x; =3

Puede ocurrir que h4 > hy ? En general puede suceder que h4 > h, dependiendo de la frecuencia de ocurrencia de cada uno de los valores de la variable. H4 < H, ? siempre ocurrir porque son frecuencias acumuladas.

31

Diagramas de frecuencias absolutas

n.

123456789101112
1

Diagrama de frecuencias relativas acumuladas

H.I

123456789101112Y

32

2. Las estaturas (en centmetros ) de un grupo de personas asistentes a una competencia deportiva en la ciudad de Cali, son las siguientes: 153 138 152 145 152 123 128 128 124 136 129 134 146 132 160 132 148 143 138 159 147 125 138 144 157 138 139 138 141 150 137 146 122 137 160 134 145 146 146 142 131 148 137 138 148 147 135 151 146 130

a) Agrupar los datos anteriores con una amplitud de intervalo i= 5 b) Interpretar n2, N,, H4, h2 c) Qu porcentaje de personas tienen estatura promedio de 142 centmetros? d) Cuntas personas tienen estatura promedio de 152 centmetros o ms? e) Construir el polgono de frecuencias absolutas. f) Construir el histograma de frecuencias relativas
g) Construir la ojiva de frecuencias absolutas

33

Desarrollo

Distribucin de asistentes a una competencia deportiva en la ciudad de Cali por estatura

Y,
127 132 137 142 147 152 157 162 I

Clases

ni
3

h,
05

N,
3

H
JE

TTZf20TT4

125 -129 4 0.08 7 0.14 130 -134 6 0.12 13 0.26 135 -139 12 0.24 25 0.50 140 -144 4 0.08 29 0.58 145 -149 12 0.24 41 0.82 150 -154 5 0.10 46 0.92 155 -159 2 0.04 48 0.96 160 -164 2 0.04 50 1.00 50 1.00

n =4 cuatro personas tienen estatura promedio de 127 kilogramos.


N-=13 trece personas tienen estatura promedio de 132 kilogramos o menos

H, = 0 50 el 50% de las personas tienen estatura promedio de 137 kilogramos o menos h = 0 08 el 8% de las personas tienen estatura promedio de 127 kilogramos El porcentaje de persona con estatura promedio de 142 centimetros es 8% ( hs )

El total de personas con estatura promedio de 152 centmetros o ms es 9 ( n,+ n, + 4 )

34

Polgono de frecuencias absolutas

n.I

00

liiiiiiiiii I 2233445 566 72727272727

Histograma de frecuencias relativas

h.

l 1111111 lil 12233445566 7 27 2 72 72 7 2 7

35

Ojiva de frecuencias absolutas


so
45 40

as
30

25

Lmites reales

3. La siguiente distribucin corresponde al nmero de hijos de 20 familias observadas. Calcular la media aritmtica, la mediana, la moda y la desviacin estndar.
Yi
U 2 4 6 7 E

ni
A 3 7 4 4 20

Yi*ni
0 6 28 24 28

Ni
A 5 12 16 20

Yii n,
U 12 112 144 196 464

- 86 Media aritmtica: X = - = 4.3 20

Mediana (Me) = 4 Moda (Mo) = 4

36

S = - - 32 = 23.2 - 18.49 = 471 20 S=,4 l=2.17

4. La siguiente tabla muestra las edades de 50 personas asistentes a un sentinario de Gestin empresarial el la ciudad de Neiva

Clases
2b -29

n,
6

Y,*n,
216

N,
6

YRn
6832

Y,
2/

30 35 40 45 50

-34 -39 44 -49 -54

23 10 5 3 1

736 370 210 141 52

31 41 46 49 50

23552 13690 8820 6627 2704

32 37 42 47 52

Para dicha distribucin calcular la media, la mediana, la moda y la desviacin estndar. - 1725 Media aritmtica: X - 34.5 50 Mediana (Me) = 29.5 +
30 + 34

23 - 8 23 = 29.5+0'4 = 30.24

Moda (Mo) -

- 32

S =

61225 - 3 4.52 = 1224.5 - 1190.25 = 34.25 50

434.251 = 5.85

os sueldos mensuales de 70 empleados de oficina son los siguientes:

37

Ocupacin
Recepcionista Mecangrafa Secretaria Aux. contabilidad Tcnicos electricistas. Tecnicos. mecnicos

No. de empleados 2 12 8 10 24 14

Sueldo S
170.000 200.000 280.000 465.000 520.000 590.000

Calcular la media aritmtica la mediana y la moda

Y,
17 200 280 465

n,
2 12 8 10

Y,n,
34 2400 2240 4650

N,
2 14 22 32

520 590
I

24 14
70

12480 8260
30064

56 70

N N

Media aritmtica: X

303~0000 0

43385 .14

Mediana (Me) = n/2 = 35 Ny < n/2 32 < 35 Me = Y, = 520000

Moda (Mo) = Y, = 520000

38

EJERCICIOS PROPUESTOS

1 La siguiente informacin corresponde a la ENH etapa 96, para la variable edad del personal
ocupado :

Y, 17 32 47 62 77 92

Clases 10 - 24 25 - 39 40 - 54 55 - 69 70 - 84 85 - 99 TOTAL

ni 7.164 16.666 9.610 2.732 406 18 36.596

h,

N,

H, 0.196 0.651 0.914 1.000 1.000

0.196 7.164 0.455 23.830 0.075 36.172 0.011 36.578 0.000 36.596

a) Completar la distribucin anterior.


b) Interpretar no H4, No, h,

c) Construir el pohgono de frecuencias absolutas


d) Construir el histograma de frecuencias relativas

e) Calcular e interpretar la media aritmtica


f) Calcular e interpretar la mediana g) Calcular e interpretar la desviacin estndar

39

2
Distribucin del personal ocupado ENH- etapa 96, por estado civil

Estado civil Unin libre casado viudo separado soltero TOTAL


a) Completar la distribucin anterior

n, 6.822 13.500 982 3.446 11.846 36.596

h, N, 0.186 0.369 20.322 21.304 0.094 24.750 0.324 36.596 1.000

H, 0.186
0.582 0.676 1.000

b) Interpretar ns, h4, N, y H2 c) Construir la grfica para n,


3. A panir de los datos de produccin de la EAM para la agrupacin 311,
Produccin (miles de pesos)

34526 60190 55622 63500 13390 6500 54168 63204 56230 32112

36878 62000 43494 62400 41628 48076 47630 60000 43976 17702

34094 21526 58988 45138 38786 37414 26554 62300 47308 61466

37718 57718 38580 6980 34712 62640 44070 38900 58546 62834

42612 5150 34556 32872 53044 10542 9048 46498 63670 56560

40

Calcular e interpretar a) Produccin promedio

b ) Produccin mediana
c) Desviacion estandar de la produccion

d) Coeficiente de variacin

4 Contestar los siguientes puntos, sealando con Vo F segun sea cierto o falso a) Al hacer una grfica, la variable a estudiar va en el eje de las abcisas y las frecuencias en la ordenada ( ) b) Para calcular las marcas de clase, se suma el limite inferior al superior del intervalo y se divide entre dos ( )
c) El poligono de frecuencias es un grafico de barras d) El numero de accidentes segun sus causas es una variable discreta e) i.a suma de las frecuencias absolutas es igual a 1 f) H5= 1 1 H4=080 h5=030 ( ( ( ( ( ) ) ) ) )
)

g) to grupo de valores pueden tener mas de una media aritmetica

h) En una serie sencilla cuando n no es par, la mediana es igual al valor del dato central (

il Si cierta distribucin tiene una varianza igual a 144 y otra una desviacion estandar igual a l l, puede afirmarse que la primera tiene mayor dispersion ( )

41

BIBLIOGRAFIA

MARTINEZ, Bencardino Ciro. (1982). Estadstica apuntes y 600 problemas resueltos.


Ecoe, segunda edicin.

MENDENHALL, William y REINMUTH, James E. Estadstica para administracin y economa. Iberoamrica, 3 edicin. ZUWAYLIF, F. (1977). estadstica general aplicada. Fondo Educativo Interamericano. HABER. Audrey y RUNYON, Richard. (1973). Estadstica general. Fondo Eduoativo Interamericano.S.A. YAMANE, Taro. Estadstica. Programas editoriales.
KISILI, Leslie. (1979). Muestreo de encuestas. Trillas, primera edicin en espaol.

42

Impreso en la Divisin de Ediciones del Departamento Aministrativo Nacional de

Estadstica, DANE Santaf de Bogot, D.C. - Colombia - Octubre l999